WO2020044949A1

WO2020044949A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2020044949A1
Application number: PCT/JP2019/030450
Authority: WO
Inventors: 秀憲青木; 富士夫荒井; 京二郎永野; 新太郎筒井; 佐藤　直之
Original assignee: ソニー株式会社
Priority date: 2018-08-29
Filing date: 2019-08-02
Publication date: 2020-03-05
Also published as: US20210312658A1; JPWO2020044949A1; US12039753B2; JP7405083B2

Abstract

本技術の一形態に係る情報処理装置は、第１の取得部と、第２の取得部と、決定部とを具備する。前記第１の取得部は、実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得する。前記第２の取得部は、前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得する。前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、拡張現実（ＡＲ：Augmented Reality）の表示に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１に記載の画像表示装置では、通常表示モードと正対表示モードとが切替え可能である。通常表示モードは、入力画像が画面にそのまま表示される。正対表示モードでは、入力画像に基づいて認識される物体の基準面（例えば正面）が撮像面に正対するように加工された正対画像が、画面に表示される。当該正対画像に対して、物体に関連する仮想オブジェクト（例えばＡＲアプリケーションのアノテーション）を重畳させることで、仮想オブジェクトの操作性を向上させることが可能である（特許文献１の明細書段落［００３１］［００３２］［００４８］［００５９］等）。

特開２０１２－２１２３４６号公報

　ＡＲの技術を用いた仮想体験は、例えばアミューズメント、教育、生産現場等の様々なシーンでの応用が期待されており、高品質な仮想体験を提供することが可能な技術が求められている。

　以上のような事情に鑑み、本技術の目的は、高品質な仮想体験を提供することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、第１の取得部と、第２の取得部と、決定部とを具備する。
　前記第１の取得部は、実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得する。
　前記第２の取得部は、前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得する。
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する。

　この情報処理装置では、撮影画像に基づいて決定された実物体のカメラベース推定位置と、実空間に出力される出力波に基づいて決定された実物体の出力波ベース推定位置とに基づいて、実物体に関連する仮想コンテンツの表現に用いられる基準位置が決定される。これにより、高品質な仮想体験を提供することが可能となる。

　前記決定部は、前記基準位置として、前記実物体の最終推定位置を決定してもよい。

　前記出力波は、電波、及び音波の少なくとも１つを含んでもよい。

　前記第１の取得部は、前記カメラベース推定位置に関連する第１の信頼度を取得してもよい。この場合、前記第２の取得部は、前記出力波ベース推定位置に関連する第２の信頼度を取得してもよい。また前記決定部は、前記第１の信頼度及び前記第２の信頼度に基づいて、前記基準位置を決定してもよい。

　前記決定部は、前記第１の信頼度が所定の閾値より大きい場合、前記カメラベース推定位置を前記基準位置として決定してもよい。

　前記情報処理装置は、さらに、前記基準位置に基づいて、前記仮想コンテンツの表現を制御する表現制御部を具備してもよい。

　前記表現制御部は、前記実物体に関連する仮想物体の表示を制御してもよい。

　前記表現制御部は、前記仮想物体の表示位置を制御してもよい。

　前記表現制御部は、ユーザの移動又はユーザの視線の移動が検出されたことに基づき、ユーザが移動している間、又はユーザの視線が移動している間に、前記仮想物体の表示位置を変更してもよい。

　前記表現制御部は、前記実物体に関連する仮想的な音源からの音声の出力を制御してもよい。

　前記表現制御部は、前記仮想的な音源の位置を制御してもよい。

　前記情報処理装置は、さらに、第１の推定部と、第２の推定部とを具備してもよい。
　前記第１の推定部は、前記撮影画像に基づいて前記カメラベース推定位置を推定する。
　前記第２の推定部は、前記出力波に基づいて前記出力波ベース推定位置を推定する。

　前記第１の推定部は、前記撮影画像に対する前記実物体のモデル画像のマッチング処理の結果に基づいて、前記第１の信頼度を算出してもよい。

　前記第２の推定部は、前記出力波に基づいて前記実物体までの距離を算出し、算出された前記距離に基づいて前記実物体が存在する可能性のある候補範囲を算出し、算出された前記候補範囲に含まれる位置を前記出力波ベース推定位置として推定してもよい。

　前記第２の推定部は、算出された前記候補範囲の大きさに基づいて、前記第２の信頼度を算出してもよい。

　前記第２の推定部は、他の装置が前記出力波に基づいて算出した前記他の装置から前記実物体までの距離に関する情報を受信し、受信した前記他の装置から前記実物体までの距離に関する情報に基づいて、前記候補範囲を算出してもよい。

　前記情報処理装置は、ＨＭＤ（Head Mounted Display）として構成されてもよい。

　前記情報処理装置は、さらに、前記撮影画像に基づいて前記モデル画像を生成するモデル画像生成部を具備してもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得することを含む。
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置が取得される。
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置が決定される。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得するステップ。
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得するステップ。
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定するステップ。

　以上のように、本技術によれば、高品質な仮想体験を提供することが可能となる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

一実施形態に係るＡＲ提供システムの構成例を示す模式図である。ＨＭＤの外観例を示す斜視図である。ＨＭＤの機能的な構成例を示すブロック図である。実オブジェクトに関連する仮想コンテンツのＡＲ表現の一例を説明するための図である。ＡＲ提供システムにより提供可能なＡＲ体験の一例を説明するための模式図である。ＡＲ提供システム内にて構築される各機能ブロックの動作を説明するための模式図である。電波ベース推定位置、及び信頼度の算出例を説明するための模式図である。実オブジェクト位置推定部の動作例を示すフローチャートである。ＡＲ表現制御部の動作例を示すフローチャートである。仮想オブジェクトの表示位置の更新の一例を示すフローチャーである。ＡＲ表現の一例を示す模式図である。ＡＲ表現の一例を示す模式図である。ＡＲ表現の一例を示す模式図である。環境用認識ＤＢ作成部の構成例を示すブロック図である。環境認識ＤＢ作成部の処理例を示すフローチャートである。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［ＡＲ提供システム］
　図１は、本技術の一実施形態に係るＡＲ提供システムの構成例を示す模式図である。ＡＲ提供システム１００は、本技術に係る情報処理システムの一実施形態に相当する。

　ＡＲ提供システム１００は、ＨＭＤ（Head Mounted Display）１０と、サーバ装置６０と、実オブジェクト８０とを含む。

　ＨＭＤ１０は、ユーザ１の頭部に装着されて使用される。図１では、３つのＨＭＤ１０が図示されているが、ＡＲ提供システム１００に含まれるＨＭＤ１０の数は限定されない。すなわちＡＲ提供システム１００に当時に参加可能なユーザ１の数は限定されない。ＨＭＤ１０は、本技術に係る情報処理装置の一実施形態として機能する。

　サーバ装置６０は、ネットワーク３を介して、各ＨＭＤ１０と通信可能に接続される。サーバ装置６０は、ネットワーク３を介して、各ＨＭＤ１０から種々の情報を受信することが可能である。またサーバ装置６０は、種々の情報をデータベース７０に記憶させることや、データベース７０に記憶された種々の情報を読み出して、各ＨＭＤ１０に送信することが可能である。

　本実施形態では、データベース７０に、マップデータ７１が記憶される。マップデータ７１は、実空間に関する地図として機能するデータである。本実施形態は、ユーザ１にＡＲ体験を提供するための所定の実空間に関するマップデータ７１が記憶される。

　ネットワーク３は、例えばインターネットや広域通信回線網等により構築される。その他、任意のＷＡＮ（Wide Area Network）やＬＡＮ（Local Area Network）等が用いられてよく、ネットワーク３を構築するためのプロトコルは限定されない。

　本実施形態では、ネットワーク３、及びサーバ装置６０、及びデータベース７０により、いわゆるクラウドサービスが提供される。従ってＨＭＤ１０は、クラウドネットワークに接続されているとも言える。

　実オブジェクト８０は、実空間に実際に存在する物体である。本実施形態では、実オブジェクト８０を基準として、実オブジェクト８０に関連する仮想コンテンツが表現される。仮想コンテンツの表現は、例えば実オブジェクト８０に関連する仮想オブジェクトの表示、及び実オブジェクト８０に関連する仮想的な音源からの音声の出力等を含む。もちろんこれらの表現に限定される訳ではない。

　本実施形態では、実オブジェクト８０から、実空間に向けて、ＢＬＥ（Bluetooth Low Energy）規格に準拠したビーコン信号５が出力される。ビーコン信号５の出力の間隔は限定されず、任意に設定されてよい。

　本実施形態において、実オブジェクト８０は、実物体に相当する。また実オブジェクト８０から出力されるビーコン信号５は、実物体に対応する位置から実空間に出力される出力波としての電波に相当する。

　［ＨＭＤ（Head Mounted Display）］
　図２は、ＨＭＤ１０の外観例を示す斜視図である。ＨＭＤ１０は、透過型のディスプレイを備えたメガネ型の装置であり、ＡＲグラスとも呼ばれる。ＨＭＤ１０は、フレーム１１、左眼用レンズ１２ａ及び右眼用レンズ１２ｂ、左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂ、左眼用カメラ１４ａ及び右眼用カメラ１４ｂ、及び外向きカメラ１５を有する。

　フレーム１１は、メガネ型の形状でなり、リム部１６及びテンプル部１７を有する。リム部１６は、ユーザ１の左右の眼の前方に配置される部分であり、左眼用レンズ１２ａ及び右眼用レンズ１２ｂをそれぞれ支持する。テンプル部１７は、リム部１６の両端からユーザ１の両耳に向けて後方に延在し、先端が両耳に装着される。リム部１６及びテンプル部１７は、例えば合成樹脂、金属等の材料で形成される。

　左眼用レンズ１２ａ及び右眼用レンズ１２ｂは、ユーザ１の視野の少なくとも一部を覆うように、ユーザ１の左右の眼の前方にそれぞれ配置される。典型的には、各レンズは、ユーザ１の視力を矯正するように設計される。もちろんこれに限定されず、いわゆる度無しレンズが用いられてもよい。

　左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂは、透過型ディスプレイであり、左眼用及び右眼用レンズ１２ａ及び１２ｂの一部の領域を覆うように、それぞれ配置される。すなわち左眼用及び右眼用レンズ１２ａ及び１２ｂは、ユーザ１の左右の眼の前方にそれぞれ配置される。

　左眼用及び右眼用ディスプレイ１３ａ及び１３ｂには、左眼用及び右眼用の画像等がそれぞれ表示される。ＨＭＤ１０を装着するユーザ１は、現実の景色を視認すると同時に、各ディスプレイ１３ａ及び１３ｂに表示される画像を視認することが可能となる。これにより、ユーザ１は拡張現実（ＡＲ）等を体験することが可能となる。

　各ディスプレイ１３ａ及び１３ｂには、例えば仮想的な表示物（仮想オブジェクト）が表示される。例えばキャラクター等のＣＧ（Computer Graphics）、写真、文字等が仮想オブジェクトとして表示可能である。もちろんこれに限定されず、任意の仮想オブジェクトが表示されてよい。本実施形態において、仮想オブジェクトは、仮想物体に相当する。

　左眼用及び右眼用ディスプレイ１３ａ及び１３ｂとしては、例えば透過型の有機ＥＬディスプレイやＬＣＤ（Liquid Crystal Display、液晶表示素子）ディスプレイ等が用いられる。この他、左眼用及び右眼用ディスプレイ１３ａ及び１３ｂの具体的な構成は限定されず、例えば透明なスクリーンに画像を投影して表示する方式や、プリズム等を用いて画像を表示する方式等の任意の方式の透過型ディスプレイが適宜用いられてよい。

　左眼用カメラ１４ａ及び右眼用カメラ１４ｂは、ユーザ１の左眼及び右眼を撮影可能なように、フレーム１１に適宜設置される。例えば、左眼用及び右眼用カメラ１４ａ及び１４ｂにより撮影された左眼及び右眼の画像に基づいて、ユーザ１の視線に関する視線情報等を検出することが可能である。

　左眼用及び右眼用カメラ１４ａ及び１４ｂとしては、例えばＣＭＯＳ（Complementary Metal-Oxide Semiconductor）センサやＣＣＤ（Charge Coupled Device）センサ等のイメージセンサを備えるデジタルカメラが用いられる。また、例えば赤外線ＬＥＤ等の赤外線照明を搭載した赤外線カメラが用いられてもよい。

　以下では、左眼用レンズ１２ａ及び右眼用レンズ１２ｂをともにレンズ１２と記載し、左眼用ディスプレイ１３ａ及び右眼用ディスプレイ１３ｂをともに透過型ディスプレイ１３と記載する場合がある。また、左眼用カメラ１４ａ及び右眼用カメラ１４ｂをともに内向きカメラ１４と記載する場合がある。本実施形態では、透過型ディスプレイ１３は、表示部に相当する。

　外向きカメラ１５は、フレーム１１（リム部１６）の中央に、外側（ユーザ１とは反対側）に向けて配置される。外向きカメラ１５は、ユーザ１の視野に含まれる実空間を撮影することが可能である。従って外向きカメラ１５は、実空間が撮影された撮影画像を生成することが可能である。

　本実施形態では、ユーザ１から見て前方側の範囲であり、透過型ディスプレイ１３の表示領域を含む範囲が、外向きカメラ１５により撮影される。すなわちユーザ１から見て、表示領域を透過して見える範囲を含むように、実空間が撮影される。外向きカメラ１５としては、例えばＣＭＯＳセンサやＣＣＤセンサ等のイメージセンサを備えるデジタルカメラが用いられる。

　図３は、ＨＭＤ１０の機能的な構成例を示すブロック図である。図３に示すように、ＨＭＤ１０はさらに、スピーカー２０と、振動部２１と、通信部２２と、コネクタ２３と、操作ボタン２４と、センサ部３０と、記憶部４０と、コントローラ５０とを有する。

　スピーカー２０は、フレーム１１の所定の位置に設けられる。スピーカー２０の構成は限定されず、例えばステレオ音声やモノラル音声等を出力可能なスピーカー２０が適宜用いられてよい。

　振動部２１は、フレーム１１の内部に設けられ、振動を発生する。例えば、通知用のバイブレーション等を発生可能な任意の振動モータ等が振動部２１として用いられる。

　通信部２２は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。本実施形態では、通信部２２として、ネットワークモジュールと、Bluetooth（登録商標）モジュールが設けられる。

　ネットワークモジュールは、ネットワーク３に接続するためのインタフェースであり、例えばＷｉＦｉ等の無線ＬＡＮモジュールが用いられる。ネットワークモジュールが動作することで、サーバ装置６０との間で無線通信が可能となる。

　Bluetoothモジュールは、Bluetooth規格に準拠した近距離無線通信を実行するためのモジュールである。本実施形態では、ＢＬＥ規格に準拠した通信（ＢＬＥ通信）が可能である。

　Bluetoothモジュールは、ＢＬＥ規格に準拠したビーコン信号を受信することが可能である。受信したビーコン信号に含まれる情報はコントローラ５０に出力され、各種の処理が実行される。例えば、ビーコン信号の強度（電波強度）をもとに、ビーコン信号を出力した機器との距離を算出することが可能である。

　コネクタ２３は、他のデバイスとの接続のための端子である。例えばＵＳＢ（Universal Serial Bus）、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）等の端子が設けられる。また充電時には、充電用のドッグ（クレードル）の充電端子とコネクタ２３とが接続されて充電が行われる。

　操作ボタン２４は、例えばフレーム１１の所定の位置に設けられる。操作ボタン２４により、電源のＯＮ／ＯＦＦの操作、画像表示や音声出力に関する機能やネットワーク通信機能等のＨＭＤ１０が有する種々の機能に関する操作を実行することができる。

　センサ部３０は、９軸センサ３１と、ＧＰＳ３２と、生体センサ３３と、マイク３４とを有する。

　９軸センサ３１は、３軸加速度センサ、３軸ジャイロセンサ、及び３軸コンパスセンサを含む。９軸センサ３１により、ＨＭＤ１０の、３軸における加速度、角速度、及び方位を検出することが可能である。ＧＰＳ３２は、ＨＭＤ１０の現在位置の情報を取得する。９軸センサ３１及びＧＰＳ３２の検出結果は、例えばユーザ１（ＨＭＤ１０）の姿勢や位置、ユーザ１の移動（動き）等の検出に用いられる。これらのセンサは、例えばフレーム１１の所定の位置に設けられる。

　生体センサ３３は、ユーザ１の生体情報を検出することが可能である。例えば生体センサ３３として、脳波センサ、筋電センサ、脈拍センサ、発汗センサ、温度センサ、血流センサ、体動センサ等が設けられる。

　マイク３４は、ユーザ１の周辺の音情報を検出する。例えばユーザが発話した音声等が適宜検出される。これにより、例えばユーザ１は、音声通話をしながらＡＲ体験を楽しむことや、音声入力を用いたＨＭＤ１０の操作入力を行うことが可能である。

　センサ部３０として設けられるセンサの種類は限定されず、任意のセンサが設けられてもよい。例えばＨＭＤ１０を使用する環境の温度や湿度等を測定可能な温度センサや湿度センサ等が設けられてもよい。内向きカメラ１４及び外向きカメラ１５を、センサ部３０の一部として見做すことも可能である。

　記憶部４０は、不揮発性メモリ等の記憶デバイスであり、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等が用いられる。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　記憶部４０には、マップデータ４１が記憶される。マップデータ４１は、実空間に関する地図として機能するデータである。本実施形態は、ユーザ１にＡＲ体験を提供するための所定の実空間に関するマップデータ４１が記憶される。マップデータ４１は、図１に示すサーバ装置６０のデータベース７０に記憶されたマップデータ７１と同一の情報である。

　また記憶部４０には、認識ＤＢ４２が構築される。認識ＤＢ４２には、外向きカメラ１５により撮影された撮影画像に対する画像認識に用いられる種々のモデル画像が格納される。本実施形態では、撮影画像から実オブジェクト８０を検出するためのモデル画像が格納される。典型的には、図１に例示した実オブジェクト８０を撮影した１以上の画像が、モデル画像として格納される。もちろん実オブジェクト８０のＣＧ等が、モデル画像として格納されてもよい。

　また記憶部４０には、ＨＭＤ１０の全体の動作を制御するための制御プログラム４３が記憶される。マップデータ４１、認識ＤＢ（モデル画像）、及び制御プログラム４３を、ＨＭＤ１０にインストールする方法は限定されない。

　コントローラ５０は、ＨＭＤ１０が有する各ブロックの動作を制御する。コントローラ５０は、例えばＣＰＵやメモリ（ＲＡＭ、ＲＯＭ）等のコンピュータに必要なハードウェア回路を有する。ＣＰＵが記憶部４０に記憶されている制御プログラム４３をＲＡＭにロードして実行することにより、種々の処理が実行される。

　コントローラ５０として、例えばＦＰＧＡ（Field Programmable Gate Array）等のＰＬＤ(Programmable Logic Device)、その他ＡＳＩＣ（Application Specific Integrated Circuit）等のデバイスが用いられてもよい。

　本実施形態では、コントローラ５０のＣＰＵが本実施形態に係るプログラム（例えばアプリケーションプログラム）を実行することで、機能ブロックとして、自己位置推定部５１、実オブジェクト距離推定部５２、カメラベース位置推定部５３、実オブジェクト位置推定部５４、及びＡＲ表現制御部５５が実現される。そしてこれらの機能ブロックにより、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが適宜用いられてもよい。

　自己位置推定部５１は、ＨＭＤ１０の自己位置を推定する。本開示では、自己位置は、ＨＭＤ１０の位置及び姿勢を含む。すなわち、自己位置推定部５１は、マップデータ４１内におけるＨＭＤ１０の位置情報、及びＨＭＤ１０がどの方向を向いているか等の姿勢情報を算出することが可能である。

　ＨＭＤ１０の自己位置は、センサ部３０からの検出結果、内向きカメラ１４及び外向きカメラ１５による撮影画像に基づいて算出される。例えば、所定の位置を原点とする３次元座標系（ＸＹＺ座標系）における位置座標が算出される。またＸ軸をピッチ軸、Ｙ軸をロール軸、Ｚ軸をヨー軸とした場合における、ユーザ１（ＨＭＤ１０）の正面側に延在する所定の基準軸の、ピッチ角度、ロール角度、及びヨー角度が算出される。もちろん、ユーザ１（ＨＭＤ１０）の位置情報及び姿勢情報の具体的な形式等は限定されない。

　ＨＭＤ１０の自己位置を推定するためのアルゴリズムも限定されず、ＳＬＡＭ（Simultaneous Localization and Mapping）等の任意のアルゴリズムが用いられてもよい。自己位置を推定するために、例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、自己位置の推定精度を向上させることが可能となる。

　実オブジェクト距離推定部５２は、実オブジェクト８０から出力されるビーコン信号５に基づいて、実オブジェクト８０までの距離を算出する。実オブジェクト距離推定部５２は、図２に示すBluetoothモジュールにより受信されたビーコン信号５の電波強度をもとに、ＨＭＤ１０から実オブジェクト８０までの距離を算出する。

　カメラベース位置推定部５３は、外向きカメラ１５により撮影された撮影画像に基づいて、マップデータ４１内における実オブジェクト８０の位置を推定する。以下、カメラベース位置推定部５３により推定された実オブジェクト８０の位置を、カメラベース推定位置と記載する場合がある。またカメラベース位置推定部５３は、推定されたカメラベース推定位置の信頼度を算出する。

　本実施形態において、実オブジェクト８０のカメラベース推定位置は、実物体が存在する実空間の撮影画像に基づいて決定された実物体の位置を示すカメラベース推定位置に相当する。またカメラベース推定位置の信頼度は、カメラベース推定位置に関連する第１の信頼度に相当する。またカメラベース位置推定部５３は、撮影画像に基づいてカメラベース推定位置を推定する第１の推定部に相当する。

　実オブジェクト位置推定部５４は、カメラベース位置推定部５３により算出されたカメラベース推定位置及び信頼度を受信することで取得する。また実オブジェクト位置推定部５４は、サーバ装置６０により算出された電波ベース推定位置及び信頼度を受信することで取得する。なお電波ベース推定位置及び信頼度については、後に説明する。

　実オブジェクト位置推定部５４は、取得したカメラベース推定位置及び信頼度と、電波ベース推定位置及び信頼度とに基づいて、実オブジェクト８０に関連する仮想コンテンツの表現に用いられる基準位置を算出する。本実施形態では、実オブジェクト位置推定部５４により、実オブジェクト８０の最終的な推定位置である最終推定位置が算出される。そしてその実オブジェクト８０の最終推定位置が、基準位置として算出される。

　本実施形態において、実オブジェクト位置推定部５４は、第１の取得部、第２の取得部、及び決定部として機能する。本開示において、「決定」は直接的な「計算（演算）」の他、「テーブルの参照」「（信頼度の高い方の）選択」等、任意の方法により対象を得ることを含む。本実施形態では、カメラベース推定位置、電波ベース推定位置、最終推定位置等の「決定」が、「算出」という文言を用いて説明されている。もちろん一実施形態であり、これら各位置の「決定」が、「算出」という文言に含まれる概念に限定される訳ではない。

　なお本開示において、データ等の取得は、センサ等によりデータを計測する、通信等によりデータを受信する、記録媒体等に記憶されたデータを読み出す等、データ等が処理可能な状態となる任意の形態を含む。

　ＡＲ表現制御部５５は、実オブジェクト８０に関する仮想コンテンツの表現を制御する。ＡＲ表現制御部５５により、例えば実オブジェクト８０に関連する仮想オブジェクト７の表示、及び実オブジェクト８０に関連する仮想的な音源からの音声の出力等が制御される。なお仮想コンテンツの表現は、実オブジェクト位置推定部５４により算出される基準位置を基準として制御される。従って仮想コンテンツの表現に用いられる基準位置とは、仮想コンテンツを表現する際に基準となる位置を意味する。

　［サーバ装置］
　サーバ装置６０は、例えばＣＰＵ、ＲＯＭ、ＲＡＭ、及びＨＤＤ等のコンピュータの構成に必要なハードウェアを有する。ＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラムをＲＡＭにロードして実行することにより、機能ブロックとして電波ベース位置推定部６１、及び信頼度判定部６２（ともに図６参照）が実現され、本技術に係る情報処理方法が実行される。

　例えばＰＣ（Personal Computer）等の任意のコンピュータにより、サーバ装置６０を実現することが可能である。もちろんＦＰＧＡ、ＡＳＩＣ等のハードウェアが用いられてもよい。また図６に示す各ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。

　プログラムは、例えば種々の記録媒体を介してサーバ装置６０にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。

　またサーバ装置６０は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するための通信部（図示は省略）を備えている。通信部が動作することで、ＨＭＤ１０との間で無線通信が可能となる。

　電波ベース位置推定部６１は、ＨＭＤ１０の実オブジェクト距離推定部５２から送信された実オブジェクト８０までの距離に基づいて、マップデータ７１内における実オブジェクト８０の位置を推定する。電波ベース位置推定部６１により推定された実オブジェクト８０の位置が、上記した電波ベース推定位置に相当する。信頼度判定部６２は、推定された電波ベース推定位置の信頼度を算出する。

　本実施形態において、実オブジェクト８０の電波ベース推定位置（Radio Wave Based Position）は、実物体に対応した位置から実空間に出力される出力波に基づいて決定された実物体の位置を示す出力波ベース推定位置に相当する。また電波ベース推定位置の信頼度は、出力波ベース推定位置に関連する第２の信頼度に相当する。本実施形態では、実オブジェクト距離推定部５２、及び電波ベース位置推定部６１により、出力波に基づいて出力波ベース推定位置を推定する第２の推定部が実現される。なお、電波ベース推定位置のことを、非カメラ推定位置ということも可能である。

　［実オブジェクト］
　実オブジェクト８０には、ＢＬＥビーコン出力部８１が搭載されており（図６参照）、定期的にビーコン信号５が出力される。ＢＬＥビーコン出力部８１は、実オブジェクト８０に内蔵されてもよい。あるいは、例えばビーコン信号５を出力可能なビーコン装置が、実オブジェクト８０に取り付けられてもよい。この場合、そのビーコン装置が、ＢＬＥビーコン出力部８１として機能する。

　図４は、実オブジェクト８０に関連する仮想コンテンツのＡＲ表現の一例を説明するための図である。本実施形態に係る実オブジェクト８０は、円柱形状を有し、上面には星型のマーク８２が図示されている。

　本実施形態では、星型のマーク８２の中心の位置Ｐ１を基準として、仮想コンテンツの表現が実行される。具体的には、図４に示すように、実オブジェクト８０をステージとして、星型のマーク８２の中心に立って踊りながら歌うキャラクターが、仮想コンテンツとして表現される。

　ＨＭＤ１０の実オブジェクト位置推定部５４は、実オブジェクト８０の最終推定位置として、星型のマーク８２の中心の位置Ｐ１を推定する。推定された中心の位置Ｐ１を、最終推定位置Ｐ２とする。そうすると、ＡＲ表現制御部５５は、最終推定位置Ｐ２を仮想コンテンツの表現に用いられる基準位置として、透過型ディスプレイ１３への、仮想オブジェクト（歌うキャラクター）７の表示を制御する。

　なお、図４に示す例では、実際の中心の位置Ｐ１と、最終推定位置Ｐ２とが同じ位置である場合が図示されている。

　例えばＡＲ表現制御部５５は、最終推定位置Ｐ２に基づいて、仮想オブジェクト７の表示位置を制御する。具体的には、最終推定位置Ｐ２上に、仮想オブジェクト７が位置するように、仮想オブジェクト７の表示位置が制御される。もちろん、ユーザ１が実オブジェクト８０を全く見ていない場合等では、透過型ディスプレイ１３に仮想オブジェクト７は表示されない。

　ＡＲ表現制御部５５は、最終推定位置Ｐ２から、仮想オブジェクト７が歌う歌が聴こえてくるように、音声の出力を制御する。すなわち最終推定位置Ｐ２に存在する仮想的な音源の音声の出力を制御する。例えばユーザ１が、実オブジェクト８０を正面から見ている場合には、ユーザ１の正面に位置する仮想的な音源から歌が聴こえるように、音声の出力を制御する。

　ユーザ１が、実オブジェクト８０が位置する方向とは異なる方向を見ている場合には、実オブジェクト８０の位置から歌が聴こえるように、音声の出力を制御する。すなわちＡＲ表現制御部５５は、仮想的な音源の位置（定位）を制御することが可能である。なお仮想的な音源の位置の制御、すなわち音声が聴こえてくる方向は、スピーカー２０を制御することで実現可能である。

　このように本実施形態では、視覚的なＡＲ体験のみならず、聴覚的なＡＲ体験を楽しむことが可能である。仮想的な音源から出力される音声は、仮想的な音声ということも可能である。あるいは、仮想方向から聴こえる音声ということも可能である。仮想オブジェクト７の表示位置の精度と比べると、仮想的な音源の位置の精度（音声が聴こえてくる方向の精度）は、低くても構わない。なお本実施形態では、仮想オブジェクト７を、仮想的な音源と見做すことも可能である。

　［ＡＲ体験の一例］
　図５は、ＡＲ提供システム１００により提供可能なＡＲ体験の一例を説明するための模式図である。所定の空間Ｓ１の所定の位置に、実オブジェクト８０が配置される。実オブジェクト８０の星型のマーク８２の中心の位置Ｐ１が、実オブジェクト８０の実際の位置となる。

　ユーザ１は、ＨＭＤ１０を装着した状態で、空間Ｓ１内を動き回り、実オブジェクト８０及び仮想オブジェクト７を探し出す。なおＨＭＤ１０の記憶部４０と、サーバ装置６０のデータベース７０には、空間Ｓ１のマップデータ４１及び７１がそれぞれ格納されている。また空間Ｓ１のいずれの場所にいる場合でも、実オブジェクト８０から出力されるビーコン信号５は出力可能である。もちろんこのようなＡＲ体験に限定される訳ではなく、任意のＡＲ体験の提供に、本技術は適用可能である。

　図６は、ＡＲ提供システム１００内にて構築される各機能ブロックの動作を説明するための模式図である。例えば、以下に説明する実オブジェクト８０の最終推定位置Ｐ２の算出処理が、所定の間隔で繰り返される。例えば、外向きカメラ１５により撮影される撮影画像のフレームレートに合わせて、フレーム画像を取込むたびに、最終推定位置Ｐ２が算出され更新されてもよい。もちろん、これに限定される訳ではない。

　自己位置推定部５１により、自己位置（位置情報及び姿勢情報）が推定される。推定された自己位置は、実オブジェクト距離推定部５２、実オブジェクト位置推定部５４、及びカメラベース位置推定部５３に出力される。

　実オブジェクト距離推定部５２は、ビーコン信号５に基づいて、ＨＭＤ１０から実オブジェクト８０までの距離を算出する。実オブジェクト距離推定部５２は、自己位置推定部５１から取得したＨＭＤ１０の自己位置と、ＨＭＤ１０から実オブジェクト８０までの距離とを、通信部２２を介して、サーバ装置６０に送信する。

　サーバ装置６０の電波ベース位置推定部６１は、ＨＭＤ１０の自己位置と、ＨＭＤ１０から実オブジェクト８０までの距離とに基づいて、実オブジェクト８０の電波ベース推定位置を算出する。信頼度判定部６２は、推定された電波ベース推定位置の信頼度を算出する。電波ベース位置推定部６１により算出された電波ベース推定位置、及び信頼度判定部６２により算出された信頼度は、ＨＭＤ１０の実オブジェクト位置推定部５４に送信される。

　図７は、電波ベース推定位置、及び信頼度の算出例を説明するための模式図である。

　図７では、ＨＭＤ１０の各々位置が、ＰＨ１、ＰＨ２・・といった符号で模式的に図示されている。またＨＭＤ１０から実オブジェクト８０までの距離に基づいて、ＨＭＤ１０の位置を中心として描かれる円が、Ｃ１、Ｃ２・・・といった符号で図示されている。ＨＭＤ１０の位置ＰＨ１を中心とした円が円Ｃ１となるように、お互いの数字が対応付けされている。

　電波ベース位置推定部６１は、各ＨＭＤ１０から送信される自己位置及び実オブジェクト８０までの距離に基づいて、実オブジェクト８０が存在する可能性のある候補範囲を算出する。そして、算出された候補範囲に含まれる位置が、電波ベース推定位置として算出される。

　例えば、図７に示す各ＨＭＤ１０の位置ＰＨ１～ＰＨ３を中心とする円Ｃ１～Ｃ３上であり、空間Ｓ１内の位置が、候補範囲として算出される。距離の誤差を考慮して、円周に若干の厚みを持たせた範囲が、候補範囲として算出されてもよい。

　そして、全ての円Ｃ１～Ｃ３の交点に実オブジェクト８０が存在するという考えに基づいて、各円Ｃ１～Ｃ３が互いに交差する交点が全て算出される。算出された交点に基づいて、候補範囲が絞られる。例えば、各円Ｃ１～Ｃ３の交点が全て抽出され、その交点を中心とした所定の範囲が、候補範囲として算出される。

　図７Ａに示す例では、３つの円Ｃ１～Ｃ３が交わる交点Ｐａと、円Ｃ１及びＣ２が交わる交点Ｐｂと、円Ｃ１及びＣ３とが交わる交点Ｐｃとが算出される。各交点を中心とした所定の範囲が、候補範囲として算出される。

　なお全ての円Ｃ１～Ｃ３が交わる交点はＰａである。しかしながら、２つのＨＭＤ１０の位置ＰＨ１及びＰＨ２が近いので、交点Ｐｂ及びＰｃも近くなる。従って、距離の測定誤差を考慮すると、交点Ｐｂ及びＰｃも、全ての円Ｃ１～Ｃ３が交わる交点である可能性も否定できない。

　従って、各交点を中心とした範囲が、候補範囲として算出される。電波ベース位置推定部６１は、候補範囲に含まれる位置を、電波ベース推定位置として算出する。例えば交点Ｐａ～Ｐｃのうちのいずれかが、電波ベース推定位置として算出される。もちろんこれに限定されず、候補範囲に含まれる他の位置が算出されてもよい。

　図７Ａに示す状態では、全ての円Ｃ１～Ｃ３が交わる交点を特定することが難しく、候補範囲が大きい状態である。従って、電波ベース推定位置の信頼度は低くなる。図７Ａに示す例では、電波ベース推定位置の信頼度は、０．３となっている。

　図７Ａに示す状態から、ＨＭＤ１０の位置ＰＨ３が移動して、図７Ｂに示す状態となったとする。交点Ｐｂ及びＰｃが互いに離れることになり、交点Ｐａが、全ての円Ｃ１～Ｃ３が交わる交点となる可能性が高くなる。従って、例えば、交点Ｐｂ及びＰｃを中心とした候補範囲が狭められる。これにより、候補範囲の全体の大きさが小さくなる。

　電波ベース位置推定部６１は、候補範囲が狭められた交点Ｐｂ及びＰｃではなく、全ての円Ｃ１～Ｃ３が交わる交点となる可能性が高くなった交点Ｐａを、電波ベース推定位置として算出する。信頼度判定部６２は、候補範囲が狭くなったことに応じて、信頼度を高く設定する（０．７）。

　図７Ｂに示す状態から、ＨＭＤ１０の位置ＰＨ３が移動して、図７Ｂに示す状態となったとする。この場合、交点Ｐａが、全ての円Ｃ１～Ｃ３が交わる交点となる可能性がさらに高くなる。従って、例えば、交点Ｐｂ及びＰｃを中心とした範囲が、候補範囲として除外される。すなわち交点Ｐａを基準とした範囲のみが候補範囲として算出される。

　電波ベース位置推定部６１は、交点Ｐａを電波ベース推定位置として算出する。信頼度判定部６２は、候補範囲が狭くなったことに応じて、さらに高い信頼度を設定する（０．８）。

　このように、ＨＭＤ１０の位置が移動する場合には、実オブジェクト８０までの距離を常時監視することで、時間の経過に応じて候補範囲の情報が蓄積され、候補範囲を狭めることが可能となる。そして最終的には、信頼度の高い電波ベース推定位置を算出することが可能となる。

　図７に示す例では、全ての円Ｃ１～Ｃ３が交わる交点が、交点Ｐａに収束していき、同一の地点を示す時間が長くなるので、その交点Ｐａを信頼度の高い電波ベース推定位置として算出することが可能となる。なお、ＨＭＤ１０の位置が移動することで、図７Ａに示すような、円Ｃ１～Ｃ３が交わる交点が複数存在するような状態に再びなったとする。その場合でも、今までの履歴から再度増えた交点の位置には実オブジェクト８０は存在しないと判定可能であるので、信頼度に大きな減少等は発生しない。

　なお最初の状態が図７Ｃに示す状態である場合等、ＨＭＤ１０の各々の位置関係によっては、非常に早い段階で、信頼度の高い電波ベース推定位置を算出することも可能である。

　このように、ＨＭＤ１０の位置及び実オブジェクト８０までの距離に基づいて算出可能な全ての円が交わる交点が存在する範囲（候補範囲）を狭めていくことで、電波ベース推定位置及び信頼度を算出することが可能である。ＨＭＤ１０の数、すなわちユーザ１の数が多ければ多いほど、実オブジェクト８０の位置の推定までの時間を短縮することが可能となり、また推定精度を向上させることが可能となる。

　図７に示す例では、各状態における円Ｃ１～Ｃ３の情報、及び各交点Ｐａ～Ｐｃの情報に基づいて、候補範囲が算出された。これに限定されず、円Ｃ１～Ｃ３の過去の履歴情報や、各交点Ｐａ～Ｐｃの過去の履歴情報に基づいて、候補範囲を算出することも可能である。

　例えば過去に算出された円も含めて、全ての円が交わる交点が存在する範囲が算出されてもよい。この場合、ユーザ１が移動すればするほど、円の数が増えていくので、最終的に信頼度の高い電波ベース推定位置を算出することが可能となる。またユーザ１の数が、１人や２人等の少人数である場合にも、電波ベース推定位置を精度よく算出することが可能となる。

　図７に示す例では、候補範囲の大きさに基づいて、電波ベース推定位置の信頼度が算出された。信頼度を判定するためのパラメータとして、他のパラメータが用いられてもよい。例えばユーザ１（ＨＭＤ１０）の数、ビーコン信号５の電波の安定性や電波強度の変化率、候補範囲の絞り込みの実行時間の長さ等に基づいて、信頼度が算出されてもよい。その他、候補範囲の情報の蓄積に応じた任意の判定方法が採用されてよい。

　電波ベース推定位置及び信頼度を算出するための具体的なアルゴリズムは限定されず、任意の技術が用いられてよい。また任意の機械学習アルゴリズムが用いられてもよい。

　図６に戻って、カメラベース位置推定部５３は、画像認識部５７と、信頼度判定部５８とを有する。画像認識部５７は、実空間が撮影された撮影画像から実オブジェクト８０を検出する。本実施形態では、図３に示す認識ＤＢ４２内のモデル画像が用いられる。

　画像認識部５７は、撮影画像に対して、実オブジェクト８０のモデル画像のマッチング処理を実行し、撮影画像内に実オブジェクト８０が含まれているか否かを判定する。撮影画像内に実オブジェクト８０が含まれている場合には、撮影画像内の実オブジェクト８０と、実オブジェクト８０のモデル画像とを比較する。そして、両者のサイズや形状等に基づいて、外向きカメラ１５に対して、実オブジェクト８０がどの程度離れた位置で、どの程度の角度で写っているかを判定する。そして、外向きカメラ１５の位置（ＨＭＤ１０の位置）に対する、実オブジェクト８０の相対位置を算出する。

　モデル画像を用いたマッチング処理の具体的なアルゴリズムは限定されない。エッジ検出や射影変換等、任意の画像認識技術が用いられてよい。また任意の機械学習アルゴリズムが用いられてもよい。

　カメラベース位置推定部５３は、画像認識部５７により算出されたＨＭＤ１０に対する実オブジェクト８０の相対位置と、自己位置推定部５１から取得したＨＭＤ１０の自己位置に基づいて、空間Ｓ１のマップデータ４１における実オブジェクト８０の位置を算出する。その算出された実オブジェクト８０の位置が、カメラベース推定位置（Camera Based Position）となる。

　信頼度判定部５８は、算出されたカメラベース推定位置の信頼度を判定する。本実施形態では、画像認識部５７による撮影画像に対するモデル画像のマッチング処理の結果に基づいて、信頼度が算出される。

　例えば、撮影画像内の実オブジェクト８０と、実オブジェクト８０のモデル画像との一致度具合に基づいて、信頼度が算出される。例えば、実オブジェクト８０のモデル画像と等しいサイズ及び等しい形状の実オブジェクト８０が検出された場合には、相対的に高い信頼度が設定される。一方、モデル画像と比べてサイズが小さく、また角度も異なっている（斜めから撮影されている）実オブジェクト８０が検出された場合には、相対的に低い信頼度が設定される。

　また例えば、撮影画像を取込むごとに実行されるマッチング処理において、モデル画像と一致した回数や一致した角度等が増えることにより、高い信頼度が算出される。また撮影画像内において、実オブジェクト８０が検出された位置に基づいて、信頼度が算出されてもよい。その他、撮影条件等、信頼度を算出するために任意のパラメータが用いられてもよい。カメラベース推定位置の信頼度を判定するための具体的なアルゴリズムは限定されず、例えば任意の機械学習アルゴリズム等が用いられてもよい。

　カメラベース位置推定部５３は、カメラベース推定位置、及び信頼度を、実オブジェクト位置推定部５４に出力する。なお、画像認識部５７において、撮影画像から実オブジェクト８０が検出できなかった場合には、その旨が実オブジェクト位置推定部５４に出力される。

　図８は、実オブジェクト位置推定部５４の動作例を示すフローチャートである。まず、カメラベース推定位置が算出可能であるか否か判定される（ステップ１０１）。この判定は、例えば、カメラベース位置推定部５３から実オブジェクト８０が検出不可である旨の情報を受信したか否かにより判定される。もちろんこれに限定されない。

　カメベース推定位置が算出できない場合（ステップ１０１のＮＯ）、電波ベース推定位置及び信頼度が取得される（ステップ１０２）。そして、電波ベース推定位置に基づいて、最終的な推定位置である最終推定位置Ｐ２が算出される（ステップ１０３）。典型的には、電波ベース推定位置が、実オブジェクト８０の最終推定位置Ｐ２として、そのまま採用される。これに限定されず、電波ベース推定位置及び信頼度に基づいて演算等が実行され、最終推定位置Ｐ２が算出されてもよい。

　なお撮影画像（撮影範囲）内に実オブジェクト８０が含まれている場合でも、カメラベース推定位置が算出不可であると判定される場合もあり得る。例えば逆光等の撮影環境に関する要因等により、実オブジェクト８０の検出ができない場合があり得る。あるいは、撮影画像の隅の位置に斜めとなる角度で実オブジェクト８０が小さく撮影されている場合等では、カメラベース推定位置が算出不可となる場合もあり得る。このような場合、ステップ１０２で取得される電波ベース推定位置が、撮影画像に含まれる位置（ユーザ１の視野に含まれる位置）となる場合もあり得る。

　カメベース推定位置が算出できる場合（ステップ１０１のＹＥＳ）、電波ベース推定位置及び信頼度が取得される（ステップ１０４）。またカメラベース推定位置及び信頼度が取得される（ステップ１０５）。そして、電波ベース推定位置及び信頼度と、カメラベース推定位置及び信頼度とに基づいて、最終的な推定位置である最終推定位置Ｐ２が算出される（ステップ１０６）。

　すなわち本実施形態では、２つの推定位置及び信頼度に基づいて、実オブジェクト８０の位置が再度計算され、最終結果として利用される。

　最終推定位置Ｐ２の算出例としては、例えば、電波ベース推定位置及びカメラベース推定位置の２点を直線で結ぶ。そして２つの推定位置の各々の信頼度に基づいて、直線上の中間位置を最終推定位置Ｐ２として算出する。

　例えば、電波ベース推定位置が（０，０，１０）で信頼度０．５であるとする。カメラベース推定位置が（０，０，０）で信頼度０．５であるとする。この場合、電波ベース推定位置と、カメラベース推定位置とのちょうと中間の位置である（０，０，５）が、最終推定位置Ｐ２として算出される。

　その後、ユーザ１の視野から実オブジェクト８０が外れた場合等が生じた場合には、ステップ１０１のＮＯからステップ１０２に切り替えられ、電波ベース推定位置及び信頼度に基づいて、最終推定位置Ｐ２が算出される。

　なお、電波ベースで位置を推定する場合には、実オブジェクト８０の角度や形状に合わせた位置が算出されるわけではないので、信頼度はある程度の値にまでしか増加しないことが多い。一方、撮影画像に実オブジェクト８０が含まれる場合には、カメラベース推定位置の信頼度は比較的高い増加率で増加する。従って、ユーザ１が実オブジェクト８０を見ている場合には、最終的には、カメラベース推定位置の信頼度の方が、電波ベース推定位置の信頼度よりも高くなる場合が多い。

　例えば、カメラベース推定位置の信頼度が所定の閾値よりも大きい場合、カメラベース推定位置を最終推定位置Ｐ２として算出してもよい。すなわち、カメラベース推定位置の信頼度が高い場合には、電波ベース推定位置は利用せず、カメラベース推定位置をそのまま最終推定位置Ｐ２として利用してもよい。

　カメラベース推定位置は精度が高くブレが少ない場合が多い。一方、電波ベース推定位置は比較的ブレが生じやすい。従ってカメラベース推定値の信頼度が高い場合、カメラベース推定位置を最終推定位置Ｐ２として算出することで、最終推定位置Ｐ２のブレを十分に抑制することが可能となる。なお、閾値の具体的な大きさは限定されない。また閾値よりも大きくなるとは、閾値と同じ値となる状態を含む場合（以上となる場合）と、閾値と同じ値となる状態を含まない場合の、いずれもが含まれる。

　また信頼度として具体的な数値を設定する方法は限定されない。本実施形態では、０～１の範囲に含まれるように、信頼度の数値が設定される。その他、任意の方法により、信頼度の数値が設定されてよい。

　算出された最終推定位置Ｐ２は、ＡＲ表現制御部５５に出力される。ＡＲ表現制御部５５は、最終推定位置Ｐ２に基づいて、ＡＲ表現を制御する。

　図９及び図１０は、ＡＲ表現制御部５５の動作例を示すフローチャートである。図１１～図１３は、ＡＲ表現の一例を示す模式図である。

　図９に示すように、ＨＭＤ１０の自己位置と、実オブジェクト位置推定部５４により算出された最終推定位置Ｐ２とが取得される（ステップ２０１、２０２）。仮想オブジェクト７が、透過型ディスプレイ１３の表示領域に含まれるか否かが判定される（ステップ２０３）。すなわち最終推定位置Ｐ２を基準として仮想オブジェクト７を表現する際に、仮想オブジェクト７が表示領域を介して見える位置に存在するか否か判定される。

　例えば最終推定位置Ｐ２を基準として、仮想オブジェクト７の描画範囲（表示範囲）が算出される。算出された描画範囲が表示領域に含まれない場合には、ステップ２０３はＮＯとなる。算出された描画範囲の少なくとも一部が表示領域に含まれる場合には、ステップ２０３はＹＥＳとなる。なお仮想オブジェクト７の全体が表示領域に含まれるか否かに基づいて、ステップ２０３が判定されてもよい。

　仮想オブジェクト７が表示領域に含まれない場合（ステップ２０３のＮＯ）、仮想オブジェクト７は表示されず、ＡＲ音の出力のみが実行される。すなわち最終推定位置Ｐ２を仮想的な音源の位置として、仮想オブジェクト７の歌う歌がスピーカー２０から出力される。なお、仮想オブジェクト７が表示領域に含まれない場合でも、仮想的な音源の位置の制御等のために、最終推定位置Ｐ２の更新は実行される。

　仮想オブジェクト７が表示領域に含まれる場合（ステップ２０３のＹＥＳ）、仮想オブジェクト７が表示され、ＡＲ音が出力される。仮想オブジェクト７は、最終推定位置Ｐ２を基準として算出された描画範囲に表示される。ユーザ１は、実オブジェクト８０の上に立ち歌を歌う仮想オブジェクト７を視認することが可能とあなる。

　例えばユーザ１が、実オブジェクト８０が見えない状態から、歌の聴こえる方向に視野（視線）を左に移動させたとする。そうすると図１１に示すように、視野の左側に実オブジェクト８０及び仮想オブジェクト７が見えたとする。

　図１１に示すように、視野内に実オブジェクト８０が入った直後では、最終推定位置Ｐ２は電波ベース推定位置に基づいて算出されており、実オブジェクト８０の実際の位置Ｐ１とは、若干ずれている場合もあり得る。しかしながら、ほぼ正しい位置にて、仮想オブジェクト７を表示させることが可能である。

　ユーザ１が、図１１に示す状態から視線を動かすことなく、静止した状態で仮想オブジェクト７を見続けたとする。その間カメラベース推定位置が算出され、その信頼度は増加していく。従って、図８に示すステップ１０６にて、実オブジェクト８０の最終推定位置Ｐ２が更新され、実際の位置Ｐ１に近づいていく。この結果、仮想オブジェクト７の表示位置も、更新されていく。

　図１０は、仮想オブジェクト７の表示位置の更新の一例を示すフローチャーである。ステップ３０１～ステップ３０３は、図９に示すステップ２０１～２０３と同様である。なおステップ２０３で、仮想オブジェクト７が表示領域に含まれない場合には、表示位置の更新は終了し、図９に示すステップ２０４に進む。

　仮想オブジェクト７が表示領域に含まれる場合（ステップ３０３のＹＥＳ）、ユーザ１の移動（動き）及びユーザ１の視線移動が検出される（ステップ３０４）。ユーザ１の移動（動き）やユーザ１の視線移動は、センサ部３０からの検出結果、内向きカメラ１４及び外向きカメラ１５による撮影画像に基づいて検出することが可能である。ユーザ１の移動や視線移動を検出するための具体的なアルゴリズムは限定されず、任意の技術が用いられてよい。また任意の機械学習アルゴリズムが用いられてもよい。

　ユーザ１が移動している、又はユーザ１の視線が移動しているか否かが判定される（ステップ３０５）。ユーザ１が移動していない、かつ、ユーザ１の視線も移動していない場合はステップ３０５のＮＯとなり、ステップ３０１に戻る。

　ユーザ１が移動している、あるいはユーザ１の視線が移動している場合は、ステップ３０５のＹＥＳとなり、ステップ３０６に進む。ステップ３０６では、仮想オブジェクト７の表示位置が更新され、仮想オブジェクト７の描画が実行される。もちろん、最終推定位置Ｐ２が変わっていない状態では、仮想オブジェクト７の表示位置も変わらない。

　このように図１０に示す更新では、ユーザ１が移動しておらず静止している、かつ、ユーザ１の視線が移動していない状態では、仮想オブジェクト７の表示位置の変更が規制される。そして、ユーザ１が移動している間、又はユーザ１の視線が移動している間に、仮想オブジェクト７の表示位置が変更される。

　例えば、ユーザ１が、図１１に示す状態から視線を動かすことなく、静止した状態で仮想オブジェクト７を見続けたとする。その間カメラベース推定位置が算出され、その信頼度は増加していく。従って、図８に示すステップ１０６にて、実オブジェクト８０の最終推定位置Ｐ２が更新され、実際の位置Ｐ１に近づいていく。しかしながら仮想オブジェクト７の表示位置は更新されず、図１１に示す状態から仮想オブジェクト７は動かない。

　一方、ユーザ１が、図１１に示す状態から視線を左に動かし、図１２及び図１３に示すように、実オブジェクト８０を視野の中央に移動させたとする。その間カメラベース推定位置が算出され、その信頼度は増加していく。従って、図８に示すステップ１０６にて、実オブジェクト８０の最終推定位置Ｐ２が更新され、実際の位置Ｐ１に近づいていく。

　ＡＲ表現制御部５５は、ユーザ１の視線の動きに基づいて、仮想オブジェクト７の表示位置を変更する。この結果、図１１～図１３に示すように、ユーザ１が視線を動かしている間に、仮想オブジェクト７が実オブジェクト８０の中央に移動する。

　ユーザ１が視線を動かすことなく、静止した状態で仮想オブジェクト７を見ている状態で、仮想オブジェクト７の表示位置が更新されると、仮想オブジェクト７が動いているのか位置修正が行われているのかわからず、ユーザ１に不自然さを感じさせてしまう可能性がある。

　従って図１０に例示するように、ユーザ１の移動及び視線移動がない場合には、最終推定位置Ｐ２が変更されたとしても、仮想オブジェクト７の表示位置は移動させない。そして、ユーザ１の移動又は視線移動がある場合に、仮想オブジェクト７の表示位置を変更させる。ユーザ１が動いている又は視線移動している場合には、仮想オブジェクト７が若干動いたとしても不自然さを感じにくい。従って、図１１～図１３に示すように、仮想オブジェクト７を自然に移動させることが可能となる。

　以上、本実施形態に係るＡＲ提供システム１００では、撮影画像に基づいて算出された実オブジェクト８０のカメラベース推定位置と、実空間に出力されるビーコン信号５に基づいて算出された実オブジェクト８０の電波ベース推定位置とに基づいて、実オブジェクト８０に関連する仮想コンテンツの表現に用いられる基準位置として、最終推定位置Ｐ２が算出される。これにより、高品質な仮想体験を提供することが可能となる。

　ＡＲにおいては、実オブジェクトに対して、テキスト、アイコン、またはアニメーション等の様々な態様の仮想的なコンテンツ（仮想オブジェクト）を重畳してユーザに提示することが可能となる。実オブジェクトに仮想オブジェクトを重畳させる場合にはぴったり重畳させなければ不自然なってしまうため、位置特定の精度が必要となる。

　一方、ＡＲに関しては視覚だけではなく、聴覚を使ってＡＲを表現する方法もある。視野外のＡＲオブジェクトが音を発することによって、そちらの方向に実オブジェクトが存在するということを示すといった利用も考えられる。また、視野外の音に対しては視野内に実オブジェクトが存在するときに比べて位置精度はそこまで必要はない場合が多い。

　例えば、画像認識を使った位置推定では、一度視野に入れて実オブジェクトの位置を測定する必要がある。従って音がする方向を向かせたいといった場合に、予めその方向を視野に入れて貰うというのは不自然さがあり、音のＡＲを考えた場合には画像認識以外の方法が必要となる。

　本実施形態にかかるＡＲ提供システム１００では、以下の効果が発揮可能である。
　視野外の実オブジェクト８０の位置測定では、電波等の出力波を利用することにより、視野外の実オブジェクト８０に対しても位置を特定することができる。
　視野内の位置測定には電波等の出力波を用いた位置測定よりも精度が高い画像認識を使うことによって、高精度の位置測定が可能となる。
　電波ベース推定位置及びカメラベース推定位置の両方を算出可能であるので、状況によって最適な位置測定の方法を、適宜切り替えることが可能となる。
　電波ベースの位置認識からカメラベースへの位置認識の遷移の際には、お互いの信頼度を使うことにより、実オブジェクト８０の位置を徐々に切り替えることが可能となり、不自然さを軽減させるができる。
　アプリケーション内にて、実オブジェクト８０の位置を特定して記憶しておく必要がないので、負荷の軽減を図ることが可能である。
　実オブジェクトの位置を特定するための、絶対位置がわかる他の機器等を配置する必要がなくなり、コストの軽減を図ることが可能である。
　カメラベースの位置認識を実行せずとも、実オブジェクト８０の位置を算出可能であり、ＡＲ音を出力することが可能となる。
　画像認識が効かない状況でも、実オブジェクト８０の位置特定が可能である。
　電波ベースの位置認識の結果を利用することで、カメラベースの認識対象範囲（例えばマッチング処理を実行する対象となる画像の範囲）を絞ることができ、負荷の軽減や精度の向上、認識の高速化も可能である。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　図１４は、環境用認識ＤＢ作成部の構成例を示すブロック図である。図１５は、環境認識ＤＢ作成部の処理例を示すフローチャートである。

　例えば、図３に示すコントローラ５０により、図１４に示す環境用認識ＤＢ作成部９０が構成実現される。環境用認識ＤＢ作成部９０は、カメラベース位置推定部５３により用いられるモデル画像を新たに作成することが可能である。例えば、ＨＭＤ１０を屋外で利用する場合の環境変化に対応するために、その場、その時の状況の実オブジェクト８０を撮影することによって、屋外環境でも高い認識精度が発揮可能なモデル画像が作成される。

　例えば記憶部４０に、認識ＤＢ４２とは別に、環境用認識ＤＢが構築される。環境用認識ＤＢ作成部９０により作成されるモデル画像は、環境用認識ＤＢに格納される。環境用認識ＤＢは、様々な環境に対応可能なように随時更新される。もちろん、２つの認識ＤＢが区別されて構築される場合に限定される訳ではない。

　本実施形態において、環境用認識ＤＢ作成部９０は、撮影画像に基づいてモデル画像を生成するモデル画像生成部に相当する。以下、環境用認識ＤＢ作成部９０により作成されるモデル画像を、環境用モデル画像と記載する場合がある。

　典型的には、環境用モデル画像は、電波ベース推定位置は視野内であるが、撮影画像から実オブジェクト８０が検出されず、カメラベース推定位置が算出できない場合に作成される。これにより、強烈な夕日に照らされている状態等の、実オブジェクト８０の検出が難しい環境においても、高精度に実オブジェクト８０が検出可能となる環境用モデル画像を作成することが可能となる。

　なお、撮影画像から実オブジェクト８０が検出可能であり、カメラベース推定位置が算出可能であるが、信頼度が極端に低い場合等に、環境用モデル画像の作成が実行されてもよい。

　図１５に示すように、ユーザ１の視野内に実オブジェクト８０が含まれているか否かが監視される（ステップ４０１）。例えば、電波ベース推定位置が視野内であるか否かが判定される。この際に、電波ベース推定位置の信頼度が判定に用いられてもよい。例えば電波ベース推定位置が視野内に含まれており、かつ電波ベース推定位置の信頼度が所定の閾値より大きい場合に、視野内に実オブジェクト８０が含まれていると判定されてもよい。

　視野内に実オブジェクト８０が含まれる場合（ステップ４０１のＹＥＳ）、視野を含む実空間が撮影され、撮影画像が生成される（ステップ４０２）。撮影画像は、環境用認識ＤＢ作成部９０の形状認識部９１に出力される。

　形状認識部９１は、撮影画像から、実オブジェクト８０の形状を抽出可能か否か判定する（ステップ４０３）。実オブジェクト８０の形状が抽出できない場合は（ステップ４０３のＮＯ）、ステップ４０２に戻り、再び実空間が撮影される。

　実オブジェクト８０の形状が抽出できる合は（ステップ４０３のＹＥＳ）、撮影画像から実オブジェクト８０の画像が抽出され、環境用モデル画像が生成される（ステップ４０４）。環境用モデル画像に、ＩＤや撮影環境の情報（天候や日時等）等が関連付けられ、環境用認識ＤＢ用のデータとして生成される（ステップ４０５）。生成された環境用認識ＤＢ用のデータは、環境用認識ＤＢに登録される（ステップ４０６）。

　環境用認識ＤＢを構築することで、予め実オブジェクト８０の認識ＤＢが準備されていない場合でも、本ＡＲ提供システム１００を動作させることが可能である。環境用認識ＤＢ作成部９０により作成される環境用モデル画像を用いて、カメラベース推定位置及び信頼度を算出することが可能である。

　また、実オブジェクト８０を、ビーコン信号５を出力可能な他の代替物へ置き換えることも可能である。代替物を使う場合、予め代替物のテンプレートを複数保持しており、環境用認識ＤＢでの環境用モデル画像に含まれる実オブジェクトの形状ともっとも近いテンプレートを利用する。また、テンプレート同士は予め対になる点が決められているが、ＳＤＫ（Software Development Kit）などで予め編集可能としてもよい。

　例えば、びっくり箱のように箱の真ん中から仮想オブジェクトが飛び出すといったＡＲ表現を実行したい場合は、箱の中心を知る必要がある。本技術においてはテンプレートと比較してイベント発火のポイントを変更可能でるので、代替物を使ったとしても実オブジェクトの中心からＡＲ表現のイベントを発火することが可能である。

　上記では、実オブジェクト８０により出力される出力波として、ビーコン信号を例に挙げた。これに限定されず、ＷｉＦｉ電波等の他の電波が出力波として用いられてもよい。例えば受信側にＷｉＦｉモジュール等を搭載しておけば、電波強度に基づいて、実オブジェクトまでの距離を算出することが可能である。また出力波として、音波等が用いられてもよい。例えば、受信側にマイク等を搭載することで、音波に基づいて、実オブジェクトまでの距離を算出することが可能である。またビーコン信号として、ＢＬＥビーコンとは異なるビーコン信号が用いられてもよい。

　出力波として音波が用いられる場合、音波に基づいて算出された実オブジェクトまでの距離に基づいて、マップデータ内における実オブジェクトの位置が推定される。この推定された実オブジェクトの位置は、音波ベース推定位置と言える。音波ベース推定位置は、出力波ベース推定位置に含まれる概念である。

　上記では、実オブジェクトが移動しない場合を例に挙げた。これに限定されず、実オブジェクトが移動する場合でも、本技術は適用可能である。例えばＨＭＤを使用するユーザが複数いれば、実オブジェクトから出力される出力波に基づいて、動いている実オブジェクトの位置を推定することが可能である。あるいは、マップデータ上の絶対位置が固定されて移動しない機器であり、サーバ装置と通信する機能と出力波を出力する機能とを有する装置を別途準備すれば、移動する実オブジェクトに対しても位置を推定することが可能である。

　図６に示すサーバ装置６０の機能が、ＨＭＤ１０に搭載されてもよい。この場合、ＨＭＤ１０は、他のＨＭＤ１０（他の装置）が出力波に基づいて算出した他のＨＭＤ１０から実オブジェクト（実物体）までの距離に関する情報を受信する。そして、受信した他のＨＭＤ１０から実オブジェクトかでの距離に関する情報に基づいて、実オブジェクトが存在する可能性のある候補範囲を算出することが可能となる。

　なお、他のＨＭＤ１０から実オブジェクトまでの距離に関する情報とは、例えば他のＨＭＤ１０から実オブジェクトまでの距離である。あるいは、他のＨＭＤ１０が算出した候補範囲の情報が、他のＨＭＤ１０から実オブジェクトまでの距離に関する情報として用いられてもよい。

　上記では、空間Ｓ１のマップデータが事前に保持されている場合を例に挙げた。これに限定されず、リアルタイムでマップデータが更新・作成・取得されてもよい。

　ビデオシースルー型のＨＭＤが用いられる場合にも、本技術は適用可能である。またユーザの頭部に装着されるＨＭＤ等のデバイスに限定されず、例えばスマートフォン、タブレット端末、及びＰＣ（Personal Computer）等を用いたＡＲ表現にも、本技術は適用可能である。

　上記では、本技術に係る情報処理装置の一実施形態として、ＨＭＤを例に挙げた。しかしながら、ＨＭＤとは別に構成され、有線又は無線を介してＨＭＤに接続される任意のコンピュータにより、本技術に係る情報処理装置が実現されてもよい。例えばクラウドサーバにより、本技術に係る情報処理方法が実行されてもよい。あるいはＨＭＤと他のコンピュータとが連動して、本技術に係る情報処理方法が実行されてもよい。

　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。

　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばカメラベース推定位置及び信頼度の算出、非カメラベース推定位置及び信頼度の算出、仮想コンテンツの表現の制御等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。

　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明した情報処理装置（ＨＭＤ）、サーバ装置、実オブジェクト、仮想オブジェクト、情報処理装置の各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得する第１の取得部と、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得する第２の取得部と、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する決定部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記決定部は、前記基準位置として、前記実物体の最終推定位置を決定する
　情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
　前記出力波は、電波、及び音波の少なくとも１つを含む
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の取得部は、前記カメラベース推定位置に関連する第１の信頼度を取得し、
　前記第２の取得部は、前記出力波ベース推定位置に関連する第２の信頼度を取得し、
　前記決定部は、前記第１の信頼度及び前記第２の信頼度に基づいて、前記基準位置を決定する
　情報処理装置。
（５）（４）に記載の情報処理装置であって、
　前記決定部は、前記第１の信頼度が所定の閾値より大きい場合、前記カメラベース推定位置を前記基準位置として決定する
　情報処理装置。
（６）（１）から（５）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記基準位置に基づいて、前記仮想コンテンツの表現を制御する表現制御部を具備する
を具備する
　情報処理装置。
（７）（６）に記載の情報処理装置であって、
　前記表現制御部は、前記実物体に関連する仮想物体の表示を制御する
　情報処理装置。
（８）（７）に記載の情報処理装置であって、
　前記表現制御部は、前記仮想物体の表示位置を制御する
　情報処理装置。
（９）（８）に記載の情報処理装置であって、
　前記表現制御部は、ユーザの移動又はユーザの視線の移動が検出されたことに基づき、ユーザが移動している間、又はユーザの視線が移動している間に、前記仮想物体の表示位置を変更する
　情報処理装置。
（１０）（６）から（９）のうちいずれか１つに記載の情報処理装置であって、
　前記表現制御部は、前記実物体に関連する仮想的な音源からの音声の出力を制御する
　情報処理装置。
（１１）（１０）に記載の情報処理装置であって、
　前記表現制御部は、前記仮想的な音源の位置を制御する
　情報処理装置。
（１２）（１）から（１１）のうちいずれか１つに記載の情報処理装置であって、さらに、
　前記撮影画像に基づいて前記カメラベース推定位置を推定する第１の推定部と、
　前記出力波に基づいて前記出力波ベース推定位置を推定する第２の推定部と
　を具備する情報処理装置。
（１３）（１２）に記載の情報処理装置であって、
　前記第１の推定部は、前記撮影画像に対する前記実物体のモデル画像のマッチング処理の結果に基づいて、前記第１の信頼度を算出する
　情報処理装置。
（１４）（１２）又は（１３）に記載の情報処理装置であって、
　前記第２の推定部は、前記出力波に基づいて前記実物体までの距離を算出し、算出された前記距離に基づいて前記実物体が存在する可能性のある候補範囲を算出し、算出された前記候補範囲に含まれる位置を前記出力波ベース推定位置として推定する
　情報処理装置。
（１５）（１４）に記載の情報処理装置であって、
　前記第２の推定部は、算出された前記候補範囲の大きさに基づいて、前記第２の信頼度を算出する
　情報処理装置。
（１６）（１３）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記第２の推定部は、他の装置が前記出力波に基づいて算出した前記他の装置から前記実物体までの距離に関する情報を受信し、受信した前記他の装置から前記実物体までの距離に関する情報に基づいて、前記候補範囲を算出する
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　ＨＭＤ（Head Mounted Display）として構成されている
　情報処理装置。
（１８）（１３）に記載の情報処理装置であって、さらに、
　前記撮影画像に基づいて前記モデル画像を生成するモデル画像生成部を具備する
　情報処理装置。
（１９）実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得し、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得し、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する
　ことをコンピュータシステムが実行する情報処理方法。
（２０）実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得するステップと、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得するステップと、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定するステップと
　をコンピュータシステムに実行させるプログラム。

　Ｐ２…最終推定位置
　１…ユーザ
　５…ビーコン信号
　７…仮想オブジェク
　１０…ＨＭＤ
　１３…透過型ディスプレイ
　１５…外向きカメラ
　２０…スピーカー
　４２…認識ＤＢ
　５０…コントローラ
　５１…自己位置推定部
　５２…実オブジェクト距離推定部
　５３…カメラベース位置推定部
　５４…実オブジェクト位置推定部
　５５…ＡＲ表現制御部
　５８…信頼度判定部
　６０…サーバ装置
　６１…電波ベース位置推定部
　６２…信頼度判定部
　８０…実オブジェクト
　８１…ＢＬＥビーコン出力部
　９０…環境用認識ＤＢ作成部
　１００…ＡＲ提供システム

Claims

　実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得する第１の取得部と、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得する第２の取得部と、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する決定部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記決定部は、前記基準位置として、前記実物体の最終推定位置を決定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記出力波は、電波、及び音波の少なくとも１つを含む
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の取得部は、前記カメラベース推定位置に関連する第１の信頼度を取得し、
　前記第２の取得部は、前記出力波ベース推定位置に関連する第２の信頼度を取得し、
　前記決定部は、前記第１の信頼度及び前記第２の信頼度に基づいて、前記基準位置を決定する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記決定部は、前記第１の信頼度が所定の閾値より大きい場合、前記カメラベース推定位置を前記基準位置として決定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　前記基準位置に基づいて、前記仮想コンテンツの表現を制御する表現制御部を具備する
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記表現制御部は、前記実物体に関連する仮想物体の表示を制御する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記表現制御部は、前記仮想物体の表示位置を制御する
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記表現制御部は、ユーザの移動又はユーザの視線の移動が検出されたことに基づき、ユーザが移動している間、又はユーザの視線が移動している間に、前記仮想物体の表示位置を変更する
　情報処理装置。
　請求項６に記載の情報処理装置であって、
　前記表現制御部は、前記実物体に関連する仮想的な音源からの音声の出力を制御する
　情報処理装置。
　請求項１０に記載の情報処理装置であって、
　前記表現制御部は、前記仮想的な音源の位置を制御する
　情報処理装置。
　請求項１に記載の情報処理装置であって、さらに、
　前記撮影画像に基づいて前記カメラベース推定位置を推定する第１の推定部と、
　前記出力波に基づいて前記出力波ベース推定位置を推定する第２の推定部と
　を具備する情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記第１の推定部は、前記撮影画像に対する前記実物体のモデル画像のマッチング処理の結果に基づいて、前記第１の信頼度を算出する
　情報処理装置。
　請求項１２に記載の情報処理装置であって、
　前記第２の推定部は、前記出力波に基づいて前記実物体までの距離を算出し、算出された前記距離に基づいて前記実物体が存在する可能性のある候補範囲を算出し、算出された前記候補範囲に含まれる位置を前記出力波ベース推定位置として推定する
　情報処理装置。
　請求項１４に記載の情報処理装置であって、
　前記第２の推定部は、前記候補範囲の大きさに基づいて、前記第２の信頼度を算出する
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記第２の推定部は、他の装置が前記出力波に基づいて算出した前記他の装置から前記実物体までの距離に関する情報を受信し、受信した前記他の装置から前記実物体までの距離に関する情報に基づいて、前記候補範囲を算出する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　ＨＭＤ（Head Mounted Display）として構成されている
　情報処理装置。
　請求項１３に記載の情報処理装置であって、さらに、
　前記撮影画像に基づいて前記モデル画像を生成するモデル画像生成部を具備する
　情報処理装置。
　実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得し、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得し、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定する
　ことをコンピュータシステムが実行する情報処理方法。
　実物体が存在する実空間の撮影画像に基づいて決定された前記実物体の位置を示すカメラベース推定位置を取得するステップと、
　前記実物体に対応した位置から前記実空間に出力される出力波に基づいて決定された前記実物体の位置を示す出力波ベース推定位置を取得するステップと、
　前記カメラベース推定位置及び前記出力波ベース推定位置に基づいて、前記実物体に関連する仮想コンテンツの表現に用いられる基準位置を決定するステップと
　をコンピュータシステムに実行させるプログラム。