WO2020095551A1

WO2020095551A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2020095551A1
Application number: PCT/JP2019/036948
Authority: WO
Inventors: 伊藤　智行
Original assignee: ソニー株式会社
Priority date: 2018-11-09
Filing date: 2019-09-20
Publication date: 2020-05-14

Abstract

本技術の情報処理装置は、制御部を有する。上記制御部は、表示制御部と、認識処理部と、自己位置推定部とを有する。上記表示制御部は、認識対象を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とが表示部に表示されるように制御する。上記認識処理部は、上記認識領域内の上記認識対象を認識する認識処理を実行する。上記自己位置推定部は、上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定する。

Description

情報処理装置、情報処理方法及びプログラム

　本技術は、情報処理装置、情報処理方法及びプログラムに関する。詳しくは、ユーザに画像を提示してユーザの自己位置推定を容易にする技術に関する。

　アイウェアや携帯端末等のユーザに装着又は携帯される機器においては、例えばユーザが激しく動くことによってセンサの処理可能な許容範囲を超えることにより、ユーザの自己位置がわからなくなってしまう場合がある。そこで、例えば特許文献１では、カメラにより撮像された画像からランドマークの特徴点を抽出し、パターンマッチングを行うことによってユーザの自己位置を推定する技術が記載されている。

特開２００７－１５０６８１号公報

　しかしながら、特許文献１に記載の技術では、ユーザが予め決められたランドマークを見つけなければならず、ユーザの現在おかれている状況によってはランドマークを探索するのが困難な場合がある。また、ランドマークを認識する領域が大きい場合には、処理負荷が大きくなってしまうおそれがある。

　本技術は以上のような事情に鑑み、例えば、低負荷で容易にユーザの自己位置を推定可能な情報処理装置、情報処理方法及びプログラムを提供する。

　上記課題を解決するため、本技術の一形態に係る情報処理装置は、制御部を有する。
　上記制御部は、表示制御部と、認識処理部と、自己位置推定部とを有する。
　上記表示制御部は、認識対象を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とが表示部に表示されるように制御する。
　上記認識処理部は、上記認識領域内の上記認識対象を認識する認識処理を実行する。
　上記自己位置推定部は、上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定する。

　上記構成によれば、認識処理部は、表示部に表示された表示領域全体を認識するものではなく認識領域が限定されているため、処理負荷の低減が図られる。ここで、「自己位置」とは情報処理装置（ユーザ）の位置及び視野方向（ユーザが向いている方向）を含めたものであり、「自己位置推定」とは情報処理装置（ユーザ）の位置と視野方向の両方を推定することを意味する。

　上記自己位置推定部は、上記認識処理部により認識された認識対象の画像データと当該認識対象の位置情報とが対応づけられたマップを構築してもよい。

　上記自己位置推定部は、上記マップの所定の領域内において同一の認識対象が複数存在する場合に、上記複数の認識対象のうち一部の認識対象の画像データを削除してもよい。

　上記認識処理部は、認識対象の特徴量を算出し、上記特徴量と当該認識対象の予め登録された特徴量との誤差が所定の閾値以下である場合に、認識対象を認識してもよい。

　上記認識処理部は、上記認識処理として、認識対象の特徴量を算出し、
　上記自己位置推定部は、当該算出された特徴量と、前記認識された認識対象の特徴量との誤差が所定の閾値以下である場合に、上記情報処理装置の自己位置を推定してもよい。

　上記認識処理部は、上記特徴量として、認識対象の２次元特徴量又は３次元特徴量を算出してもよい。

　上記表示制御部は、上記情報処理装置の状況に応じて、上記表示部に表示される上記認識対象画像を決定してもよい。

　上記表示制御部は、上記情報処理装置の現在位置と上記マップとに基づいて、上記表示部に表示される上記認識対象画像の候補を複数選択してもよい。

　上記表示制御部は、上記マップにおける認識対象の位置情報と、当該認識対象の画像データと、上記情報処理装置の状況とに基づいて、上記選択された複数の認識対象画像各々に対して、表示の優先順位を設定してもよい。

　上記表示制御部は、上記優先順位に基づき、上記表示部に表示される認識対象画像を決定してもよい。

　上記表示制御部は、上記情報処理装置の状況に応じて、上記表示部に表示される上記ガイド画像の表示位置を制御してもよい。

　上記表示制御部は、上記優先順位に基づき、上記表示部に表示される上記ガイド画像の表示位置を決定してもよい。

　上記表示制御部は、認識対象に対する上記認識処理部の認識位置と、当該認識対象に対するユーザの認識位置とのズレを補正してもよい。

　上記表示制御部は、上記表示部に表示されるガイド画像の表示位置と、上記認識領域とを対応づけてもよい。

　上記表示制御部は、上記表示部を介して上記ユーザに提示されるガイド画像の表示位置に基づいて上記認識領域を計算し、上記計算結果から上記認識領域を決定してもよい。

　上記課題を解決するため、本技術の一形態に係る情報処理方法は、
　情報処理装置が、
　認識領域を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とを表示部に表示する。
　上記認識領域内の上記認識対象を認識する認識処理を実行する。
　上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定する。

　上記課題を解決するため、本技術の一形態に係るプログラムは、情報処理装置に以下のステップを実行させる。
　認識領域を示す認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像を表示部に表示するステップ。
　上記認識領域内の上記認識対象を認識する認識処理を実行するステップ。
　上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定するステップ。

本実施形態に係る自己位置推定システムの構成例を示すブロック図である。情報処理装置のハードウェア構成例を示すブロック図である。任意の認識対象に対するアイウェアとユーザの認識位置が異なることを示す模式図である。カメラの画像とユーザに提示された表示画面とを併記して示す図である。環境マップを構築する過程を示すフローチャートである。ユーザの自己位置を推定するまでの過程を示すフローチャートである。認識対象画像およびガイド画像が表示された表示画面の一例を示す図であるカメラが歪み補正される前と後の画像を示す図である。

　以下、図面を参照しながら、本技術の実施形態を説明する。説明は、以下の順序で行うものとする。

　１．全体的な構成
　　１－１．自己位置推定システムのハードウェア構成
　　１－２．情報処理装置の構成
　　　（１－２－１．情報処理装置のハードウェア構成）
　　　（１－２－２．情報処理装置の機能構成）
　２．情報処理方法
　　２－１．環境マップの構築
　　２－２．自己位置推定
　３．作用・効果
　４．変形例
　５．補足

　１．）全体的な構成

　本実施形態に係る自己位置推定システムは、ユーザが自己位置を喪失した場合に、ユーザに対して特徴のある画像を提示し、この画像をユーザに探索してもらうことによってユーザの自己位置を復帰させるシステムである。以下、本技術の自己位置推定システムをＡＲ（Augmented Reality）アイウェアに適用した実施形態について説明する。

　１－１．）自己位置推定システムのハードウェア構成

　図１は本実施形態に係る自己位置推定システム１００の構成例を示すブロック図である。自己位置推定システム１００は、図１に示すように、センサーユニット部１０と、情報処理装置２０と、透過型ディスプレイ３０とを有する。

　［センサーユニット］
　センサーユニット部１０は、図１に示すように、カメラ１１と、ＧＰＳ（Global Positioning System）１２と、ＩＭＵ（inertial measurement unit）１３とを有する。

　カメラ１１は、例えばＣＣＤ（Charge Couple Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等のイメージセンサを備えたデジタルカメラあるいはビデオカメラである。カメラ１１は、例えば、所定のフレームレートで撮像された画像を生成可能に構成され、画像データを情報処理装置２０（自己位置推定部２１１及び認識処理部２１２）に出力する。

　また、カメラ１１は、バリフォーカルレンズやズームレンズ等の光学レンズを有し、画角を変更可能に構成されてもよい。本実施形態の自己位置推定システム１００は、カメラ１１に代えて、またはこれとともに、レーザースキャナーやＬＩＤＥＲ等のセンサを有する構成であってもよい。

　ＧＰＳ１２は、アイウェアを装着したユーザの位置を経度、緯度、高度の３次元により測定し、当該ユーザの現在位置に関する位置情報を取得する。ＧＰＳ１２は、取得したユーザの現在位置に関する情報を情報処理装置２０（自己位置推定部２１１）に出力する。

　ＩＭＵ１３は、ジャイロセンサ、加速度センサ、磁気センサ及び圧力センサ等が複数軸で組み合わされた慣性計測装置である。ＩＭＵ１３は、アイウェアの加速度及び角速度を検出可能に構成され、これらのセンサデータを情報処理装置２０に出力する。情報処理装置２０は、取得したセンサデータ（アイウェアの角速度及び加速度等）に基づいて、アイウェアの姿勢、移動速度及び移動距離等を算出する。

　［透過型ディスプレイ］
　透過型ディスプレイ３０は、ディスプレイ上に情報を表示しつつ、そのディスプレイの向こう側が透けて見えるように構成されたディスプレイである。透過型ディスプレイ３０は、例えばＬＣＤ（Liquid Crystal Display）または有機ＥＬ（Electro-Luminescence）ディスプレイなどの表示装置であり、カメラ１１からの画像データに基づいたライブビュー表示や、表示制御部２１３の制御によって認識対象画像Ｉとガイド画像Ｇとを表示する（図７参照）。透過型ディスプレイ３０は、特許請求の範囲の「表示部」の一例である。

　［情報処理装置］
　情報処理装置２０は、センサーユニット部１０から取得したセンサデータに基づいて自己位置推定処理、認識処理及び表示制御を実行し、アイウェアを装着したユーザに対して違和感が無いように仮想的な重畳物を透過型ディスプレイ３０に表示させる。以下、情報処理装置２０の構成について説明する。

　１－２．）情報処理装置の構成

　１－２－１．）情報処理装置のハードウェア構成

　図２は、情報処理装置２０のハードウェア構成例を示すブロック図である。情報処理装置２０は、制御部２１（ＣＰＵ（Central Processing Unit））、ＲＯＭ（Read Only Memory）２０２及びＲＡＭ（Random Access Memory）２０３を有する。ＣＰＵは、特許請求の範囲の「制御部」の一例である。

　また、情報処理装置２０は、ホストバス２０４、ブリッジ２０５、外部バス２０６、Ｉ／Ｆ部２０７、入力装置２０８、出力装置２０９、ストレージ装置２１０、ドライブ２１６、接続ポート２１４、通信装置２１５を有する構成であってもよい。

　さらに、情報処理装置２０は、制御部２１（ＣＰＵ）に代えて、またはこれとともに、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＦＰＧＡ（Field-Programmable Gate Array）などの処理回路を有してもよい。

　制御部２１（ＣＰＵ）は、演算処理装置および制御装置として機能し、ＲＯＭ２０２、ＲＡＭ２０３、ストレージ装置２１０、またはリムーバブル記録媒体４０に記録された各種プログラムに従って、情報処理装置２０内の動作全般またはその一部を制御する。

　ＲＯＭ２０２は、制御部２１（ＣＰＵ）が使用するプログラムや演算パラメータなどを記憶する。ＲＡＭ２０３は、制御部２１（ＣＰＵ）の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一次記憶する。制御部２１（ＣＰＵ）、ＲＯＭ２０２、およびＲＡＭ２０３は、ＣＰＵバスなどの内部バスにより構成されるホストバス２０４により相互に接続されている。さらに、ホストバス２０４は、ブリッジ２０５を介して、ＰＣＩ（Peripheral Component Interconnect/Interface）バスなどの外部バス２０６に接続されている。

　入力装置２０８は、例えば、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置２０８は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、情報処理装置２０の操作に対応した外部接続機器であってもよい。入力装置２０８は、ユーザが入力した情報に基づいて入力信号を生成して制御部２１（ＣＰＵ）に出力する入力制御回路を含む。ユーザは、この入力装置２０８を操作することによって、情報処理装置２０に対して各種のデータを入力したり処理動作を指示したりする。

　出力装置２０９は、取得した情報をユーザに対して視覚や聴覚、触覚などの感覚を用いて通知することが可能な装置で構成される。出力装置２０９は、例えば、スピーカーまたはヘッドフォンなどの音声出力装置、もしくはバイブレータなどでありうる。出力装置２０９は、情報処理装置２０の処理により得られた結果を、テキストもしくは画像などの映像、音声もしくは音響などの音声、またはバイブレーションなどとして出力してもよい。

　ストレージ装置２１０は、情報処理装置２０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２１０は、例えば、ＨＤＤ（Hard Disk Drive）などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。ストレージ装置２１０は、例えば制御部２１（ＣＰＵ）が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。また、ストレージ装置２１０は、クラウドストレージであってもよい。

　ドライブ２１６は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体４０のためのリーダライタであり、情報処理装置２０に内蔵、あるいは外付けされる。ドライブ２１６は、装着されているリムーバブル記録媒体４０に記録されている情報を読み出して、ＲＡＭ２０３に出力する。また、ドライブ２１６は、装着されているリムーバブル記録媒体４０に記録を書き込む。

　接続ポート２１４は、機器を情報処理装置２０に接続するためのポートである。接続ポート２１４は、例えば、ＵＳＢ（Universal Serial Bus）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Small Computer System Interface）ポートなどでありうる。また、接続ポート２１４は、ＲＳ－２３２Ｃポート、光オーディオ端子、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートなどであってもよい。接続ポート２１４に外部接続機器５０を接続することで、外部接続機器５０から情報処理装置２０に各種データが出力される。

　通信装置２１５は、例えば、ネットワークＮに接続するための通信デバイスなどで構成された通信インターフェースである。通信装置２１５は、例えば、ＬＡＮ（Local Area Network）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ、またはＷＵＳＢ（Wireless USB）用の通信カードなどでありうる。

　また、通信装置２１５は、光通信用のルータ、ＡＤＳＬ（Asymmetric Digital Subscriber Line）用のルータ、または、各種通信用のモデムなどであってもよい。通信装置２１５は、例えば、インターネットや他の通信機器との間で、ＴＣＰ／ＩＰなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置２１５に接続されるネットワークＮは、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内ＬＡＮ、赤外線通信、ラジオ波通信または衛星通信などを含みうる。

　１－２－２．）情報処理装置の機能構成

　情報処理装置２０（制御部２１）は、機能的に、表示制御部２１３と、認識処理部２１２と、自己位置推定部２１１とを有する。

　表示制御部２１３は、自己位置推定部２１１及び認識処理部２１２からの出力に基づいて、透過型ディスプレイ３０に表示される画像の表示を制御する。具体的には、表示制御部２１３は、例えば画像認識の対象である認識対象を含む認識対象画像Ｉと、認識対象を画像認識するための認識領域を示すガイド画像Ｇとを透過型ディスプレイ３０に表示させ（図７参照）、認識対象画像Ｉ及びガイド画像Ｇの表示位置を制御する。

　図３は任意の認識対象に対する認識処理部２１２とユーザの認識位置が異なることを示す模式図であり、図４はカメラ１１の画像とユーザに提示された表示画面とを併記して示す図である。ここで、一般的にＡＲアイウェアにおいては、アイウェアとユーザが同じ認識対象を認識する場合、認識対象に対する認識処理部２１２の認識位置とユーザの認識位置とにズレが生じる場合がある（図４参照）。即ち、透過型ディスプレイ３０に表示されるガイド画像Ｇの表示位置と認識処理部２１２が認識対象を認識する認識位置（認識領域Ｇ１）とにズレが生じる場合がある。このようなズレが生じてしまうと、例えば、ユーザ所望の位置ではない位置に仮想的な重畳物が重畳された画像がユーザに提示されてしまう場合がある。

　そこで、本実施形態の表示制御部２１３は、透過型ディスプレイ３０に表示されるガイド画像Ｇの表示位置と、認識領域Ｇ１とを対応づける処理を行う。具体的には、透過型ディスプレイ３０に表示されたガイド画像Ｇ１の表示位置に基づいて、この表示位置が認識処理部２１２にとってどの認識位置に相当するのかを計算する。そして、表示制御部２１３は、この計算結果に基づいて、認識領域Ｇ１を決定する。このような計算は、例えば、カメラ１１の画角、透過型ディスプレイ３０に対するカメラ１１の相対位置及び透過型ディスプレイ３０に対するアイウェアを装着したユーザの眼の相対位置に基づき計算される。

　認識処理部２１２はカメラ１１で撮像した画像中に含まれる認識対象を画像認識する認識処理を実行し、自己位置推定部２１１に認識対象の位置情報等を出力する。また、認識処理部２１２は、仮想的な重畳物を透過型ディスプレイ３０に表示させる上での表示位置に関する情報を表示制御部２１３に出力する。

　自己位置推定部２１１は、ＳＬＡＭ（simultaneous localization and mapping）によって、センサーユニット部１０から出力された各種センサデータに基づき、アイウェアを装着したユーザの自己位置推定と環境マップを構築する。

　具体的には、自己位置推定部２１１は、ＧＰＳ１２の出力に基づいてアイウェアを装着したユーザの大まかな位置情報を取得する。自己位置推定部２１１は、認識処理部２１２による認識処理の結果に基づき環境マップを構築し、この環境マップとセンサーユニット部１０による観測結果とのマッチングによってアイウェアを装着したユーザの自己位置を推定する。なお、この「自己位置」とはユーザの位置及び視野方向（ユーザが向いている方向）を含めたものであり、「自己位置推定」とはユーザの位置と視野方向の両方を推定することを意味する点で以下の説明においても同様である。ここで、ユーザの位置は、情報処理装置２０の位置に相当する。また環境マップは特許請求の範囲の「マップ」の一例である。

　２．）情報処理方法

　図５及び図６は情報処理装置２０の典型的な処理の流れを示すフローチャートである。ここで、図５は環境マップを構築する過程を示すフローチャートであり、図６はユーザの自己位置を推定するまでの過程を示すフローチャートである。

　本実施形態の自己位置推定システム１００は、任意の環境内における幾何学形状等を既知のモデル（環境マップ）として記憶しておき、センサーユニット部１０による観測結果と当該環境マップとの相対関係から解析的に自己位置を推定する、所謂モデルベーストアプローチに基づきアイウェアを装着したユーザの自己位置を推定する。以下、環境マップの構築とユーザの自己位置推定について図３及び図４を適宜参照しながら詳細に説明する。

　２－１．）環境マップの構築

　先ず、ユーザの自己位置を推定する前の準備として、環境マップを作成する（ステップＳ１０１）。環境マップの形式はセンサーユニット部１０が備えるセンサの種類に応じて２Ｄ形成であってもよく、３Ｄ形成であってもよい。

　ここで、カメラ１１の視野範囲内に任意の認識対象が収められた場合、即ち、任意の認識対象が画像認識された場合（ステップＳ１０３のＹＥＳ）、この認識対象が撮像された画像データが認識処理部２１２に出力される。この認識対象とは、例えば、公園や道路脇に設置された案内板、標識、飲食店の看板、ランドマーク、オブジェ又は特定の場所に設置されたポスター等であるが、ステップＳ１０３の時点では、カメラ１１に撮像された認識対象がどのような物体であるのかまだ特定されていない。

　次に、認識処理部２１２は、カメラ１１から出力された画像データに基づいて、任意の認識対象の３次元特徴量を算出する（ステップＳ１０４）。３次元特徴量とは、例えば、ＳＨＯＴ（signature of histograms of orientations）により算出されたＳＨＯＴ特徴量である。このＳＨＯＴ特徴量は、任意の環境内に存在する認識対象の特徴点（例えばエッジ点）周辺の分割領域における周辺点群の法線ヒストグラムによって定義される。ＳＨＯＴ特徴量の詳細については、下記ウェブサイト１のＰ．９を参照されたい。

　３次元特徴量はＳＨＯＴ以外に、例えば、ＰＦＨ（point feature histogram）、ＣＳＨＯＴ（color signature of histograms of orientations）等の手法によって算出される。あるいは、３次元特徴量は、ＨＯＮＶ（histogram of oriented normal vector）、ＬＳＰ（local surface patches）、ＣＣＤｏＮ（combination of curvatures and difference of normals）、ＮＡＲＦ（normal aligned radial feature）、ＭＨＯＧ（mesh histograms of oriented gradients）、ＲｏＰＳ（rotational projection statistics）等の手法によって算出されてもよい。

　あるいは、３次元特徴量は、ＰＰＦ（point pair feature）、ＥＲ（efficient ransac）、ＶＣ－ＰＰＦ（visibility context point pair feature）、ＭＰＰＦ（multimodal point pair feature）、ＰＰＦＢ２ＢｏｒＳ２ＢｏｒＬ２Ｌ（point pair feature boundary-to-boundary or surface to boundary or line to line）またはＶＰＭ(vector pair matching）等の手法により算出されてもよい。

　なお、３次元特徴量を算出するための上記手法の詳細については、下記のウェブサイト１を参照されたい。
　１：（http://isl.sist.chukyo-u.ac.jp/Archives/ViEW2014SpecialTalk-Hashimoto.pdf）

　また、ステップＳ１０４において算出される特徴量として、例えば、２次元特徴量が算出されてもよい。この２次元特徴量とは、例えばＳＩＦＴ（scale invariant feature transform）により算出されたＳＩＦＴ特徴量である。ＳＩＦＴ特徴量は、２次元画像のスケール（大きさ、移動、回転）に依存しない特徴量であり、カメラ１１により撮像された２次元画像から検出された複数の特徴点毎に算出された１２８次元の特徴量ベクトルにより表現される。ＳＩＦＴ特徴量の詳細については、下記ウェブサイト２を参照されたい。
　２：（http://www.vision.cs.chubu.ac.jp/cvtutorial/PDF/02SIFTandMore.pdf）

　２次元特徴量は、例えば、カメラ１１により撮像された２次元画像を、ＳＩＦＴ、ＳＵＲＦ（speed-up robust features）、ＲＩＦＦ（rotation invariant fast feature）等の手法によって解析することで算出される。あるいは、ＢＲＥＩＦ（binary robust independent elementary features）、ＢＲＩＳＫ（binary robust invariant scalable keypoints）、ＯＲＢ（oriented FAST and rotated BRIEF）又はＣＡＲＤ（compact and real-time descriptors）等の手法によって算出されてもよい。

　なお、２次元特徴量を算出するための上記手法の詳細については、下記のウェブサイト３を参照されたい。
　３：（https://www.jstage.jst.go.jp/article/jjspe/77/12/77_1109/_pdf）

　次に、認識処理部２１２は、先のステップＳ１０４において算出された特徴量と、既にストレージ装置２１０に記憶されている、認識済みの認識対象の特徴量とを比較する。具体的には、認識処理部２１２は、任意の認識対象をカメラ１１が撮像することにより得られた画像データに基づき算出された特徴量と、当該認識対象の予め登録（記憶）された特徴量との誤差（類似度）を算出し、この誤差が所定の閾値以下であるか否かを判定する。

　ここで、誤差が所定の閾値以下である場合（ステップＳ１０５のＹＥＳ）、認識処理部２１２は、ステップＳ１０３においてカメラ１１により撮像された認識対象が、誤差を算出する際に参照された既に認識済みの認識対象であると判定する。即ち、ステップＳ１１３においてカメラ１１により撮像された認識対象がどのような物体であるのかが特定（認識）される。

　そして、認識処理部２１２は、どのような物体であるのか特定された認識対象の位置情報を算出し、この位置情報と当該認識対象の画像データとを紐づける（ステップＳ１０６）。位置情報と画像データとが紐づけられた情報はストレージ装置２１０に記憶される。ここで、位置情報とは、例えば特定された認識対象に対するユーザの相対位置や当該認識対象の座標位置等である。

　本実施形態では、アイウェアを装着したユーザが所望エリア内の全てを歩行するまで、即ち、任意の環境内のすべて認識対象を画像認識するまで、制御部２１はステップＳ１０１～ステップＳ１０６を繰り返し実行する。ここで、自己位置推定部２１１は、ステップＳ１０１～ステップＳ１０６が繰り返される過程で得られた認識済みの認識対象の位置情報、画像データ及び特徴量を統合することによって、アイウェアを装着したユーザの歩行に伴い環境マップを逐次連続的に構築する。このように構築された環境マップに関する情報は、ストレージ装置２１０に記憶される。

　次に、環境マップの構築が完了した場合（Ｓ１０２のＹＥＳ）、自己位置推定部２１１は、環境マップの後処理を実行する（ステップＳ１０７）。具体的には、自己位置推定部２１１は、環境マップの所定のエリア内において同一の識別済みの認識対象が複数存在する場合（ステップＳ１０８のＹＥＳ）、当該複数の認識対象のうち一部の認識対象の画像データを削除する（ステップＳ１０９）。この場合、典型的には、所定のエリア内における複数の同じ認識対象のうち１つの認識対象の画像データのみが残される。

　２－２．）自己位置推定

　次に、例えばアイウェアの電源起動時等においてユーザが自己位置を喪失した場合の自己位置推定について説明する。

　先ず、ＧＰＳ１２によりアイウェアを装着したユーザの大よその現在位置がセンシングされる（ステップＳ２０１）。ここで、当該ユーザの自己位置が捕捉された場合（ステップＳ２０２のＹＥＳ）、自己位置推定部２１１は、ストレージ装置２１０に保存されている環境マップに関する情報を読み出し（ステップＳ２０３）、この情報とＧＰＳ１２から取得したセンサデータを表示制御部２１３に出力する。

　表示制御部２１３は、ユーザの位置情報（現在位置）と環境マップに関する情報とに基づいて、透過型ディスプレイ３０に表示させる認識対象画像Ｉの候補を複数選択する。具体的には、環境マップに登録された複数の認識対象の中から、ユーザの大よその現在位置からユーザが目視により確認可能な認識対象を複数選択する。この場合、ＧＰＳ１２の検出誤差（ＧＰＳの種類に応じた検出誤差）も考慮して、例えばユーザの現在位置から半径５０ｍ以内の認識対象のみが選択される。

　次いで、表示制御部２１３は、先に選択された複数の認識対象各々の位置情報及び画像データとユーザの状況とに基づいて、当該選択された複数の認識対象（認識対象画像Ｉ）各々に対して透過型ディスプレイ３０に表示される上での優先順位を設定する。この際、ユーザの状況として、ユーザの周囲が非常に混雑している場合や遮蔽物が多い場合には、ユーザが目視により確認しやすい例えば１７０ｃｍ以上の認識対象の優先度が高くなる。なお、ユーザの周囲の混雑状況や遮蔽物の多さは、例えば、カメラ１１によりユーザの周囲が撮像されることにより生成された画像データに基づき判断される。あるいは、ネットワークＮを通じてユーザの現在地点における各時間帯の混雑具合が判断されてもよい。

　図７は、認識対象画像Ｉおよびガイド画像Ｇが表示された透過型ディスプレイ３０の表示画面の一例を示す図である。表示制御部２１３は、先に設定された優先順位に基づいて、透過型ディスプレイ３０に表示される認識対象（認識対象画像Ｉ）とガイド画像Ｇの表示位置を決定する（ステップＳ２０５）。この場合、例えば、透過型ディスプレイ３０の表示領域における上段部３０ａ、中段部３０ｂ及び下段部３０ｃの領域内の認識対象の優先度と周囲のカバー率から、ガイド画像Ｇを上段部３０ａ、中段部３０ｂ及び下段部３０ｃのどの領域に表示させるのかを決定する。
　本実施形態では、透過型ディスプレイ３０に表示される認識対象画像Ｉが多すぎることによってユーザが混乱するのを防ぐ観点から、例えば周囲６０°間隔で一番優先度が高い認識対象を含む認識対象画像Ｉが表示されるのが好ましい。

　次に、表示制御部２１３は、透過型ディスプレイ３０に表示されるガイド画像Ｇの表示位置と、認識領域Ｇ１とを対応づける処理を行う。具体的には、透過型ディスプレイ３０に表示されたガイド画像Ｇの表示位置に基づいて、この表示位置が認識処理部２１２にとってどの認識位置に相当するのかを計算する。そして、表示制御部２１２は、この計算結果に基づき認識処理部２１２の認識位置を補正する。

　次いで、ユーザは、透過型ディスプレイ３０に表示された認識対象画像Ｉを参照して、当該画像に含まれる認識対象と類似する認識対象を探索する。そして、ユーザは、この認識対象を発見した場合、この認識対象をガイド画像Ｇの認識領域Ｇ１内に収める。これにより、認識処理部２１２は、認識領域Ｇ１内の認識対象を画像認識する認識処理を実行する（ステップＳ２０６）。

　具体的には、認識処理部２１２は、認識領域Ｇ１内に収められた認識対象の特徴量を算出し、この特徴量に関する情報を自己位置推定部２１１に出力する。自己位置推定部２１１は、当該算出された特徴量に類似する特徴量を環境マップから抽出し、抽出された特徴量と認識処理部２１２により算出された特徴量との誤差（再投影誤差）を算出する。

　そして、自己位置推定部２１１は、この誤差が所定の閾値以下である場合に（ステップＳ２０７のＹＥＳ）、認識領域Ｇ１内の認識対象が環境マップに登録されたどの認識対象であるのかを特定する。これにより、自己位置推定部２１１は、環境マップに登録された認識対象の位置情報等に基づいて、アイウェアを装着したユーザの自己位置を推定する（ステップＳ２０８）。なお、本実施形態では、このようにして推定されたユーザの自己位置が透過型ディスプレイ３０を介してユーザに提示されてもよい。

　３．）作用・効果

　本実施形態では、ユーザの自己位置を推定する際に指標となる認識対象がユーザ自身によって探索され、情報処理装置２０はユーザが発見した認識対象と環境マップに登録された当該認識対象とのマッチングのみを実行する。これにより、ユーザの自己位置を推定する上での処理負荷が低減される。特に、本実施形態では、透過型ディスプレイ３０に表示された表示領域全体を認識するものではなく認識領域Ｇ１が限定されているため、より処理負荷が低減される。

　また、自己位置推定システム１００では、環境マップの所定のエリア内において同一の認識対象が複数存在する場合、当該複数の認識対象のうち一部の認識対象の画像データが削除される。これにより、先のステップＳ２０５において、同じ認識対象画像Ｉが透過型ディスプレイ３０に表示されることがなくなるため、ユーザが認識対象を探索する際の誤選択が抑制される。

　さらに、本実施形態の自己位置推定システム１００では、複数の認識対象各々の位置情報及び画像データのみならず、ユーザの現在おかれている状況をも考慮して、ユーザに提示される認識対象画像Ｉが決定される。これにより、ユーザが認識対象を探索しやすくなり、ユーザの自己位置を推定する上での容易性及び利便性が向上する。

　４．）変形例

　以上、本技術の実施形態について説明したが、本技術は上述の実施形態に限定されたものではなく種々変更を加え得ることは勿論である。

　上記実施形態では、環境マップを記憶しておき、センサによる観測結果と環境マップとの相対関係からユーザの自己位置を推定するモデルベーストアプローチが採用されるがこれに限られず、例えば、任意の環境内の複数の位置において、センサによる環境の観測結果を記憶しておき、それらと実際の観測結果と照合する、所謂メモリベーストアプローチによってユーザの自己位置が推定されてもよい。

　また、上記実施形態では、図７に示すように、ユーザに提示される認識対象画像Ｉの数が３つであるがこれに限られず、透過型ディスプレイ３０に表示される認識対象画像Ｉの数は３つ以上であってもよく３つ以下であってもよい。

　さらに、上記実施形態では、ユーザの周囲の混雑具合や遮蔽物の多さを考慮して優先順位が付けられるがこれに限られず、例えば、ユーザの行動履歴等からユーザにとって興味がある画像（ユーザがよく行く店の看板や、何かのイベントに参加中であればこのイベントのポスター等）の優先度を高くしてもよい。あるいは、ユーザのスケジュールを確認し、ユーザが何かのイベントに参加する予定がある場合には、そのイベントに関係する画像の優先度を高くしてもよい。

　加えて、上記実施形態では、ステップＳ１０３，Ｓ２０６において、カメラ１１の表面が球面であることに起因した歪みを補正する歪み補正が実行されてもよい（図８参照）。

　また、上記実施形態では、ユーザの状況に応じてガイド画像Ｇの画角が変更されてもよい。これにより、例えば、認識対象の特徴量が算出しやすい角度で認識対象を認識することによって認識精度が向上する。ここで、ガイド画像Ｇの画角が狭いことによって画像の解像度が低い場合には、例えば超解像技術によって画像を鮮明にすることによりカメラ１１の認識精度を向上させてもよい。

　さらに、ガイド画像Ｇは認識対象の形状に沿って、形が変更されてもよい。さらに、ガイド画像Ｇの認識領域Ｇ１内に認識対象が収まることによって、ガイド画像Ｇの色が変更されてもよく、透過型ディスプレイ３０にアニメーションが表示されてもよい。

　加えて、上記実施形態では、優先順位に基づいてユーザに提示される認識対象画像Ｉが複数選択されるがこれにかぎられず、例えば、１段階目にユーザの視野方向の候補を３つ挙げ、２段階目に認識対象画像Ｉを１つだけ提示する等、多段階にわたって認識対象画像Ｉがユーザに提示されてもよい。また、上記実施形態では、認識対象を大まかに認識してからユーザの自己位置を詳細に推定する等、多段階にわたってユーザの自己位置が推定されてもよい。

　５．）補足

　本技術の実施形態は、例えば、上記で説明したような情報処理装置、システム、情報処理装置またはシステムで実行される情報処理方法、情報処理装置を機能させるためのプログラム、およびプログラムが記録された一時的でない有形の媒体を含みうる。

　また、本実施形態の自己位置推定システム１００は、ヒト用のＡＲアイウェアに適用されることを前提として説明したがこれに限られない。例えば、本技術は人以外のロボット等の移動体に適用されてもよく、本技術の用途は特に限定されない。

　さらに、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　以上、添付図面を参照しながら本技術の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本技術の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本技術の技術的範囲に属するものと了解される。

　なお、本技術は以下のような構成もとることができる。
　（１）
　情報処理装置であって、
　　認識対象を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とが表示部に表示されるように制御する表示制御部と、
　　上記認識領域内の上記認識対象を認識する認識処理を実行する認識処理部と、
　　上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定する自己位置推定部と
　を有する制御部
　を具備する上記情報処理装置。
　（２）
　上記（１）に記載の情報処理装置であって、
　上記自己位置推定部は、上記認識処理部により認識された認識対象の画像データと当該認識対象の位置情報とが対応づけられたマップを構築する
　情報処理装置。
　（３）
　上記（２）に記載の情報処理装置であって、
　上記自己位置推定部は、上記マップの所定の領域内において同一の認識対象が複数存在する場合に、上記複数の認識対象のうち一部の認識対象の画像データを消去する
　情報処理装置。
　（４）
　上記（１）から（３）のいずれか１つに記載の情報処理装置であって、
　上記認識処理部は、認識対象の特徴量を算出し、上記特徴量と当該認識対象の予め登録された特徴量との誤差が所定の閾値以下である場合に、認識対象を認識する
　情報処理装置。
　（５）
　上記（１）から（４）のいずれか１つに記載の情報処理装置であって、
　上記認識処理部は、上記認識処理として、認識対象の特徴量を算出し、
　上記自己位置推定部は、当該算出された特徴量と、上記認識された認識対象の特徴量との誤差が所定の閾値以下である場合に、上記情報処理装置の自己位置を推定する
　情報処理装置。
　（６）
　上記（４）又は（５）に記載の情報処理装置であって、
　上記認識処理部は、上記特徴量として、認識対象の２次元特徴量又は３次元特徴量を算出する
　情報処理装置。
　（７）
　上記（２）から（６）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記情報処理装置の状況に応じて、上記表示部に表示される認識対象画像を決定する
　情報処理装置。
　（８）
　上記（２）から（７）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記情報処理装置の現在位置と上記マップとに基づいて、上記表示部に表示される認識対象画像の候補を複数選択する
　情報処理装置。
　（９）
　上記（２）から（８）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記マップにおける認識対象の位置情報と、当該認識対象の画像データと、上記情報処理装置の状況とに基づいて、上記選択された複数の認識対象画像各々に対して、表示の優先順位を設定する
　情報処理装置。
　（１０）
　上記（９）に記載の情報処理装置であって、
　上記表示制御部は、上記優先順位に基づき、上記表示部に表示される認識対象画像を決定する
　情報処理装置。
　（１１）
　上記（９）又は（１０）に記載の情報処理装置であって、
　上記表示制御部は、上記情報処理装置の状況に応じて、上記表示部に表示されるガイド画像の表示位置を制御する
　情報処理装置。
　（１２）
　上記（９）から（１１）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記優先順位に基づき、上記表示部に表示されるガイド画像の表示位置を制御する
　情報処理装置。
　（１３）
　上記（１）から（１２）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、認識対象に対する上記認識処理部の認識位置と、当該認識対象に対するユーザの認識位置とのズレを補正する
　情報処理装置。
　（１４）
　上記（１）から（１３）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記表示部に表示されるガイド画像の表示位置と、上記認識領域とを対応づける
　情報処理装置。
　（１５）
　上記（１）から（１４）のいずれか１つに記載の情報処理装置であって、
　上記表示制御部は、上記表示部を介して上記ユーザに提示されるガイド画像の表示位置に基づいて上記認識領域を計算し、上記計算結果から上記認識領域を決定する
　情報処理装置。
　（１６）
　情報処理装置が、
　認識対象を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とを表示部に表示し、
　上記認識領域内の上記認識対象を認識する認識処理を実行し、
　上記認識処理の結果に基づいて、上記情報処理装置の自己位置を推定する
　情報処理方法。
　（１７）
　認識対象を含む認識対象画像と、上記認識対象を認識する認識領域を示すガイド画像とを表示部に表示するステップと、
　上記認識領域内の上記認識対象を認識する認識処理を実行するステップと、
　上記認識処理の結果に基づいて、情報処理装置の自己位置を推定するステップと
　を上記情報処理装置に実行させるプログラム。

　情報処理装置・・・２０
　制御部・・・２１
　自己位置推定システム・・・１００
　自己位置推定部・・・２１１
　認識処理部・・・２１２
　表示制御部・・・２１３

Claims

　情報処理装置であって、
　　認識対象を含む認識対象画像と、前記認識対象を認識する認識領域を示すガイド画像とが表示部に表示されるように制御する表示制御部と、
　　前記認識領域内の前記認識対象を認識する認識処理を実行する認識処理部と、
　　前記認識処理の結果に基づいて、前記情報処理装置の自己位置を推定する自己位置推定部と
　を有する制御部
　を具備する前記情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記自己位置推定部は、前記認識処理部により認識された認識対象の画像データと当該認識対象の位置情報とが対応づけられたマップを構築する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記自己位置推定部は、前記マップの所定の領域内において同一の認識対象が複数存在する場合に、前記複数の認識対象のうち一部の認識対象の画像データを消去する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記認識処理部は、認識対象の特徴量を算出し、前記特徴量と当該認識対象の予め登録された特徴量との誤差が所定の閾値以下である場合に、認識対象を認識する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記認識処理部は、前記認識処理として、認識対象の特徴量を算出し、
　前記自己位置推定部は、当該算出された特徴量と、前記認識された認識対象の特徴量との誤差が所定の閾値以下である場合に、前記情報処理装置の自己位置を推定する
　情報処理装置。
　請求項４に記載の情報処理装置であって、
　前記認識処理部は、前記特徴量として、認識対象の２次元特徴量又は３次元特徴量を算出する
　情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記表示制御部は、前記情報処理装置の状況に応じて、前記表示部に表示される認識対象画像を決定する
　情報処理装置。
　請求項７に記載の情報処理装置であって、
　前記表示制御部は、前記情報処理装置の現在位置と前記マップとに基づいて、前記表示部に表示される認識対象画像の候補を複数選択する
　情報処理装置。
　請求項８に記載の情報処理装置であって、
　前記表示制御部は、前記マップにおける認識対象の位置情報と、当該認識対象の画像データと、前記情報処理装置の状況とに基づいて、前記選択された複数の認識対象画像各々に対して、表示の優先順位を設定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記表示制御部は、前記優先順位に基づき、前記表示部に表示される認識対象画像を決定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記表示制御部は、前記情報処理装置の状況に応じて、前記表示部に表示されるガイド画像の表示位置を制御する
　情報処理装置。
　請求項１１に記載の情報処理装置であって、
　前記表示制御部は、前記優先順位に基づき、前記表示部に表示されるガイド画像の表示位置を制御する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記表示制御部は、認識対象に対する前記認識処理部の認識位置と、当該認識対象に対するユーザの認識位置とのズレを補正する
　情報処理装置。
　請求項１３に記載の情報処理装置であって、
　前記表示制御部は、前記表示部に表示されるガイド画像の表示位置と、前記認識領域とを対応づける
　情報処理装置。
　請求項１４に記載の情報処理装置であって、
　前記表示制御部は、前記表示部を介して前記ユーザに提示されるガイド画像の表示位置に基づいて前記認識領域を計算し、前記計算結果から前記認識領域を決定する
　情報処理装置。
　情報処理装置が、
　認識対象を含む認識対象画像と、前記認識対象を認識する認識領域を示すガイド画像とを表示部に表示し、
　前記認識領域内の前記認識対象を認識する認識処理を実行し、
　前記認識処理の結果に基づいて、前記情報処理装置の自己位置を推定する
　情報処理方法。
　認識対象を含む認識対象画像と、前記認識対象を認識する認識領域を示すガイド画像とを表示部に表示するステップと、
　前記認識領域内の前記認識対象を認識する認識処理を実行するステップと、
　前記認識処理の結果に基づいて、情報処理装置の自己位置を推定するステップと
　を前記情報処理装置に実行させるプログラム。