WO2021172092A1

WO2021172092A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2021172092A1
Application number: PCT/JP2021/005678
Authority: WO
Inventors: 英佑藤縄; 哲男池田; 誠史友永; 忠義村上; 淳入江; 健志後藤; 洋祐加治
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-27
Filing date: 2021-02-16
Publication date: 2021-09-02
Also published as: JP2021135793A

Abstract

本技術の一形態に係る情報処理装置は、認識部と、設定部とを具備する。前記認識部は、センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する。前記設定部は、認識された前記１以上の対象物の各々に対して、前記認識部により実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する。これにより、処理負荷を抑えた新たな認識処理を実行することが可能となる。

Description

情報処理装置、情報処理方法、及びプログラム

　本技術は、物体認識に適用可能な情報処理装置、情報処理方法、及びプログラムに関する。

　特許文献１には、テーブルを表示面として情報を表示し、表示された情報に対するユーザの操作に応じて、種々の処理を実行することが可能な情報処理システムについて開示されている。
　当該情報処理システムでは、表示面上の実オブジェクトの情報に応じて、表示面に表示される表示オブジェクトの表示領域を決定することが可能である。
　これにより、情報を表示しようとする環境や、表示されている情報の状況に応じて、より適切かつ効率的に情報を表示することが可能となる。

特開２０１９－１８５８１２号公報

　特許文献１に記載の情報処理システム等では、ユーザの操作等を高精度で認識することが重要である。しかしながら高精度の認識処理は処理負荷が大きく、認識精度の向上に対して問題となることも多い。

　以上のような事情に鑑み、本技術の目的は、処理負荷を抑えた新たな認識処理を実行することが可能な情報処理装置、情報処理方法、及びプログラムを提供することにある。

　上記目的を達成するため、本技術の一形態に係る情報処理装置は、認識部と、設定部とを具備する。
　前記認識部は、センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する。
　前記設定部は、認識された前記１以上の対象物の各々に対して、前記認識部により実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する。

　この情報処理装置では、認識された１以上の対象物の各々に対して、第１の認識処理又は高精度の認識が可能な第２の認識処理が、認識部により実行される実行認識処理として設定される。これにより、処理負荷を抑えた新たな認識処理を実現することが可能となる。

　前記設定部は、所定の時間間隔で、前記１以上の対象物の各々に設定される前記実行認識処理を更新してもよい。

　前記設定部は、前記認識部により前記１以上の対象物が認識されるタイミングごとに、前記１以上の対象物の各々に設定される前記実行認識処理を更新してもよい。

　前記設定部は、前記第２の認識処理が前記実行認識処理として設定される前記対象物の数が、所定の上限数以下となるように、前記１以上の対象物の各々に対して前記実行認識処理を設定してもよい。

　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて、前記１以上の対象物の各々に対して前記実行認識処理を設定してもよい。

　前記対象物情報は、前記対象物の位置、前記対象物の状態、又は前記対象物の動きのうちの少なくとも１つを含んでもよい。

　前記対象物情報は、前記対象物の活動量、前記対象物の所定の位置からの距離、前記対象物の姿勢、前記対象物による入力操作の有無、又は前記対象物に関連する関連対象物の情報のうちの少なくとも１つを含んでもよい。

　前記対象物情報は、前記１以上の対象物の各々に対する前記認識部による認識結果を含んでもよい。

　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて前記１以上の対象物の各々に対して優先度を算出し、算出された前記優先度に基づいて前記１以上の対象物の各々に対して前記実行認識処理を設定してもよい。

　前記設定部は、前記１以上の対象物のうち前記優先度が相対的に高い前記対象物に対して、前記第２の認識処理を前記実行認識処理として設定してもよい。

　前記設定部は、前記１以上の対象物の各々に対して前記優先度が高い順に、前記第２の認識処理を前記実行認識処理として設定してもよい。

　前記設定部は、前記第２の認識処理が前記実行認識処理として設定されており前記優先度が所定の閾値よりも高い前記対象物に対して、前記優先度が前記所定の閾値よりも低くなるまで前記第２の認識処理の設定を維持してもよい。

　前記設定部は、所定の状態が認識された前記対象物を優先して、前記第２の認識処理を前記実行認識処理として設定してもよい。

　前記設定部は、所定の状態が認識された前記対象物の前記優先度を相対的に高く算出してもよい。

　前記第１の認識処理は、ルールベースアルゴリズムを用いた認識処理であってもよい。この場合、前記第２の認識処理は、機械学習アルゴリズムを用いた認識処理であってもよい。

　前記第２の認識処理は、第１の認識処理よりも処理負荷が大きくてもよい。

　前記１以上の対象物の各々は、人体の所定の部位であってもよい。

　本技術の一形態に係る情報処理方法は、コンピュータシステムにより実行される情報処理方法であって、認識ステップと、設定ステップとを具備する。
　前記認識ステップは、センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する。
　前記設定ステップは、認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する。

　本技術の一形態に係るプログラムは、コンピュータシステムに以下のステップを実行させる。
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識ステップ。
　認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定するステップ。

一実施形態に係る物体認識システムの構成例を説明するための図である。物体認識システムの動作例を示す模式図である。情報提示システムの構成例を示す模式図である。情報処理装置の機能的なブロック図を示す模式図である。「手の活動量」について説明するための模式図である。「手の所定の位置からの距離」について説明するための図である。「手の姿勢」について説明するための図である。「手による入力操作の有無」について説明するための図である。「手に関連する関連対象物の情報」について説明するための図である。手を対象物とした第１の認識処理（ルールベースの認識処理）、及び第２の認識処理（機械学習ベースの認識処理）の例を説明するための模式図である。「手の姿勢」を判定するための手姿勢検出の一例を説明するための図である。情報提示システムの動作例を示す模式図である。手認識により認識された１以上の手に対する、優先度算出及び実行認識処理の設定例を示すフローチャートである。実行認識処理の設定の他の例を示すフローチャートである。地図アプリケーションのアプリケーション画像の一例を示す模式図である。地図アプリケーションに対する入力操作の例を示す模式図である。優先度定義部にて定義される優先度算出用の要素及び係数の一例である。「手の所定の位置からの距離」についての定義を説明するための図である。「手の姿勢」についての定義を説明するための図である。「手による入力操作の有無」についての定義を説明するための図である。ピンチイン／ピンチアウト操作の発動条件について説明するための図である。地図アプリケーションを利用する各ユーザの手の状態の例を示す図である。地図アプリケーションを利用する各ユーザの手の状態の例を示す図である。地図アプリケーションを利用する各ユーザの手の状態の例を示す図である。他の実施形態に係る情報提示システムについて説明するための図である。他の実施形態に係る情報提示システムについて説明するための図である。他の実施形態に係る情報提示システムについて説明するための図である。情報処理装置のハードウェア構成例を示すブロック図である。

　以下、本技術に係る実施形態を、図面を参照しながら説明する。

　［物体認識システム］
　図１は、本技術の一実施形態に係る物体認識システムの構成例を説明するための模式的な図である。
　物体認識システム１００は、センサ１０と、情報処理装置２０とを有する。
　センサ１０と、情報処理装置２０とは、有線又は無線を介して、通信可能に接続されている。各デバイス間の接続形態は限定されず、例えばＷｉＦｉ等の無線ＬＡＮ通信や、Bluetooth（登録商標）等の近距離無線通信を利用することが可能である。

　センサ１０は、所定のセンシング領域に対してセンシングを実行し、センシング結果（検出結果）を出力する。
　例えばセンシング領域に存在する１以上の対象物１の各々の位置、状態又は動き等をセンサ値として出力可能な任意のセンサが用いられてよい。
　例えばセンサ１０として、任意の画像センサや任意のデプスセンサ等を用いることが可能である。なお本開示において画像は、静止画像及び動画像（映像）の両方を含む。
　２次元の画像を取得することが可能な画像センサとしては、例えば可視光カメラ、赤外カメラ等が挙げられる。
　３次元情報を取得することが可能なデプスセンサとしては、ステレオカメラ、ＴｏＦ（Time of Flight）センサ、ストラクチャライト（Structured Light）方式のデプスセンサ等が挙げられる。
　また、物体の状態を取得するセンサとして、超音波センサ等が用いられてもよい。
　その他、レーザ測距センサ、ＬｉＤＡＲ（Light Detection and Ranging、Laser Imaging Detection and Ranging）等の任意の測距デバイスや、接触センサ、ソナー、照度計、生体センサ等の任意のセンサデバイスが用いられてもよい。

　情報処理装置２０は、例えばＣＰＵやＧＰＵ、ＤＳＰ等のプロセッサ、ＲＯＭやＲＡＭ等のメモリ、ＨＤＤ等の記憶デバイス等、コンピュータの構成に必要なハードウェアを有する（図２８参照）。
　例えばＣＰＵがＲＯＭ等に予め記録されている本技術に係るプログラムをＲＡＭにロードして実行することにより、本技術に係る情報処理方法が実行される。
　例えばＰＣ（Personal Computer）等の任意のコンピュータにより、情報処理装置２０を実現することが可能である。もちろんＦＰＧＡ、ＡＳＩＣ等のハードウェアが用いられてもよい。
　本実施形態では、ＣＰＵ等が所定のプログラムを実行することで、機能ブロックとしての認識部２１と、設定部２２とが構成される。もちろん機能ブロックを実現するために、ＩＣ（集積回路）等の専用のハードウェアが用いられてもよい。
　プログラムは、例えば種々の記録媒体を介して情報処理装置２０にインストールされる。あるいは、インターネット等を介してプログラムのインストールが実行されてもよい。
　プログラムが記録される記録媒体の種類等は限定されず、コンピュータが読み取り可能な任意の記録媒体が用いられてよい。例えば、コンピュータが読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　認識部２１は、センサ１０の検出結果に対して認識処理を実行することで、１以上の対象物１の各々を認識し、認識結果（認識情報）を出力することが可能である。認識処理は、認識手法とも言える。
　認識部２１による認識結果としては、例えば対象物１の位置、対象物１の状態、及び対象物１の動き等の任意の情報を含む。例えば、対象物１の活動量、対象物１の所定の位置からの距離、対象物１の姿勢、対象物１による入力操作の有無等、種々の情報を認識結果として出力することが可能である。
　例えば、認識処理として、センサ１０の検出結果として出力される２次元の画像データや３次元のデプス画像データや点群データ等から、対象物１が存在していると判定される領域（対象物領域）が抽出される。抽出された対象物領域のデータを入力として所定の認識アルゴリズムが実行され、認識結果が出力される。
　このような処理に限定されず、２次元の画像データや３次元のデプス画像データ等の全体を入力として認識アルゴリズムが実行され、１以上の対象物１の各々に関する認識結果が出力されてもよい。

　認識処理として、例えばルールベースのアルゴリズムを用いた認識処理が実行される。例えば、対象物領域のデータに対して、対象物１のモデル画像とのマッチング処理等を実行する処理や、マーカ画像等を用いて対象物領域のデータ内の位置を特定する処理等により、認識情報を生成することが可能である。あるいは、対象物領域のデータからテーブル情報を参照することで認識情報を生成することも可能である。その他、ルールベースのアルゴリズムを用いた任意の認識処理が採用されてよい。
　また認識処理として、機械学習アルゴリズムを用いた認識処理が実行されてもよい。例えばＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）等を用いた任意の機械学習アルゴリズムを用いることが可能である。
　例えば対象物領域のデータを入力として、機械学習アルゴリズムを実行することで、種々の推定情報を生成することが可能であり、認識結果として出力することが可能となる。例えばディープラーニング（深層学習）を行うＡＩ（人工知能）等を用いることで、物体認識の推定精度を向上させることが可能となる。
　例えば、学習用の対象物領域のデータに取得したい認識情報のラベルを設定し、学習用のデータセットを生成する。学習用のデータセットを用いて機械学習アルゴリズムに基づいて学習させることで、学習済パラメータが組み込まれたプログラムが学習済モデルとして生成される。学習済モデルにより、対象物領域のデータの入力に対して認識結果が出力される。
　例えば対象物領域の３次元情報を入力として、対象物内の各特徴点の３次元位置を特定するといったことも可能である。また対象物が体の全体や体の一部である場合には、機械学習アルゴリズムにより、骨格推定を実行することも可能である。なお骨格推定は、ボーン推定やスケルトン推定とも呼ばれる。
　以下、ルールベースのアルゴリズムを用いた認識処理を、ルールベースの認識処理と記載する場合がある。また機械学習アルゴリズムを用いた認識処理を、機械学習ベースの認識処理と記載する場合がある。
　その他、認識処理を実行するための任意のアルゴリズムが用いられてよい。

　位置情報としては、例えば、絶対座標系（ワールド座標系）により規定される座標値（例えばＸＹＺ座標値）が用いられる。あるいは、所定の点を基準（原点）とした相対座標系により規定される座標値（例えばｘｙｚ座標値又はｕｖｄ座標値）が用いられてもよい。相対座標系が用いられる場合、基準となる原点は、任意に設定されてよい。

　本実施形態では、認識部２１は、センサ１０の検出結果に対して、第１の認識処理、又は第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行することが可能である。すなわち、認識部２１により、異なる種類の２つの認識処理を実行することが可能である。
　以下、第１の認識処理としてルールベースの認識処理が用いられ、第２の認識処理として機械学習ベースの認識処理が用いられる場合を例に挙げる。学習用のデータセットを用いて十分に学習を実行することで、機械学習ベースの認識処理により、精度の高い認識結果を得ることが可能となる。
　もちろんこのような設定に限定される訳ではない。認識精度が異なる２種類のルールベースの認識処理が、第１の認識処理及び第２の認識処理として設定されてもよい。また認識精度が異なる２種類の機械学習ベースの認識処理が、第１の認識処理及び第２の認識処理として設定されてもよい。
　なお典型的には、高精度の第２の認識処理は、低精度の第１の認識処理と比べて処理負荷が大きくなる

　設定部２２は、認識された１以上の対象物１の各々に対して、認識部２１により実行される実行認識処理として、第１の認識処理（ルールベースの認識処理）又は第２の認識処理（機械学習ベースの認識処理）を設定する。
　すなわち本実施形態では、認識部２１により認識された１以上の対象物１の各々に対して、次のタイミングにおいて実行される認識処理（実行認識処理）が、第１の認識処理（ルールベースの認識処理）及び第２の認識処理（機械学習ベースの認識処理）から適宜選択されて設定される。
　図１に示す例では、設定部２２は、１以上の対象物１の各々に対する認識部２１による認識結果に基づいて、次のタイミングにおいて実行される実行認識処理を設定する。
　これに限定されず、１以上の対象物１の各々に関する任意の対象物情報に基づいて、１以上の対象物１の各々に対して実行認識処理が設定されてよい。
　１以上の対象物１の各々に関する任意の対象物情報は、１以上の対象物１の各々に対する認識部２１による認識結果を含む。従って、対象物情報は、上記にて認識結果として例示した種々の情報を含む。
　その他、認識部２１による認識結果以外の情報が、対象物情報として用いられてもよい。例えば、実行認識処理を設定するための情報が、対象物情報として、認識処理とは別の処理により生成されてもよい。
　例えば、センサ１０から出力される検出結果が対象物情報として用いられ、実行認識処理の設定に用いられてもよい。
　また、対象物１に関連する関連対象物の情報が、対象物情報として用いられてもよい。例えば、対象物１が人体の所定の部位であった場合等において、当該部位の持ち主（すなわち本人）に関する情報が用いられてもよい。例えば本人の他の部位に関する情報や、視線、表情、体温等が、対象物情報として用いられてもよい。この場合、部位の持ち主が、対象物１に関連する関連対象物に相当する。

　図２は、物体認識システムの動作例を示す模式図である。
　１秒間に認識部２１により実行される認識処理の回数（認識処理回数／秒）を認識処理のフレームレートとする。認識処理のフレームレートとしては、例えば３０ｆｐｓ～１０００ｆｐｓの範囲で設定される。もちろんこれに限定されず、認識処理のフレームレートは任意に設定されてよい。
　例えば、認識処理のフレームレートとして、センサ１０のフレームレートが設定され、センシングに同期して認識処理が実行されてもよい。
　また物体認識システム１００を使用するユーザにより、認識処理のフレームレートが指定可能であってもよい。

　図２に示す例では、各フレームにて、認識部２１による認識処理と、設定部２２による実行認識処理の設定とが実行される。すなわち認識部２１により１以上の対象物１が認識されるタイミングごとに、１以上の対象物１の各々に設定される実行認識処理が更新される。
　従って、１秒間に設定部２２により実行される実行認識処理の設定回数（設定回数／秒）を設定処理のフレームレートとすると、認識処理のフレームレートと、設定処理のフレームレートとが等しくなる。
　図２に示す例は、所定の時間間隔で、１以上の対象物の各々に設定される実行認識処理を更新する動作の一例である。
　もちろんこのような動作に限定される訳ではない。認識処理のフレームレートと、設定処理のフレームレートとが、互いに異なって設定されてもよい。例えば、認識部２１による認識処理が所定の回数実行されるごとに、実行認識処理の設定が実行されてもよい。

　図２に示す例では、前フレーム（ｔ－１）において、センサ１０の検出結果に基づいて、認識処理が実行される。認識処理の認識結果に基づいて、認識された１以上の対象物１の各々に対して、実行認識処理が設定される。
　次のフレームである現在フレーム（ｔ）において、センサ１０の検出結果に基づいて、認識部２１により認識処理が実行される。この際には、前フレーム（ｔ－１）にて認識された対象物１に対しては、当該対象物１に対して前フレーム（ｔ－１）にて設定された実行認識処理が実行される。また現在フレーム（ｔ）にて、認識された１以上の対象物１の各々に対して、改めて実行認識処理が設定される。
　次のフレームである次フレーム（ｔ＋１）において、センサ１０の検出結果に基づいて、認識部２１により認識処理が実行される。この際には、現在フレーム（ｔ）にて認識された対象物１に対しては、当該対象物１に対して現在フレーム（ｔ）にて設定された実行認識処理が実行される。また次フレーム（ｔ＋１）にて、認識された１以上の対象物１の各々に対して、改めて実行認識処理が設定される。
　なお、前フレーム（ｔ－１）での認識処理については、その前のフレーム（ｔ－２）で設定された実行認識処理が用いられる。

　なお物体認識システム１００の初期動作としては、例えばシステムの初期化により、実行認識処理の設定が初期化される。認識部２１により、センサ１０から出力される検出結果に基づいて認識処理が実行され、１以上の対象物１が認識される。
　この際には、例えば、初期動作用の認識処理が用いられる。例えば、初期動作用の認識処理として、精度の高い第２の認識処理が設定される。この場合、最初の認識処理は、全ての対象物領域に対して、第２の認識処理が実行される。
　あるいは、初期動作用の認識処理として、精度の低い第１の認識処理が設定される。この場合、最初の認識処理は、全ての対象物領域に対して、第１の認識処理が実行される。
　また認識処理の入力となる対象物領域が複数ある場合に、使用可能な処理量を超えない範囲で、可能な限り多くの対象物領域に対して第２の認識処理が実行され、他の対象物領域に対しては、第１の認識処理が実行されてもよい。
　あるいは、対象物領域が抽出される順番や、対象物領域の位置に応じて、初期動作用の認識処理が適宜設定されてもよい。
　あるいは、初期動作用の認識処理として、第１の認識処理及び第２の認識処理のいずれとも異なる種類の認識処理が実行されてもよい。

　各フレームにおいて、認識対象となる対象物１が、前フレームにおいて認識された対象物１であるか否かを判定する方法としては、任意の方法が採用されてよい。
　例えば、各フレームおいて、センサ１０の検出結果から抽出された対象物領域について、前フレームにおける認識結果と比較することで、当該対象物領域が前フレームにおいて認識された対象物１と同じ対象物の対象物領域であるか否かを判定することが可能である。
　例えば、最初のフレームにて認識された１以上の対象物の各々に対してＩＤ（識別情報）を付与する。次フレームにて検出結果から抽出された対象物領域に対して、前フレームにて認識された対象物１と同じ対象物１の対象物領域であると判定された場合は、同じＩＤを付与してＩＤの引継ぎを実行する。
　これにより、引継がれたＩＤに基づいて、前フレームにて設定された実行認識処理により、対象物領域に対する認識処理を実行することが可能となる。すなわち前フレームにて設定された実行認識処理により、同じ対象物１に対して認識処理を実行することが可能となる。
　各フレームにおいて、新規に認識された対象物については、新たなＩＤが付与される。

　このように図２に示す例では、認識部２１により１以上の対象物１が認識されるタイミングごとに、１以上の対象物１の各々に設定される実行認識処理が更新される。
　これにより、低性能・低負荷の第１の認識処理（ルールベースの認識処理）と、高性能・高負荷の第２の認識処理（機械学習ベースの認識処理）を、１以上の対象物１に対して効率的に割り当てることが可能となる。この結果、処理負荷を抑えた新たな認識処理を実現することが可能となる。
　例えば、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される対象物１の数に上限値が設定されてもよい。すなわち設定部２２により、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される対象物１の数が、所定の上限数以下となるように、１以上の対象物１の各々に対して実行認識処理が設定されてもよい。これにより、処理負荷を十分に抑えつつ、効率的な認識処理を実行することが可能となる。

　［情報提示システム］
　本技術に係る物体認識システム１００を適用した情報提示システムについて説明する。
　図３は、情報提示システム１５０の構成例を示す模式図である。情報提示システム１５０を、情報処理システムや表示制御システムと呼ぶことも可能である。
　図３では、情報提示システム１５０の構成例として、３つのバリエーション例が図示されている。

　情報提示システム１５０は、所定の表示領域に種々の画像を、ユーザ２が操作可能なように表示することが可能である。例えば、映像等のコンテンツ画像、地図、アプリケーションを表示するウィンドウ、種々のＧＵＩ、ホログラム画像、ＡＲ（Augmented Reality）等の仮想オブジェクト画像等、任意の画像が表示されてよい。画像の表示は、グラフィックスの表示とも言える。
　ユーザ２は、表示された画像に対して、例えば自分の手を使って種々の入力操作を行うことが可能である。なお手は、指を含む。
　例えば、タッチ操作、ドラッグ操作、スクロール操作、ピンチ操作等、任意の入力操作が実行可能であってよい。
　例えば、手（指）の姿勢を変えることで、入力操作を行うことも可能である。例えば、グー（手が閉じられた状態）、チョキ（人差指及び中指のみが伸びている状態）、パー（手が開かれている状態）、ピストル（人差指及び親指のみが伸びている状態）等のジェスチャにより、入力操作を行うことが可能である。
　その他、手を空中で水平又は垂直方向等に移動させる、手を振動させる（手を振る）、手を回転させる等の種々の動作が、入力操作として採用されてもよい。またスポーツ等で用いられるハンドシグナル等の様々な動作が入力操作として採用されてよい。
　どのような手の動作が入力操作として使用可能であるかは、例えば本情報提示システム１５０を介してユーザ２に提供されるアプリケーションごとに適宜定義されてよい。
　なお本開示において、入力操作は、所定の処理を実行させるためにユーザにより行われる種々の動作（ジェスチャ）を含む。なお入力操作に応じて、実際に所定の処理が実行される場合に限定される訳ではない。すなわちタッチ操作やピンチ操作等の動きが判定された場合に、その動きに応じて所定の処理が実行されない場合でも、当該タッチ操作等の動きは入力操作に含まれる。
　もちろんタッチ操作等に応じて所定の処理が実行された場合も、タッチ操作等の動きは入力操作に含まれる。
　例えば、アイコン等を移動させようとして、タッチ及びドラッグ操作が行われたとする。しかしながらアプリケーション側でアイコンの移動と、タッチ及びドラッグ操作とが関連付けられていない場合や、タッチの位置がずれている場合等、アイコンの移動処理が実行されなかったとする。このような場合でも、ユーザにより行われたタッチ及びドラッグ操作は、入力操作に含まれるものとする。

　情報提示システム１５０は、ユーザ２の手を用いた入力操作に応じて、種々の処理を実行することが可能である。例えば、入力操作に応じて、表示領域に表示される画像の表示が制御される。例えば、画像の表示の切り替え、画像の移動、画像の拡大・縮小、描画画像の表示（描画制御）等、任意の処理が実行されてよい。
　もちろん、画像の表示制御以外の種々の処理が実行されてよい。例えば、アプリケーションに対して操作入力に応じたイベントを送信するといったことも可能である。例えば、ユーザ２は、表示領域に表示される各種アプリケーションの画面に対して入力操作を行うことで、メールの送信・受信や、ＳＮＳの投稿等、種々のサービス利用することが可能となる。

　図３Ａ～Ｃに示す例では、情報提示システム１５０は、プロジェクタ２５と、センサ３０と、情報処理装置４０とを有する。各デバイスは、任意の接続形態により、互いに通信可能に接続されている。
　プロジェクタ２５は、所定の表示領域に対して、種々の画像を表示可能に設置される。
　なお、プロジェクタ２５以外の表示デバイスが用いられる場合でも、本技術は適用可能である。例えばタッチパネル、液晶ディスプレイ等のディスプレイ、ＨＭＤ（Head Mounted Display）等により表示される画像に対して、ユーザ２が入力操作を行うようなシステムに対しても、本技術を適用することが可能である。

　センサ３０及び情報処理装置４０は、図１に示す物体認識システム１００を構築することが可能である。
　センサ１０のセンシング領域は、プロジェクタ２５の表示領域に対応して設定される。典型的には、表示領域の全体を含むようにセンシング領域が設定される。
　情報処理装置４０には、図１に示す認識部２１及び設定部２２が構成される。

　図３Ａに示す例では、テーブル３５の天面に表示領域及びセンシング領域が設定される。そして天面の上方側に、センサ３０とプロジェクタ２５とが設置される。上方側から画像が投影されるので、天面に配置された実物体等に画像を重畳させることが可能となる。
　図３Ｂに示す例では、テーブル３５の天面が、ガラス板等の透明な材質により構成されている。そして、天面の下方側にプロジェクタ２５が配置され、下方側から画像が投影される。センサ３０は、天面の上方側に配置される。
　図３Ｃに示す例では、壁３６に表示領域及びセンシング領域が設定される。壁３６に対して、プロジェクタ２５及びセンサ３０が設置される。
　このように、本技術に係る情報提示システム１５０の構成例として、種々のバリエーションを採用することが可能である。もちろん、図３に示す構成以外の任意の構成が採用されてよい。

　図４は、情報処理装置４０の機能的なブロック図を示す模式図である。例えば、ＣＰＵ等のプロセッサが本技術に係るプログラムを実行することで、機能ブロックとして、処理実行部４１と、認識処理部４２とが構成される。
　処理実行部４１は、ユーザ２の手を用いた入力操作に応じて、種々の処理を実行する。例えば、画像データ、及び画像表示の制御信号等が、プロジェクタ２５に表示される。その他、任意の処理が実行可能であってよい。

　認識処理部４２は、手認識部４３、優先度算出部４４、認識処理設定部４５、及び優先度定義部４６を含む。
　手認識部４３は、図１に示す認識部２１に相当する。本実施形態では、１以上の対象物１として、ユーザの手が設定される。そして第１の認識処理（ルールベースの認識処理）と第２の認識処理（機械学習ベースの認識処理）とを併用して、１以上の手に対して認識処理が実行される。
　優先度算出部４４、認識処理設定部４５、優先度定義部４６は、図１に示す設定部２２に相当する。すなわち本実施形態では、優先度算出部４４、認識処理設定部４５、及び優先度定義部４６が連動することで、１以上の手に対して、第１の認識処理（ルールベースの認識処理）又は第２の認識処理（機械学習ベースの認識処理）が、実行認識処理として設定される。
　優先度算出部４４は、１以上の対象物の各々に関する対象物情報に基づいて１以上の対象物の各々に対して優先度を算出する。本実施形態では、１以上の手の各々に関する対象物情報（手認識部４３による認識結果を含む）に基づいて、優先度が算出される。
　認識処理設定部４５は、算出された優先度に基づいて、１以上の対象物の各々に対して実行認識処理を設定する。本実施形態では、算出された優先度に基づいて、１以上の手の各々に対して実行認識処理が設定される。
　優先度に基づいた実行認識処理の設定方法としては、例えば１以上の対象物（手）のうち優先度が相対的に高い対象物（手）に対して、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される。
　例えば、１以上の対象物（手）の各々に対して優先度が高い順に、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される。
　第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される対象物（手）について上限数が設定されている場合は、上限数以下となる範囲で、優先度が高い順に、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定される。
　優先度に基づいた実行認識処理の設定方法として、他の任意の方法が用いられてよい。

　優先度定義部４６には、対象物情報に基づいて優先度を算出する算出方法に関する種々のパラメータが定義されている。例えば本情報提示システム１５０を介してユーザ２に提供されるアプリケーションごとに、パラメータが定義される。
　例えば、対象物情報の中から優先度算出用の複数の要素（パラメータ）を定義する。そして、各要素に関して対象物の状態等に対して優先度設定値を定義する。例えば算出用の要素として「対象物の動き」が定義された場合、当該要素について「静止」「一定速度の移動」「往復運動」等、「対象物の動き」に関する複数の状態の各々に、優先度設定値を定義する。
　また、複数の要素の各々に対して、係数を設定する。
　例えばこれらの定義情報に基づいて、以下の式により優先度を算出することが可能である。
　（優先度）＝係数ａ×（要素ａに関する優先度設定値）＋係数ｂ×（要素ｂに関する優先度設定値）＋係数ｃ×（要素ｃに関する優先度設定値）＋係数ｄ×（要素ｄに関する優先度設定値）
　係数を適宜設定することで、優先度算出用の各要素に対して、重み付けを行うことが可能である。例えば、認識対象として重要度の高い対象物に対して、第２の認識処理（機械学習ベースの認識処理）が優先的に実行認識処理として設定されるように、優先度算出用の要素及び係数が適宜定義されればよい。
　例えば、優先度算出用の要素は予め定義されており、優先度定義部４６により、アプリケーション等に応じて、各要素の係数が変更可能であってもよい。あるいは、アプリケーションごとに、算出用の要素や優先度設定値も含めて定義付けされてもよい。

　本実施形態では、ユーザ２の手が、認識対象となる対象物１として設定される。
　例えば、センシング領域に存在しているすべての手が、必ずしも操作に使われているとは限らない。例えば、ただ存在しているだけで、何もしていない手もしばしば存在する。そのような手と操作に使っている手とを比較したときに、操作に使っている手の方をより精度高く検出したほうが、ユーザ２の操作性の向上（操作体験の向上）に繋がる。
　本実施形態では、優先度というパラメータを定義し、１以上の手の各々について当該優先度を数値で算出する。これにより、優先度が高いほど操作への重要性が高く、優先して第２の認識処理（機械学習ベースの認識処理）を実行すべき手であると判断することが可能となる。
　従って、例えば、各フレームにて、ユーザ２により実際に操作に使われている手が高精度に認識可能なように、優先度算出用の要素及び係数が定義される。言い換えればユーザ２により実際に操作に使われている手に対して、第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定されるように、優先度算出用の要素及び係数が適宜定義される。

　図５～９は、本実施形態における優先度算出用の要素例を説明するための模式図である。
　例えば、「手の活動量」、「手の所定の位置からの距離」、「手の姿勢」、「手による入力操作の有無」「手に関連する関連対象物の情報」を、優先度算出用の要素として設定することが可能である。
　以下の説明では、優先度設定値は０～１の範囲に正規化される。もちろんこれに限定される訳ではない。

　図５は、「手の活動量」について説明するための模式図である。
　手３が活発に動いているほど優先度設定値を高くする。手３が動いているほど、入力操作等に使われている可能性が高く、逆に動いていないときは、ただ置いてあるだけの可能性が高い。このような観点から、優先度設定値を設定することが可能である。
　例えば図５Ａに示すように、手３が移動している場合は、その距離により「手の活動量」を規定することが可能である。図５Ｂに示すように、手３が回転している場合には、回転角度により「手の活動量」を規定することが可能である。図５Ｃに示すように手３の形状が変化している場合には、シルエット（影）の面積により、「手の活動量」を規定することが可能である。
　図５Ａ～Ｃでは、移動、回転、形状変化について、同等の活動量であると判定され、同等の優先度設定値（０．３３）が定義されている。もちろんこれは一例であり、任意の定義が採用されてよい。

　図６は、「手の所定の位置からの距離」について説明するための図である。
　所定の位置からの距離に応じて優先度設定値を設定する。例えば所定の注目点に近いほど優先度設定値を高くする。注目点としては、例えば、画面の中心や、ボタン等のＵＩコンポーネントの位置、ある物体の位置等であり、アプリケーションごとに設定されてよい。
　図６に示す例では、ボタン１やボタン２が、注目点５として設定される。そして、手３の位置と注目点５の位置との距離に応じて、優先度設定値が設定される。
　例えば、手３の中心位置を手３の位置とする。注目点５の位置については、例えば決定ボタンや閉じるボタン等の位置が固定されている注目点５に対しては、固定値（例えばＸＹ座標値）により定義される。スライダ等の位置が動的に変化する注目点５に対しては、優先度算出時の注目点５の位置が用いられる。
　例えば、手３と注目点５とが接触する状態の手３の中心位置と注目点５との距離以下に対して、優先度設定値は最高値（１．０）が設定される。手３の中心位置と注目点５との距離が所定の閾値以上となる場合に対しては、優先度設定値は最低値（０．０）が設定される。接触する距離から所定の閾値までの距離に関しては、注目点５と手３の中心位置との距離に反比例するように、０～１の範囲に含まれる値が、優先度設定値として定義される。
　なお注目点５の重要度により、優先度設定値が調整されてもよい。例えば重要度が低い注目点５については、１未満の係数をかけることで、同じ距離であっても優先度設定値が低くなるように定義されてもよい。１未満の係数の値を適宜調整することで、注目点５の重要度に応じた優先度設定値を定義することが可能となる。

　図７は、「手の姿勢」について説明するための図である。
　例えばピストルのような姿勢（親指及び人差し指の２本の指のみを伸ばした状態、以下ピストル姿勢と記載する）を主に使用するアプリケーションでは、図７Ａ～Ｄに示すように、ピストル姿勢に対して高い優先度設定値（１．０）が定義される。その他の、親指と人差し指とでのピンチ姿勢には優先度設定値（０．８）、掌を広げたパー姿勢には優先度設定値（００．０）、人差し指１本の姿勢（以下、人差し指姿勢と記載する）には優先度設定値（０．５）と、ピストル姿勢よりも低い優先度設定値が定義される。
　もちろんこのような設定に限定されない。ピンチイン／ピンチアウトの入力操作を精度よく認識したい場合等においては、ピンチ姿勢に対して高い優先度設定値が設定される。そして人差し指姿勢に対してやや高い優先度設定値が設定され、パー姿勢に対して低い優先度設定が設定される。それ以外の姿勢に対しては、優先度設定値は０とする。このような定義が採用されてもよい。

　図８は、「手による入力操作の有無」について説明するための図である。
　ユーザ２からの入力操作の有無に対して優先度設定値が設定される。例えば特定の入力操作に対して高い優先度設定値を設定する。例えば、図８Ａに示すように、アプリケーションのＵＩコンポーネントに対してタッチ及びドラッグの入力操作が行われる場合に対して、高い優先度設定値が設定される。また例えば図８Ｂに示すように、ピンチ操作によりＵＩコンポーネントの拡大／縮小が行われる場合に対して、高い優先度設定値が設定される。
　なお、所定の入力操作の有無の判定は、手認識部４３による認識結果のみに基づいて判定されてもよい。すなわち所定の手３の動き（ジェスチャ）のみで、入力操作の有無が判定されてもよい。一方、アプリケーション等により、所定の手３の動き（ジェスチャ）に応じて所定の処理が実行された場合に、所定の入力操作が有りと判定されてもよい。
　すなわちタッチ操作やピンチ操作と判定される手３の動きのみならず、当該タッチ操作やピンチ操作に応じて、アイコンの選択や拡大／縮小が実行された場合に、所定の入力操作が有りと判定されてもよい。そして優先度定義部４６にて定義された入力操作である場合には、入力操作に対して設定された優先度設定値が用いられて優先度が算出される。この場合、例えばアプリケーション側から所定の処理の実行の有無に関する情報を取得することで、判定が可能となる。
　例えばアプリケーション側で入力操作に応じた処理が実行されている場合には、その手３が操作に使われていることが明確に判定可能である。従って、操作に使われている手３に対して精度よく高い優先度設定値を定義することが可能となる。
　アプリケーション側での操作に応じた処理の実行の有無を判定することは、アプリケーション上における所定の入力操作の有無を判定することともいえる。

　図９は、「手に関連する関連対象物の情報」について説明するための図である。
　例えば、図９に示すように、手３の持ち主、すなわちユーザ２本人を関連対象物とする。そしてユーザ２の視線のトラッキング結果に対して、優先度設定値を定義する。例えば、図９Ａに示すように、視線の先と手３の位置が一致しているほど、その手３が操作に使われている可能性が高いので、高い優先度設定値が定義される。図９Ｂに示すように、視線の先が手とは全く異なる方向に向いている場合には、手はただ置かれているだけである可能性が高いので、優先度設定値は０に定義される。その他、任意の定義が採用されてよい。
　視線のトラッキングは、例えばユーザ２の目をセンシング対象とする他のセンサにより検出される。視線のトラッキングのみならず、他の種々の関連対象物の情報が用いられてもよい。また、他の関連対象物の情報が複数定義され、優先度設定値が定義されてもよい。

　優先度算出用の要素として定義された「手の活動量」、「手の所定の位置からの距離」、「手の姿勢」、「手による入力操作の有無」「手に関連する関連対象物の情報」の各々に対して、係数ａ～ｅを定義する。これらの定義情報に基づいて、以下の式により優先度を算出することが可能である。
　（優先度）＝係数ａ×（「手の活動量」に関する優先度設定値）＋係数ｂ×（「手の所定の位置からの距離」に関する優先度設定値）＋係数ｃ×（「手の姿勢」に関する優先度設定値）＋係数ｄ×（「手による入力操作の有無」に関する優先度設定値）＋係数ｅ×（「手に関連する関連対象物の情報」に関する優先度設定値）
　なお、アプリケーションごとに係数を定義する際に、無視したい要素については係数を０にする。また、当然のことながら優先度定義部４６により定義されていない要素は、優先度の算出に用いられない。

　図１０は、手３を対象物１とした第１の認識処理（ルールベースの認識処理）、及び第２の認識処理（機械学習ベースの認識処理）の例を説明するための模式図である。図１０に示す例では、センサ３０により検出された３次元のデプス画像データに基づいて、認識処理を実行し入力操作を検出するまでの処理が例示されている。
　第１の認識処理（ルールベースの認識処理）では、粗いデプス検出、腕検出、手領域デプス計算、突端検出、指先領域デプス計算、指の尾根部分の検出及びタッチ検出、操作検出が順番に実行される。
　図１０に例示する第１の認識処理では、手領域（対象物領域に相当）のデプス画像内から、見かけ上の突端や手３の中心位置等が計算され、タッチ操作等の有無が検出される。
　このようにルールベースの認識処理は、比較的軽い処理量で実行可能であるが、デプス画像上に見えていない位置は計算できない。従って、センサ３０から指先が隠れてしまっている場合等では、指先の位置等の検出精度が低くなってしまう。すなわちオクルージョン（手前にある物体が背後にある物体を隠している（見えない）状態）に対して弱い認識処理となってしまう。
　また、シルエットの面積や形状の条件で手３かどうかという認識を行うため、しばしば物体と手３を誤認識してしまうこともある。

　第２の認識処理（機械学習ベースの認識処理）では、粗いデプス検出、腕検出、手領域デプス計算、ＣＮＮ（Convolutional Neural Network）によるハンドポーズ推定が実行される。なお、ハンドポーズ推定は、特徴点１４点の３Ｄ座標を推定することで実行される。
　また第２の認識処理では、推定されたハンドポーズに基づいて５本の指の各々に対して、指先領域デプス計算、指の尾根部分の検出及びタッチ検出が実行される。また推定されたハンドポーズに基づいて、手姿勢が計算され、掌の３Ｄ角度及び指の曲げ角度が算出される。
　５本の指の各々の指の尾根部分の検出及びタッチ検出の結果と、掌の３Ｄ角度及び指の曲げ角度とに基づいて、タッチ操作等の有無が検出される。
　機械学習ベースの認識処理では、機械学習ベースで手３と物体との判別を行うため、非常に高い精度で手３を識別可能である。また事前に設定した手３の上の特徴点を推定可能であり、センサ３０から隠れているかに関わらず、全ての指先や関節、手中心の位置を認識することが可能である。すなわちオクルージョンに対して強い認識処理となる。
　機械学習ベースであるので、学習データを適正に準備し十分に学習させることで、高い精度で認識を行うことが可能となる。
　一方で、機械学習ベースの認識処理は処理負荷が大きいため、多くの手３が存在している場合、全ての手３に対して同時に認識処理を実行することが難しい。

　ルールベースの認識処理と機械学習ベースの認識処理とを比較すると、基本的に性能は、機械学習ベースの認識処理の方が良好である。従ってユーザ２の操作等を高精度に認識するためには、機械学習ベースの認識処理を用いることが有効である。
　一方で、機械学習ベースの認識処理は処理負荷が大きいため、認識処理を実行可能な手３の許容数（上限数）が、使用する情報処理装置４０の性能ごとに決まってしまう。
　このような状況に対して、本技術では、ルールベースの認識処理と機械学習ベースの認識処理とが併用される。そして複数の手３の各々に対して、優先度に基づいて、ルールベースの認識処理又は機械学習ベースの認識処理が実行認識処理として効率的に割り当てることが可能となっている。

　図１１に例示するように、手領域デプス計算の結果に基づいて、優先度算出用の要素である「手の姿勢」を判定するための手姿勢検出が実行されてもよい。この処理は、優先度定義部４６にて、優先度算出用の要素として定義された「手の姿勢」の複数の種類の中から、最も近い手姿勢が識別可能であればよい。
　当該手姿勢姿検出は、機械学習ベースで実行されてもよいし、ルールベースで実行されてもよい。例えば、所望の認識精度及び使用可能な処理量等に基づいて、手姿勢検出のアルゴリズムが設定されればよい。
　当該手姿勢検出は、必ずしも認識処理が行われるフレームごとに実行する必要はなく、使用する情報処理装置４０で十分に計算の回る速度で行えばよい。例えば認識処理よりも遅いフレームレートで実行することも可能である。
　一方で、当該手姿勢検出を、認識処理が行われるフレームごとで実行することで、高い精度で優先度を算出することが可能となる。

　図１２は、情報提示システムの動作例を示す模式図である。
　図１２に示す例では、各フレームにて、手認識部４３による手認識と、優先度算出部４４による優先度算出と、認識処理設定部４５による実行認識処理の設定が実行される。
　前フレーム（ｔ－１）において、センサ３０の検出結果に基づいて、手認識が実行される。手認識の認識結果に基づいて、認識された１以上の手３の各々に対して、優先度が算出される。この際に、認識結果以外の対象物情報、例えば図１１で例示した手姿勢検出の結果や、優先度算出用の要素に関する種々の対象物情報が用いられてよい。
　算出された優先度に基づいて、１以上の手３の各々に対して、実行認識処理が設定される。
　次のフレームである現在フレーム（ｔ）において、センサ３０の検出結果に基づいて、手認識が実行される。この際には、前フレーム（ｔ－１）にて認識された手３に対しては、当該手３に対して前フレーム（ｔ－１）にて設定された実行認識処理が実行される。そして、現在フレーム（ｔ）において、認識された１以上の手３の各々に対して優先度が算出され、算出された優先度に基づいて実行認識処理が設定される。
　次のフレームである次フレーム（ｔ＋１）において、センサ３０の検出結果に基づいて、手認識が実行される。この際には、現在フレーム（ｔ）にて認識された手３に対しては、当該手３に対して現在フレーム（ｔ）にて設定された実行認識処理が実行される。そして、次フレーム（ｔ＋１）において、認識された１以上の手３の各々に対して優先度が算出され、算出された優先度に基づいて実行認識処理が設定される。
　なお、前フレーム（ｔ－１）での手認識については、その前のフレーム（ｔ－２）で設定された実行認識処理が用いられる。
　このように前フレームから存在している手３を優先的に処理し、前フレームにて設定された実行認識処理が実行される。

　図１３は、手認識により認識された１以上の手３に対する、優先度算出及び実行認識処理の設定例を示すフローチャートである。
　まず１以上の手３の各々に対して優先度算出処理が実行される。
　全ての手が処理されたか否かが判定される（ステップ１０１）。すなわち認識された全ての手３に対して、優先度の算出が完了したか否かが判定される。
　全ての手が処理されていない場合は（ステップ１０１のＮｏ）、処理が済んでいない手３の各々に対して、以下の処理が実行される。
　定義されている全ての優先度算出用の要素が処理されたか否かが判定される（ステップ１０２）。全ての要素が処理されていない場合は（ステップ１０２のＮｏ）、処理が済んでいない要素について、当該要素を優先度算出に使用するか否かが判定される（ステップ１０３）。
　優先度算出に使用しないと判定された場合は（ステップ１０３のＮｏ）、当該要素は処理済となり、ステップ１０２に戻る。
　優先度算出に使用すると判定された場合は（ステップ１０３のＹｅｓ）、当該要素について、定義されている係数及び優先度設定値の積（係数×優先度設定値）が算出され、優先度として積算される（ステップ１０４）。これにより当該要素は処理済となり、ステップ１０２に戻る。
　例えば、アプリケーションごとに、優先度算出用の要素に対して優先度算出に使用するか否かのフラグ等が定義されており、当該フラグ等に基づいて、優先度に使用するか否かが判定されてもよい。
　あるいは、各要素について手の状態等に対して優先度設定値（０．０）に定義されている状態の場合には、その要素は優先度算出に使用しないと判定されてもよい。この場合、例えば、優先度設定値を全て（０．０）とすることで、当該要素は優先度算出に使用しない要素として簡単に定義することが可能となる。
　全ての要素が処理された場合は、使用される全ての要素について、（係数×優先度設定値）が積算され、積算結果として出力される。そして当該積算結果と、前フレームにて算出された優先度とに基づいて、本フレームにおける優先度が算出される（ステップ１０５）。
　例えば、以下の式により本フレームの優先度を算出することが可能である。
　（優先度）＝ｗ×（前フレームの優先度）＋（１－ｗ）×（積算結果）
　ｗ：０～１の範囲の係数
　例えば、前フレームの優先度をより反映させたい場合には係数ｗを大きくする。一方で、毎フレームごと新規に優先度を算出したい場合は、係数ｗを０にする。このような設定が可能となる。係数ｗを０．５とすると、前フレームでの優先度と積算結果の平均が、本フレームおける優先度として算出される。
　その他、２つの値に基づいた任意の算出方法が用いられてもよい。あるいは、前フレームにて算出された優先度を用いることなく優先度が算出されてもよい。
　ステップ１０５において、前フレームに存在していた手３については、優先度が更新される。
　前フレームに存在しなかった新規の手３については、各要素の（係数×優先度設定値）の積算結果が優先度として算出される。
　全ての手が処理された場合は（ステップ１０１のＹｅｓ）、優先度算出処理は終了し、実行認識処理の設定が実行される（ステップ１０６）。
　本実施形態では、優先度の大きい手３を許容数（Ｐ）個取り出し、実行認識処理として、第２の認識処理（機械学習ベースの認識処理）を設定する。残りの手３に対しては、実行認識処理として、第１の認識処理（ルールベースの認識処理）を設定する。
　このように図１３に示す例では、算出された優先度の大きい手３から優先して第２の認識処理（機械学習ベースの認識処理）が設定される。

　なお、各フレームにおいて新規に手３が検出されたとする。例えば３次元のデプス画像データから抽出された手領域について、前フレームの認識結果と比較した場合に、前フレームには該当する手３が存在しないと判定されたとする。
　この場合、例えば第２の認識処理（機械学習ベースの認識処理）が実行認識処理として設定されている手３の数が、許容数（Ｐ）未満であるか否かが判定される。
　第２の認識処理（機械学習ベースの認識処理）が設定された手３の数が許容数（Ｐ）未満である場合は、新たに検出された手に対して第２の認識処理（機械学習ベースの認識処理）により手認識が実行される。
　第２の認識処理（機械学習ベースの認識処理）が設定された手３の数が許容数（Ｐ）に達している場合は、新たに検出された手３に対して第１の認識処理（ルールベースの認識処理）により手認識が実行される。
　その後、図１３に示す処理が実行され、新たに検出された手３についてもフレームごとに優先度が更新され、更新された優先度に基づいて実行認識処理が設定される。

　図１４は、実行認識処理の設定の他の例を示すフローチャートである。例えば、図１３に示すステップ１０６に代えて、図１４に示す処理を実行することが可能である。
　第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が所定の閾値以上の手３の数（Ｋ）が算出される（ステップ２０１）。
　本実施形態では前フレームにて実行認識処理として第２の認識処理（機械学習ベースの認識処理）が設定されている手３であって、図１３のステップ１０５にて算出された優先度が所定の閾値以上となる手３の数が算出される。
　算出された手の数（Ｋ）が、第２の認識処理（機械学習ベースの認識処理）を設定可能な許容数（Ｐ）未満であるか否かが判定される（ステップ２０２）。すなわち前フレームにて第２の認識処理（機械学習ベースの認識処理）が設定されている手３の数が、許容数（Ｐ）に達しているか否かが判定される。
　算出された手３の数（Ｋ）が、第２の認識処理（機械学習ベースの認識処理）を設定可能な許容数（Ｐ）未満ではない場合は（ステップ２０２のＮｏ）、第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が閾値以上の手３に対して、第２の認識処理が設定される。残りの手に対しては、実行認識処理として、第１の認識処理（ルールベースの認識処理）が設定される（ステップ２０３）。
　算出された手の数（Ｋ）が、第２の認識処理（機械学習ベースの認識処理）を設定可能な許容数（Ｐ）未満である場合は（ステップ２０２のＹｅｓ）、第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が閾値以上の手３に対して、第２の認識処理が設定される（ステップ２０４）。これにより許容数ＰのうちＫ個の手３に対して、第２の認識処理（機械学習ベースの認識処理）が設定される。
　残りの手の中から優先度の大きい手を、（Ｐ―Ｋ）個取り出し、実行認識処理として、第２の認識処理（機械学習ベースの認識処理）を設定する。さらに残った手に対しては、実行認識処理として、第１の認識処理（ルールベースの認識処理）が設定される（ステップ２０５）。

　このように、優先度に対して所定の閾値を設定する。そして第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が閾値以上の手３については、実行認識処理の設定が維持されてもよい。
　なお、第２の認識処理（機械学習ベースの認識処理）が設定されている手３について、優先度が閾値未満となった場合は、ステップ２０５の残りの手として、優先度に基づいて実行認識処理の設定が更新される。
　従って、第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が閾値以上の手３に対して、優先度が所定の閾値よりも低くなるまで、第２の認識処理（機械学習ベースの認識処理）の設定を維持することが可能となる。
　例えば、前フレームにて第１の認識処理（ルールベースの認識処理）が設定された手３、あるいは本フレームにて新規に検出され第１の認識処理（ルールベースの認識処理）により設定された手３の中で、優先度が上回るような手３が出てきたとする。この場合でも、優先度が閾値以上であれば、第２の認識処理（機械学習ベースの認識処理）の設定が維持される。すなわち第２の認識処理（機械学習ベースの認識処理）が設定されており、優先度が閾値以上の手３に対して、優先的に第２の認識処理（機械学習ベースの認識処理）が設定される。
　これにより操作中の手３に対して、認識処理が突然切り替わって、操作が妨げられてしまうといったことを防止することが可能となる。例えば操作中である手３として第２の認識処理（機械学習ベースの認識処理）が設定されている状況で、さらに優先度が上回る手３が出現した瞬間に、第２の認識処理から第１の認識処理へ認識処理が切替えられるとする。この場合、ユーザ２の入力操作に対する処理の精度が突然低くなってしまう場合等があり得る。そうするとユーザ２にとっての操作性が著しく低下してしまう可能性も高い。このような問題を防止することが可能となる。
　なお、優先度に関する閾値は、優先度定義部４６にて、アプリケーションごとに定義することが可能である。例えば、閾値は、（係数×優先度設定値）の積算結果の最大値に基づいて設定することが可能である。

　［地図アプリケーションの操作］
　本技術に係る情報提示システム１５０の一実施例として、ユーザ２に対する地図アプリケーションの提供、及びユーザ２による操作について説明する。
　図１５は、地図アプリケーションのアプリケーション画像の一例を示す模式図である。
　例えば情報提示システム１５０として、図３Ｂに示す構成が採用され、矩形のテーブル３５の天面に、下方側から地図のアプリケーション画像（以下、単に地図と記載する場合がある）５０が表示される。またテーブル３５の上方側にセンサ２０としてデプスセンサが配置される。
　天面の周りには、４人のユーザ２（２ａ～２ｄ）が存在しており、全員で１つの地図５０を共有し、同時に閲覧することが可能である。
　各ユーザ２は、自分の両手（左手６及び右手７）を用いて種々の入力操作を行うことが可能である。
　図１６Ａ～Ｄに示すように、本実施例では、地図アプリケーションに対して以下の入力操作が可能であるとする。
　人差し指姿勢でのドラッグ操作…線の描画
　パー姿勢で５本の指でのドラッグ操作…地図のスクロール
　２本指でのピンチイン／ピンチアウト操作…地図の拡大／縮小
　タップ操作…地図上の所定の場所の情報表示
　その他、実行可能な入力操作として、任意の入力操作が採用されてよい。
　本実施例において、第２の認識処理（機械学習ベースの認識処理）を実行認識処理として設定可能な手の許容数（上限数）は、２個とする。すなわち４人の両手、すなわち合計８個の手のうち、最大２個まで第２の認識処理（機械学習ベースの認識処理）を設定可能であるとする。

　図１７は、優先度定義部４６にて定義される優先度算出用の要素及び係数の一例である。
　本実施例では、優先度算出用の要素として、「手の活動量」、「手の所定の位置からの距離」、「手の姿勢」、「手による入力操作の有無」、「手に関連する関連対象物の情報」が定義される。
　なお本実施例では、アプリケーション上における所定の入力操作の有無が判定される。すなわちユーザ２による所定の操作等に応じて実際に処理が実行された場合に、所定の入力操作が有りと判定される。
　また「手に関連する関連対象物の情報」としては、図９に例示する視線のトラッキング情報が定義される。
　図１７に示すように、地図アプリケーションの特性を考慮して、「手の姿勢」の係数が他の要素よりも半分の値に設定される。また、「手による入力操作の有無」の係数が他の要素よりも２倍の値にされている。また「手に関連する関連対象物の情報」であるトラッキング情報について係数は０となっている。従って「手に関連する関連対象物の情報」の要素は、使用されない。
　また優先度に関する閾値は、２．０に定義されているとする。これにより、優先度係数が１．０となる入力操作が行われており第２の認識処理（機械学習ベースの認識処理）で認識されている手については、必ず優先度は閾値以上となる。従って、他の手に優先度で上回られても、第２の認識処理の設定が維持されるので操作が妨げられるといったことはなく、高い操作性が発揮される。

　図１８は、「手の所定の位置からの距離」についての定義を説明するための図である。
　本地図アプリケーションでは、タップ可能な場所は地図５０全体に多く散らばって存在しており、ピンチイン／ピンチアウト操作やドラッグ操作は地図５０のどこでも可能である。そのため、特定のＵＩコンポーネントには注目しないが、少なくともテーブル中央にある手は端にある手よりも何らかの操作意図をもって存在していると仮定し、テーブル３５の中心点ＣＰを注目点とする。従って、テーブル３５の中心点ＣＰに近いほど、優先度設定値が高くなるように定義する。
　例えば、以下の式を用いることが可能である。
　（優先度設定値）＝１．０－（中心からの距離）／（所定の閾値）
　例えば、テーブル３５の中心点ＣＰに、要認識領域として円を設定する。そしてその円の半径を、閾値として用いることが可能である。テーブル３５の大きさ、例えば中心からテーブル３５の縁部までの距離の最大値や最小値等に基づいて、閾値が設定されてもよい。

　図１９は、「手の姿勢」についての定義を説明するための図である。
　本地図アプリケーションでは、図１６に示す入力操作を行うことが可能である。すなわち本アプリケーションでは、所定の処理の実行条件として、特定の手姿勢で地図５０をタッチするといった条件が設定されている。
　図１９に示すように、パー姿勢、人差し指姿勢、ピンチ姿勢、及びそれ以外の姿勢が分類され、優先度設定値が定義される。
　ピンチ姿勢は、親指と人差し指のみを伸ばし、他の指を折り曲げた姿勢で、ピンチイン／ピンチアウト操作に必要な条件である。この操作は他の操作よりセンサ３０から隠れやすく、タッチ位置精度を要するため、機械学習ベースで認識したい。そのため、ピンチイン／ピンチアウト操作をしている確率の高いピンチ姿勢に対しては、１．０の優先度設定値が定義される。
　また、人差し指姿勢に対しては０．０が定義され、パー姿勢に対しては０．５が定義される。これは人差し指姿勢は、ルールベースでも比較的指先の認識が安定するため、機械学習ベースで認識する必要性がパー姿勢に比べて低いためである。

　図２０は、「手による入力操作の有無」についての定義を説明するための図である。
　図２０に示すように、図１６に示す入力操作のうち、人差し指姿勢でのドラッグ操作（線の描画）及びパー姿勢で５本の指でのドラッグ操作（地図のスクロール）がドラッグ操作として包括的に定義され、優先度設定値（０．５）が定義される。またピンチイン／ピンチアウト操作（地図の拡大／縮小）に対して、優先度設定値（１．０）が定義される。その他の操作については、優先度設定値（０．０）が定義される。
　地図の拡大／縮小は前述のように精度を要する操作のため、優先度設定値が高く設定される。線描画やスクロールに対応するドラッグについても、できるだけ精度がほしいため、０．５となっている。その他の操作、例えばタップに関しては、大きく位置精度を必要としない、かつ非常に短い時間スパンの操作のため無視するようになっている。
　なお、地図の拡大・縮小のピンチイン／ピンチアウト操作に関して、タッチパネル等では２点でのタッチ操作及び所定の方向に沿ったドラッグ操作を、処理の発動条件として設定することが可能である。
　カメラベースでの認識（画像（デブス画像）を用いた認識）においても、同様の条件を設定することが可能である。この場合、各指のタッチ認識の精度がタッチパネルほど高くできない場合も考えられる。この場合、１本の指でタッチ操作を行う際に、隣の指がタッチ面に非常に近接し、２本指でのタッチ操作であると誤認識されてしまう可能性もある。そうすると、２本指での操作に対応する処理が実行されてしまう。例えば、１本の指でのタッチ操作を行っているにもかかわらず、突然地図の拡大／縮小が実行されてしまうといったこともあり得る。
　このような可能性に対処するために、例えば地図の拡大／縮小の処理の発動条件に、ピンチ姿勢（親指と人差し指のみを伸ばし、他の指を折り曲げた姿勢）であることを加えることも有効である。
　例えば、図２１Ａに示すように、ピンチ姿勢と認識されてかつ２点タッチでドラッグしているときは拡大／縮小が実行される。一方、図２１Ｂに示すように、パー姿勢と認識されている場合は、２点タッチが認識されたとしても無操作、あるいは個別の１点タッチとして処理が実行される。
　これにより、よりユーザの意図に沿った処理が実行可能となり、高い操作性が発揮される。

　以下、優先度の算出の具体例を示す。なお「手の活動量」については、動きの大きさに応じて、０～１の優先度設定値が設定されている。また本例では、（係数×優先度設定値）の積算結果がそのまま優先度として用いられるものとする。
　図２２は、各ユーザ２の手の状態の一例を示す模式図である。
　［ユーザ２ａ］
　ユーザ２ａは、両手を休ませており、何も操作を行っていない。
　（左手６ａ）
　手は動いておらず、（係数×優先度設定値）＝（１×０）＝０となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、その他の姿勢であり、（係数×優先度設定値）＝（０．５×０）＝０となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．０となる。
　このように全然動いていない手については、自動的に優先度が低くなるように算出することが可能である。
　（右手７ａ）
　手は動いておらず、（係数×優先度設定値）＝（１×０）＝０となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、その他の姿勢であり、（係数×優先度設定値）＝（０．５×０）＝０となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．０となる。

　［ユーザ２ｂ］
　ユーザ２ｂは、左手６ｂがパー姿勢のままで休んでおり、何も操作を行っていない。右手７ｂについては、ピンチ操作により実際に地図の拡大／縮小が実行されている。
　（左手６ｂ）
　手は動いておらず、（係数×優先度設定値）＝（１×０）＝０となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、パー姿勢であり、（係数×優先度設定値）＝（０．５×０．５）＝０．２５となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．２５となる。
　（右手７ｂ）
　手は動いており、（係数×優先度設定値）＝（１×０．５）＝０．５となる。
　手の位置はテーブル中心に近く、（係数×優先度設定値）＝（１×０．８）＝０．８となる。
　姿勢は、ピンチ姿勢であり、（係数×優先度設定値）＝（０．５×１）＝０．５となる。
　拡大／縮小操作中であり、（係数×優先度設定値）＝（２×１）＝２となる。
　優先度（積算結果）は３．８となる。
　本実施例では、所定の入力操作の有無の比重が半分以上となり、他の要素に比べて非常に大きい。一方で、他の要素については、実際の入力操作が行われる前でも（係数×優先度設定値）が積算可能である。従って他の要素により、入力操作の前からそれを予期して第２の認識処理（機械学習ベースの認識処理）により認識されるようにするといったことが可能となる。

　［ユーザ２ｃ］
　ユーザ２ｃは、左手６ｃがパー姿勢のままで休んでおり、何も操作を行っていない。右手７ｃについては、人差し指姿勢のタップ操作により、タップされた位置の情報表示が実行されている。
　（左手６ｃ）
　手は動いておらず、（係数×優先度設定値）＝（１×０）＝０となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、パー姿勢であり、（係数×優先度設定値）＝（０．５×０．５）＝０．２５となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．２５となる。
　（右手７ｃ）
　手は動いており、（係数×優先度設定値）＝（１×０．５）＝０．５となる。
　手の位置はテーブルの端気味であり、（係数×優先度設定値）＝（１×０．２）＝０．２となる。
　姿勢は、人差し指姿勢であり、（係数×優先度設定値）＝（０．５×０）＝０となる。
　タップ操作が行われており、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．７となる。
　右手の人差し指姿勢の優先度設定値は０であり、タップ操作も０である。すなわち両方とも無視されてしまうため、優先度はあまり高くならない。

　［ユーザ２ｄ］
　ユーザ２ｄは、左手６ｄが休んでおり、何も操作を行っていない。右手７ｄについては、パー姿勢のタップ操作により、タップされた位置の情報表示が実行されている。
　（左手）
　手は動いておらず、（係数×優先度設定値）＝（１×０）＝０となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、その他の姿勢であり、（係数×優先度設定値）＝（０．５×０）＝０となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は０．０となる。
　（右手７ｄ）
　手は動いており、（係数×優先度設定値）＝（１×０．５）＝０．５となる。
　手の位置はテーブル中心に近く、（係数×優先度設定値）＝（１×０．７）＝０．７となる。
　姿勢は、パー姿勢であり、（係数×優先度設定値）＝（０．５×０．５）＝０．２５となる。
　タップ操作が行われており、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は１．４５となる。
　右手７ｄについて、ユーザ２ｃの右手７ｃと同様のタップ操作であるが、パー姿勢である。またテーブル中心に近い。従って、優先度は、ユーザ２ｃの右手７ｃよりも高くなる。

　図２２には、各ユーザ２の左手６及び右手７に対して算出される優先度が図示されている。本例では、第２の認識処理（機械学習ベースの認識処理）を設定可能な手の許容数は２個である。従って、ユーザ２ｂの拡大／縮小操作をしている右手７ｂと、ユーザ２ｄのパー姿勢でタップ操作をしている右手７ｄに、第２の認識処理（機械学習ベースの認識処理）が割り当てられる。
　このように、操作重要度の高い手を精度よく抽出することが可能となり、これらの手を第２の認識処理（機械学習ベースの認識処理）により高い精度で認識することが可能となっている。また休んでいるだけの手を排除して、操作している手を抽出することが可能であることもわかる。

　図２２に示す状態から、図２３に示すように、ユーザ２ｃが右手７ｃで人差し指姿勢でのドラッグ操作を行ったとする。またユーザ２ａは、それまで休めていた右手７ａを、操作ではなく無駄に大きく動かしたとする。
　（ユーザ２ｃの右手７ｃ）
　手は大きく動いており、（係数×優先度設定値）＝（１×０．８）＝０．８となる。
　手の位置はテーブルの端気味であり、（係数×優先度設定値）＝（１×０．２）＝０．２となる。
　姿勢は、人差し指姿勢であり、（係数×優先度設定値）＝（０．５×０）＝０となる。
　ドラッグ操作が行われており、（係数×優先度設定値）＝（２×０．５）＝１となる。
　優先度（積算結果）は２となり、ユーザ２ｄの右手７ｄの優先度である１．４５より高くなる。
　（ユーザ２ａの右手７ａ）
　手は大きく動いており、（係数×優先度設定値）＝（１×０．８）＝０．８となる。
　手の位置はテーブルの端であり、（係数×優先度設定値）＝（１×０）＝０となる。
　姿勢は、パー姿勢であり、（係数×優先度設定値）＝（０．５×０．５）＝０．２５となる。
　入力操作はなく、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は１．０５となり高くなるが、ユーザ２ｄの右手７ｄの優先度である１．４５よりも低い値となる。

　図２３に示すように、ユーザ２ｂの拡大／縮小操作をしている右手７ｂと、ユーザ２ｃのドラッグ操作を行っている右手７ｃに、第２の認識処理（機械学習ベースの認識処理）が割り当てられる。すなわちユーザ２ｄのタップ操作をしている右手７ｄから、ユーザ２ｃのドラッグ操作を行っている右手７ｃに、第２の認識処理（機械学習ベースの認識処理）の設定が切り替えらえる。
　このように、タップ操作よりも高い認識精度を要するドラッグ操作に対して、第２の認識処理（機械学習ベースの認識処理）を設定することが可能となる。
　また優先度算出量の要素として、「手の活動量」のみならず他の要素も定義されているので、無駄に動かしているユーザ２ａの右手７ａに対して、第２の認識処理（機械学習ベースの認識処理）が設定されてしまうことはなく、操作重要度の高い手から外することが可能である。

　図２３に示す状態から、図２４に示すように、ユーザ２ｄが右手７ｄを使ってテーブル中心付近で、活発にタップ操作を行い始めたとする。
　（ユーザ２ｄの右手７ｄ）
　手は非常に活発に動いており、（係数×優先度設定値）＝（１×０．９）＝０．９となる。
　手の位置はテーブル中心に非常に近く、（係数×優先度設定値）＝（１×０．９）＝０．９となる。
　姿勢は、パー姿勢であり、（係数×優先度設定値）＝（０．５×０．５）＝０．２５となる。
　タップ操作が行われており、（係数×優先度設定値）＝（２×０）＝０となる。
　優先度（積算結果）は２．０５となり、ユーザ２ｃの右手７ｃの優先度である２．０より高くなる。

　図２４に示すように、ユーザ２ｂの拡大／縮小操作をしている右手７ｂと、ユーザ２ｃのドラッグ操作を行っている右手７ｃに、第２の認識処理（機械学習ベースの認識処理）が割り当てられる。すなわちこれら２個の手に対して、第２の認識処理（機械学習ベースの認識処理）の設定が維持される。
　これは、ユーザ２ｃのドラッグ操作を行っている右手７ｃの優先度が、優先度の閾値（２．０）以上であるためである。優先度が閾値以上になっている手については、新たに優先度のより大きい手が出現したとしても、第２の認識処理（機械学習ベースの認識処理）の設定が維持される。
　従って、優先度が２．０５となった活発にタップ操作を行うユーザ２ｄの右手７ｄについては、第１の認識処理（ルールべース）の認識処理が割り当てられる。もしユーザ２ｂの右手７ｂ、及びユーザ２ｃの右手７ｃのいずれかの優先度が閾値を下回ったら、そのとき初めてユーザ２ｄの右手７ｄに第２の認識処理（機械学習ベースの認識処理）が割り当てられる。
　このように閾値によって認識処理をキープすることによって、ある操作をしている最中に突然認識処理が切り替わって、検出座標にずれが生じるといったことを防ぐことができる。
　以上、本技術に係る情報処理装置では、認識された１以上の対象物１の各々に対して、第１の認識処理又は高精度の認識が可能な第２の認識処理が、認識部により実行される実行認識処理として設定される。これにより、処理負荷を抑えた新たな認識処理を実現することが可能となる。
　例えば、画像センサで複数ユーザの手の突端位置を検出し、通常のテーブル上に投影したＧＵＩに対して操作を行うことが可能である。しかしながらシステムで同時に検出可能な手指の本数には上限があり、検出上限より多くの手が存在した場合、どの手が認識されるのかをコントロールできないという問題が発生し得る。
　検出可能な手指の上限数は基本的に手認識の処理負荷・認識性能と反比例している。例えば、処理負荷が低く、認識性能も低い認識処理を使用する場合、比較的多くの検出数を許容できる。一方で、認識性能が高く、また処理負荷も高い認識処理を利用した場合、上限が少なくなり、上記問題が発生しやすくなる。
　本技術を用いることで、例えば性能（例えば精度や認識可能な点数）と処理負荷とにトレードオフの存在する２種類の手指位置の認識処理を、ユーザの手の状態に応じて自動的に切り替えることが可能となる。例えばユーザに対して認識処理の切り替えを意識させることなく、アプリケーション等の利用を実現させることが可能となる。この結果、処理負荷の抑制と、ユーザの操作性の向上とを両立することが可能となる。
　また、本技術を用いることで、認識範囲に多くの手が存在していても、高性能・高負荷の認識処理と低性能・低負荷の認識処理とを併用し、各々の手の状態に応じて効率的に割り当てることが可能となる。これによりユーザの所望の操作を損なわずに、処理負荷を最適化することも可能となる。

　＜その他の実施形態＞
　本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。

　上記の実施形態では、システム側が自動的に判断することで、ユーザが意識することなく、第１の認識処理及び第２の認識処理の設定が実行された。
　本技術の実施に関して、ユーザが自主的に第１の認識処理及び第２の認識処理の設定を切り替えることも可能である。
　例えば、アプリケーションに対する操作、姿勢、ジェスチャ、音声等によるユーザの指示に応じて、第１の認識処理及び第２の認識処理の設定が切替えられてもよい。
　例えば、図２５Ａに示す例では、優先度算出用の要素として「手による入力操作の有無」が定義され、特定のタッチ操作（優先度設定値１．０）、及びそれ以外の操作（優先度設定値０．０）が定義されている。
　これにより特定のタッチ操作が行われた場合に、優先度が上がるようになっている。特定のタッチ操作としては、例えば、図２５Ｂ及びＣに示すように、特定のボタンや特定の物体へのタッチ操作が挙げられる。もちろんこれに限定される訳ではない。
　ユーザは、自分の手に対して高精度の認識を望む場合は、特定のタッチ操作を行えばよい。これにより、例えば、「特定のボタン及び特定の物体に触ることで、（その手がより精度の高い認識をされるようになり、その認識を利用した）タッチ以外の様々な操作を開始できる」といったアプリケーション体験を実現することが可能となる。
　なお、優先度の算出において、前フレームの優先度を多く残すようにして、特定のタッチ操作をした後に優先度がゆるやかに減少していくように設定する。これにより、特定のタッチ操作をした後しばらくの間優先度が保たれ、特定のタッチ操作を手が新たに現れた場合は、その手に高精度の認識を譲ることが可能となる。
　例えば、特定の時間の間は機械学習ベースの認識処理をキープしたいという場合（例えば、特定のタッチ操作後１０秒は、特定のタッチ操作をする手が新たに現れても高精度の認識をキープ可能）は、特定のタッチ操作の後、特定の時間の間に優先度が減少しながらも優先度の閾値は下回らないように、係数や優先度の閾値を調整すればよい。
　もちろん、他の手の優先度によっては、認識処理が切り替わらない場合もあり得る。

　図２６に示す例では、特定の場所に依存しない空中でのジェスチャにより、ユーザによる明示的な認識処理の切り替えが可能となる。
　例えば、図２６Ａ～Ｃに示すように、優先度算出用の要素として「手の姿勢」が定義され、数回のグーバーの繰り返しに対して優先度設定値（１．０）が設定される。またチョキで３秒待つに対して優先度設定値１．０が設定される。それ以外の姿勢については、優先度設定値０．０は設定される。
　ユーザは、これらのジェスチャを行うことで、自分の手に対しての優先度を向上させることが可能となり、第１の認識処理から第２の認識処理への切り替えを実行することが可能となる。もちろん、他の手の優先度によっては、認識処理が切り替わらない場合もあり得る。

　このように、所定の状態（位置、姿勢、入力操作、これらの組み合わせ等）が認識された対象物を優先して、第２の認識処理が実行認識処理として設定されてもよい。また所定の状態（位置、姿勢、入力操作、これらの組み合わせ等）が認識された対象物の優先度が相対的に高くなるように算出されてもよい。
　これによりユーザにとって新しい操作体験を提供することが可能となる。

　ユーザが意図的に認識処理を切り替え可能である場合、ユーザに現在設定されている認識処理が把握可能なように、視覚的なフィードバックが実行されてもよい。
　例えば図２７に示すように、ユーザの手の上や手の付近に、設定されている認識処理が把握可能な表示を、プロジェクションあるいはＡＲ表示する。
　例えば、図２７Ａに示す色分け、図２７Ｂに示すポインタの種類の変更、図２７Ｃに示すどちらか一方の認識処理の設定に応じた画像表示、このような視覚的なフィードバックが考えられる。もちろん、その他、任意のフィードバックが実行されてよい。例えば、音声や振動等によりフィードバックが実行されてもよい。
　認識処理についてフィードバックが実行されることで、ユーザが自分の手に対する現在の認識状態をよりコントロールしやすくなる。

　第２の認識処理が設定可能な対象物の許容数（上限数）は、情報処理装置の性能に合わせて、任意に設定することが可能である。
　あるいは、システム側で、許容数が自動的に判定されてもよい。
　例えば、ユーザにより、認識処理のフレームレートが指定されるとする。この場合、システム側で、０個、１個、２個と、処理する手の数を増やしながら認識処理をシミュレートする。そして、ユーザが指定したフレームレートを下回った場合に、そのときの数から１個少ない数を、許容数として設定する。
　もちろん、他の方法が採用されてもよい。また情報処理装置の負荷状態等に応じて、許容数が動的に変更可能であってもよい。

　図２８は、情報処理装置２０（４０）のハードウェア構成例を示すブロック図である。
　情報処理装置２０（４０）は、ＣＰＵ６１、ＲＯＭ（Read Only Memory）６２、ＲＡＭ６３、入出力インタフェース６５、及びこれらを互いに接続するバス６４を備える。入出力インタフェース６５には、表示部６６、入力部６７、記憶部６８、通信部６９、及びドライブ部７０等が接続される。
　表示部６６は、例えば液晶、ＥＬ等を用いた表示デバイスである。入力部６７は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部６７がタッチパネルを含む場合、そのタッチパネルは表示部６６と一体となり得る。
　記憶部６８は、不揮発性の記憶デバイスであり、例えばＨＤＤ、フラッシュメモリ、その他の固体メモリである。ドライブ部７０は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体７１を駆動することが可能なデバイスである。
　通信部６９は、ＬＡＮ、ＷＡＮ等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部６９は、有線及び無線のどちらを利用して通信するものであってもよい。通信部６９は、情報処理装置２０（４０）とは別体で使用される場合が多い。
　上記のようなハードウェア構成を有する情報処理装置２０（４０）による情報処理は、記憶部６８またはＲＯＭ６２等に記憶されたソフトウェアと、情報処理装置２０（４０）のハードウェア資源との協働により実現される。具体的には、ＲＯＭ６２等に記憶された、ソフトウェアを構成するプログラムをＲＡＭ６３にロードして実行することにより、本技術に係る情報処理方法が実現される。
　プログラムは、例えば記録媒体６１を介して情報処理装置２０（４０）にインストールされる。あるいは、グローバルネットワーク等を介してプログラムが情報処理装置２０（４０）にインストールされてもよい。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。

　本技術に係る情報処理装置が、センサや表示デバイス等の、他のデバイスと一体的に構成されてもよい。すなわちセンサや表示デバイス等に、本技術に係る情報処理装置の機能が搭載されてもよい。この場合、当該センサや表示デバイス自体が、本技術に係る譲歩処理装置の一実施形態となる。

　図１に例示した物体認識システム１００の適用が、図３等に例示した情報提示システム１５０への適用に限定される訳ではない。対象物に対する認識が必要な任意の分野の任意のシステムに対して、本技術に係る物体認識システムを適用することが可能である。

　ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
　すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。なお本開示において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれもシステムである。
　コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えばセンサの検出結果に基づいた対象物の認識や、実行認識処理の設定等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
　すなわち本技術に係る情報処理方法及びプログラムは、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。

　各図面を参照して説明した物体認識システム、情報提示システム、センサ、表示デバイス、情報処理装置、アプリケーション画像等の各構成、認識フロー、優先度算出フロー、実行認識処理の設定フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。

　本開示において、「Ａより大きい」「Ａより小さい」といった「より」を使った表現は、Ａと同等である場合を含む概念と、Ａと同等である場合を含なまい概念の両方を包括的に含む表現である。例えば「Ａより大きい」は、Ａと同等は含まない場合に限定されず、「Ａ以上」も含む。また「Ａより小さい」は、「Ａ未満」に限定されず、「Ａ以下」も含む。
　本技術を実施する際には、上記で説明した効果が発揮されるように、「Ａより大きい」及び「Ａより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。

　本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
　例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲（例えば±１０％の範囲）に含まれる状態も含まれる。
　従って、「略」の文言が付加されていない場合でも、いわゆる「略」を付加して表現される概念が含まれ得る。反対に、「略」を付加して表現された状態について、完全な状態が排除される訳ではない。

　以上説明した本技術に係る特徴部分のうち、少なくとも２つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。

　なお、本技術は以下のような構成も採ることができる。
（１）
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識部と、
　認識された前記１以上の対象物の各々に対して、前記認識部により実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定部と
　を具備する情報処理装置。
（２）（１）に記載の情報処理装置であって、
　前記設定部は、所定の時間間隔で、前記１以上の対象物の各々に設定される前記実行認識処理を更新する
　情報処理装置。
（３）（１）又は（２）に記載の情報処理装置であって、
　前記設定部は、前記認識部により前記１以上の対象物が認識されるタイミングごとに、前記１以上の対象物の各々に設定される前記実行認識処理を更新する
　情報処理装置。
（４）（１）から（３）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、前記第２の認識処理が前記実行認識処理として設定される前記対象物の数が、所定の上限数以下となるように、前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
（５）（１）から（４）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて、前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
（６）（５）に記載の情報処理装置であって、
　前記対象物情報は、前記対象物の位置、前記対象物の状態、又は前記対象物の動きのうちの少なくとも１つを含む
　情報処理装置。
（７）（５）又は（６）に記載の情報処理装置であって、
　前記対象物情報は、前記対象物の活動量、前記対象物の所定の位置からの距離、前記対象物の姿勢、前記対象物による入力操作の有無、又は前記対象物に関連する関連対象物の情報のうちの少なくとも１つを含む
　情報処理装置。
（８）（５）から（７）のうちいずれか１つに記載の情報処理装置であって、
　前記対象物情報は、前記１以上の対象物の各々に対する前記認識部による認識結果を含む
　情報処理装置。
（９）（５）から（８）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて前記１以上の対象物の各々に対して優先度を算出し、算出された前記優先度に基づいて前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
（１０）（９）に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物のうち前記優先度が相対的に高い前記対象物に対して、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
（１１）（９）又は（１０）に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に対して前記優先度が高い順に、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
（１２）（９）から（１１）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、前記第２の認識処理が前記実行認識処理として設定されており前記優先度が所定の閾値よりも高い前記対象物に対して、前記優先度が前記所定の閾値よりも低くなるまで前記第２の認識処理の設定を維持する
　情報処理装置。
（１３）（１）から（１２）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、所定の状態が認識された前記対象物を優先して、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
（１４）（９）から（１２）のうちいずれか１つに記載の情報処理装置であって、
　前記設定部は、所定の状態が認識された前記対象物の前記優先度を相対的に高く算出する
　情報処理装置。
（１５）（１）から（１４）のうちいずれか１つに記載の情報処理装置であって、
　前記第１の認識処理は、ルールベースアルゴリズムを用いた認識処理であり、
　前記第２の認識処理は、機械学習アルゴリズムを用いた認識処理である
　情報処理装置。
（１６）（１）から（１５）のうちいずれか１つに記載の情報処理装置であって、
　前記第２の認識処理は、第１の認識処理よりも処理負荷が大きい
　情報処理装置。
（１７）（１）から（１６）のうちいずれか１つに記載の情報処理装置であって、
　前記１以上の対象物の各々は、人体の所定の部位である
　情報処理装置。
（１８）
　コンピュータシステムにより実行される情報処理方法であって、
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識ステップと、
　認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定ステップと
　を具備する情報処理方法。
（１９）
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識ステップと、
　認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定ステップと
　をコンピュータシステムに実行させるプログラム。

　０…優先度設定値
　１…対象物
　２…ユーザ
　３…手
　６…左手
　７…右手
　１０、３０…センサ
　２０、４０…情報処理装置
　２１…認識部
　２２…設定部
　２５…プロジェクタ
　４１…処理実行部
　４２…認識処理部
　４３…手認識部
　４４…優先度算出部
　４５…認識処理設定部
　４６…優先度定義部
　５０…地図
　１００…物体認識システム
　１５０…情報提示システム

Claims

　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識部と、
　認識された前記１以上の対象物の各々に対して、前記認識部により実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定部と
　を具備する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記設定部は、所定の時間間隔で、前記１以上の対象物の各々に設定される前記実行認識処理を更新する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記設定部は、前記認識部により前記１以上の対象物が認識されるタイミングごとに、前記１以上の対象物の各々に設定される前記実行認識処理を更新する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記設定部は、前記第２の認識処理が前記実行認識処理として設定される前記対象物の数が、所定の上限数以下となるように、前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて、前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記対象物情報は、前記対象物の位置、前記対象物の状態、又は前記対象物の動きのうちの少なくとも１つを含む
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記対象物情報は、前記対象物の活動量、前記対象物の所定の位置からの距離、前記対象物の姿勢、前記対象物による入力操作の有無、又は前記対象物に関連する関連対象物の情報のうちの少なくとも１つを含む
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記対象物情報は、前記１以上の対象物の各々に対する前記認識部による認識結果を含む
　情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に関する対象物情報に基づいて前記１以上の対象物の各々に対して優先度を算出し、算出された前記優先度に基づいて前記１以上の対象物の各々に対して前記実行認識処理を設定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物のうち前記優先度が相対的に高い前記対象物に対して、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記設定部は、前記１以上の対象物の各々に対して前記優先度が高い順に、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記設定部は、前記第２の認識処理が前記実行認識処理として設定されており前記優先度が所定の閾値よりも高い前記対象物に対して、前記優先度が前記所定の閾値よりも低くなるまで前記第２の認識処理の設定を維持する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記設定部は、所定の状態が認識された前記対象物を優先して、前記第２の認識処理を前記実行認識処理として設定する
　情報処理装置。
　請求項９に記載の情報処理装置であって、
　前記設定部は、所定の状態が認識された前記対象物の前記優先度を相対的に高く算出する
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第１の認識処理は、ルールベースアルゴリズムを用いた認識処理であり、
　前記第２の認識処理は、機械学習アルゴリズムを用いた認識処理である
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記第２の認識処理は、第１の認識処理よりも処理負荷が大きい
　情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記１以上の対象物の各々は、人体の所定の部位である
　情報処理装置。
　コンピュータシステムにより実行される情報処理方法であって、
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識ステップと、
　認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定ステップと
　を具備する情報処理方法。
　センサの検出結果に対して第１の認識処理、又は前記第１の認識処理よりも高精度の認識が可能な第２の認識処理を実行し、１以上の対象物の各々を認識する認識ステップと、
　認識された前記１以上の対象物の各々に対して、前記認識ステップにより実行される実行認識処理として、前記第１の認識処理又は前記第２の認識処理を設定する設定ステップと
　をコンピュータシステムに実行させるプログラム。