WO2018185830A1

WO2018185830A1 - 情報処理システム、情報処理方法、情報処理装置、及びプログラム

Info

Publication number: WO2018185830A1
Application number: PCT/JP2017/014083
Authority: WO
Inventors: 俊二菅谷
Original assignee: 株式会社オプティム
Priority date: 2017-04-04
Filing date: 2017-04-04
Publication date: 2018-10-11
Also published as: JP6679083B2; JPWO2018185830A1

Abstract

音声分析手段は、音検出手段により検出された音声を分析する。選択手段は、複数の動作モードの中から、音声の分析結果について予め定められた動作モードを選択する。検出手段は、人の体の対象部位の位置を検出する。処理手段は、検出手段により検出された位置の特徴について予め定められた、選択手段により選択された動作モードに対応する処理を実行する。

Description

情報処理システム、情報処理方法、情報処理装置、及びプログラム

　本発明は、人の操作に応じて処理を実行する技術に関する。

　ジェスチャー入力や音声入力により装置を操作する技術が知られている。例えば特許文献１には、入力された音声に所定のキーワードが含まれる場合には、ジェスチャー認識システムが動作し、ロボットの動作を制御するジェスチャーを認識する技術が記載されている。

特開２００３－３９３６５号公報

　ウェアラブル端末等の装置においては、多数の動作モードが存在する場合がある。しかし、このような装置には、入力装置として一つ又は数個の小さな物理ボタンしか設けられていない場合がある。このような入力装置を用いて、多数の動作モードの中から所望の動作モードを選択する操作を行う場合には、例えば小さな物理ボタンを何度も押さなくてはならず、操作の負担が大きい。また、この場合には、誤操作も起こりやすい。他方、例えばジェスチャー入力によりこの操作を行う場合には、ユーザーが多数のジェスチャーを覚えなくてはならない。また、この場合には、装置側で多数のジェスチャーを確実に区別しなければならず、これを実現するのも容易ではない。
　本発明は、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることを目的とする。

課題を解決する手段

　本発明は、音検出手段により検出された音声を分析する音声分析手段と、複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、人の体の対象部位の位置を検出する検出手段と、前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行する処理手段とを備える情報処理システムを提供する。

　本発明によれば、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることができる。

第１実施形態に係る情報処理システム１の構成の一例を示す図。ウェアラブル端末１０の外観の一例を示す図。ウェアラブル端末１０のハードウェア構成の一例を示す図。サーバー装置２０のハードウェア構成の一例を示す図。操作テーブル１０１の一例を示す図。操作テーブル１０２の一例を示す図。情報処理システム１の機能構成の一例を示す図。第１実施形態に係る情報処理システム１の動作の一例を示すシーケンスチャート。音量を上げる操作の一例を示す図。第１実施形態に係るユーザーの視界の一例を示す図。第２実施形態に係る情報処理システム３の機能構成の一例を示す図。操作テーブル１０３の一例を示す図。第２実施形態に係る情報処理システム３の動作の一例を示すシーケンスチャート。第２実施形態に係るユーザーの視界の一例を示す図。変形例１に係るユーザーの視界の一例を示す図。

１：情報処理システム、１０：ウェアラブル端末、２０：サーバー装置、１１１：音検出手段、１１２：取得手段、１１３：認証手段、１１４：音声認識手段、１１５：選択手段、１１６：動作モード制御手段、１１７：起動手段、１１８：撮像手段、１１９：画像認識手段、１２０：検出手段、１２１：決定手段、１２２：処理制御手段、１２３：処理手段、１２４：表示制御手段、１２５：音声分析手段

第１実施形態
構成
　図１は、第１実施形態に係る情報処理システム１の構成の一例を示す図である。情報処理システム１は、音声入力及びジェスチャー入力によるウェアラブル端末１０の操作を受け付ける。なお、このジェスチャーは、必ずしも体やその部位の動きを伴ったものでなくてもよい。例えば指により或る位置を指し示す身振りも、ジェスチャーに含まれる。

　情報処理システム１は、ウェアラブル端末１０と、サーバー装置２０とを備える。ウェアラブル端末１０とサーバー装置２０とは、通信回線２を介して接続される。通信回線２は、例えばインターネット及び無線通信網を含む。ただし、通信回線２は、これらの通信網に限定されず、他の通信回線により構成されてもよい。

　図２は、ウェアラブル端末１０の外観の一例を示す図である。この例では、ウェアラブル端末１０は、ユーザーの頭部に装着される眼鏡型の装置である。このウェアラブル端末１０は、ユーザーの片目の近傍に装着される。例えば、ユーザーが工場や建設現場等の場所において作業する作業者である場合、ウェアラブル端末１０は、この作業を支援する情報を入出力する。

　図３は、ウェアラブル端末１０のハードウェア構成の一例を示す図である。ウェアラブル端末１０は、プロセッサー１１と、メモリー１２と、通信インタフェース１３と、ストレージ１４と、表示デバイス１５と、カメラ１６と、マイクロフォン１７と、スピーカー１８と、センサーユニット１９とを備える。

　プロセッサー１１は、プログラムをメモリー１２に読み出して実行することにより、各種の制御や処理を行う。プロセッサー１１としては、例えばＣＰＵ（Central Processing Unit）が用いられる。メモリー１２は、プロセッサー１１により実行されるプログラムを記憶する。メモリー１２としては、例えばＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）が用いられる。

　通信インタフェース１３は、通信回線２に接続され、所定の無線通信規格に従ってデータ通信を行う。ストレージ１４は、各種のデータ及びプログラムを記憶する。ストレージ１４としては、例えばフラッシュメモリーが用いられる。

　表示デバイス１５は、光透過性を有する表示パネル１５０を有し、この表示パネル１５０上に各種の情報を表示する。表示デバイス１５としては、例えば液晶ディスプレイが用いられてもよいし、有機ＥＬディスプレイが用いられてもよい。他の例において、表示デバイス１５は、上述した表示パネル１５０と、この表示パネル１５０に画像を投影する投影装置とにより構成されてもよい。

　図２に示すように、ウェアラブル端末１０がユーザーに装着された状態において、表示パネル１５０は、ユーザーの視界内に位置する。この場合、ユーザーは、この表示パネル１５０を介して、目の前の風景を見ることができる。また、表示パネル１５０上に情報が表示された場合、ユーザーは、目の前の風景とともに、表示パネル１５０上に表示された情報を見ることができる。

　カメラ１６は、撮像素子と光学系とを備え、画像を撮影する。カメラ１６としては、例えばデジタルカメラが用いられる。カメラ１６は、ユーザーの視界に沿って撮影し得る位置及び向きに設置される。

　マイクロフォン１７は、音の入力に用いられる。スピーカー１８は、音を出力する。センサーユニット１９は、各種のセンサーを備える。例えばセンサーユニット１９には、加速度センサー及びジャイロセンサーが含まれる。加速度センサーは、ウェアラブル端末１０の加速度を測定する。ジャイロセンサーは、ウェアラブル端末１０の回転角速度を測定する。

　ウェアラブル端末１０は、音量モードや焦点モードを含む複数の動作モードを有する。これらの動作モードにおいては、互いに異なる処理が実行される。この処理は、例えばウェアラブル端末１０の動作条件を変更する処理である。例えば、音量モードにおいては、スピーカー１８の音量を変更する処理が実行される。一方、焦点モードにおいては、焦点モードは、カメラ１６の焦点を変更する処理が実行される。

　図４は、サーバー装置２０のハードウェア構成の一例を示す図である。サーバー装置２０は、ユーザーの音声やジェスチャーを認識し、その認識結果に応じてウェアラブル端末１０の動作を制御する。サーバー装置２０は、プロセッサー２１と、メモリー２２と、通信インタフェース２３と、ストレージ２４とを備える。

　プロセッサー２１は、プログラムをメモリー２２に読み出して実行することにより、各種の制御や処理を行う。プロセッサー２１としては、例えばＣＰＵが用いられる。メモリー２２は、プロセッサー２１により実行されるプログラムを記憶する。メモリー２２としては、例えばＲＯＭやＲＡＭが用いられる。

　通信インタフェース２３は、通信回線２に接続され、所定の通信規格に従ってデータ通信を行う。ストレージ２４は、各種のデータ及びプログラムを記憶する。ストレージ２４としては、例えばハードディスクドライブが用いられる。ストレージ２４には、操作テーブル１０１と操作テーブル１０２とが格納される。

　図５は、操作テーブル１０１の一例を示す図である。操作テーブル１０１は、ウェアラブル端末１０が有する各動作モードと、この動作モードを選択する操作に用いられる音声の内容との対応関係を示す。この対応関係は、予め定められる。この例では、操作テーブル１０１には、動作モードの識別情報と、操作ワードとが対応付けて格納される。動作モードの識別情報は、動作モードを一意に識別する情報である。操作ワードは、動作モードを選択する操作に用いられる語句である。

　図６は、操作テーブル１０２の一例を示す図である。操作テーブル１０２は、ウェアラブル端末１０が有する各動作モードに対応する処理の内容と、この処理を実行する操作に用いられる対象部位の位置の特徴との対応関係を示す。この対応関係は、予め定められる。この例では、操作テーブル１０２には、動作モードの識別情報と、位置の特徴情報と、処理の内容とが対応付けて格納される。動作モードの識別情報は、動作モードを一意に識別する情報である。位置の特徴情報は、対象部位の位置の特徴を示す情報である。この対象部位は、例えば手や頭等のユーザーの体の少なくとも一部である。この位置の特徴は、特定のオブジェクト又は仮想オブジェクトに対応する位置であってもよいし、所定の動作を示す位置の変化であってもよい。処理の内容は、各動作モードにおいて実行される処理の内容を示す情報である。

　図７は、情報処理システム１の機能構成の一例を示す図である。情報処理システム１は、音検出手段１１１と、取得手段１１２と、認証手段１１３と、音声認識手段１１４と、選択手段１１５と、動作モード制御手段１１６と、起動手段１１７と、撮像手段１１８と、画像認識手段１１９と、検出手段１２０と、決定手段１２１と、処理制御手段１２２と、処理手段１２３と、音声分析手段１２５とを有する。この例では、音検出手段１１１、起動手段１１７、撮像手段１１８、及び処理手段１２３は、ウェアラブル端末１０に実装される。取得手段１１２、認証手段１１３、音声認識手段１１４、選択手段１１５、動作モード制御手段１１６、画像認識手段１１９、検出手段１２０、決定手段１２１、処理制御手段１２２、及び音声分析手段１２５は、サーバー装置２０に実装される。

　音検出手段１１１は、例えばマイクロフォン１７により実現される。音検出手段１１１は、ユーザーの音声を検出する。

　取得手段１１２は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１と、通信インタフェース２３との組み合わせにより実現される。取得手段１１２は、音検出手段１１１により検出された音声を取得する。なお、この「取得」という用語の概念には、受信が含まれる。また、「音声」という用語の概念には、デジタル形式で表現された音声、すなわち音声データが含まれる。

　また、取得手段１１２は、撮像手段１１８により撮影された、ユーザーの体の対象部位を含む画像を取得してもよい。この対象部位としては、例えば手が用いられる。なお、この「画像」という用語の概念には、デジタル形式で表現された画像、すなわち画像データが含まれる。

　認証手段１１３は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。認証手段１１３は、取得手段１１２により取得された音声の特徴を用いて、ユーザーを認証する。この音声の特徴には、例えば音声波形や振幅スペクトルが含まれる。

　音声認識手段１１４及び音声分析手段１２５は、いずれも、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。音声分析手段１２５は、取得手段１１２により取得された音声を分析する。音声分析手段１２５は、音声認識手段１１４を有する。音声認識手段１１４は、取得手段１１２により取得された音声を認識し、認識した結果を示す文字列を生成する。

　選択手段１１５は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。選択手段１１５は、複数の動作モードの中から、音声分析手段１２５による音声の分析結果について予め定められた動作モードを選択する。この音声の分析結果としては、例えば音声認識手段１１４により音声が認識された結果を示す文字列が用いられてもよい。この動作モードの選択は、例えば操作テーブル１０１を参照して行われてもよい。また、複数の動作モードは、装置が有するものであってもよい。この装置としては、例えばウェアラブル端末１０が用いられる。

　動作モード制御手段１１６は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１と、通信インタフェース２３との組み合わせにより実現される。動作モード制御手段１１６は、選択手段１１５により選択された動作モードを起動するよう、装置を制御する。

　起動手段１１７は、例えばメモリー１２に記憶されたプログラムと、プログラムを実行するプロセッサー１１と、通信インタフェース１３との組み合わせにより実現される。起動手段１１７は、動作モード制御手段１１６の制御の下、選択手段１１５により選択された動作モードを起動する。

　撮像手段１１８は、例えばカメラ１６により実現される。撮像手段１１８は、ユーザーの体の対象部位を含む画像を撮影する。

　画像認識手段１１９は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。画像認識手段１１９は、取得手段１１２により取得された画像を認識して、対象部位を特定する。この対象部位の特定は、周知の画像認識技術を用いて行われてもよい。

　検出手段１２０は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。検出手段１２０は、画像認識手段１１９により特定された対象部位の位置を検出する。

　決定手段１２１は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１との組み合わせにより実現される。決定手段１２１は、検出手段１２０により検出された位置の特徴について予め定められた、選択手段１１５により選択された動作モードに対応する処理を決定する。この処理は、例えば音出力手段の音量や撮像手段の焦点を変更する処理である。この音出力手段としては、例えばスピーカー１８が用いられる。この撮像手段としては、例えばカメラ１６が用いられる。この処理の決定は、例えば操作テーブル１０２を参照して行われてもよい。

　処理制御手段１２２は、例えばメモリー２２に記憶されたプログラムと、プログラムを実行するプロセッサー２１と、通信インタフェース２３との組み合わせにより実現される。処理制御手段１２２は、決定手段１２１により決定された処理を実行するよう、装置を制御する。

　処理手段１２３は、例えばメモリー１２に記憶されたプログラムと、プログラムを実行するプロセッサー１１と、通信インタフェース１３との組み合わせにより実現される。処理手段１２３は、処理制御手段１２２の制御の下、決定手段１２１により決定された処理を実行する。

　なお、以下の説明において、ウェアラブル端末１０を処理の主体として記載する場合には、具体的にはメモリー１２に記憶されたプログラムと、プログラムを実行するプロセッサー１１との組み合わせ、又はメモリー１２に記憶されたプログラムと、プログラムを実行するプロセッサー１１と、通信インタフェース１３との組み合わせによりこの処理が実行されることを意味する。

動作
音量を変更する場合
　図８は、第１実施形態に係る情報処理システム１の動作の一例を示すシーケンスチャートである。ここでは、スピーカー１８の音量を変更する場合を想定する。

　この動作に先立って、サーバー装置２０のストレージ２４には、ウェアラブル端末１０の操作が許可された人の音声の認証に用いられる認証データが予め格納される。この認証データは、人の音声そのものを示すデータであってもよいし、人の音声の特徴、例えばサウンドスペクトログラムを示すデータであってもよい。ここでは、ウェアラブル端末１０の操作が許可された人に、ウェアラブル端末１０のユーザーが含まれる場合を想定する。この場合、ストレージ２４には、ウェアラブル端末１０のユーザーの音声の認証データが格納される。

　ステップＳ１０１において、ユーザーは、マイクロフォン１７を用いて、音量モードに対応する操作ワードを含む音声を入力する。なお、ユーザーは、各動作モードに対応する操作ワードを予め認識しているものとする。図５に示すように、この例では、音量モードに対応する操作ワードは「音量モード」である。この場合、ユーザーは、マイクロフォン１７に向かって「音量モード」という音声を発する。マイクロフォン１７は、ユーザーの音声を収集して、音声データに変換する。これにより、「音量モード」という音声を示す音声データが生成される。

　ステップＳ１０２において、ウェアラブル端末１０は、生成された音声データをサーバー装置２０に送信する。サーバー装置２０において、取得手段１１２は、この音声データを受信する。

　ステップＳ１０３において、認証手段１１３は、受信された音声データにより示される音声の特徴を用いて、音声を入力した人の認証を行う。具体的には、認証手段１１３は、受信された音声データにより示される音声の特徴を、ストレージ２４に格納された認証データにより示される音声の特徴と照合して、音声を入力した人が、ウェアラブル端末１０の操作が許可された人であるか否かを判定する。音声を入力した人が、ウェアラブル端末１０の操作が許可された人ではない場合、認証は失敗する（ステップＳ１０３：ＮＯ）。この場合、以降の処理は行われない。一方、音声を入力した人が、ウェアラブル端末１０の操作が許可された人である場合、認証は成功する（ステップＳ１０３：ＹＥＳ）。この場合、この処理はステップＳ１０４に進む。

　ステップＳ１０４において、音声認識手段１１４は、受信された音声データにより示される音声を認識し、認識した結果を示す文字列を生成する。この例では、「音声モード」という文字列が生成される。

　ステップＳ１０５において、選択手段１１５は、複数の動作モードの中から、生成された文字列に対応する動作モードを選択する。この例では、ステップＳ１０４において、「音量モード」という文字列が生成される。図５に示すように、操作テーブル１０１には、操作ワード「音量モード」と対応付けて音量モードの識別情報「音量モード」が格納されている。この場合、音声モードが選択される。

　ステップＳ１０６において、動作モード制御手段１１６は、選択された動作モードの起動を指示するコマンドをウェアラブル端末１０に送信する。ウェアラブル端末１０は、このコマンドを受信する。

　ステップＳ１０７において、起動手段１１７は、受信されたコマンドに従って、動作モードを起動する。この例では、音量モードが起動される。

　ステップＳ１０８において、ウェアラブル端末１０は、動作モードが起動されると、カメラ１６により画像の撮影を開始する。この撮影は、例えばユーザーの体の対象部位の動作を認識できるような所定の時間間隔で行われてもよい。

　音量モードが起動されると、ユーザーは、手を用いて音量を変更する操作を行う。ここでは、音量を上げる場合を想定する。なお、ユーザーは、各処理に対応する操作を予め認識しているものとする。

　図９は、音量を上げる操作の一例を示す図である。図６に示すように、操作テーブル１０２には、「手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。これは、手の甲を上にして手を水平にした状態から手先を上方に振る動作により、音量を上げる処理が実行されることを示す。この場合、ユーザーは、図９に示すように、カメラ１６の撮影範囲においてこの動作を行う。

　ステップＳ１０９において、ウェアラブル端末１０は、カメラ１６により撮影された画像を示す画像データをサーバー装置２０に送信する。この例では、この画像には、ユーザーの手が含まれる。この画像データの送信は、画像が撮影される度に行われてもよいし、所定の時間間隔で行われてもよい。サーバー装置２０において、取得手段１１２は、この画像データを受信する。

　ステップＳ１１０において、画像認識手段１１９は、受信された画像データにより示される画像を認識し、この画像に含まれる対象部位を特定する。この例では、画像に含まれるユーザーの手が特定される。

　ステップＳ１１１において、検出手段１２０は、受信された画像データにより示される画像において、特定された対象部位の位置を検出する。この例では、手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す複数の位置が検出される。この場合、これらの位置の変化が、位置の特徴となる。

　ステップＳ１１２において、決定手段１２１は、上述したステップＳ１０５において選択された動作モードにおいて、この位置の特徴に対応する処理を決定する。図６に示すように、操作テーブル１０２には、「手の甲を上にして手を水平にした状態から手先を上方に振る動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。この場合、この音量を上げる処理が決定される。

　ステップＳ１１３において、処理制御手段１２２は、決定された処理の実行を指示するコマンドをウェアラブル端末１０に送信する。この例では、音量を上げる処理の実行を指示するコマンドが送信される。ウェアラブル端末１０は、このコマンドを受信する。

　ステップＳ１１４において、処理手段１２３は、受信したコマンドに従って処理を実行する。この例では、スピーカー１８の音量を上げる処理が行われる。

焦点を変更する場合
　次に、カメラ１６の焦点を変更する場合を想定する。この場合、基本的には、上述したステップＳ１０１～Ｓ１１４と同様の処理が行われる。ただし、上述したステップＳ１０１では、焦点モードに対応する操作ワードである「焦点モード」という音声が入力される。上述したステップＳ１０５では、焦点モードが選択される。上述したステップＳ１０７では、焦点モードが起動される。焦点モードが起動されると、ユーザーは、手を用いて焦点を変更する操作を行う。

　図１０は、ユーザーの視界の一例を示す図である。この視界には、表示パネル１５０を介して二つのオブジェクト１５１及び１５２が含まれる。これらのオブジェクト１５１及び１５２は、現実に存在する物や事象である。この図では、カメラ１６の焦点が合っている部分を、ハッチングで表している。すなわち、オブジェクト１５１には、カメラ１６の焦点が合っている。一方、オブジェクト１５２には、カメラ１６の焦点が合っていない。ここでは、オブジェクト１５２に焦点が合うようにカメラ１６の焦点を変更する場合を想定する。この場合、ユーザーは、表示パネル１５０の前で、オブジェクト１５２を指で指し示す動作を行う。なお、表示パネル１５０の前とは、表示パネル１５０から見て、ユーザーの顔に向かう方向とは反対の方向にある位置をいう。すなわち、表示パネル１５０の前とは、表示パネル１５０とオブジェクト１５２又は１５２との間の位置をいう。

　この場合、上述したステップＳ１０８では、オブジェクト１５１及び１５２及びユーザーの指を含む画像が撮影される。上述したステップＳ１１１では、この指の位置が検出される。この位置は、例えば図１０に示すＸＹ平面上の座標を用いて表現されてもよい。図１０に示すように、指の位置は、オブジェクト１５２に対応する位置である。このオブジェクト１５２に対応する位置とは、図１０に示すようにオブジェクト１５２と重なる位置であってもよいし、オブジェクト１５２から所定の範囲内の位置であってもよい。この場合、オブジェクト１５２に対応する位置が、位置の特徴となる。上述したステップＳ１１２では、焦点モードにおいて、この位置の特徴に対応する処理の内容が決定される。

　図６に示すように、操作テーブル１０２には、「オブジェクトに対応する位置」という位置の特徴情報と対応付けて、「そのオブジェクトに焦点を合わせる」という処理の内容が格納されている。この例では、指の位置がオブジェクト１５２に対応する位置であるため、オブジェクト１５２に焦点を合わせる処理が決定される。上述したステップＳ１１３では、この処理の実行を指示するコマンドが送信される。ステップＳ１１４では、図１０に示すように、オブジェクト１５２にカメラ１６の焦点を合わせる処理が実行される。

　以上説明した第１実施形態によれば、音声入力により、複数の動作モードの中から所望の動作モードを選択する操作が行われる。したがって、例えばジェスチャー入力によりこの操作を行う場合のように、複数の動作モードのそれぞれについてジェスチャーを覚える必要がない。また、ジェスチャー入力により、動作モードに対応する処理を実行する操作が行われる。したがって、例えば物理ボタンを用いてこの操作を行う場合に比べて、操作の負担を減らすことができる。また、ジェスチャー入力によりこの操作が行われるため、工場や建築現場等の騒音が大きい場所であっても、正確に操作を行うことができる。さらに、これらの操作は、いずれも両手が自由になるため、例えば機械を操作しながら行うことができる。このように、上述した第１実施形態によれば、複数の動作モードの中から所望の動作モードを選択し、この動作モードに対応する処理を装置に実行させる際の操作性を向上させることができる。

　また、上述した第１実施形態では、音声を用いたユーザーの認証が行われるため、ウェアラブル端末１０の操作が許可された人の音声を用いた操作に限り、動作モードが起動される。すなわち、ウェアラブル端末１０の操作が許可された人以外の人の音声を用いた操作により動作モードが起動されることが防止される。これにより、情報セキュリティを強化することができる。また、第三者の音声が誤って認識されることによる誤操作が防止される。

第２実施形態
　第２実施形態では、ＡＲ（Augmented Reality）を利用して、ウェアラブル端末１０の操作を支援する。第２実施形態に係る情報処理システム３の構成は、基本的には、第１実施形態に係る情報処理システム１の構成と同様である。ただし、情報処理システム３の機能構成は、情報処理システム１の機能構成と異なる。

　図１１は、情報処理システム３の機能構成の一例を示す図である。情報処理システム３は、上述した音検出手段１１１、取得手段１１２、認証手段１１３、音声認識手段１１４、選択手段１１５、動作モード制御手段１１６、起動手段１１７、撮像手段１１８、画像認識手段１１９、検出手段１２０、決定手段１２１、処理制御手段１２２、処理手段１２３、及び音声分析手段１２５に加えて、表示制御手段１２４を有する。この例では、表示制御手段１２４は、ウェアラブル端末１０に実装される。

　表示制御手段１２４は、例えばメモリー１２に記憶されたプログラムと、プログラムを実行するプロセッサー１１とにより実現される。表示制御手段１２４は、対象部位を用いた操作を支援する仮想オブジェクトを表示手段に表示させる。この仮想オブジェクトは、画像により構成されてもよいし、文字又は画像と文字との組み合わせにより構成されてもよい。この表示手段としては、例えば表示デバイス１５が用いられる。

　また、ストレージ２４には、操作テーブル１０２に代えて、操作テーブル１０３が格納される。
　図１２は、操作テーブル１０３の一例を示す図である。操作テーブル１０３は、上述した操作テーブル１０２と同様のデータ構造を有する。ただし、操作テーブル１０３に格納された情報の内容が、上述した操作テーブル１０２とは異なる。

　情報処理システム３のその他の構成については、上述した情報処理システム１の構成と同じである。情報処理システム１と同じ構成については同じ符号を使用し、その説明を省略する。

動作
　図１３は、第２実施形態に係る情報処理システム３の動作の一例を示すシーケンスチャートである。ここでは、スピーカー１８の音量を変更する場合を想定する。ステップＳ２０１～Ｓ２０７では、上述したステップＳ１０１～Ｓ１０７と同様の処理が行われる。

　ステップＳ２０８において、表示制御手段１２４は、音量を変更する操作を支援する仮想オブジェクト１５３を表示パネル１５０に表示させる。この仮想オブジェクト１５３は、ウェアラブル端末１０において予め記憶された仮想オブジェクト１５３のパーツを用いて生成されてもよいし、サーバー装置２０において予め記憶された仮想オブジェクト１５３のパーツを用いて生成され、サーバー装置２０からウェアラブル端末１０に提供されてもよい。

　図１４は、ユーザーの視界の一例を示す図である。この視界には、表示パネル１５０に表示された仮想オブジェクト１５３が含まれる。仮想オブジェクト１５３は、スピーカー１８の現状の音量を示す音量バー１５３ａを有する。仮想オブジェクト１５３は、スピーカー１８の音量を変更する操作を支援する。具体的には、仮想オブジェクト１５３は、手首を中心に手先を時計回りに回転させると音量が上がり、手首を中心に手先を反時計回りに回転させると音量が下がることを示す。ここでは、音量を上げる場合を想定する。この場合、ユーザーは、表示パネル１５０の前で、手首を中心に手先を時計回りに回転させる動作を行う。

　ステップＳ２０９～２１５では、基本的には、第１実施形態で説明したステップＳ１０８～Ｓ１１４と同様の処理が行われる。ただし、ステップＳ２１２では、手首を中心に手先を時計回りに回転させる動作を示す複数の位置が検出される。この場合、これらの位置の変化が、位置の特徴となる。ステップＳ２１３では、音量モードにおいて、この位置の特徴に対応する処理の内容が決定される。図１２に示すように、操作テーブル１０３には、「手首を中心に手先を時計回りに回転させる動作を示す位置の変化」という位置の特徴情報と対応付けて、「音量を上げる」という処理の内容が格納されている。この場合、この処理が決定される。ステップＳ２１４では、この処理の実行を指示するコマンドが送信される。ステップＳ２１５では、音量を上げる処理が実行される。このとき、図１４に示すように、音量バー１５３ａが処理後の音量を示すように、仮想オブジェクト１５３が変更されてもよい。

　以上説明した第２実施形態によれば、ジェスチャー入力による操作を支援する仮想オブジェクトが表示されるため、操作性を一層向上させることができる。

変形例
　本発明は上述した実施形態に限定されず、種々の変形がなされてもよい。また、以下の変形例は、上述した各実施形態と組み合わせて実施されてもよいし、他の変形例と組み合わせて実施されてもよい。

変形例１
　上述した第２実施形態において、検出手段１２０により検出された位置が表示パネル１５０に表示された仮想オブジェクトに対応する位置である場合に、その仮想オブジェクトに対応する処理が実行されてもよい。

　例えば、図１４に示すように、表示パネル１５０に仮想オブジェクト１５３が表示された場合に、検出手段１２０により検出された位置に仮想オブジェクト１５３に対応する位置が含まれるか否かに応じて、音量を変更する等の処理の実行が制御されてもよい。例えば、検出手段１２０により検出された位置に仮想オブジェクト１５３に対応する位置が含まれる場合には、処理の実行が許可されてもよい。一方、検出手段１２０により検出された位置に仮想オブジェクト１５３に対応する位置が含まれない場合には、処理の実行が禁止されてもよい。

　図１５は、変形例１に係るユーザーの視界の別の例を示す図である。この例では、表示パネル１５０には、音量を変更する操作を支援する仮想オブジェクト１５４～１５６が表示される。仮想オブジェクト１５４～１５６は、それぞれ異なる対象の操作に用いられる。例えば、仮想オブジェクト１５４は、システムの音量を変更する操作に用いられる。仮想オブジェクト１５５は、アプリケーションの音量の操作に用いられる。仮想オブジェクト１５６は、スピーカー１８の音量を変更する操作に用いられる。また、仮想オブジェクト１５４～１５６は、それぞれ、現状の音量を示す音量バー１５４ａ～１５６ａを有する。さらに、仮想オブジェクト１５４～１５６は、音量を変更する操作を支援する。具体的には、仮想オブジェクト１５４～１５６は、いずれも、指を図中の－Ｙ方向に移動させる動作により、音量を上げる処理が実行されることを示す。また、仮想オブジェクト１５４～１５６は、いずれも、指を図中のＹ方向に移動させる動作により音量を下げる処理が実行されることを示す。

　ここでは、スピーカー１８の音量を上げる場合を想定する。この場合、ユーザーは、まず表示パネル１５０の前で、仮想オブジェクト１５６を指で指し示す。なお、表示パネル１５０の前とは、表示パネル１５０から見て、ユーザーの顔に向かう方向とは反対の方向にある位置をいう。続いて、ユーザーは、仮想オブジェクト１５６に沿って、指を図中の－Ｙ方向に移動させる動作を行う。この場合、カメラ１６により、ユーザーの指を含む画像が撮影される。検出手段１２０は、カメラ１６により撮影された画像において、この動作を示す複数の位置を検出する。この場合、これらの位置の変化が位置の特徴となる。この場合、決定手段１２１は、この位置の特徴に対応する処理の内容である「音量を上げる」という処理を決定する。

　また、決定手段１２１は、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるか否かを判定する。図１５に示すように、指の位置は、仮想オブジェクト１５６に対応する位置である。この場合、検出手段１２０により検出された位置に仮想オブジェクト１５６に対応する位置が含まれると判定する。なお、具体的な判定方法は後述する。この場合、決定手段１２１は、操作の対象として、スピーカー１８の音量を決定する。処理制御手段１２２は、スピーカー１８の音量を上げるという処理の実行を指示するコマンドを送信する。処理手段１２３は、スピーカー１８の音量を上げる処理を実行する。このとき、音量バー１５６ａが処理後の音量を示すように、仮想オブジェクト１５６が変更されてもよい。

　この変形例では、システムの音量やアプリケーションの音量も、スピーカー１８の音量と同様に、図１５中の矢印Ｙ方向又は－Ｙ方向に指を移動させる動作により変更される。しかし、上述した例では、ユーザーにより仮想オブジェクト１５６が指し示されており、仮想オブジェクト１５４及び１５５は指し示されていない。すなわち、ユーザーの指は、仮想オブジェクト１５６に対応する位置にあり、仮想オブジェクト１５４及び１５５に対応する位置にはない。この場合、上述したように、スピーカー１８の音量だけが変更され、システムの音量及びアプリケーションの音量は変更されない。

　検出手段１２０により検出された位置に仮想オブジェクト１５６に対応する位置が含まれるかを判定する方法としては、例えば以下の五つの方法が挙げられる。

　第一の方法は、カメラ１６により撮影された画像を用いてユーザーの視界を再現する方法である。例えば、決定手段１２１は、カメラ１６の位置とユーザーの目の位置とに基づいて、ユーザーの目の位置から見た画像になるように、カメラ１６により撮影された画像の座標を変換する。また、決定手段１２１は、ユーザーの目の位置と表示パネル１５０の位置とに基づいて、ユーザーの目の位置から見た画像になるように、座標が変換された画像に、表示パネル１５０に表示された仮想オブジェクト１５４～１５６を合成する。決定手段１２１は、合成された画像において、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるかを判定する。

　第二の方法は、カメラ１６により撮影された映像を表示パネル１５０に表示する方法である。表示パネル１５０には、カメラ１６により撮影された映像がリアルタイムで表示される。なお、リアルタイムとは、完全に同時である必要はなく、多少の時間の遅延があってもよい。また、表示パネル１５０には、この映像の上に重ねて仮想オブジェクト１５４～１５６が表示される。ユーザーは、表示パネル１５０に表示された映像に含まれる指の位置が、仮想オブジェクト１５４～１５６のいずれかに対応する位置になるように、仮想オブジェクト１５４～１５６のいずれかを指で指し示す動作を行う。決定手段１２１は、表示パネル１５０に表示されているように、映像と仮想オブジェクト１５４～１５６とを合成する。決定手段１２１は、合成された画像において、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるかを判定する。

　第三の方法は、予めキャリブレーション処理を行う方法である。このキャリブレーション処理では、表示パネル１５０の基準位置に、位置合わせに用いられるマークが表示される。ユーザーは、このマークに指を合わせる動作を行う。カメラ１６は、この指を含む画像を撮影する。決定手段１２１は、カメラ１６により撮影された画像に含まれる指の位置と、表示パネル１５０におけるマークの位置との対応関係を示す情報を生成し、ストレージ２４に記憶させる。この情報は、テーブル形式で生成し記憶されてもよい。これらの処理は、所定の回数だけ繰り返して行われてもよい。このとき、マークは同一の基準位置に表示されてもよいし、表示パネル１５０の左、中央、右等の互いに異なる複数の位置に表示されてもよい。

　キャリブレーション処理が完了した後、上述したウェアラブル端末１０の操作が行われる。この操作において、ユーザーは、例えば図１５に示す仮想オブジェクト１５４～１５６のいずれかを指で指し示す動作を行う。カメラ１６は、この指を含む画像を撮影する。検出手段１２１は、ストレージ２４に記憶された情報に基づいて、撮影された画像の座標を、表示パネル１５０上の座標に変換する。決定手段１２１は、座標が変換された画像において、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるかを判定する。

　第四の方法は、ユーザーの顔を撮影する別のカメラを設ける方法である。このカメラは、ユーザーの顔を含む画像を撮影する。画像認識手段１１９は、撮影された画像を認識して、ユーザーの目を特定する。決定手段１２１は、特定された目の位置又は動きに基づいて、ユーザーの視線の方向を特定する。この視線の方向には、ユーザーが指を指し示した仮想オブジェクトが表示されていると考えられる。決定手段１２１は、特定された視線の方向に基づいて、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるかを判定する。

　例えば、ユーザーの視線の方向が右側である場合には、図１５に示すように、表示パネル１５０の右側に表示された仮想オブジェクト１５６をユーザーが指で指し示していると考えられる。この場合、検出手段１２０により検出された位置に仮想オブジェクト１５６に対応する位置が含まれると判定される。

　第五の方法は、ユーザーの対象部位と表示パネル１５０との両方を撮影し得る位置にカメラ１６を設ける方法である。この場合、カメラ１６により撮影された画像には、ユーザーの対象部位と表示パネル１５０に表示された仮想オブジェクト１５４～１５６が含まれる。決定手段１２１は、この画像において、検出手段１２０により検出された位置に仮想オブジェクト１５４～１５６のいずれかに対応する位置が含まれるかを判定してもよい。

変形例２
　上述した第１実施形態及び第２実施形態において、動作条件が変更される際の変更量は、所定の量であってもよいし、対象部位の移動距離、移動速度、加速度、及び回転角の少なくとも一つに応じた量であってもよい。例えば、図９に示す例では、ユーザーの手の加速度に応じた量だけ音量が変更されてもよい。また、図１４に示す例では、ユーザーの手の回転角に応じた量だけ音量が変更されてもよい。また、図１５に示す例では、ユーザーの指の移動距離に応じた量だけ音量が変更されてもよい。

変形例３
　上述した第２実施形態において、ユーザーの音声入力に応じて、操作ワードの一覧が表示されてもよい。ここでは、この一覧表示に対応する操作ワードが「一覧表示」である場合を想定する。この場合、ユーザーは、マイクロフォン１７に向かって「一覧表示」という音声を発する。音声認識手段１１４は、この音声を認識する。表示制御手段１２４は、操作ワードの一覧を表示パネル１５０上に表示させる。これにより、ユーザーは、各動作モードに対応する操作ワードを認識していなくても、音声入力により所望の動作モードを選択することができる。この場合、ユーザーは、上述した第２実施形態と同様に、所望の動作モードに対応する操作ワードを発することにより、動作モードを選択してもよい。

　他の例において、表示パネル１５０上に表示された操作ワードの一覧において、所望の動作モードに対応する操作ワードを指で指し示す動作により、その動作モードが選択されてよい。この場合、カメラ１６により、ユーザーの指及び操作ワードの一覧を含む画像が撮影される。検出手段１２０は、カメラ１６により撮影された画像において、この指の位置を検出する。選択手段１１５は、検出手段１２０により検出された位置に、表示パネル１５０に表示された複数の操作ワードのいずれかに対応する位置が含まれる場合には、その操作ワードに対応する動作モードを選択する。

変形例４
　上述した第１実施形態及び第２実施形態において、ウェアラブル端末１０の操作が許可される人はウェアラブル端末１０のユーザーに限定されない。例えば、通信回線２を介してウェアラブル端末１０と外部装置とが接続される場合には、この外部装置のユーザーにウェアラブル端末１０の操作が許可されてもよい。この場合、外部装置のユーザーの音声又は音声の特徴を示す認証データが予めストレージ２４に格納される。また、外部装置には、マイクロフォン等の音検出手段が設けられる。

　例えば、ウェアラブル端末１０の音量を変更する場合、外部装置のユーザーは、「音量モード」という音声を発する。外部装置は、音検出手段によりこの音声を検出すると、検出された音声を示す音声データをウェアラブル端末１０に送信する。ウェアラブル端末１０は、外部装置から受信した音声データをサーバー装置２０に送信する。認証手段１１３は、この音声データにより示される音声の特徴を用いて、音声を入力した人の認証を行う。

　具体的には、認証手段１１３は、この音声データにより示される音声の特徴を、ストレージ２４に格納された認証データにより示される音声の特徴と照合して、音声を入力した人が、ウェアラブル端末１０の操作が許可された人であるか否かを判定する。この例では、ストレージ２４には、外部装置のユーザーの音声の認証データが記憶されている。この場合、音声を入力した人が、ウェアラブル端末１０の操作が許可された人であると判定され、認証は成功する。

　この変形例によれば、外部装置のユーザーの音声入力により、ウェアラブル端末１０の動作モードを選択し、起動することができる。なお、この場合、ジェスチャー入力を行う人は、音声入力を行う人とは異なる人になる。

変形例５
　上述した第１実施形態及び第２実施形態において、カメラ１６により撮影された対象部位の画像を用いて、対象部位の認証が行われてもよい。この場合、ジェスチャー入力による操作が行われる前に、ウェアラブル端末１０の操作が許可された人の対象部位を含む画像を示す画像データがストレージ２４に格納される。対象部位を含む画像が撮影され、撮影された画像を示す画像データがウェアラブル端末１０からサーバー装置２０に送信されると、認証手段１１３は、この画像データにより示される画像に含まれる対象部位の特徴を用いて、対象部位を有する人の認証を行う。この特徴には、例えば対象部位の形状や色が含まれてもよい。また、対象部位が手である場合、対象部位の特徴は指の指紋であってもよい。

　具体的には、認証手段１１３は、この画像データにより示される画像に含まれる対象部位の特徴を、ストレージ２４に格納された画像データにより示される画像に含まれる対象部位の特徴と照合して、対象部位を有する人が、ウェアラブル端末１０の操作が許可された人であるか否かを判定する。対象部位を有する人が、ウェアラブル端末１０の操作が許可された人ではない場合、認証は失敗し、以降の処理は行われない。一方、対象部位を有する人が、ウェアラブル端末１０の操作が許可された人ではない場合、認証は成功し、次の処理に進む。

　この変形例によれば、ウェアラブル端末１０の操作が許可された人の対象部位を用いた操作に限り、処理が実行される。すなわち、ウェアラブル端末１０の操作が許可された人以外の人の対象部位を用いた操作により処理が実行されることが防止される。これにより、情報セキュリティを強化することができる。また、第三者の対象部位が誤って認識されることによる誤操作が防止される。

　また、対象部位の特徴が撮影されている期間に限り、処理を実行する操作が受け付けられてもよい。例えば、対象部位の特徴が指の指紋である場合を想定する。この場合、ユーザーは、カメラ１６に指の指紋を向けた状態で、この操作に対応するジェスチャーを行う。画像認識手段１１９は、カメラ１６により撮影された画像を認識して、指の指紋を特定する。検出手段１２０は、画像に指紋が含まれる場合に限り、手の位置を検出する。すなわち、検出手段１２０は、画像に指紋が含まれない場合には、手の位置を検出しない。これにより、対象部位の特徴が撮影されている期間に限り、対象部位を用いた操作を行うことができる。

変形例６
　上述した第２実施形態において、音声入力により動作条件が変更されてもよい。この場合、図１４に示す仮想オブジェクト１５３には、例えば音声入力により変更可能な音量の目盛りが含まれる。例えば、音声入力により五段階の音量の変更が可能な場合には、「１」～「５」の目盛りが含まれる。例えば、ユーザーが「４」という音声を発すると、この音声が認識され、「４」に対応する音量に変更されてもよい。

　また、上述した第２実施形態において、音声入力による操作とジェスチャー入力による操作とが両方とも受け付けられてもよい。この場合、ジェスチャー入力により音量が変更される場合には、音声入力よりも変更可能な音量が多くてもよい。例えば、音声入力により音量が変更される場合には、五段階で音量が変更されるのに対し、上述した第２実施形態のようにジェスチャー入力により音量が変更される場合には、十段階で音量が変更されてもよい。

変形例７
　上述した第１実施形態及び第２実施形態において、音声入力により動作モードが終了されてもよい。ここでは、動作モードの終了に用いられる操作ワードが「終了」である場合を想定する。この場合、ユーザーにより「終了」という音声が発せられた場合には、動作モードが終了してもよい。

変形例８
　上述した第１実施形態及び第２実施形態において、対象部位は手に限定されない。例えば、対象部位は頭や足であってもよい。例えば対象部位が頭である場合、対象部位の位置は、センサーユニット１９に含まれる加速度センサーにより検出されてもよい。すなわち、検出手段１２０は、センサーユニット１９により実現されてもよい。

変形例９
　上述した第１実施形態及び第２実施形態において、動作モードは、音量モードや焦点モードに限定されない。動作モードは、ウェアラブル端末１０が有するものであれば、どのような動作モードであってもよい。また、各動作モードにおいて実行される処理は、音量を変更する処理や焦点を変更する処理に限定されない。この処理は、ウェアラブル端末１０により実行される処理であれば、どのような処理であってもよい。

変形例１０
　上述した第１実施形態又は第２実施形態において、情報処理システム１又は３の機能を実現するためのプログラムは、単一のプロセッサー１１又は２１により実行されてもよいし、２以上のプロセッサー１１又は２１により同時又は逐次に実行されてもよい。

変形例１１
　上述した第１実施形態又は第２実施形態において説明した情報処理システム１又は３の機能を実装する主体は、例示に過ぎず、これに限定されない。例えばサーバー装置２０の機能の一部をウェアラブル端末１０が有してもよい。他の例において、ウェアラブル端末１０が単体で情報処理システム１の機能を全て有してもよい。この場合、ウェアラブル端末１０は、情報処理装置として機能する。また、処理を実行する主体は、ウェアラブル端末１０に限定されない。例えばウェアラブル端末１０に代えて、ユーザーに装着されない形状の装置が用いられてもよい。

変形例１２
　情報処理システム１又は３において行われる処理のステップは、上述した第１実施形態又は第２実施形態で説明した例に限定されない。この処理のステップは、矛盾のない限り、入れ替えられてもよい。また、本発明は、情報処理システム１又は３において行われる処理のステップを備える方法として提供されてもよい。

変形例１３
　本発明は、ウェアラブル端末１０又はサーバー装置２０において実行されるプログラムとして提供されてもよい。これらのプログラムは、インターネット等のネットワークを介してダウンロードされてもよい。また、これらのプログラムは、磁気記録媒体（磁気テープ、磁気ディスクなど）、光記録媒体（光ディスクなど）、光磁気記録媒体、半導体メモリーなどの、コンピュータが読取可能な記録媒体に記録した状態で提供されてもよい。

変形例１４
　上述した第１実施形態及び第２実施形態において、必ずしも音声の認識は行われなくてもよい。例えば、音声分析手段１２５は、音声を分析して特徴量を抽出する。この特徴量には、例えば音声の波形、周波数、又はサウンドスペクトログラムが含まれる。また、音声の特徴量について、予め動作モードが定められる。なお、この音声の特徴量と動作モードとの対応関係は、図５に示すような操作テーブルを用いて示されてもよい。選択手段１１５は、音声分析手段１２５により抽出された特徴量について予め定められた動作モードを選択する。

　例えば、第１音声波形について音声モードが定められ、第２音声波形について焦点モードが定められている場合を想定する。この場合、音声分析手段１２５により音声が分析され、第１音声波形が抽出された場合には、音声モードが選択される。一方、音声分析手段１２５により音声が分析され、第２音声波形が抽出された場合には、焦点モードが選択される。

変形例１５
　上述した第１実施形態及び第２実施形態において、ウェアラブル端末１０の動作モードは、ウェアラブル端末１０が予め有するものに限定されない。例えば、ウェアラブル端末１０の動作モードは後から追加されてもよい。この動作モードの追加は、例えばプロセッサー１１がメモリー１２に記憶されたプログラムを実行することにより実現されてもよい。

Claims

　音検出手段により検出された音声を分析する音声分析手段と、
　複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、
　人の体の対象部位の位置を検出する検出手段と、
　前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行する処理手段と
　を備える情報処理システム。
　前記動作モードは、動作条件を変更するモードであり、
　前記処理は、動作条件を変更する処理である
　請求項１に記載の情報処理システム。
　前記動作条件は、音出力手段の音量である
　請求項２に記載の情報処理システム。
　前記対象部位を用いた操作を支援する仮想オブジェクトを表示する表示手段と、
　撮像手段により撮影された前記対象部位を含む画像を認識して、前記対象部位を特定する画像認識手段とを更に備え、
　前記検出手段は、前記撮影された画像において、前記特定された対象部位の位置を検出する
　請求項１から３のいずれか１項に記載の情報処理システム。
　前記表示手段は、前記人の視界内に位置し、光透過性を有する表示パネルを有し、前記表示パネル上に前記仮想オブジェクトを表示し、
　前記撮像手段は、前記人の視界に沿って前記対象部位を含む画像を撮影し、
　前記処理手段は、前記検出された位置に前記仮想オブジェクトに対応する位置が含まれる場合には、前記処理を実行する
　請求項４に記載の情報処理システム。
　前記表示手段は、複数の処理に対応する複数の仮想オブジェクトを前記表示パネル上に表示し、
　前記処理手段は、前記検出された位置に前記複数の仮想オブジェクトのいずれかの仮想オブジェクトに対応する位置が含まれる場合には、前記複数の処理のうち前記仮想オブジェクトに対応する処理を実行する
　請求項５に記載の情報処理システム。
　前記対象部位は、前記人の手であり、
　前記位置の特徴は、前記手を用いた所定の動作を示す位置の変化である
　請求項１から６のいずれか１項に記載の情報処理システム。
　前記対象部位は、前記人の頭であり、
　前記位置の特徴は、前記頭を用いた所定の動作を示す位置の変化である
　請求項１から３のいずれか１項に記載の情報処理システム。
　前記人の視界に沿って前記対象部位及び少なくとも１つのオブジェクトを含む画像を撮影する撮像手段と、
　前記撮影された画像を認識して、前記対象部位を特定する画像認識手段とを更に備え、
　前記動作条件は、前記撮像手段の焦点であり、
　前記検出手段は、前記撮影された画像において、前記特定された対象部位の位置を検出し、
　前記処理は、前記少なくとも１つのオブジェクトのうち、前記撮影された画像において前記対象部位に対応する位置にあるオブジェクトに前記焦点を合わせる処理である
　請求項２に記載の情報処理システム。
　前記検出された音声の特徴を用いて、前記音声を入力した人を認証する認証手段を更に備え、
　前記処理手段は、前記人の認証が失敗した場合には、前記処理を実行しない
　請求項１から９のいずれか１項に記載の情報処理システム。
　前記対象部位を含む画像を撮影する撮像手段と、
　前記撮影された画像に含まれる前記対象部位の特徴を用いて、前記人を認証する認証手段とを更に備え、
　前記処理手段は、前記人の認証が失敗した場合には、処理を実行しない
　請求項１から１０のいずれか１項に記載の情報処理システム。
　前記音声分析手段は、前記検出された音声を認識し、認識した結果を示す文字列を生成する画像認識手段を有し、
　前記選択手段は、前記生成された文字列について予め定められた動作モードを選択する
　請求項１から１１のいずれか１項に記載の情報処理システム。
　音検出手段により検出された音声を分析するステップと、
　複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択するステップと、
　人の体の対象部位の位置を検出するステップと、
　前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行するステップと
　を備える情報処理方法。
　音検出手段により検出された音声を分析する音声分析手段と、
　複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択する選択手段と、
　人の体の対象部位の位置を検出する検出手段と、
　前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行する処理手段と
　を備える情報処理装置。
　コンピュータに、
　音検出手段により検出された音声を分析するステップと、
　複数の動作モードの中から、前記音声の分析結果について予め定められた動作モードを選択するステップと、
　人の体の対象部位の位置を検出するステップと、
　前記検出された位置の特徴について予め定められた、前記選択された動作モードに対応する処理を実行するステップと
　を実行させるためのプログラム。