WO2015104919A1

WO2015104919A1 - ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法

Info

Publication number: WO2015104919A1
Application number: PCT/JP2014/081901
Authority: WO
Inventors: 片桐　哲也; 義朗平原
Original assignee: コニカミノルタ株式会社
Priority date: 2014-01-10
Filing date: 2014-12-02
Publication date: 2015-07-16

Abstract

　本発明のジャスチャー認識装置は、バッテリー駆動であって、動画像から、ユーザによって行われたジェスチャーを互いに異なる処理量で認識する複数のジェスチャー認識処理を備え、前記複数のジェスチャー認識処理の中から前記バッテリーの電力残量に応じてジェスチャー認識処理を選択してこの選択したジェスチャー認識処理で前記ユーザによって行われたジェスチャーを認識する。

Description

ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法

　本発明は、動画像からジェスチャーを認識する装置に関する。

　従来、ユーザの頭部や顔面に着脱自在に装着され、小型の液晶表示素子等の映像表示装置から得られる映像（画像）を接眼光学系によってユーザの視野内に表示させることで、前記映像をユーザに観察可能に構成したいわゆるＨＭＤ（Ｈｅａｄ　Ｍｏｕｎｔ　Ｄｉｓｐｌａｙ）が知られている。

　このようなＨＭＤを装着したユーザは、例えば、自分の手で所定の動きをすることで、観ている映像を変化させる。つまり、前記ユーザは、ジェスチャー（身振り手振り）を行うことで、観ている映像を消したり、拡大縮小させたりする。

　これは、ＨＭＤに、ユーザ視点のカメラ視野となるように配置されたカメラとプロセッサとが備えられ、次の処理によって実現される。すなわち、カメラで撮影されたユーザの手の動きがプロセッサによって解析されてユーザの指示が認識され、その指示がプロセッサにより実行される。

　ここで、ユーザの手のジェスチャーを認識する技術が提案されている。例えば、特許文献１では、ポインタである指の送り動作の判定を、送り動作か否かの判定を行う有効範囲を決めることで行われ、誤判定を軽減する技術が記載されている。特許文献２では、載置された電子機器にジェスチャーで指示を送るために、ユーザの胸に装着されるジェスチャー認識装置が記載されている。

　上述のＨＭＤは、ユーザの頭部や顔面に装着するものであり、ユーザの動作性や可搬性を考慮すると、動力源であるバッテリーは身に着けておくことが望まれる。しかし、身に着けておけるバッテリーの電力量は、当然に有限である、このため、ＨＭＤに搭載されているジェスチャー認識装置は、省電力化が望まれ、できるだけ長時間ジェスチャーによる指示を実行できることが望ましい。

特開２０１３－１０５３０５号公報特開２０１２－１９４６５９号公報

　本発明は、上述の事情に鑑みて為された発明であり、その目的は、省電力化して、より長時間、ジェスチャー認識を実行できるジェスチャー認識装置およびジェスチャー認識方法、ならびに、前記ジェスチャー認識装置を備える操作入力装置を提供することである。

　本発明にかかるジャスチャー認識装置は、バッテリー駆動であって、動画像から、ユーザによって行われたジェスチャーを互いに異なる処理量で認識する複数のジェスチャー認識処理を備え、前記複数のジェスチャー認識処理の中から前記バッテリーの電力残量に応じてジェスチャー認識処理を選択してこの選択したジェスチャー認識処理で前記ユーザによって行われたジェスチャーを認識する。そして、本発明にかかるジャスチャー認識方法は、このジャスチャー認識装置で用いられる方法であり、本発明にかかる操作入力装置は、このジャスチャー認識装置を備える。このため、本発明にかかるジェスチャー認識装置および該方法ならびに操作入力装置は、より長時間、ジェスチャー認識を行うことができる。

　上記並びにその他の本発明の目的、特徴および利点は、以下の詳細な記載と添付図面から明らかになるであろう。

実施形態におけるＨＭＤおよび外部装置の外観を示す図である。図１に示すＨＭＤおよび外部装置の構成を示すブロック図である。通常モードでのポイント位置検出処理を示すフローチャートである。テンプレートマッチングを説明するための図である。テンプレートの例を示す図である。ジェスチャーの認識を説明するための図である。テンプレートの他の例を示す図である。３次元テンプレートマッチングの一例を説明するための図である。３次元テンプレートマッチングの他の一例を説明するための図である。省電力モードでのポイント位置検出処理を示すフローチャートである。省電力モードでのポイント位置検出処理を説明するための図である。姿勢制御を説明するための図である。図２に示すＨＭＤおよび外部装置のジェスチャー認識処理を示すフローチャートである。図２に示すＨＭＤの省電力処理を示すフローチャートである。

　以下、本発明にかかる実施の一形態を図面に基づいて説明する。なお、各図において同一の符号を付した構成は、同一の構成であることを示し、適宜、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し、個別の構成を指す場合には添え字を付した参照符号で示す。

＜概要＞
　図１は、実施形態におけるＨＭＤおよび外部装置の外観を示す図である。

　ＨＭＤ１は、ユーザの頭部に装着するための装置であり、本実施形態では、視力矯正用のメガネを模した構造で構成されている。ＨＭＤ１は、例えば、左右一対のテンプルＬ１、Ｌ２と、ブリッジＢと、左右一対の透明部材Ｇ１、Ｇ２とを備える。

　テンプルＬ１、Ｌ２は、例えば弾性素材等から構成される長尺棒状の部材であり、その一方端部にはユーザの耳に掛けられる耳掛け部分を有し、その他方端部は、透明部材に固定され、ユーザの耳や側頭部に掛け止められる。ユーザの左耳に掛けられる耳掛け部分付近には、制御ユニットＵが装着されている。

　ブリッジＢは、左右一対の透明部材Ｇ１、Ｇ２を互いに連結するための短尺棒状の部材であり、その両端で透明部材Ｇに固定され、左右一対の透明部材Ｇ１、Ｇ２は、一定の間隔を空けた相対位置関係で保持される。

　透明部材Ｇは、例えばポリカーボネートやポリメチルメタクリレート等の樹脂やガラス等の可視光線に対し透明な素材等から構成され、視力矯正用のメガネレンズの外形形状のような、角を丸く縁取りした長方形状の板状部材である。本実施形態では、ユーザの右眼に対応する透明部材Ｇ１に表示ユニット１２が備えられている。

　表示ユニット１２は、所定の画像（映像）を表示する装置であり、コントローラ１３（図２参照）から送信されてきた画像を表示する。

　透明部材Ｇ１の上部にはカメラ１１が備えられ、カメラ１１は、ユーザが前方略水平方向を見た場合に、その光軸が装着者の視線方向に略一致するように、ＨＭＤ１に対し固定的に保持されている。これによってカメラ１１は、ユーザの前方視野内を撮影することが可能となる。カメラ１１は、所定のフレームレートで撮影した動画像を、有線で接続された制御ユニットＵに出力する。

　制御ユニットＵは、カメラ１１から送信されてきた動画像からジェスチャーを認識し、認識されたジェスチャーに応じたコマンドを実行し、その結果を表示ユニット１２に表示する等の処理を行う。

　外部装置２は、ユーザが携帯している装置である。外部装置２は、いわゆるスマートフォン等のプロセッサやメモリ等を有する装置であり、コントローラ１３と有線または無線で通信可能となっている。

　＜構成＞
　図２は、図１に示すＨＭＤおよび外部装置の電気的な構成を示すブロック図である。

　ＨＭＤ１は、カメラ１１、表示ユニット１２、制御部１３、通信部１４、姿勢検知部１５、および、バッテリー１６を備える。なお、ＨＭＤ１は、図１に示す形態であるものとし、図１の制御ユニットＵには、制御部１３、通信部１４、姿勢検知部１５、および、バッテリー１６が搭載されている。

　カメラ１１は、所定のフレームレートで、実施形態では、１秒間に３０フレームのレートで撮影したカラーの動画像を、制御部１３に出力する。

　表示ユニット１２は、制御部１３から送信されてきた画像を表示する。例えば、表示ユニット１２は、透過型液晶表示装置と所定の光学系を備え、制御部１３によって送信された映像信号による映像を透過型液晶表示装置に表示する。これによって、前記透過型液晶表示装置に表示された映像が、所定の光学系によってユーザの眼球に直接投影される。このように、ユーザは、空中に拡大投影されている映像を観ることが可能となっている。

　制御部１３は、通常モードジェスチャー認識部１３１（第１ジェスチャー認識部の一例）、省電力モードジェスチャー認識部１３２（第２ジェスチャー認識部の一例）、コマンド実行部１３３、電力残量検出部１３４、および、外部機器検出部１３５を備える。制御部１３は、カメラ１１等の他の機能部を制御し、カメラ１１で撮影された動画像に基づいて、ユーザのジェスチャーが示すコマンドに応じた処理を行い、その処理結果を表示ユニット１２に表示させるものである。例えば、制御部１３が操作手引書等の１ページを送信して表示ユニット１２に表示しているときに、ユーザが、ページ送りを示すジェスチャーを行った場合、制御部１３は、操作手引書の次のページの画像を表示ユニット１２に送信する等である。

　なお、制御部１３は、例えば、マイクロプロセッサ、メモリおよびその周辺回路を備えるマイクロコンピュータによって構成されている。メモリには、ジェスチャーを認識するため相関値算出プログラムや、ＨＭＤ１全体を制御するための制御プログラム等の各種のプログラム、プログラムの実行に必要なデータ等の各種のデータが記憶される。そして、いわゆるＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）等であるマイクロプロセッサが、メモリに記憶されているプログラムを実行することにより、各機能部の全部または一部が機能的に構成される。

　通常モードジェスチャー認識部１３１は、カメラ１１が撮像した動画像に基づいてジェスチャーを認識し、ジェスチャーが示すコマンドを決定する機能を備える。省電力モードジェスチャー認識部１３２は、通常モードジェスチャー認識部１３１が行う処理の量よりも少ない処理によってジェスチャーを認識し、コマンドを決定する機能を備える。この通常モードジェスチャー認識部１３１および省電力モードジェスチャー認識部１３２の処理は、＜ジェスチャーの認識＞の項で説明する。

　コマンド実行部１３３は、通常モードジェスチャー認識部１３１または省電力モードジェスチャー認識部１３２が決定したコマンドを実行し、その実行結果を、制御部１３を介して表示ユニット１２に送信する。

　電力残量検出部１３４は、バッテリー１６の電力残量を検出する。実施形態では、電力残量検出部１３４は、バッテリー１６のフル充電時の電力量に対する割合（％）を算出する。電力残量は、例えば、バッテリー１６の端子間電圧に基づいて検出される。

　外部機器検出部１３５は、通信可能な外部装置２の存在を検出する機能を備える。例えば、外部機器検出部１３５は、無線によって外部装置２と接続される場合、ユーザによって所定のスイッチ（不図示）が操作されたときに、通信部１４を介して外部装置２に向けて探索信号を送信し、外部装置２からの応答信号を受信した場合に、外部装置２の存在を検出する。また例えば、外部機器検出部１３５は、ＨＭＤ１が動作中には周期的に外部装置２に向けて探索信号を送信し、外部装置２からの応答信号を受信した場合に、外部装置２の存在を検出するように構成されてもよい。また例えば、外部機器検出部１３５は、有線で接続される場合には、接続部（不図示）に通信線が接続されたときに、外部装置２に接続要求信号を送信し、外部装置２からの応答信号を受信した場合に、外部装置２の存在を検出するように構成されてもよい。

　外部機器検出部１３５は、外部装置２を検出した場合に、内部メモリ内の外部機器有フラグをオンにし、その後、定期的に外部装置２と存在確認のための通信を行い、存在が確認できなくなった場合に、内部メモリ内の外部機器有フラグをオフにする。制御部１３は、この内部メモリ内の外部機器有フラグを参照して、外部機器２の有無を検出する。

　通信部１４は、外部装置２の通信部２１とデータを送受信する機能を備える。通信部１４は、外部装置２に向けて全方位に探索信号を送信する機能も備える。

　姿勢検知部１５は、ＨＭＤ１の姿勢の変化、より具体的には、カメラ１１の向きの変化（光軸周りの回転による変化も含む）を検出する装置である。実施形態では、姿勢検知部１５は、３軸加速度センサを備え、加速度センサ内の座標系の３軸（ｘ、ｙ、ｚ）それぞれの軸方向成分として検出される各軸の加速度から、姿勢検知部１５が搭載されているＨＭＤ１の姿勢がどのくらい変化したか、つまり、カメラ１１の向きの変化量を算出する。そして、姿勢検知部１５は、撮影した画像上での変位量を算出し、算出した変位量を制御部１３に出力する。

　ユーザが顔の向きを変える等してカメラ１１の姿勢が変化した場合、ユーザの手が動いていない場合であっても、カメラ１１が出力した画像内における手の座標位置が変化するので、実際にユーザが行ったジェスチャーとは異なる動きとして認識され、誤ったコマンドが実行されてしまうことがあり得る。したがって、ＨＭＤ１では、ジェスチャーを認識する際に、詳細には、ジェスチャーの途中でカメラ１１の向きが変化した場合、姿勢検知部１５から出力される変位量を用いて、画像内の手の座標位置が補正される。

　例えば、立ち姿勢のユーザにおいて頭から足に向かう軸をＹ軸としたときに、カメラ１１の向きがＹ軸周りに角度θ変化した場合、つまり、ユーザが顔を角度θ横に回したときの変位量（単位：画素）ｄは、
ｄ＝ｔａｎ（θ）÷（ｔａｎ（Ａ÷２）×２）×Ｗ
となる。この場合、Ａは、カメラ１１の画角を表し、Ｗは、カメラ１１が出力する画像の幅の画素数を表す。

　また、３軸センサを用いずに、画像内の背景に存在する被写体を定めておくことで、カメラ１１の向きの変位量が求められてもよい。例えば、図１２に示すように、部屋の特定部分（窓の右上角）を背景の被写体として定めた場合を考える。背景の被写体が移動している場合は（実線矢印参照）、ユーザの手が実際には動いていない場合であっても、時刻ｔ２０の対象画像における手の座標位置と、時刻ｔ２１の対象画像における手の座標位置とは異なっていることになる（実線で表した手参照）。したがって、時刻ｔ２０の対象画像における背景の被写体の座標位置と、時刻ｔ２１の対象画像における背景の被写体の座標位置との差分が、カメラの向きの変位量（姿勢の変化量）に相当する。したがって、手の実質的な変位量は、画像上の手の変位量からカメラの変位量を引いたものになる。

　図２に戻って、バッテリー１６は、ＨＭＤ１の各機能部に供給するための電気を蓄える、例えばいわゆる二次電池である。

　外部装置２は、通信部２１、通常モードジェスチャー認識部２２、および、バッテリー２３を備える。なお、図２では、外部装置２が固有に備える機能、例えば、外部装置２がスマートフォンである場合の通話機能等は、記載を省略し、記載していない。

　通信部２１は、ＨＭＤ１の通信部１４とデータを送受信する機能を備える。通信部２１は、ＨＭＤ１からの探索信号または接続要求信号等を受信し、応答信号を送信する機能も備える。

　通常モードジェスチャー認識部２２は、ＨＭＤ１の通常モードジェスチャー認識部１３１と同様の機能、つまり、カメラ１１が撮影した動画像に基づいてジェスチャーを解析し、ジェスチャーが示すコマンドを認識する機能を備える。

　バッテリー２３は、外部装置２の各機能部に供給するための電気を蓄える、例えばいわゆる二次電池である。

　＜ジェスチャーの認識＞
　次に、図３ないし図９を用いて、ジェスチャーの認識について説明する。図３は、通常モードでのポイント位置検出処理を示すフローチャートである。図４は、テンプレートマッチングを説明するための図である。図５は、テンプレートの例を示す図である。図６は、ジェスチャーの認識を説明するための図である。図７は、テンプレートの他の例を示す図である。図８は、３次元テンプレートマッチングの一例を説明するための図である。図９は、３次元テンプレートマッチングの他の一例を説明するための図である。実施形態では、ジェスチャーは、ユーザの手の動きであるものとし、ＨＭＤ１は、ユーザの手が所定の動きをしたときに、所定のコマンドが指示されたと解釈して、そのコマンドを実行する。

　コマンドには、例えば、ページ送り、ページ戻り等のいわゆるスワイプコマンドの、手全体の動きによって表すコマンドや、親指と人差し指をくっ付けてから離すいわゆるピンチコマンド等の、手の指の細かい動きによって表すコマンドがある。また、コマンドには、表示ユニット１２に表示されたボタン等の所定の場所、つまり、ユーザが観ている映像中に映し出されているボタン等を、ピンポイントに押下するような、３次元的な指の動きによって表すコマンドがある。

　これらのコマンドは、コマンドを示すジェスチャーを認識するために処理量が、全て同等ではなく、少ない処理量によって認識できるジェスチャーもあれば、高精度な処理（大きい処理量）が必要なジェスチャーもある。また、同じコマンドでも、例えば指の位置の検出精度を落として、コマンドを実行することで処理量を減らすことも可能である。

　実施形態のＨＭＤ１は、通信可能（利用可能）な外部装置２が在る場合、外部装置２にジェスチャーの認識を行わせることで、長時間の使用を実現する。外部装置２が無い場合、ＨＭＤ１は、内臓バッテリーの電力残量が予め定められた閾値（例えば、フル充電時の２０％）以下となった場合に、認識に必要な処理量が少ない方法でジェスチャーを認識するように制御することで、省電力を図り、長時間の使用を実現する。言い換えれば、実施形態のＨＭＤ１は、使用電力量に応じて、ジェスチャーを認識するための方法を変えることにより、長時間の使用を可能としている。

　実施形態では、通常モードジェスチャー認識部１３１および省電力モードジェスチャー認識部１３２は、認識できるジェスチャーのパターン（コマンド）が異なる。その例が、以下の表１に示されている。

　表１では、「番号」欄には、１から昇順の番号が記載され、「ジェスチャー」欄には、ジェスチャーを特定するための手の動きを示す情報（パターン情報）が記載されている。ここでは、「番号」１の「ジェスチャー」欄には、「パターン０１」等と記載されている。「コマンド名」欄には、「ジェスチャー」欄に記載されたパターン情報に対応するコマンドの名称が記載され、「プログラム名」欄には、「コマンド名」欄に記載されたコマンドを実行するためのプログラムの名称が記載されている。

　通常モードジェスチャー認識部１３１は、「番号」欄の「１」～「１５」に対応する「ジェスチャー」欄の「パターン０１」～「パターン１５」が示すジェスチャーを認識することが可能であり、省電力モードジェスチャー認識部１３２は、「番号」欄の「１１」～「１５」に対応する「ジェスチャー」欄の「パターン１１」～「パターン１５」が示すジェスチャーを認識することが可能である。つまり、通常モードジェスチャー認識部１３１は、ユーザが行ったジェスチャーが、「パターン０１」～「パターン１５」のいずれに該当するかを判断し、該当するものがあれば、そのパターンに対応する「コマンド名」欄のコマンド名、例えば「クリック」を出力する。を出力する。また、省電力モードジェスチャー認識部１３２は、ユーザのジェスチャーが、「パターン１１」～「パターン１５」のいずれに該当するかを判断し、該当するものがあれば、そのパターンに対応する「コマンド名」欄のコマンド名、例えば「ページ送り」を出力する。

　例えば、ユーザが、「映像中の物体を人差し指で押下し、押下したまま移動させる」ジェスチャーを行った場合、通常モードジェスチャー認識部１３１は、高精度な指の動き等の検出が可能であり、ユーザのジェスチャーを、物体を選択して移動するジェスチャーのパターンとして「パターン０２」（ドラッグ）を認識することになる。一方、省電力モードジェスチャー認識部１３２は、ユーザが上述のような動作を行ったとしても、高精度な認識はできないので、手を移動するジェスチャーのパターンとして「パターン１１」（ページ送り）を認識することになる。つまり、省電力モードジェスチャー認識部１３２は、「パターン０２」のように認識できないパターンがあることになる。

　コマンド実行部１３３は、通常モードジェスチャー認識部１３１または省電力モードジェスチャー認識部１３２が出力したコマンド名に対応する「プログラム名」欄のプログラム名のプログラム、コマンド名が「クリック」である場合は名称が「ＰＧ０１」のプログラムを起動して、コマンドを実行する。

　なお、ここでは、説明の便宜上、表形式としているが、通常モードジェスチャー認識部１３１等において、ジェスチャーとコマンドが対応付けられていればよく、コマンド実行部１３３において、コマンドとプログラムが対応付けられていればよい。

　以下、ポイント位置を検出する処理を例に、ジェスチャー認識処理について説明する。図３ないし図９を用いて、高精度（以下、「通常モード」という。）でのポイント位置検出処理を説明し、図１０および図１１を用いて、少ない処理（以下、「省電力モード」という。）でのポイント位置検出処理を説明する。

　＜通常モードでの処理＞
　通常モードでの処理は、通常モードジェスチャー認識部１３１が行う処理である。

　図３において、まず、処理対象の画像（以下、「対象画像」という。）内のエッジが抽出される（ステップＳ１０）。対象画像は、カメラ１１が撮影した動画像のうちの１フレームの画像である。

　エッジとは、画像中の明るさ（濃淡）あるいは色が、隣接または所定距離離れた画素間で急に変化している箇所のことであり、画像中の物体の輪郭では、背景との相違で一般に濃淡が急激に変化している。したがって、エッジが手の輪郭を現していることになる。画像中の明るさ（濃淡）の変化を検出するために、例えば、濃淡に関する微分が求められ、濃淡変化が検出され、エッジが抽出される。

　次に、テンプレートマッチングが行われる（ステップＳ１１）。図４に、テンプレートマッチングの例が示されている。テンプレートマッチングでは、手の輪郭画像であるテンプレートＴと、対象画像内のテンプレートＴと同じ大きさ（画素数）の矩形の部分画像（以下、「ウィンドウＷ」という。）との相関が求められる。ウィンドウＷを、対象画像の左上から右方向（ｘ方向）に向かって所定画素数ずらして相関値が算出され、さらにｘ方向に前記所定画素数ずらして相関値が算出され、これが繰り返され、対象画像の右端まで繰り返されると、次に、下方向（ｙ方向）に所定画素分ずらして、左側から右方向（ｘ方向）に向かって所定画素数ずらして相関値が求められ、同様にこれが繰り返されて、対象画像の右下のウィンドウＷまで相関値が算出される（図３のスキャン実線矢印参照）。

　相関値の算出には、例えば、ＮＣＣ（正規化相互相関：Ｎｏｒｍａｌｉｚｅｄ　Ｃｒｏｓｓ　Ｃｏｒｒｅｌａｔｉｏｎ）が用いられる。ＮＣＣは、以下の式を用いて類似度ＲＮＣＣを算出する。算出された類似度ＲＮＣＣが１に近い程、ウィンドウＷの画像がテンプレートＴの画像に似ていることを示す。

　Ｔ（ｉ，ｊ）は、テンプレートＴの画素の輝度値であり、Ｉ（ｉ，ｊ）は、対象画像のウィンドウＷの画素の輝度値である。座標（ｉ，ｊ）は、テンプレートＴの幅をＭ画素、高さをＮ画素としたとき、テンプレートの左上の座標を（０，０）、右下を（Ｍ－１，Ｎ－１）とする場合の座標である。

　なお、ＮＣＣの他、ＳＡＤ（Ｓｕｍ　ｏｆ　Ａｂｓｏｌｕｔｅ　Ｄｉｆｆｅｒｅｎｃｅ）やＳＳＤ（Ｓｕｍ　ｏｆ　Ｓｑｕａｒｅｄ　Ｄｉｆｆｅｒｅｎｃｅ）等を用いて類似度が算出されてもよい。

　ＳＡＤは、以下の式を用いて算出される。

　ＳＡＤは、テンプレートをラスタスキャンし、同じ位置の画素の輝度値の差の絶対値の合計であり、値が小さい程、ウィンドウＷの画像がテンプレートＴの画像に似ていることになる。

　ＳＤＤは、以下の式を用いて算出される。

　ＳＳＤは、テンプレートをラスタスキャンし、同じ位置の画素の輝度値の差の２乗の合計であり、値が小さい程、ウィンドウＷの画像がテンプレートＴの画像に似ていることになる。

　次に、相関値の最も高いウィンドウＷ内の指の位置がポイント位置とされる（ステップＳ１２）。図４では、ユーザの手のエッジ画像Ｓを囲むウィンドウＷの相関値が最も高くなり、指先の位置Ｐがポイント位置となる。

　なお、ユーザの手の位置（カメラからの距離）や手の大きさによって、画像上の手の大きさが異なることから、通常モードジェスチャー認識部１３１は、異なる大きさの手を表した複数のテンプレートＴそれぞれを用いて、複数回スキャンし、最も高い相関値のウィンドウＷを求めるように構成されてもよい。

　また、手の形が異なる複数のテンプレートＴを用いてスキャンすることにより、手の動きを検出することが可能となる。図５Ａは、人差し指を伸ばした手のテンプレートＴを示し、図５Ｂは、人差し指を倒した手のテンプレートＴを示す。

　例えば、図６に示すように、時系列の対象画像のスキャンによって、手の動きが認識され、動きによるコマンドを判断することが可能となる。図６は、白抜き矢印の方向に、時間が経過した対象画像を順に示す。括弧内のｔ１等が対象画像の撮影時刻を示し、添え字が大きい方が、後に撮影された画像であることを示す。

　時刻ｔ１の対象画像において、図５ＡのテンプレートＴとの相関値が所定の閾値以上のウィンドウＷが検出され（以下、「テンプレート画像が検出される」というものとする。）、時刻ｔ２の対象画像において、図５Ｂのテンプレート画像が検出された場合、クリック動作をしたと判断でき、図５Ｂのテンプレート画像（図５ＢのテンプレートＴとの相関値が所定の閾値以上のウィンドウＷの画像）の指の位置が、ポイント位置Ｐ１となる。そして、時刻ｔ３の対象画像において、移動した図５Ｂのテンプレート画像が検出され（ポイント位置Ｐ２）、さらに、時刻ｔ４の対象画像において、移動した図５Ｂのテンプレート画像が検出される（ポイント位置Ｐ３）。そして、時刻ｔ５の対象画像において、図５Ａのテンプレート画像が検出された場合には、時刻ｔ２の対象画像のポイント位置Ｐ１から、時刻ｔ５の前の時刻ｔ４の対象画像のポイント位置Ｐ３までのドラッグコマンドであると認識することができる。

　また、例えば、図７Ａは、親指と人差し指をくっ付けた手のテンプレートＴを示し、図７Ｂは、親指と人差し指を離したテンプレートＴを示す。或る対象画像において、図７Ａのテンプレート画像が検出された場合、その或る対象画像の後の時刻の対象画像で図７Ｂのテンプレート画像が検出された場合は、画像の拡大を指示するコマンドであると認識できる。逆に、或る対象画像において、図７Ｂのテンプレート画像が検出され、後の時刻の対象画像で図７Ａのテンプレート画像が検出された場合は、画像の縮小を指示するコマンドであると認識できる。

　また、通常モードジェスチャー認識部１３１は、カメラからの手までの距離を用いて、３次元のパターンマッチングを行うように構成されてもよい。カメラがステレオカメラである場合には、手までの距離を検出することができる。例えば、撮像画像の１画素の大きさμが相互に等しい２台のカメラ１、２を用い、基線長Ｌだけ左右に離間させてカメラ１の光軸とカメラ２の光軸を平行に配置して対象物（ユーザの手）を撮影した場合、それぞれのカメラの撮像面上の視差（ずれ画素数）がｄであるとすると、対象物までの距離Ｄは、以下の式で求められる。
Ｄ＝（Ｌ×ｆ）／（μ×ｄ）

　したがって、カメラからの距離の変化の情報（奥行情報）を用いて、３次元のパターンマッチングを行うことが可能となる。したがって、より詳細な手の動きを検出することが可能となり、より細かな手の動きが示すコマンドを認識することが可能となる。

　なお、ステレオカメラ以外に、ＴＯＦ（Ｔｉｍｅ　Ｏｆ　Ｆｌｉｇｈｔ）を用いて奥行情報が求められてもよい。ＴＯＦとは、投光した光がターゲットに当たって戻る時間である。例えば、近赤外線ＬＥＤの高速光源と、距離画像を生成するために特別に設計されたＣＭＯＳイメージセンサを用い、投光した光がターゲットに当たって戻る時間を画素ごとにリアルタイムで測定することにより、ターゲットまでの距離が取得され、各画素の距離成分で構成された距離画像が生成される。この場合、ＨＭＤ１は、距離画像を撮像するための撮像装置を備える。

　また、パターン投影を用いて、奥行き情報が求められてもよい。パターン投影法とは、縞模様等のパターン光を対象物に投影し、投影した対象物を撮影し、その画像に写ったパターン上の点の三次元座標を求めるものである。この場合は、パターン光の密度に応じた点の距離成分で構成された距離画像が生成される。

　ここで、図８および図９を用いて、３次元パターンマッチングの１方法について説明する。なお、図８および９では、説明の便宜上、通常のカメラで撮像した画像を記載しているが、マッチングに用いる画像は、距離画像である。

　図８は、ユーザが伸ばした右手の人差し指を曲げて、映像内のボタン等の物体をクリックしたジェスチャーを撮影した画像である。

　人差し指を伸ばした右手の３次元テンプレートと、時刻ｔ６の対象画像（距離画像）で示される３次元空間内の対象物との間でテンプレートマッチングが行われる。テンプレートマッチングは、所定サイズの格子に分割された距離画像の３次元空間と、同じ所定サイズの格子に分割された３次元テンプレートとの相関値を、格子を１つずつずらしながら算出することで行う。３次元テンプレートは、３次元テンプレート用に設定された（ｘ，ｙ，ｚ）の３次元空間内で定義される３次元ポリゴンモデルの表面を、距離画像と同等の密度で点群データ化したものである。各格子内の点群データの個数を特徴量として、相関値が以下の式で算出される。

　Ｔｎ（ｉ，ｊ，ｋ）は、３次元テンプレートの格子の特徴量であり、Ｉ（ｉ，ｊ，ｋ）は、対象画像の格子の特徴量である。テンプレートマッチングは、３次元テンプレートの角度を変えて、同様の処理を行う。

　そして、相関値が最も高くなる３次元空間内のテンプレートの位置に基づいて、ＩＰＣ（Ｉｔｅｒａｔｉｖｅ　Ｃｌｏｓｅｓｔ　Ｐｏｉｎｔ）マッチング処理、つまり、位置姿勢推定が行われ、より正確な３次元パターンマッチングの結果が得られる。この３次元パターンマッチング処理の詳細は、例えば、特開２０１２－２０３８９４号公報を参照できる。この特開２０１２－２０３８９４号公報に開示された３Ｄパターンマッチング方法は、予め用意されたテンプレートとの照合によって３次元の対象物を検出する３Ｄパターンマッチング方法であって、前記対象物の表面形状を計測した３次元の点群データを記憶する３次元点群データベースから前記点群データを読み込む工程と、前記対象物の３次元形状を、前記点群データと同等の密度の点群で表したテンプレートを記憶するテンプレートデータベースから前記テンプレートを読み込む工程と、前記点群データと、前記テンプレートとを照合して、両者が一致するか否かを判定するテンプレートマッチング工程とを備え、前記テンプレートマッチング工程は、３次元空間を所定サイズの格子に分割し、各格子内に存在する前記点群データおよびテンプレートのデータ点数を特徴量とし、該特徴量の比較によって前記判定を行う工程である。

　３次元パターンマッチングの結果から、指先のポイント位置Ｐ４の３次元座標値が求められる。同様に、人差し指を曲げた右手の３次元テンプレートと、時刻ｔ７の対象画像（距離画像）との間で３次元パターンマッチングが行われ、指先のポイント位置Ｐ５の３次元座標値が求められる。

　このように、距離画像を用いることで、指先の距離の変化を検出することができる。したがって、クリック動作を検出することが可能となる。また、手までの距離が分かるので、ユーザが奥行方向に手を押し込むジェスチャーを行った場合、距離の変化を検出することができ、手を押し込むジェスチャーを認識することが可能となる。

　図９は、ユーザが図８に示すジェスチャーと同じジェスチャーを行った際の画像であるが、手の向きが異なっている場合の画像（距離画像）である。

　この場合、図８での説明と同様に、人差し指を伸ばした右手の３次元テンプレートと、時刻ｔ８の対象画像（距離画像）との間で３次元パターンマッチングが行われ、指先のポイント位置Ｐ６の３次元座標値が求められる。人差し指を曲げた右手の３次元テンプレートと、時刻ｔ９の対象画像（距離画像）との間で３次元パターンマッチングが行われ、指先のポイント位置Ｐ７の３次元座標値が求められる。

　つまり、３次元パターンマッチングの場合は、対象画像中の手の向きに関わらず、同じジェスチャーであれば、そのジャスチャーを認識することが可能となる。一方、２次元パターンマッチングを行う場合は、図８に示すような手の向きのテンプレートを用いればクリック動作を検出できるが、図９に示すような手の向きのテンプレートが無い場合には、ジェスチャーを認識することができないことになる。

　このように通常モードでは、詳細なポイント位置の検出や、手の形状を検出し、さらには、姿勢検知部１５から出力される変位量を用いて補正することにより、様々なジェスチャーを認識できる。したがって、通常モードでのジェスチャー認識を行うことにより、アプリケーションでは、ジェスチャーが示す様々なコマンドを実行することが可能となる。

　＜省電力モードでの処理＞
　省電力モードでの処理は、省電力モードジェスチャー認識部１３２が行う処理である。

　図１０は、省電力モードでのポイント位置検出処理のフローチャートであり、図１１は、省電力モードでのポイント検出処理を説明するための図である。省電力モードでは、テンプレートマッチングを行わずに、ジェスチャーの認識が行われる。

　まず、対象画像の肌色に相当するＲＧＢ範囲の領域が選択される（ステップＳ２０）。次に、この選択された肌色相当の部分（画素）と、それ以外の部分（画素）とで、２値化処理が行われる（ステップＳ２１）。図１１の時刻ｔ１０の対象画像中のハッチング部分が肌色相当の部分を示す。

　そして、肌色相当部分の重心が、ポイント位置Ｐ１０とされる（ステップＳ２２）。

　つまり、対象画像内のユーザの手であると推定される画素を用いて、ポイントが求められる。

　この方法は、通常モードにおいて指先をポイント位置として求める場合に比べて、ポイント位置の正確性には欠けるが、処理量が格段に少ない。

　ポイント位置が正確には求められない事から、ユーザが観ている映像中に映されている小さなボタン等をピンポイントで押下したことを検出することは難しいが、以下に示すような、コマンドは、認識が可能となる。

　図１１の時刻ｔ１１の対象画像でポイント位置Ｐ１１を求め、時刻ｔ１２の対象画像でポイント位置Ｐ１２を求めることで、手の移動量と方向と（ポイント位置Ｐ１０～Ｐ１２）を求めることができるので、ページ送り、ページ戻し等のスワイプコマンドは、正確に認識することが可能となる。

　手の移動速度に応じて、ページ送りと、ページの移動（１ページ内の表示部分を変える）を切り分けて、認識することも可能である。省電力モードジェスチャー認識部１３２は、対象画面内に、２つの肌色相当の部分（手）が探索された場合、それらの部分の間の距離が離れれば、拡大コマンドと解釈し、距離が近くなれば、縮小コマンドと解釈するように構成されてもよい。

　このように、省電力モードでは、テンプレートマッチングは行わないため、指先の動きまでは検出することは難しく、ポイント位置は正確に求めることは難しい。しかし、画面全体に亘ってテンプレートとウィンドウとの相関値を算出するというテンプレートマッチングに必要な処理は行わないので、少ない処理で、手全体の動きは、正確に把握できる。したがって、省電力モードでは、手の動きによるコマンドを認識することとする。

　なお、上記説明では、ユーザの手の色を肌色と推定して、カラーの対象画像の肌色に相当する画素が抽出されているが、ユーザが手袋をはめている等の場合には、手袋の色に相当する画素が抽出される。この場合、ユーザの手（手袋）の色を、ＨＭＤ１にユーザが入力できる機能がＨＭＤ１に設けられる。また、対象画像の種類に応じて、ユーザの手の領域を抽出するように、省電力モードジェスチャー認識部１３２は、構成されればよく、例えば、対象画像がカラー画像ではなくモノクロ画像である場合に、ユーザの手の輝度と推定される画素が抽出され、また例えば、対象画像が距離画像である場合は、ユーザの手の位置と推定される奥行きの画素が抽出される。

＜動作＞
　次に、実施形態のＨＭＤ１の動作について説明する。図１３は、図２に示すＨＭＤおよび外部装置のジェスチャー認識処理を示すフローチャートである。図１３において、破線の矢印は、ＨＭＤ１と外部装置２との間におけるデータの流れを示す。

　ユーザは、ＨＭＤ１、および、外部装置２を装着し、動作の開始を指示するボタン（不図示）を押下し、外部装置２の検出を指示するボタン（不図示）を押下する。

　動作の開始指示が入力されたことを検出したＨＭＤ１の制御部１３は、カメラ１１に撮像の開始を指示する。指示を受けたカメラ１１は、所定のフレームレートで撮像を開始し、撮影した動画像の制御部１３への出力を開始する（ステップＳ１０）。

　制御部１３は、外部機器検出部１３５に外部機器２の検出を依頼する。依頼を受けた外部機器検出部１３５は、通信可能な外部装置２の存在の検出を開始し、外部装置２を検出すると、内部メモリ上の外部機器有フラグをオンにし、外部装置２の存在確認のための周期的な通信を開始する。外部機器検出部１３５は、外部装置２の存在を検出しなくなると、外部機器有フラグをオフにする。

　次に、外部機器検出部１３５に外部機器２の検出を依頼した制御部１３は、内部メモリ上の外部機器有フラグを参照する。内部メモリ上の外部機器有フラグがオンである場合（ステップＳ１１：Ｙｅｓ）、カメラ１１から出力される動画像が入力されると、制御部１３は、通信部１４を介して、入力した動画像を外部装置２に送信する（ステップＳ１４）。この際、制御部１３は、動画像を通常モードジェスチャー認識部１３１には出力しない。言い換えれば、通常モードジェスチャー認識部１３１の処理が抑止されている、と言える。

　外部装置２は、通信部２１を介して、ＨＭＤ１から動画像を受信すると（ステップＳ２１）、受信した動画像を通常モードジェスチャー認識部２２に渡して、ジェスチャーの認識を依頼する。

　通常モードジェスチャー認識部２２は、上述したように、通常モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する（ステップＳ２２）。外部装置２は、通常モードジェスチャー認識部２２が出力したコマンドを、通信部２１を介して、
ＨＭＤ１の送信する（ステップＳ２３）。

　外部装置２が送信したコマンドを、通信部１４を介して受信したＨＭＤ１の制御部１３は、受信したコマンドをコマンド実行部１３３に渡して実行を依頼する（ステップＳ１５）。

　依頼を受けたコマンド実行部１３３は、制御部１３から渡されたコマンドの処理を行うプログラムを起動し、コマンドを実行する。そして、コマンド実行部１３３は、実行結果を、制御部１３を介して表示ユニット１２に出力し、表示ユニット１２に表示させる。制御部１３は、ステップＳ１０からの処理を繰り返す。

　一方、ステップＳ１１において、制御部１３は、内部メモリ上の外部機器有フラグがオフである場合（ステップＳ１１：Ｎｏ）は、省電力処理（ステップＳ１２）を行う。

　ここで、図１４を用いて、省電力処理について説明する。図１４は、ＨＭＤ１の省電力処理を示すフローチャートである。

　制御部１３は、内部メモリ上の外部機器有フラグがオフである場合（ステップＳ１１：Ｎｏ）、電力残量検出部１３４に電力残量の検出を依頼する。

　依頼を受けた電力残量検出部１３４は、電力残量、例えば、「３０％」と制御部１３に渡す。電力残量検出部１３４から電力残量を受け取った制御部１３は、電力残量と、予め定められている閾値、例えば、「２０％」とを比較し、電力残量が閾値を越えている場合（ステップＳ３１：Ｙｅｓ）、カメラ１１から入力した動画像を通常モードジェスチャー認識部１３１に渡して、ジェスチャーの認識を依頼する。

　依頼を受けた通常モードジェスチャー認識部１３１は、上述したように、通常モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する（ステップＳ３４）。

　一方、ステップＳ３１において、電力残量が閾値以下の場合（ステップＳ３１：Ｎｏ）は、カメラ１１から入力した動画像を省電力モードジェスチャー認識部１３２に渡して、ジェスチャーの認識を依頼する。

　依頼を受けた省電力モードジェスチャー認識部１３２は、上述したように、省電力モードでジェスチャーを認識し、コマンドを決定し、決定したコマンドを出力する（ステップＳ３２）。

　制御部１３は、通常モードジェスチャー認識部１３１または省電力モードジェスチャー認識部１３２から受け取ったコマンドを、コマンド実行部１３３に渡して実行を依頼する。

　図１３のステップＳ１３に戻り、省電力処理により決定されたコマンドを制御部１３から渡され、実行の依頼を受けたコマンド実行部１３３は、制御部１３から渡されたコマンドを実行し、実行結果を、制御部１３を介して表示ユニット１２に出力し、表示ユニット１２に表示させる。制御部１３は、ステップＳ１０からの処理を繰り返す。

　このようにＨＭＤ１では、外部装置２が在る場合は、外部装置２に通常モードでジェスチャーの認識を行わせ、外部装置２が無い場合は、バッテリー１６の電力残量に応じて、通常モードと省電力モードを切り分けてジェスチャーの認識を行わせるので、ＨＭＤ１の長時間の使用が可能となる。

　なお、実施形態では、外部装置２が在る場合、外部装置２の通常モードジェスチャー認識部２２にジェスチャーの認識を行わせ、外部装置２が無い場合、バッテリー１６の電力残量に応じて、通常モードジェスチャー認識部１３１と省電力モードジェスチャー認識部１３２とのいずれかにジェスチャーの認識を行わせるように、ＨＭＤ１は、構成されているが、外部装置２が無い場合、バッテリー１６の電力残量に関わらず、省電力モードジェスチャー認識部１３２にジェスチャーの認識を行わせるように、ＨＭＤ１は、構成されてもよい。

　また、実施形態のＨＭＤ１は、バッテリー１６の電力残量と閾値とを比較し、バッテリー１６の電力残量が閾値を超える場合には通常モードジェスチャー認識部１３１でジャスチャーの認識を行い、バッテリー１６の電力残量が前記閾値以下の場合には省電力モードジェスチャー認識部１３２でジャスチャーの認識を行うように構成されているが、例えば使用環境や動作条件によってバッテリー電圧が変動するので、複数の閾値で切り換えて通常モードジェスチャー認識部１３１と省電力モードジェスチャー認識部１３２とのいずれかにジェスチャーの認識を行わせるように、ＨＭＤ１は、構成されてもよい。例えば、ＨＭＤ１は、バッテリー１６の電力残量が第１閾値（例えばバッテリー１６のフル充電時の２５％等）を超える場合には通常モードジェスチャー認識部１３１でジャスチャーの認識を行い、バッテリー１６の電力残量が第２閾値（例えばバッテリー１６のフル充電時の１５％等）以下の場合には省電力モードジェスチャー認識部１３２でジャスチャーの認識を行い、バッテリー１６の電力残量が前記第１閾値以下であって前記第２閾値を超える場合（この例ではバッテリー１６のフル充電時の２５％以下であって１５％を超える場合）には、通常モードジェスチャー認識部１３１と省電力モードジェスチャー認識部１３２との間の切り換えを行わずに、最新（現状）のジャスチャーの認識を行っているジャスチャー認識部１３１、１３２で行う。すなわち、ＨＭＤ１は、最新（現状）で、通常モードジャスチャー認識部１３１でジャスチャーの認識を行っている場合には、切り替えを行わずにそのまま通常モードジャスチャー認識部１３１でジャスチャーの認識を行い、省電力モードジャスチャー認識部１３２でジャスチャーの認識を行っている場合には、切り替えを行わずにそのまま省電力モードジャスチャー認識部１３２でジャスチャーの認識を行う。

　また、実施形態では、外部装置２が在る場合は、外部装置２の通常モードジェスチャー認識部２２にジェスチャーの認識を行わせ、ＨＭＤ１の通常モードジェスチャー認識部１３１および省電力モードジェスチャー認識部１３２は動作させないように、ＨＭＤ１は、構成されているが、ＨＭＤ１の通常モードジェスチャー認識部１３１が、一部の処理を外部装置２の通常モードジェスチャー認識部２２に行わせるように、ＨＭＤ１は、構成されていてもよい。例えば、テンプレートマッチングを行う場合、対象画像を２分割し、２分の１の対象画像を用いたマッチング処理を通常モードジェスチャー認識部２２に行わせるように、ＨＭＤ１が構成される。

　また、実施形態では、省電力モードでは、テンプレートマッチングを行わないジェスチャー認識を行うように、ＨＭＤ１は、構成されているが、例えば、通常モードでは３次元マッチングを行い、省電力モードでは３次元マッチングを行わないように、ＨＭＤ１は、構成されてもよく、通常モードではカメラ１１の姿勢変化による補正を行い、省電力モードではカメラ１１の姿勢変化による補正を行わないように、ＨＭＤ１は、構成されてもよい。省電力モードでの処理量が、通常モードでの処理量よりも少なくなればよい。

　また、実施形態では、表１を用いて説明したように、省電力モードでは、認識できるジェスチャーのパターン（コマンド）が少ない。したがって、省電力モードジェスチャー認識部１３２を用いる場合には、省電力モードジェスチャー認識部１３２が認識できないジェスチャーが示すコマンドを用いるアプリケーションプログラム自体を、起動できないように、ＨＭＤ１は、構成されてもよい。例えば、省電力モードでは、クリックを指示するジェスチャーや、ドラッグを指示するジェスチャーは、正確には認識し難いので、クリックやドラッグを必要とするアプリケーションプログラム、例えば、編集アプリケーションは、起動できないように、制御部１３が制御する。また、クリックやドラッグを用いる一部の機能の動作を制限するように、制御部１３が制御してもよい。例えば、編集アプリケーションのうち、閲覧のみはできるように、制御部１３が制御する等である。このように構成することで、ユーザが行ったジェスチャーが誤認識されることが無くなり、ユーザは快適にアプリケーションを使用することが可能となる。

　また、実施形態では、電力残量検出部１３４は、ＨＭＤ１のバッテリー１６の電力残量を検出しているが、外部装置２のバッテリーの電力量も考慮に入れて、電力残量を算出してもよい。この場合、ＨＭＤ１は、外部装置２から電力の供給を受ける。また、外部装置２がサブバッテリーである場合も、このサブバッテリーの電力量も考慮に入れて、電力残量を算出してもよく、ＨＭＤ１は、サブバッテリーから電力の供給を受ける。

　また、実施形態では、外部装置２が無い場合には、電力残量が閾値を下回ったときに、省電力モードでの認識処理を行うように、ＨＭＤ１は、構成されているが、外部装置２がサブバッテリーである場合には、外部装置２が無い場合は、電力残量に関わらずに省電力モードでの認識処理を行い、外部装置２が在る場合は、通常モードでの認識処理を行うように、ＨＭＤ１は、構成されてもよい。

　また、実施形態では、外部機器は、通常モードでのジェスチャー認識処理を行うこととしているが、省電力モードでの認識処理も行えるように構成され、外部機器が備えるバッテリーの電力残量が少なくなった場合に、省電力モードでの認識処理に切り替えるように構成されてもよい。
　本明細書は、上記のように様々な態様の技術を開示しているが、そのうち主な技術を以下に纏める。

　一態様にかかるジェスチャー認識装置は、蓄電するバッテリーと、ユーザの体の一部の動作に関する動画像を撮像する撮像部と、前記バッテリーの電力残量を検出し、該電力残量が所定の閾値を超える場合に、第１ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第１ジャスチャー認識処理よりも処理量の少ない第２ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる制御部とを備える。

　他の一態様にかかるジェスチャー認識方法は、バッテリーを備えるジェスチャー認識装置で用いられるジェスチャー認識方法であって、ユーザの体の一部の動作に関する動画像を撮像する撮像ステップと、前記動画像から、前記ユーザによって行われたジェスチャーを認識する第１ジェスチャー認識ステップと、前記動画像から、前記第１ジェスチャー認識部が行う処理よりも少ない量の処理によって、前記ユーザによって行われたジェスチャーを認識する第２ジェスチャー認識ステップと、前記バッテリーの電力残量を検出する電力検出ステップと、前記電力検出ステップで検出された電力残量が所定の閾値を超える場合に、前記第１ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第２ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させる制御ステップとを備える。

　このようなジェスチャー認識装置およびジェスチャー認識方法は、電力残量が所定の閾値以下の場合に、ジェスチャーを認識するための処理量が少ない処理部によってジェスチャーを認識する。したがって、上記ジェスチャー認識装置および該方法は、できるだけ長時間、ジェスチャーの認識を行うことが可能となる。例えば、本ジェスチャー認識装置を搭載するＨＭＤを用いた場合では、電力残量が少なくなってきた場合に、少ない処理量でのジェスチャー認識を行うので、細かな動きのジェスチャーは使用できない事が発生し得るが、ＨＭＤを用いた処理を長時間行うことが可能となる。なお、ユーザの体の一部とは、ユーザの手首から先の手（片手、両手）、肘から先の腕（片腕、両腕）、指先（片手の指、両手の指）等であり、さらに、ユーザの足先であってもよく、ユーザがジェスチャーを行う部位であればよい。

　他の一態様では、上述のジェスチャー認識装置において、前記第１ジェスチャー認識処理は、テンプレートマッチング処理を行って、前記ユーザによって行われたジェスチャーを認識し、前記第２ジェスチャー認識処理は、テンプレートマッチング処理を行わずに、前記ユーザによって行われたジェスチャーを認識する。

　他の一態様では、上述のジェスチャー認識装置において、前記ユーザの体の一部の距離画像を撮像する距離画像撮像部をさらに備え、前記第１ジェスチャー認識処理は、前記距離画像を用いた処理を行って、前記ユーザによって行われたジェスチャーを認識し、前記第２ジェスチャー認識処理は、前記距離画像を用いた処理を行わずに、前記ユーザによって行われたジェスチャーを認識する。

　他の一態様では、上述のジェスチャー認識装置において、前記第２ジェスチャー認識処理は、撮像された前記ユーザの体の一部であると推定される前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する。

　他の一態様では、上述のジェスチャー認識装置において、前記動画像は、カラー画像であり、前記第２ジェスチャー認識処理は、前記ユーザの体の一部の色と同等の色である前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する。

　これら構成によれば、電力残量が閾値以下の場合には、認識に必要な処理量が少ないジェスチャー認識を行うこととして省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。

　他の一態様では、上述のジェスチャー認識装置において、前記撮像部の向きの変化を検知する姿勢検知部をさらに備え、前記第１ジェスチャー認識処理は、前記ユーザによって行われたジェスチャーの途中で前記姿勢検知部が向きの変化を検出した場合に、前記姿勢検知部が検知した向きの変化に基づいて、前記動画像内の前記ユーザの体の一部の座標位置を補正して、前記ユーザによって行われたジェスチャーを認識し、前記第２ジェスチャー認識処理は、前記補正を行わずに、前記ユーザによって行われたジェスチャーを認識する。

　この構成によれば、電力残量が閾値以下の場合には、カメラの向きの変化に応じた座標位置の補正を行わないので、認識の精度は低くなるが、省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。

　他の一態様では、上述のジェスチャー認識装置において、通信可能な外部機器を検出する外部機器検出部をさらに備え、前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記第１および第２ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させずに、前記動画像を前記外部機器に送信し、前記外部機器から前記ユーザによって行われたジェスチャーが示すコマンドを受信し、前記外部機器は、前記第１ジェスチャー認識処理の機能と同一の機能を有する第３ジェスチャー認識処理を行って、前記ジェスチャー認識装置から受信した動画像から認識されたジェスチャーが示すコマンドを前記ジェスチャー認識装置に送信する外部機器である。

　この構成によれば、ジェスチャーの認識を外部装置に行わせるので、ジェスチャー認識装置自体の電力消費量を抑えながら、高精度のジェスチャー認識を行うことが可能となる。

　他の一態様では、上述のジェスチャー認識装置において、当該ジェスチャー認識装置が電力供給を受けることが可能な外部機器を検出する外部機器検出部をさらに備え、前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記電力検出部が検出した電力残量に関わらず、前記第１ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる。

　この構成によれば、外部装置から電力の供給を受けることができるので、高精度のジェスチャー認識を、長時間行うことが可能となる。

　他の一態様にかかる操作入力装置は、上記いずれかのジェスチャー認識装置を備える。

　他の一態様では、上述の操作入力装置において、前記第２ジェスチャー認識処理で認識される前記ユーザによって行われたジャスチャーは、前記第１ジェスチャー認識処理で認識される前記ユーザによって行われたジェスチャーの一部であり、前記制御部は、前記電力残量が所定の閾値以下のときは、前記第２ジェスチャー認識処理で認識可能なジェスチャーが示すコマンドのみを用いるアプリケーションが起動されるように制御する。

　このような操作入力装置は、電力残量が閾値以下の場合に、認識に必要な処理量が少ないジェスチャー認識によって認識することができるジェスチャーが示すコマンドのみを用いるアプリケーションのみが起動される。したがって、ユーザが行ったジェスチャーが誤認識されることなく、ユーザはアプリケーションを快適に使用することが可能となる。また、認識に必要な処理量が少ないジェスチャー認識を行うので、省電力化を図ることが可能となり、結果として、長時間の使用が可能となる。

　この出願は、２０１４年１月１０日に出願された日本国特許出願特願２０１４－３４２３を基礎とするものであり、その内容は、本願に含まれるものである。

　本発明を表現するために、上述において図面を参照しながら実施形態を通して本発明を適切且つ十分に説明したが、当業者であれば上述の実施形態を変更および／または改良することは容易に為し得ることであると認識すべきである。したがって、当業者が実施する変更形態または改良形態が、請求の範囲に記載された請求項の権利範囲を離脱するレベルのものでない限り、当該変更形態または当該改良形態は、当該請求項の権利範囲に包括されると解釈される。

　本発明によれば、ジェスチャー認識装置、操作入力装置およびジェスチャー認識方法を提供できる。

Claims

　蓄電するバッテリーと、
　ユーザの体の一部の動作に関する動画像を撮像する撮像部と、
　前記バッテリーの電力残量を検出し、該電力残量が所定の閾値を超える場合に、第１ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第１ジャスチャー認識処理よりも処理量の少ない第２ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる制御部とを備える、
　ジェスチャー認識装置。
　前記第１ジェスチャー認識処理は、テンプレートマッチング処理を行って、前記ユーザによって行われたジェスチャーを認識し、
　前記第２ジェスチャー認識処理は、テンプレートマッチング処理を行わずに、前記ユーザによって行われたジェスチャーを認識する、
　請求項１に記載のジェスチャー認識装置。
　前記ユーザの体の一部の距離画像を撮像する距離画像撮像部をさらに備え、
　前記第１ジェスチャー認識処理は、前記距離画像を用いた処理を行って、前記ユーザによって行われたジェスチャーを認識し、
　前記第２ジェスチャー認識処理は、前記距離画像を用いた処理を行わずに、前記ユーザによって行われたジェスチャーを認識する、
　請求項１に記載のジェスチャー認識装置。
　前記第２ジェスチャー認識処理は、撮像された前記ユーザの体の一部であると推定される前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する、
　請求項１ないし請求項３のいずれか１項に記載のジェスチャー認識装置。
　前記動画像は、カラー画像であり、
　前記第２ジェスチャー認識処理は、前記ユーザの体の一部の色と同等の色である前記動画像内の画素に基づいて、前記ユーザによって行われたジェスチャーを認識する、
　請求項４に記載のジェスチャー認識装置。
　前記撮像部の向きの変化を検知する姿勢検知部をさらに備え、
　前記第１ジェスチャー認識処理は、前記ユーザによって行われたジェスチャーの途中で前記姿勢検知部が向きの変化を検出した場合に、前記姿勢検知部が検知した向きの変化に基づいて、前記動画像内の前記ユーザの体の一部の座標位置を補正して、前記ユーザによって行われたジェスチャーを認識し、
　前記第２ジェスチャー認識処理は、前記補正を行わずに、前記ユーザによって行われたジェスチャーを認識する、
　請求項１ないし請求項５のいずれか１項に記載のジェスチャー認識装置。
　通信可能な外部機器を検出する外部機器検出部をさらに備え、
　前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記第１および第２ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させずに、前記動画像を前記外部機器に送信し、前記外部機器から前記ユーザによって行われたジェスチャーが示すコマンドを受信し、
　前記外部機器は、前記第１ジェスチャー認識処理の機能と同一の機能を有する第３ジェスチャー認識処理を行って、前記ジェスチャー認識装置から受信した動画像から認識されたジェスチャーが示すコマンドを前記ジェスチャー認識装置に送信する外部機器である、
　請求項１ないし請求項６のいずれか１項に記載のジェスチャー認識装置。
　当該ジェスチャー認識装置が電力供給を受けることが可能な外部機器を検出する外部機器検出部をさらに備え、
　前記制御部は、前記外部機器検出部が前記外部機器を検出した場合に、前記電力検出部が検出した電力残量に関わらず、前記第１ジェスチャー認識処理を行って前記ユーザによって行われたジェスチャーを認識させる、
　請求項１ないし請求項６のいずれか１項に記載のジェスチャー認識装置。
　前記請求項１ないし請求項８のいずれか１項のジェスチャー認識装置を備える操作入力装置。
　前記第２ジェスチャー認識処理で認識される前記ユーザによって行われたジャスチャーは、前記第１ジェスチャー認識処理で認識される前記ユーザによって行われたジェスチャーの一部であり、
　前記制御部は、前記電力残量が所定の閾値以下のときは、前記第２ジェスチャー認識処理で認識可能なジェスチャーが示すコマンドのみを用いるアプリケーションが起動されるように制御する、
　請求項９に記載の操作入力装置。
　バッテリーを備えるジェスチャー認識装置で用いられるジェスチャー認識方法であって、
　ユーザの体の一部の動作に関する動画像を撮像する撮像ステップと、
　前記動画像から、前記ユーザによって行われたジェスチャーを認識する第１ジェスチャー認識ステップと、
　前記動画像から、前記第１ジェスチャー認識部が行う処理よりも少ない量の処理によって、前記ユーザによって行われたジェスチャーを認識する第２ジェスチャー認識ステップと、
　前記バッテリーの電力残量を検出する電力検出ステップと、
　前記電力検出ステップで検出された電力残量が所定の閾値を超える場合に、前記第１ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させ、前記電力残量が前記所定の閾値以下の場合に、前記第２ジェスチャー認識ステップで前記ユーザによって行われたジェスチャーを認識させる制御ステップとを備える、
　ジェスチャー認識方法。