JPWO2013137412A1

JPWO2013137412A1 - 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体

Info

Publication number: JPWO2013137412A1
Application number: JP2014505008A
Authority: JP
Inventors: 隆義山下
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2012-03-15
Filing date: 2013-03-14
Publication date: 2015-08-03
Also published as: KR20130105321A; CN103309439A; WO2013137412A1; EP2650754A2; US20130241819A1; KR101437760B1; EP2650754A3; CN103309439B

Abstract

制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。

Description

本発明は、処理実行主体に対する指示を生成する制御装置、その制御装置を含む電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体に関するものである。

近年、各種の認識技術などを用いてユーザが発した指示を認識し、各種装置への指示を生成するような構成が知られている。このような技術の代表例として、ジェスチャ認識技術は、人間とコンピュータとのコミュニケーション手段として、知能ロボット、ゲーム、シミュレーション、生産技術など、様々な分野で応用され、発展してきた。具体的には、ジェスチャ認識装置は、撮像部の典型例であるビデオカメラなどによって、装置に対して指示を送る被写体の動きを撮像して得られた動画を画像処理して、被写体の一連の特定の動き（以下、「ジェスチャ」とも称す。）を認識する。

コンピュータをはじめとする各種装置は、ジェスチャ認識装置によって認識された、被写体のジェスチャの種類に応じた様々な処理を実行することができる。具体的には、ジェスチャ認識装置は、動画のあるフレームと別のフレームとを比較して、被写体がどこからどこへ移動したのか、すなわち、フレーム間の変化量を求めて被写体の動き（移動方向など）を認識することにより、ジェスチャを認識することができる。

例えば、特開２００５−３５２５３１号公報（特許文献１）には、被写体の特定部位の往復運動を検出するジェスチャ検出方法および装置が開示されている。

また、特表２０１１−５１７３５７号公報（特許文献２）には、２枚の被写体の画像からジェスチャを認識する装置、および、このジェスチャ入力によって、ユーザインターフェースで表示された画像オブジェクトを操作する方法が開示されている。また、特許文献２では、被写体までの距離を測定可能なカメラを用いることにより、被写体の奥行きに係る動きからジェスチャを認識することが開示されている。

特開２００７−１２０５５号公報（特許文献３）には、移動通信端末機のカメラ部をアクティブにした状態において、ユーザが所定のモーションを行うと、移動通信端末機は、ユーザのモーションを認識し、そのモーションをパターン化してモーションパターンに応じる所定の動作を行う構成が開示されている。

特開２００５−３５２５３１号公報特表２０１１−５１７３５７号公報特開２００７−０１２０５５号公報

上述の特許文献１〜３に開示された技術では、操作者などの被写体の動作に基づいて、被写体が発した指示の種類を特定することができるに過ぎない。そのため、アナログ的な操作に適合させたり、より高い自由度で指示を生成したりすることができる構成が要望されている。

本発明の一実施形態に従う制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。

本明細書において、「処理実行主体」とは、本発明のいずれかの実施形態に従う制御装置、制御方法、制御プログラムなどによって生成された指示に従って、指示された処理を実行する主体を指す。すなわち、「処理実行主体」は、指示体に生じる形態およびその形態の移動の軌跡に関する情報に基づいて決定される、実行すべき処理、および、当該実行すべき処理の処理実行量に従って、現実に処理を具体化する装置やシステムなどを含む。後述するような、ジェスチャ認識装置において指示を生成する場合には、「処理実行主体」は、典型的には、指示体であるユーザによって指示されたジェスチャに対応する処理を実行する主体を指す。

本明細書において、「指示体」とは、処理実行主体に対して、明示的または暗示的に指示を生じるものを意味し、人間を含む生物だけでなく、任意の物体（無生物）を含む。典型的には、「指示体」は、動物（特に人）の手、指、腕、全身などを含む。あるいは、「指示体」は、外観や位置が時間的に変化するような装置などを含む。なお、「明示的に指示を生じる」とは、何らかの対象に対して指示を与えることを予め意図して、ユーザなどが何らかの動作を起こすような場合を意味する。一方、「暗示的に指示を生じる」とは、指示を行う意図の有無にかかわらず、「指示体」に生じる何らかの挙動に応答して、対応する処理の実行が必要であるとみなされる場合などを意味する。

「指示体の形態」とは、指示体に生じる立体的または平面的な外観や形状を指す。「指示体の形態」の情報は、これに限られることはないが、撮像部によって指示体を撮像することで得られる動画または一連の静止画列に含まれる。すなわち、「指示体の形態」の情報は、動画や一連の静止画列の形式をはじめとする、各種の形式の情報として出力され得る。

「（指示体の）移動の軌跡」とは、ある時空間範囲内における位置の移動を指す。そして、「移動の軌跡に関する情報」とは、典型的には、指示体がその存在位置を変化させるような場合に、ある時間内における指示体の変位量（スカラー量およびベクトル量のいずれも含む）、指示体の移動速度（瞬間速度、最高速度、平均速度、最低速度のいずれも含む）、指示体の移動加速度（瞬間加速度、最高加速度、平均加速度、最低加速度のいずれも含む）、指示体の移動加加速度（瞬間加加速度、最高加加速度、平均加加速度、最低加加速度のいずれも含む）、指示体の変位方向といった、指示体の移動に応じた特性値を含む。

「処理実行量」とは、処理実行主体が実行すべき処理についてどのくらいの量を実行すればよいのかを指す情報である。例えば、実行すべき処理が１回の実行によって完結するような場合には、「処理実行量」は、その実行すべき処理の繰り返し実行回数や連続実行回数などを含む。あるいは、実行すべき処理自体に度合いがあるような場合には、「処理実行量」は、その度合い（例えば、実行される時間や実行時の強度など）を指す。さらに、実行すべき処理において何らかのパラメータが変更されるような場合には、そのパラメータの変更度合いをも指す。

上記構成によれば、まず、取得手段が指示体をセンシングすることで得られたセンシングデータを取得する。続いて、認識手段がセンシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得し、指示生成手段が認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する。

このような構成を採用することで、形態と当該形態の移動の軌跡との組み合わせに応じた、特定の処理および当該特定の処理の処理実行量を含む指示を処理実行主体へ与えることができる。これによって、アナログ的な操作に適合させたり、より高い自由度で指示を発したりすることができる。

好ましくは、指示生成手段は、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定する。

好ましくは、指示生成手段は、センシングデータとして撮像された指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、撮像された指示体の形態の変化に基づいて処理実行量を決定する実行量決定手段とを含む。

上記構成によれば、ジェスチャ認識手段が、センシングデータとして撮像された指示体の移動の軌跡に関する情報に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定する。続いて、実行量決定手段は、撮像された指示体の形態の変化に基づいて処理実行量を決定する。

つまり、制御装置は、指示体を撮像した動画を処理することによって、処理実行主体に実行させる処理の内容を特定することに加えて、その処理を実行すべき量を決定することが可能となる。

これにより、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、指示体の形態を変化させるだけで、簡単に、上記ジェスチャで指示した処理をどのくらい行えばよいのかを制御装置に対して指定することができる。つまり、ユーザは、上記ジェスチャを何度も繰り返し入力することに代わり、指示体の形態を変化させるという単純な動作を入力することによって、同じ処理を繰り返して行うことを処理実行主体に対して指示することができる。

上述の先行技術文献に開示されたジェスチャ認識装置は、多数表示された選択肢オブジェクト（特許文献２の例では画像オブジェクト）の中から目的のオブジェクトを選択するため指示を入力する入力デバイスとして不向きである。より具体的には、ユーザは、一般的なキーボード（例えば、十字キー）などにおいても、目的のオブジェクトにたどり着くまで、カーソルを移動させるための操作（十字キー押下など）を繰り返し行う。これと同様に、ジェスチャ認識装置においては、ユーザは、カーソルが目的のオブジェクトにたどり着くまで、カーソルを移動させるためのジェスチャを繰り返し行わなければならない。

従来、選択肢オブジェクトの一覧表示レイアウトによって、目的のオブジェクトに到達するまでの選択操作回数を減らす工夫が行われている。しかし、繰り返し操作を行うことを完全に回避することは不可能であり、依然、ジェスチャを入力する（指示体を動かす）という行為を繰り返し行うことは、ユーザにとって煩わしい操作である。

そのため、単純なジェスチャ入力に基づいて、繰り返し操作を認識することにより、ユーザの操作性を向上させる構成が要望されている。

例えば、従来、カーソルを左に１０回移動させるという処理を処理実行主体にさせたい場合に、当該処理に対応するジェスチャ（例えば、指示体を左に動かす動作）を１０回行わなければならなかった。これに対し、本実施形態に従う制御装置によれば、ユーザは、指示体を「左に動かす」動作１回と、指示体の形態に変化を付ける動作１回とを行うだけで済む（ここでは、例えば、「１０回」という処理実行量に対応する変化を付けることになる）。

結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。つまり、単純なジェスチャ入力に基づいて、繰り返し操作を認識することが可能となり、結果として、ユーザの操作性が向上するという効果を奏する。

さらに、上記制御装置は、指示体を撮像して得られた動画の各フレームから、該指示体の形態の変化量を特定する監視手段をさらに含み、上記実行量決定手段は、指示体の形態の変化量に比例して、上記処理実行量を決定することが好ましい。

上記構成によれば、監視手段は、形態を変化させている指示体を監視し、その変化量を特定する。決定手段は、変化量が大きければ大きいほど、処理実行量が多くなるように決定することが可能となる。

したがって、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量（処理実行量）を、処理実行主体に対して簡単に指定することが可能になる。例えば、指示体の変化量を元の１０倍にすれば、１回の処理を、１０回繰り返し処理させるように、制御装置を介して、処理実行主体に対して指示することが可能である。

結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。
より詳細には、上記監視手段は、予め定められた上記指示体の基準の形態（例えば、図９および図１３の基準線４９）と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。

上記構成によれば、監視手段は、撮像された最新の指示体の形態がどのように変化したのかを示す変化量を、予め決まっている絶対的な基準の指示体の形態と比較することによって、求めることができる。よって、変化量を特定する処理を単純化することが可能である。

あるいは、上記監視手段は、上記認識手段によってジェスチャが認識された時点の上記指示体の形態（例えば、図１４および図１５の開始形態ｓ）と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。

上記構成によれば、監視手段は、ユーザがジェスチャ入力のために指示体を移動させる動作を終えた後、引き続きユーザが処理実行量を指定するために指示体の形態を変化させる動作を監視する。監視手段は、指示体の移動が終了したとき指示体の形態を最初の形態（開始形態）とみなし、それ以降に指示体がどのように変化したのかを変化量として特定する。

つまり、ユーザが、指示体を移動させる動作を終えた後から、処理実行量を指定するために指示体を動かした量が、監視手段によって直接的に変化量として特定され、決定手段によって直接的に処理実行量に変換される。

したがって、処理実行量を指定するための動作と、その結果、処理実行主体が処理を繰り返す量とがユーザの感覚により一層一致し、ユーザにとってより直感的なユーザインターフェースを実現できる。

さらに、上記実行量決定手段は、上記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態（例えば、図１３および図１５の最終形態ｅ）における最大変化量（例えば、図１３および図１５のθａｌｌ）に対して、上記監視手段によって特定された最新の形態における変化量（例えば、図１３および図１５のθｔ）が占める割合に基づいて、上記処理実行量を決定してもよい。

上記構成では、処理実行主体の処理実行量の最大値が予め決められており、ユーザは、指示体の形態をどこまで変化させれば、最も多く処理実行主体に処理を実行させるのかを把握している。つまり、実行量決定手段は、基準の最終形態を把握している。

実行量決定手段は、ユーザが変化させた指示体の形態の変化量が、基準の最終形態の最大変化量に対して何％到達しているのかに応じて、実際に、処理実行主体に実行させる処理実行量を決定する。

このように、処理実行量の最大値に対する最大変化量が予め定められている構成では、ユーザは、指示体の形態をどの程度変化させれば、処理をどのくらいの量実行させることができるのかを予測することが可能となる。

なお、上記監視手段は、上記指示体の傾きが変化する角度を上記変化量として特定してもよい。なお、上記監視手段は、上記指示体としての指の傾きの変化量を特定してもよい。

上記構成によれば、ユーザは、指の傾きを変えるという簡単な動作によって、処理実行量を電子機器（処理実行主体）に対して指定することができる。

さらに、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、上記指示体における直前の形態の変化量を下回る場合に、上記処理実行主体による処理の実行の停止を決定してもよい。

指示体の最新の形態の変化量が、上記指示体における直前の形態の変化量を下回るということは、ユーザは、これまで進めてきた指示体の形態の変化を戻して、元の指示体の形態（基準の形態または開始形態）に近づけたということを意味する。

ユーザにとって、進めてきた動作を元に戻そうする動作からは、これまで実行されてきた処理を停止させるという結果に結びつきやすい。

このように、処理実行の停止を指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。

あるいは、上記監視手段は、上記指示体の移動方向と反対の進行方向に向かって変化する、上記指示体の形態の変化量を負の数によって特定し、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、負の数である場合に、上記認識手段によって特定された上記処理の元の進行方向とは反対の進行方向における処理実行量を決定してもよい。

指示体における最新の形態の変化量が、負の数であるということは、ユーザがジェスチャ入力のために指示体を移動させた方向とは反対の方向に向かって、指示体の形態を変化させたということを意味する。

ユーザにとって、これまでと反対の方向に指示体を進めるという動作からは、これまでの進行方向とは反対の方向に処理を進行させるという結果に結びつきやすい。

このように、処理の進行方向を反対側に切り替えることを指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。

さらに、上記実行量決定手段は、上記処理実行量として、特定された上記処理実行主体が実行すべき処理の実行回数を決定してもよい。

あるいは、上記実行量決定手段は、上記特定された上記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、上記処理実行量として決定してもよい。

上述のとおり本実施形態に従う制御認識装置において、上記実行量決定手段は、撮像された上記指示体としての指の傾きが変化するときの角度の変化量に比例して上記処理実行量を決定し、上記処理実行量は、上記特定された処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含むようにしてもよい。

なお、上記実行量決定手段は、移動を開始した上記指示体の形態の変化に基づいて、上記処理実行量を決定することが好ましい。

これにより、ユーザは、ジェスチャ入力の移動に用いた指示体を、引き続き、そのまま処理実行量を指定するための動作に用いることができる。

あるいは、上記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第２の指示体の形態の変化に基づいて、上記処理実行量を決定してもよい。

複数の指示体を用いることにより、処理実行量を指定するための動作の表現力が増し、より詳細に、あるいは、より多段階的に、処理実行量を指定することが可能になる。

なお、上記指示生成手段は、上記指示体としての操作者の２つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の２つの手の形の組み合わせに基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。

あるいは、上記指示生成手段は、上記指示体としての操作者の２つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の２つの手の一方の代表点の軌跡に基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。

これにより、生成する実行すべき処理およびその処理実行量をより高い自由度で生成することができる。つまり、処理実行主体が受け付ける指示内容の種類が多岐にわたる場合であっても、各指示内容を的確に認識することができる。

なお、上述の制御装置と、上記指示体を撮像した撮像画像を上記制御装置に供給する撮像部と、上記制御装置によって特定された処理を、上記制御装置によって決定された処理実行量に従って実行する処理実行主体とを含んでいる電子機器も本発明の技術的範囲に包含される。

上記電子機器において、上記制御装置によって決定される処理実行量は、上記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、上記処理実行主体は、上記制御装置によって決定された選択肢の個数に従って、当該個数ごとの各選択肢にフォーカスを遷移させてもよい。

本発明の別の一実施形態に従う制御方法は、処理実行主体に対する指示を生成する。制御方法は、指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、センシングデータを処理することで、指示体の形態および形態の移動の軌跡に関する情報を取得する認識ステップと、認識ステップにおいて取得された形態および形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および実行すべき処理の処理実行量を決定する決定ステップとを含む。

なお、上記制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記制御装置をコンピュータにて実現させるための制御プログラム、および、それを格納したコンピュータ読取可能な記録媒体も、本発明の技術的範囲に包含される。

デジタルテレビ（電子機器）に搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。ジェスチャ認識装置に供給される動画の１フレームの一具体例を示す図であり、開始認識部の動作を説明する図である。指示体検出部に供給される指示体包含領域の一具体例を示す図であり、指示体検出部の動作を説明する図である。ジェスチャ認識部が追尾するフレーム上の指示体基準点の一具体例を示す図である。ジェスチャ認識部が追尾するフレーム上の指示体基準点の一具体例を示す図である。ジェスチャ規則記憶部に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。ジェスチャ認識部がジェスチャを認識した直後、形態監視部に供給されたフレームの一具体例を示す図である。形態監視部が、監視対象の指の傾きを特定するための、指の主軸を特定する方法の一具体例を示す図である。形態監視部が、指の傾きを特定する方法の一具体例を示す図である。認識されたジェスチャに従って、処理実行主体が処理を実行した結果、得られる表示画面の一具体例を示す図である。認識されたジェスチャに従って、処理実行主体が処理を実行した結果、得られる表示画面の一具体例を示す図である。ジェスチャ認識装置が実行するジェスチャ認識処理および処理実行主体が実行するオブジェクト処理の流れを示すフローチャートである。本発明の他の実施形態に従う処理実行量決定方法を説明する図である。本発明の他の実施形態に従う処理実行量決定方法を説明する図である。本発明の他の実施形態に従う処理実行量決定方法を説明する図である。ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮して、処理実行の停止を決定する方法を説明する図である。ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮して、実行すべき処理の進行方向を決定する方法を説明する図である。形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。本発明の実施形態２に従うジェスチャ認識装置を実装したデジタルテレビの応用例を示す模式図である。本発明の実施形態２に従うジェスチャ認識装置で認識可能なジェスチャの一例を示す図である。ジェスチャ規則記憶部に記憶されているジェスチャ規則のデータ構造の一例を示す図である。本発明の実施形態２に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。本発明の実施形態２に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。本発明の実施形態２に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。本発明の実施形態２に従うジェスチャ認識装置の使用形態の一例を示す図である。本発明の実施形態３に従う安全システムの概略構成を示す図である。本発明の実施形態４に従う安全システムにおける指示体の一例を示す図である。本発明の実施形態４に従う安全システムにおける指示体の一例を示す図である。本発明の実施形態４に従う安全システムの制御装置の機能構成を示すブロック図である。本発明の実施形態に従うジェスチャ認識装置を実現するためのコンピュータの要部構成を示すブロック図である。

本発明の実施形態について、図面を参照しながら詳細に説明する。なお、以下の図面において同一または相当する部分には、同一の参照符号を付すものとし、それらの説明は重複して行わない。また、図面における長さ、大きさおよび幅などの寸法関係ならびに形状は、図面の明瞭化と簡略化のために適宜に変更されており、実際の寸法および形状を表してはいない。

本発明の実施形態について、図面に基づいて説明すると以下のとおりである。
《１．実施形態１》
以下で説明する実施形態１では、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置の実装例について説明する。ジェスチャ認識装置は、処理実行主体に対する指示を生成する。より具体的な実装例として、ジェスチャ認識装置を処理実行主体としての表示装置に適用した場合について説明する。処理実行主体は、本発明の一実施形態に従うジェスチャ認識装置によって認識されたジェスチャに対応する処理を実行する主体を含む。表示装置は、例えば、これに限定されないが、デジタルテレビ、タブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどである。なお、本発明の一実施形態に従うジェスチャ認識装置は、これらの表示装置と接続する、処理実行主体としての、録画再生装置（ＢＤ（Ｂｌｕ−ｒａｙＤｉｓｃ）レコーダ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）レコーダ）などに適用されてもよい。

以下の説明では、一例として、本発明の一実施形態に従うジェスチャ認識装置をデジタルテレビに適用した場合について説明する。

〔１−１：ジェスチャ認識装置の構成〕
図１は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。

まず、デジタルテレビのハードウェア構成について説明すると、図１に示すとおり、デジタルテレビ１００は、少なくとも、制御部１０、記憶部１１、撮像部１２および表示部１３を備える構成となっている。その他にも、デジタルテレビ１００は、デジタルテレビの一般的な機能を備えているが、このうち本発明に直接関係のない部分については記載を省略した。

撮像部１２は、デジタルテレビ１００の周辺（特に、前方）を撮像し、指示体の動きをとらえるための動画を得るものである。撮像部１２は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）カメラまたはＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ−Ｏｘｉｄｅ−Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）カメラなどで実現されるが、その他の撮像装置を撮像部１２として用いてもよい。撮像部１２が撮像して得られた動画は、デジタルテレビ１００に搭載されたジェスチャ認識装置１に供給される。例えば、ユーザは、撮像部１２の前で、指示体（手指、顏、全身、あるいは、道具など）を動かす。これにより、ユーザは、ジェスチャ認識装置１に対してジェスチャを入力することができる。

言い換えれば、ジェスチャ認識装置１は、明示的または暗示的に指示を生じる被写体である指示体をセンシングすることで得られたセンシングデータ（動画や一連の静止画列）を取得する手段を有する。このセンシングデータを取得する手段としては、ジェスチャ認識装置１に接続される撮像部１２の他に、ジェスチャ認識装置１に内蔵される撮像部であってもよい。さらに、別体の撮像部によって撮像された動画のデータなどを任意の通信手段または記録媒体を介してジェスチャ認識装置１に取り込むようにしてもよい。このように、センシングデータを取得する手段としては、公知の任意の手段を採用できる。

表示部１３は、デジタルテレビ１００（ジェスチャ認識装置１、または、デジタルテレビ１００において、デジタルテレビの一般的な機能を実現する表示装置２）が処理した情報を表示するものである。例えば、表示部１３は、ユーザがデジタルテレビ１００を操作するための操作画面をＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）画面として表示する。表示部１３は、デジタルテレビ１００が処理可能な、画像（動画または静止画）またはアイコンを一覧表示する。表示部１３は、画像またはアイコンの他にも、ユーザが選択可能な、種々の選択肢オブジェクト（以下、「オブジェクト」とも称する。）を一覧表示することができる。表示部１３は、例えば、ＬＣＤ（液晶ディスプレイ）などの表示装置で構成される。

記憶部１１は、（１）デジタルテレビ１００の制御部１０が実行する制御プログラム、（２）制御部１０が実行するＯＳプログラム、（３）制御部１０が、ジェスチャ認識装置１または表示装置２が有する各種機能を実行するためのアプリケーションプログラム、および、（４）該アプリケーションプログラムを実行するときに読み出す各種データを、非一時的に記憶するものである。あるいは、（５）制御部１０が各種機能を実行する過程で演算に使用するデータおよび演算結果等を一時的に記憶するものである。例えば、上記の（１）〜（４）のデータは、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）などの不揮発性記憶装置に記憶される。例えば、上記の（５）のデータは、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性記憶装置に記憶される。どのデータをどの記憶装置に記憶するのかについては、デジタルテレビ１００の使用目的、利便性、コスト、物理的な制約などから適宜決定される。例えば、撮像部１２によって撮像されて得られた動画データは、ジェスチャ認識装置１が処理できるように、揮発性記憶装置にて実現された記憶部１１に一時的に保存される。一方、ジェスチャ認識装置１がジェスチャを認識するために必要な規則などは、不揮発性記憶装置にて実現された記憶部１１に非一時的に保存される。また、例えば、表示装置２（デジタルテレビ１００）が表示部１３に表示するオブジェクトのデータは、不揮発性記憶装置にて実現された記憶部１１に非一時的に保存される。

制御部１０は、デジタルテレビ１００が備える各部を統括制御するものである。ジェスチャ認識装置１を実現するための機能ブロックとして、制御部１０は、少なくとも、ジェスチャ認識部２２、形態監視部２３および実行量決定部２４を備えている。さらに、制御部１０は、ジェスチャ認識装置１を実現するための機能ブロックとして、開始認識部２０および指示体検出部２１を備えていてもよい。

なお、制御部１０は、表示装置２（デジタルテレビ）を実現するための機能ブロックとして、オブジェクト処理部２５を備えていてもよい。

上述した制御部１０の各機能ブロックは、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などが、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＮＶＲＡＭ（Ｎｏｎ−ＶｏｌａｔｉｌｅＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等で実現された不揮発性記憶装置に記憶されているプログラムをＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性記憶装置に読み出して実行することで実現できる。

あるいは、制御部１０の機能ブロックの一部または全部を専用のハードウェア回路（例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）など）で実現してもよい。

デジタルテレビ１００の制御部１０が実現する機能のうち、開始認識部２０、指示体検出部２１、および形態監視部２３は、互いに連携してまたは単独で、センシングデータである動画像を処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段として機能する。また、ジェスチャ認識部２２および実行量決定部２４は、認識手段（開始認識部２０、指示体検出部２１、または形態監視部２３）によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段として機能する。これらのデジタルテレビ１００の制御部１０が実現する各種機能について、以下に詳述する。

〔１−２：開始認識部２０の動作〕
開始認識部２０は、ジェスチャ入力の開始を認識するものである。

デジタルテレビ１００に電源が入っている間、撮像部１２は、常に、動画の撮像を継続している。つまり、ユーザがジェスチャを入力している（意図的に指示体を動かしている）場合も、ユーザがジェスチャを入力していない（意図的に指示体を動かしていない）場合も、常に、撮像部１２から動画が供給される。したがって、前者の場合を、後者と区別して、前者の場合のみ、動画を処理してジェスチャ認識処理を実行することが好ましい。これにより、処理負荷の高いジェスチャ認識処理が、不要な動画のフレームに対して無駄に実行されることを回避できるからである。

開始認識部２０は、ジェスチャ認識部２２によって認識される、デジタルテレビ１００に対してジェスチャが入力されるときの動きとは種類が異なる特殊な動きを認識する。そして、開始認識部２０は、この特殊な動きを、ジェスチャ認識装置１に対して入力された、ジェスチャ入力の開始を告げる合図として認識する。

図２は、ジェスチャ認識装置１に供給される動画の１フレームの一具体例を示す図であり、開始認識部２０の動作を説明する図である。

本実施形態では、一例として、開始認識部２０は、ユーザが指または手を細かく振る動きを、ジェスチャ入力開始の合図として認識する。

より具体的には、開始認識部２０は、撮像部１２から逐次供給されてくる動画の各フレームを順次処理して、フレーム間差分を順次求めていく。開始認識部２０は、求めたフレーム間の差分値を記憶部１１に一時的に格納して累積していく。この差分値の累積値が所定値を超えたとき、開始認識部２０は、ジェスチャ入力開始の合図が入力されたと認識する。

例えば、図２に示すとおり、ユーザが撮像部１２の前で、一定期間、指を左右に細かく振ったとする。開始認識部２０は、フレーム間を比較して、領域４０に変化が激しい部分を認める。これにより、開始認識部２０は、ジェスチャ入力開始の合図が入力されたと認識することができる。

本実施形態では、さらに、開始認識部２０は、この一定以上の差分値の累積が認められた領域４０を、指示体が含まれている指示体包含領域４０として特定することが好ましい。

これにより、下流の工程における各機能部（特に、指示体検出部２１）の処理効率を向上させることが可能である。下流の工程における各機能部は、指示体の動きを認識するために、まず、指示体を特定する処理を行う。指示体を特定するために走査する領域が、フレーム全体から指示体包含領域４０に絞られれば、指示体検出部２１の処理効率が格段に向上することは明らかである。

〔１−３：指示体検出部２１の動作〕
指示体検出部２１は、ジェスチャ入力を行う指示体を検出するものである。

ジェスチャ認識装置１は、指示体がどのような動きを行うかによって入力されたジェスチャを認識する装置であるので、動きを追尾すべき対象がフレーム上のどこにあるのかを特定する必要がある。指示体検出部２１は、追尾対象の指示体領域を検出する。

図３の（ａ）および（ｂ）は、指示体検出部２１に供給される指示体包含領域４０の一具体例を示す図であり、指示体検出部２１の動作を説明する図である。

本実施形態では、指示体は、ユーザの手指であり、ユーザは、手指を撮像部１２の前で動かしてジェスチャを入力する。よって、本実施形態では、指示体検出部２１は、図３の（ａ）または（ｂ）に示すとおり、指示体包含領域４０に含まれるユーザの手指の領域を、指示体領域４１として検出する。

指示体検出部２１が、指示体領域４１を検出する方法としては、これには限定されないが、以下の方法が挙げられる。例えば、指示体検出部２１は、ｓｎａｋｅ法などの輪郭抽出手法によって指示体領域４１を検出してもよい（図３の（ａ）の破線枠領域）。あるいは、指示体検出部２１は、ＨＳＶ色空間における肌色モデルを用いて、肌色の領域を指示体領域４１として検出してもよい（図３の（ｂ）の網点領域）。

これにより、下流の工程における各機能部（特に、ジェスチャ認識部２２）は、ジェスチャ認識のために追尾すべき指示体を指示体領域４１に明確に絞り込むことができる。

さらに、本実施形態では、指示体検出部２１は、指示体領域４１に含まれる１点を、指示体基準点４２として検出することが好ましい。本実施形態では、一例として、指示体検出部２１は、指の先端を指示体基準点４２として検出する。

これにより、ジェスチャ認識部２２は、ジェスチャ認識のために追尾すべき指示体を、指示体領域４１ではなく、指示体基準点４２として明確に絞り込むことができる。指示体を追尾する対象が、指示体領域４１から指示体基準点４２に絞られれば、ジェスチャ認識部２２の処理効率が格段に向上することは明らかである。

ジェスチャ認識部２２は、指示体の動きからジェスチャを認識し、ジェスチャに対応する指示内容を特定するものである。本実施形態では、各ジェスチャには、それぞれ、デジタルテレビ１００が実行すべき処理が対応付けられている。よって、ジェスチャ認識部２２は、認識したジェスチャに対応する、デジタルテレビ１００が実行する処理の内容を特定する。

〔１−４：ジェスチャ認識部２２の動作〕
図４〜図６は、ジェスチャ認識部２２の動作を説明する図である。図４および図５は、ジェスチャ認識部２２が追尾するフレーム上の指示体基準点４２の一具体例を示す図である。図６は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。

本実施形態では、一例として、ジェスチャ認識部２２は、指示体の上下左右の移動をジェスチャとして認識する。すなわち、ジェスチャ認識部２２は、図４に示すとおり、指示体が、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」の４種類のジェスチャを認識する。ジェスチャ認識部２２は、「円を描く」など、上記４種類に限定されず、別のジェスチャを認識してもよい。

具体的には、ジェスチャ認識部２２は、指示体検出部２１によって検出された指示体基準点４２を追尾し、動画の各フレームを順次処理する。そして、ジェスチャ認識部２２は、指示体基準点４２の移動方向と、移動距離とを順次求める。移動距離は、指示体基準点４２の位置についてフレーム間差分を求めることで得られる。ジェスチャ認識部２２は、求めた指示体基準点４２の移動距離を記憶部１１に一時的に格納して累積していく。この移動距離の累積値が所定値を超えたとき、ジェスチャ認識部２２は、上記求めた移動方向への指示体の移動が行われたことを認識する。

例えば、図５に示す例では、ジェスチャ認識部２２は、指示体基準点４２が、元の位置（白丸）から、現在の位置（黒丸）に移動したことにより、指示体基準点４２の「移動」と、その移動方向４３とを認識する。

図４における右向きの矢印、すなわち、移動方向４３は、このフレーム上では（撮像部１２から見て）、指示体基準点４２が右に移動していることを表している。一方、移動方向４３は、指示体を動かしている当人のユーザによって、指示体を左に動かしていると認識される方向である。よって、ジェスチャ認識部２２は、指示体（指示体基準点４２）の移動方向を、移動方向４３特定した場合には、「左に移動」のジェスチャが入力されたと認識する。反対方向、すなわち、移動方向４４を、指示体基準点４２の移動方向であると求めた場合には、ジェスチャ認識部２２は、「右に移動」のジェスチャが入力されたと認識する。

なお、ジェスチャの種別は、ここでは、図示しないが、識別情報によって識別されてもよい。例えば、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」のジェスチャには、それぞれ、「００」、「０１」、「１０」、および、「１１」などの識別情報が割り当てられていてもよい。この場合、移動方向４３（図４および図５）が特定されたら、ジェスチャ認識部２２は、「００」のジェスチャが入力されたと認識する。

次に、ジェスチャ認識部２２は、認識したジェスチャに対応する指示内容、すなわち、デジタルテレビ１００が実行すべき処理の内容を特定する。本実施形態では、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則（図６）に従って、入力されたジェスチャに対応する処理を特定する。

図６に示すとおり、ジェスチャ規則記憶部３０は、ジェスチャ認識部２２が認識したジェスチャの種類ごとに、デジタルテレビ１００によって実行される処理が対応付けられている。なお、図６では、ジェスチャ規則をテーブル形式にて示しているが、これは、ジェスチャ規則記憶部３０に記憶されるジェスチャ規則のデータ構造をテーブルに限定することを意図していない。

図６に示す例では、移動方向４３に基づく「左に移動」のジェスチャには、処理「フォーカスをオブジェクト１つ分『左』に遷移させる」が対応付けられている。したがって、指示体が、移動方向４３に沿って移動した場合には、ジェスチャ認識部２２は、「左に移動」のジェスチャを認識し、デジタルテレビ１００が実行すべき処理は、「フォーカスをオブジェクト１つ分『左』に遷移させる」ことであると特定する。

形態監視部２３は、指示体の形態の変化を監視、その変化量を特定するものである。形態監視部２３は、ジェスチャ認識部２２によるジェスチャ認識の処理が開始された後に、指示体の形態の監視を開始してもよいし、ジェスチャ認識部２２がジェスチャを認識した後に、指示体の形態の監視を開始してもよい。また、形態監視部２３は、ユーザが、ジェスチャを入力するために動かしていた上記指示体（手指）の形態変化を監視してもよいし、上記指示体と同フレームに写っている別の指示体（第２の指示体）の形態変化を監視してもよい。

本実施形態では、先にジェスチャ認識部２２がジェスチャを認識し、その後に、今度は、形態監視部２３が、当該ジェスチャを入力するために動かされていた（移動していた）同指示体の形態変化を監視するものとする。つまり、ユーザは、ジェスチャ入力のために、指示体を上下左右のいずれかの方向へ移動させたのち、今後は、同指示体の形態を変化させる。本発明において、指示体の形態を変化させる動作は、先に入力したジェスチャに対応する処理をどのくらいの量繰り返すのかを指示するための処理実行量指定動作である。本発明において、ユーザは、同じジェスチャを繰り返し入力することに代わって、上記処理実行量指定動作を１つ行うだけで、繰り返し処理をデジタルテレビ１００に対して指示することができる。

〔１−５：形態監視部２３の動作〕
図７〜図９は、形態監視部２３の動作を説明する図である。図７は、ジェスチャ認識部２２がジェスチャを認識した直後、ジェスチャ認識装置１に入力されたフレームの一具体例を示す図である。図８は、形態監視部２３が、指示体の形態としての指の傾きを求めるための、指の主軸を特定する方法の一具体例を示す図である。図９は、形態監視部２３が、指の傾きを求める方法の一具体例を示す図である。

本実施形態では、形態監視部２３は、一例として、ジェスチャ入力のための移動を終えた指示体、すなわち、ユーザの指の傾きの変化を、形態の変化として監視する。

まず、形態監視部２３は、図７に示すとおり、ジェスチャ認識部２２がジェスチャを認識した直後のフレームから、開始対象となる指示体を特定する。ここでは、形態監視部２３は、開始認識部２０によって特定された指示体包含領域４０と、指示体検出部２１によって特定された指示体領域４１とを取得する。指示体領域４１は、ここでは、先ほどまでジェスチャ入力を行っていたユーザの手指である。

次に、本実施形態では、形態監視部２３は、ユーザの指の傾きを求めるために、監視対象の指の基準となる主軸を特定する。形態監視部２３が、指の主軸を求める方法はこれに限定されないが、例えば、以下の方法が考えられる。

図８に示すとおり、形態監視部２３は、指示体包含領域４０における指示体領域４１のうち、突起物の形状（指の形状）を有する突起部分４１’を特定し、この突起部分の外接矩形を注目領域４５として切り出す。そして、形態監視部２３は、注目領域４５における突起部分４１’の重心４６を求める。形態監視部２３は、重心４６を通る直線４７を定義する。重心４６を通る直線４７は無数にあるので、本実施形態では、一例として、形態監視部２３は、重心４６を通る直線４７を、重心４６を垂直に通る直線４７を基準にして５度間隔で定義してもよい。続いて、形態監視部２３は、定義した各直線４７のうち、注目領域４５において、突起部分４１’と重なる線分の長さが最も長くなる直線４７を、指の主軸として特定する。図８に示す例では、形態監視部２３は、突起部分４１’と重なる線分の長さが最も長くなる直線として、太い直線４７を、主軸４８と特定する。

最後に、形態監視部２３は、以上のとおり求めた指の主軸４８と、基準となる角度を持った直線とがなす角度を求めることにより、監視対象である指示体（ユーザの指）の傾きを得ることができる。そして、上記角度の変化を監視することにより、形態の変化、すなわち、指の傾きの変化を監視することができる。

本実施形態では、一例として、形態監視部２３は、図９に示すとおり、フレームに対して垂直な線を、基準線４９と定義する。ここでは、形態監視部２３は、基準線４９の傾きθｓを０度とみなす。そして、形態監視部２３は、ある時点ｔのフレームにおいて上記のようにして求めた指の主軸４８と、基準線４９とがなす角度θｔを求める。形態監視部２３は、求めた角度θｔを、上記時点ｔの指の傾きとして得る。

ユーザは、デジタルテレビ１００に実行させたい処理実行量に応じて、徐々に指を傾けることができる。指を傾ける動作を写した動画の各フレームは逐次撮像部１２からジェスチャ認識装置１に供給される。

形態監視部２３は、フレーム（ｔ、ｔ＋１、ｔ＋２、・・・）ごとに順次指の主軸４８を求めて、指の傾きの変化を監視する。形態監視部２３は、求めた指の傾きθｔを実行量決定部２４に逐次通知する。

なお、形態監視部２３は、上記の例に限定されず、例えば、指示体領域４１に対して、楕円フィッティング法を用いることにより、指の傾きを求めてもよい。

〔１−６：実行量決定部２４の動作〕
実行量決定部２４は、形態監視部２３によって求められた指示体の形態に応じて、デジタルテレビ１００に実行させる処理の量（以下、「処理実行量」とも称する。）を決定するものである。実行量決定部２４は、処理実行量を、どのような単位で表現してもよい。例えば、実行量決定部２４は、処理の実行回数を処理実行量として決定してもよいし、処理対象となるオブジェクトの個数を処理実行量として決定してもよい。

本実施形態では、図６に示すとおり、デジタルテレビ１００に実行させる処理は、フォーカス（カーソル）をオブジェクト（選択肢）１つ分、いずれかの方向に遷移させる、という処理である。そこで、実行量決定部２４は、本実施形態では、形態監視部２３によって求められた指の傾きに応じて、「フォーカスをオブジェクト１個分所定方向に遷移させる」処理を連続して実行する回数（処理実行回数）を、処理実行量として決定する。なお、実行量決定部２４は、形態監視部２３によって求められた指の傾きに応じて、「フォーカスをオブジェクト所定個数分所定方向に遷移させる」処理を実行するときの、上記「オブジェクト所定個数」を処理実行量として決定してもよい。

実行量決定部２４によって、上記処理実行回数が決定された場合には、デジタルテレビ１００は、「フォーカスをオブジェクト１個分所定方向に遷移させる」処理を、決定された処理実行回数分だけ連続して実行する。

また、実行量決定部２４によって、上記「オブジェクト所定個数」が決定された場合には、デジタルテレビ１００は、決定されたオブジェクト個数分、上記所定方向にフォーカスを遷移させる。

なお、実行量決定部２４が処理実行量を決定するためには、形態の変化量、すなわち、指の傾き（形態変化量）と、それに応じた処理実行量との相関関係が予め規定されている必要がある。

形態相関記憶部３１には、指示体の形態の変化量と、処理実行量との相関関係が記憶されている。形態相関記憶部３１が記憶する相関関係の情報は、対応テーブルの形で実現されてもよいし、計算式の形で実現されてもよい。いずれにしても、実行量決定部２４は、形態相関記憶部３１に記憶されている相関関係の情報を参照することにより、得られた形態の変化量に基づいて、処理実行量を決定することができる。

実行量決定部２４が処理実行量を決定する方法は、これには限定されないが、例えば、以下の方法が考えられる。

ジェスチャ入力が終わり、引き続きユーザは、指示体である指を傾ける動作を行っているとする。このときのある時点ｔにおいて、当該時点ｔのフレームが撮像部１２より得られる。

形態監視部２３は、上記時点ｔの上記指の傾きθｔを求める。
実行量決定部２４は、下記の所定の計算式に従って、指の傾きθｔから、時点ｔにおける処理実行量Ｍｔを決定する。

Ｍｔ＝α×θｔ
ここで、αは、予め定められた係数である。上記計算式および係数αは、形態相関記憶部３１に記憶されており、実行量決定部２４によって読み出される。このように、上記計算式に従えば、実行量決定部２４は、ユーザが指を傾けるほど、処理実行量を多く決定することができる。

例えば、係数αが、‘０．５（回）’と定められていて、形態監視部２３によって求められた時点ｔの指の傾きθｔが、６０度であるとする。この場合、実行量決定部２４は、時点ｔにおける、処理実行量Ｍｔを、０．５×６０＝３０回と決定する。なお、もし、ユーザが８０度指を傾けた場合には、実行量決定部２４は、処理実行量を４０回と決定することになる。

ここで、形態監視部２３および実行量決定部２４の上流の工程で、ジェスチャ認識部２２が、入力されたジェスチャに対応する処理が、「フォーカスをオブジェクト１つ分『左』に遷移させる」であると特定したとする。

この場合、「フォーカスをオブジェクト１つ分『左』に遷移させる」処理を３０回繰り返す、という指示が、ジェスチャ認識装置１から表示装置２（すなわち、デジタルテレビ１００）に対して入力されることになる。

〔１−７：表示装置２におけるオブジェクト処理機能〕
オブジェクト処理部２５は、オブジェクト記憶部３２に記憶されている各オブジェクトを処理するものである。本実施形態では、オブジェクト処理部２５は、選択肢である各オブジェクトを、表示部１３に表示する。さらに、オブジェクト処理部２５は、選択されている（フォーカスされている）オブジェクトを、他の非選択のオブジェクトと区別して表示する。

例えば、オブジェクト処理部２５は、オブジェクトに対してフォーカス制御を行う。具体的には、オブジェクト処理部２５は、特定のオブジェクトにフォーカスを当てて、そのオブジェクトを他の非選択のオブジェクトと区別する。さらに、そのことが可視化されるように、オブジェクト処理部２５は、カーソル表示位置を制御して、フォーカスされたオブジェクトにカーソルを当てる。オブジェクト処理部２５は、他のオブジェクトにフォーカスを遷した場合には、当該他のオブジェクトにカーソルを合わせる。例えば、オブジェクトがサムネイル画像である場合、オブジェクト処理部２５は、複数のサムネイル画像をオブジェクト記憶部３２から読み出して、タイル状に一覧表示する。そして、その中でフォーカスされたサムネイル画像にカーソルを当てて表示する。

あるいは、オブジェクトが電子書籍のページ（選択肢）である場合には、以下のようにフォーカス制御する。つまり、オブジェクト処理部２５は、フォーカスされたページだけを表示部１３に表示してもよい。そして、他のページが選択された場合には、フォーカスを、当該他のページに遷し、これまで表示されていたページを非表示にし、新たにフォーカスされた上記他のページを表示する。

オブジェクト処理部２５は、ジェスチャ認識装置１から供給される指示に従って動作することができる。より詳細には、ジェスチャ認識装置１のジェスチャ認識部２２によって認識されたジェスチャに対応する処理を、オブジェクト処理部２５はジェスチャ認識部２２からの指示に従って実行する。また、実行量決定部２４によって決定された処理実行量を満たすように、上記処理を繰り返す。

上述の例のとおり、「フォーカスをオブジェクト１つ分『左』に遷移させる」処理を３０回繰り返す、という指示が、ジェスチャ認識装置１から表示装置２（すなわち、デジタルテレビ１００）に対して入力されるとする。この場合、オブジェクト処理部２５は、一覧表示されているオブジェクトのうち、フォーカスを、現在のフォーカス中のオブジェクトから、３０個分左に配置されているオブジェクトに遷移させる。そして、オブジェクト処理部２５は、カーソルをオブジェクト３０個分左に移動させる。あるいは、オブジェクトが書籍ページの場合には、オブジェクト処理部２５は、３０ページ先のページにフォーカスを遷移させて、３０回ページを繰って、当該ページを表示させる（書籍が、右綴じ左開きの場合）。

図１０および図１１は、ジェスチャ認識装置１によって認識されたジェスチャに従ってオブジェクト処理部２５が処理を実行した結果、得られる表示画面の一具体例を示す図である。

図１０および図１１に示す例では、一例として、オブジェクト処理部２５は、オブジェクト記憶部３２に記憶された静止画のサムネイル画像を表示画面（１３ａ、１３ｂ）の上段に一覧表示する（サムネイル画像５１’〜５５’）。さらに、オブジェクト処理部２５は、一覧表示されたサムネイル画像のうち、フォーカスされているサムネイル画像に対応する静止画を、表示画面（１３ａ、１３ｂ）の下段に表示する。例えば、図１０の表示画面１３ａでは、サムネイル画像５２'がフォーカスされているので、サムネイル画像５２'に対応する静止画５２が下段に表示される。さらに、オブジェクト処理部２５は、フォーカスされているサムネイル画像を明示するために、カーソル５０を、フォーカスされているサムネイル画像の位置に表示する。

例えば、表示部１３の表示画面で、サムネイル画像５１'がフォーカスされている状態のときに、ユーザが指を左に移動させてジェスチャ入力を行ったとする（図１０のＳｃｅ１；シーン１）。この場合、ジェスチャ認識部２２は、ジェスチャ「左に移動」を認識し、対応する処理「フォーカスをオブジェクト１つ分『左』に遷移させる」を、オブジェクト処理部２５に指示する。

オブジェクト処理部２５は、上記のジェスチャ認識部２２からの指示に従って、表示画面１３ａに示すとおり、サムネイル画像５１'の１つ左のサムネイル画像５２'にフォーカスを遷移させる。そして、本実施形態では、さらに、オブジェクト処理部２５は、カーソル５０をサムネイル画像５１'から１つ左に動かしてサムネイル画像５２'に当てる。さらに、サムネイル画像５２'に対応する静止画５２を下段に表示する。

ユーザは、指の移動を終えた後、引き続き、指の形態を変化させる。具体的には、指の傾きを左に所定角度だけ変化させる（図１０のＳｃｅ２；シーン２）。形態監視部２３は、上記指が傾いていく様を監視しており、逐次、指の傾きを求める。一例として、上記シーン２の時点では、形態監視部２３は、基準線４９と、指の主軸４８とがなす角度θａを、シーン２の時点の指の傾き（形態の変化量）として特定する。

実行量決定部２４は、例えば、形態相関記憶部３１に記憶されている相関関係の情報と、上記角度θａとに従って、角度θａに対応する処理実行量を「１枚」と決定したとする。ここでは、指の移動も、形態変化も左方向に実行された。そこで、実行量決定部２４は、シーン２の時点で、処理実行量「１枚」および処理進行方向「左」を、オブジェクト処理部２５に対して指示する。

オブジェクト処理部２５は、上記の実行量決定部２４からの指示に従って、先のジェスチャ認識部２２によって指示された処理を繰り返す。すなわち、オブジェクト処理部２５は、もう一度、フォーカスをオブジェクト１つ分「左」に遷移させる。結果として、表示画面１３ｂに示すとおり、オブジェクト処理部２５は、フォーカスを、サムネイル画像５２’からサムネイル画像５３’に遷移させて、カーソル５０も左に１つ動かす。

ここで、ユーザが、θａの角度のまま指を傾ける動作を継続すると、逐次、実行量決定部２４は、処理実行量「１枚」および処理進行方向「左」を、オブジェクト処理部２５に対して指示する。

オブジェクト処理部２５は、上記指示が供給される間、フォーカスを、サムネイル画像５３’から、５４’、５５、’・・・と１枚送りで遷移させる処理を継続して実行する。ここでは、カーソル５０も、サムネイル画像５３’から、５４’、５５、’・・・と１枚ごとに移動させる。

一方、図１１に示すとおり、図１０と同じシーン１（図１１のＳｃｅ１）に引き続き、今度は、ユーザが、指を、θｂの角度で傾けたとする（図１１のＳｃｅ２’）。シーン２’（Ｓｃｅ２’）におけるθｂは、シーン２（図１０のＳｃｅ２）におけるθａよりも大きな角度である。これに伴い、実行量決定部２４は、角度θｂに対応する処理実行量を「２枚」と決定し、また、処理進行方向を「左」と決定したとする。

このシーン２’が継続すれば、実行量決定部２４は、処理実行量「２枚」および処理進行方向「左」を、オブジェクト処理部２５に対して指示し続ける。

この場合、オブジェクト処理部２５は、表示画面１３ｂに示すとおり、上記指示が供給される間、フォーカスを、サムネイル画像５２’から、サムネイル画像５４’へと２枚送りで遷移させる。そして、オブジェクト処理部２５は、この処理を、上記指示が供給される間継続する。すなわち、オブジェクト処理部２５は、フォーカスを、図示しない、サムネイル画像５６’、５８’、６０’、・・・と２枚送りで遷移させ続ける。

なお、指の傾きが、θｂからさらに大きくなっていく場合には、実行量決定部２４は、処理実行量を、「３枚」、「４枚」、・・・と逐次決定する。オブジェクト処理部２５は、新たな処理実行量が実行量決定部２４から供給された場合には、それに従って、３枚送り、４枚送り、・・・とさらに高速にフォーカスを遷移させることができる。なお、上述の１枚送りとは、フォーカスを、オブジェクト１個ごとに遷移させていくことを指す。２枚送りとは、オブジェクトを１個飛ばして、オブジェクト２個ごとにフォーカスを遷移させていくことを指す。３枚送り（４枚送り）とは、それぞれ、オブジェクトを２個（３個）飛ばして、オブジェクト３個（４個）ごとにフォーカスを遷移させていくことを指す。オブジェクト処理部２５は、オブジェクト何個ごとにでもフォーカスを遷移させることができる構成である。例えば、１０００個のオブジェクトが一覧表示されている場合には、オブジェクト処理部２５は、１００個ごとにフォーカスを遷移させていくこともできる。

〔１−８：利点〕
以上の構成によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ１００に対して入力することができる。

例えば、従来、カーソルを左に１０回動かしたい場合に、指示体を左に動かす動作を１０回行わなければならないところ、本発明の一実施形態に従うジェスチャ認識装置１によれば、指示体を左に動かす動作１回と、指示体を傾ける動作１回とで済む。

さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量をデジタルテレビ１００に対して指定することが可能になる。例えば、指示体の形態の変化量（指の傾き）を１０倍にすれば、１０枚ずつ移動させていたカーソルを、１００枚ずつ移動させるようにデジタルテレビ１００に対して指示することが可能である。

〔１−９：処理フロー〕
図１２は、ジェスチャ認識装置１が実行するジェスチャ認識処理および表示装置２（デジタルテレビ１００）が実行するオブジェクト処理の流れを示すフローチャートである。

ユーザは、ジェスチャを入力するためにまず、撮像部１２の前で、指を振る動作をするなどして、ジェスチャ入力開始の合図を送る。この様子を撮像した動画（フレーム群）がジェスチャ認識装置１に供給されると、開始認識部２０は、フレーム間の変化量に基づいて、ジェスチャ入力開始の合図を認識する（ステップＳ１０１）。続いて、開始認識部２０は、ジェスチャを入力する指示体が含まれている領域（例えば、指示体包含領域４０）をフレームから特定する（ステップＳ１０２）。

ここで、さらに続けて、指示体検出部２１が、指示体包含領域４０から指示体領域４１を検出し、さらには、指示体領域４１上に指示体基準点４２を検出することが好ましい。

そして、ジェスチャ認識部２２は、指示体を追尾してジェスチャ認識処理を開始する（ステップＳ１０３）。例えば、指示体検出部２１によって検出された指示体基準点４２を追尾することが好ましい。

本実施形態では、ユーザは、所望のジェスチャを入力するために、上下左右のいずれかの方向に指示体（指）を移動させる。この様子を撮像した動画（フレーム群）がジェスチャ認識装置１に供給されると、ジェスチャ認識部２２は、フレーム間差分から、指示体基準点４２の移動方向および移動距離を求める。移動距離は、フレームが順次供給されることで累積される。移動距離が一定以上になると、ジェスチャ認識部２２は、指示体が「移動した」と認識する。ジェスチャ認識部２２は、指示体の移動を認識すると（ステップＳ１０４においてＹＥＳ）、指示体基準点４２を追尾した結果得られた指示体基準点４２の移動方向に基づいて、ジェスチャを認識する（ステップＳ１０５）。例えば、図５に示すとおり、指示体基準点４２が、移動方向４３に移動した場合には、ジェスチャ認識部２２は、図６に示す「左に移動」のジェスチャが入力されたことを認識する。続いて、ジェスチャ認識部２２は、入力されたジェスチャに応じて表示装置２が実行すべき処理を特定する。例えば、図６に示すジェスチャ規則に従って、「左に移動」に対応付けられた「フォーカスをオブジェクト１つ分『左』に遷移させる」処理を、表示装置２に実行させる処理として特定する。ジェスチャ認識部２２は、特定した処理を表示装置２に実行させるための指示を表示装置２（ここでは、オブジェクト処理部２５）に出力する（ステップＳ１０７）。

これに対し、表示装置２のオブジェクト処理部２５は、上記指示に従って、指示された処理を実行する（ステップＳ１０８）。上述の例では、オブジェクト処理部２５は、これまでフォーカスされていたオブジェクトの左に表示されているオブジェクトにフォーカスを遷移させる。また、オブジェクト処理部２５は、これまでフォーカスされていたオブジェクトに当てられていたカーソルを、新しくフォーカスされた左のオブジェクトに移動させる。

一方、本実施形態では、ユーザは、ジェスチャの入力を終えると、当該ジェスチャによって装置に行われる処理を繰り返したい場合には、引き続き、連続して処理を実行させるための動作を、指示体（ここでは、例えば指）を使って行う。この様子を撮像した動画（フレーム群）がジェスチャ認識装置１に供給されると、ジェスチャ認識装置１の形態監視部２３は、引き続き随時供給されるフレームを処理して撮像された指示体の形態を監視する（ステップＳ１０９）。形態監視部２３は、上流の各工程によって特定された指示体包含領域４０における指示体領域４１（手指）の形態を監視する。ここでは、一例として、形態監視部２３は、指示体領域４１から、さらに、突起状の指の部分だけを含む注目領域４５を特定し、注目領域４５における指の主軸４８を特定する。そして、この指の主軸４８の傾きを追尾するものとする。

形態監視部２３は、フレーム間差分値を累積して、指示体の動き（すなわち、形態の変化）を認識すると（ステップＳ１１０においてＹＥＳ）、最新のフレームにおいて、注目領域４５における指の傾きを求める（ステップＳ１１１）。例えば、形態監視部２３は、フレームにおいて垂直な基準線４９と主軸４８とがなす角度を指の傾きとして求める。

続いて、実行量決定部２４は、形態相関記憶部３１に記憶された相関関係の情報に従って、形態監視部２３によって求められた指の傾きに基づいて、処理実行量を決定する。相関関係の情報は、形態の変化量と、処理実行量との相関関係を示す情報であり、この情報によって、形態監視部２３が求めた指の傾きに対応する処理実行量が得られる。

例えば、実行量決定部２４は、「Ｍｔ＝０．５（回）×θｔ」という計算式（相関関係の情報）に従って、形態の変化量θｔ＝６０度であること基づいて、処理実行量Ｍｔを「３０回」と求める。

続いて、実行量決定部２４は、ステップＳ１１２にて決定した処理実行量「３０回」を、表示装置２に対して出力する（ステップＳ１１３）。

これに対し、表示装置２のオブジェクト処理部２５は、上記処理実行量をジェスチャ認識装置１から受信すると（ステップＳ１１４においてＹＥＳ）、ステップＳ１０８において指示された処理を、上記処理実行量にて指定された回数実行する（ステップＳ１１５）。上述の例では、オブジェクト処理部２５は、「フォーカスをオブジェクト１つ分『左』に遷移させる」処理を、３０回実行する。さらに、オブジェクト処理部２５は、カーソルを、３０個左のオブジェクトに移動させてもよい。ここで、オブジェクト処理部２５は、カーソルを、１個１個のオブジェクトに当てながら移動させてもよいが、３０個左のオブジェクトに一気に移動（ジャンプ）させることが好ましい。

ユーザは、上述のカーソルの移動速度をさらに早めたいときは、指の傾きを大きくすればよい。指示体がフレーム内に認められる間は（ステップＳ１１６においてＮＯ）、ステップＳ１１０〜Ｓ１１５の処理が繰り返し実行される。すなわち、オブジェクト処理部２５は、カーソルをオブジェクト３０個ごとに左にジャンプさせる処理を繰り返す。

あるいは、ユーザは、カーソルの移動（繰り返し）を終わらせたいときは、指示体自体を撮像部１２の撮像範囲からはずしてジェスチャ入力を完了させることができる。撮像部１２から供給されるフレームにおいて、指示体が認識されなくなったら（ステップＳ１１６においてＹＥＳ）、形態監視部２３は、形態の監視を終了し、実行量決定部２４に対して行っていた形態変化量（指の傾き）の供給を停止する。これに伴い、実行量決定部２４は、表示装置２に対して行っていた処理実行量の供給を停止し、代わりに、処理の実行を停止するように表示装置２に対して指示する（ステップＳ１１７）。

これに対し、表示装置２のオブジェクト処理部２５は、ジェスチャ認識装置１から処理停止指示を受信すると（ステップＳ１１８においてＹＥＳ）、ステップＳ１０８において指示された処理を停止する（ステップＳ１１９）。すなわち、オブジェクト処理部２５は、カーソルの移動（フォーカスの遷移）を停止する。

以上の方法によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ１００に対して入力することができる。

さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量（処理実行量）をデジタルテレビ１００に対して指定することが可能になる。例えば、指示体の変化量（指の傾き）を１０倍にすれば、１０枚ずつ移動させていたカーソルを、１００枚ずつ移動させるようにデジタルテレビ１００に対して指示することが可能である。

〔１−１０：処理実行量決定方法についての変形例〕
上述の実施形態では、図９に示すとおり、形態監視部２３は、絶対的な基準の形態（θｓ＝０度の、垂直な基準線４９）と、現時点ｔにおける形態（主軸４８）との比較によって、指示体の現時点ｔにおける形態変化量（θｔ）を取得する構成であった。そして、実行量決定部２４は、Ｍｔ＝α×θｔ（αは定数）に従って、処理実行量を決定する構成であった。

しかし、形態監視部２３および実行量決定部２４を以下のように構成し、他の方法で処理実行量を決定してもよい。本発明の他の実施形態に従う処理実行量決定方法について、図１３〜図１５を参照しながら説明する。

図１３は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図１３に示す変形例では、表示装置２において処理実行量の最大値が予め定まっている構成である。例えば、表示装置２のオブジェクト処理部２５において、カーソルをジャンプさせるオブジェクト数の最大値が「１００個」と定まっている。つまり、オブジェクト処理部２５は、カーソル（フォーカス）を、最大で１００ずつ上下左右に移動させることが可能な構成であるとする。

形態監視部２３は、実施形態１と同様に、基準線４９を定義し、現時点ｔにおける変化量θｔを求め、実行量決定部２４に供給する。

本変形例では、実行量決定部２４は、さらに、図１３に示すとおり、予め定まっている処理実行量の最大値（例えば、１００個）に対応する基準の形態（最終形態ｅ）を、水平な基準線７０と定義する。実行量決定部２４は、処理実行量の最小値（例えば、０個）に対応する基準の形態を、θｓ＝０度（垂直な基準線４９）とみなす。また、実行量決定部２４は、処理実行量の最大値（例えば、１００個）に対応する基準の形態（最終形態ｅ）を、θｅ＝９０度（水平な基準線７０）とみなす。そして、実行量決定部２４は、垂直な基準線４９におけるθｓ＝０度と、水平な基準線７０におけるθｅ＝９０度とに基づいて、最大変化量（θｅ−θｓ＝θａｌｌ＝９０度）を取得する。

そして、本変形例では、実行量決定部２４は、上記最大変化量（θａｌｌ＝９０度）に対して、現時点ｔの形態変化量（θｔ）の占める割合を求める。そして、実行量決定部２４は、この割合の大きさに比例して、処理実行量を決定する。

例えば、実行量決定部２４は、形態相関記憶部３１に記憶されている下記の所定の計算式に従って、指の傾きθｔから、時点ｔにおける処理実行量Ｍｔを決定する。
Ｍｔ＝（θｔ÷θａｌｌ）×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β＝１００（個）である。したがって、より具体的には、形態監視部２３によって求められた時点ｔの指の傾きθｔが、４５度であるとすると、実行量決定部２４は、処理実行量Ｍｔを、（４５÷９０）×１００＝５０回と決定する。

以上の構成においても、実行量決定部２４は、形態監視部２３によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態１と同様の効果を得ることができる。

図１４は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図１４に示す変形例において、図９に示す実施形態１の処理実行量決定方法と異なる点は、以下のとおりである。すなわち、形態監視部２３は、フレームにおいて垂直な線を、絶対的な基準線として定義する構成であった。本変形例では、形態監視部２３は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態（開始形態ｓ）とみなす。したがって、ユーザの指が、ジェスチャ入力を完了した時点で、すでに傾いていたとしても、その時に形態監視部２３が監視を開始すれば、その時点での指の主軸を、基準線４９’として定義する。形態監視部２３は、定義した基準線４９’の傾きθｓを０度と定義する。

形態監視部２３は、現時点ｔにおける指の主軸４８を求めて、基準線４９’と主軸４８とがなす角度θｔを、現時点ｔにおける指示体の形態の変化量として、実行量決定部２４に供給する。

実行量決定部２４は、実施形態１と同様に、形態相関記憶部３１に記憶されている相関関係の情報（Ｍｔ＝α×θｔ）に従って、処理実行量を決定すればよい。係数αは、実施形態１と同様であっても構わないし、別の値を設定してもよい。

図１５は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図１５に示す変形例では、上述したとおり、表示装置２において処理実行量の最大値が予め定まっている構成である。例えば、オブジェクト処理部２５がカーソルをジャンプさせることが可能なオブジェクト数の最大値が「１００個」と定まっているとする。

本変形例では、形態監視部２３は、実施形態１と同様に、フレームにおいて垂直な基準線４９を定義し、基準線４９の傾きθを０度と定義する。しかし本変形例では、さらに、形態監視部２３は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態（開始形態ｓ）とみなす。形態監視部２３は、開始形態ｓにおける指の主軸を、基準線４９’と定義する。

本変形例では、実行量決定部２４は、さらに、図１５に示すとおり、予め定まっている処理実行量の最大値（例えば、１００個）に対応する基準の形態（最終形態ｅ）を、水平な基準線７０と定義する。本変形例では、実行量決定部２４は、処理実行量の最小値（例えば、０個）に対応する基準の形態を、開始形態ｓに対応する基準線４９’（θｓ）とみなす。また、実行量決定部２４は、処理実行量の最大値（例えば、１００個）に対応する基準の形態（最終形態ｅ）を、θｅ＝９０度（水平な基準線７０）とみなす。そして、実行量決定部２４は、基準線４９’におけるθｓと、水平な基準線７０におけるθｅ＝９０度とに基づいて、最大変化量（θｅ−θｓ＝θａｌｌ）を取得する。なお、θｓは、ここでは、垂直な基準線４９と、開始形態ｓの基準線４９’とがなす角度によって求められる。

そして、本変形例では、実行量決定部２４は、上記最大変化量（θａｌｌ）に対して、現時点ｔの形態変化量（θｔ）の占める割合を求める。そして、実行量決定部２４は、この割合の大きさに比例して、処理実行量を決定する。

例えば、実行量決定部２４は、形態相関記憶部３１に記憶されている下記の所定の計算式に従って、指の傾きθｔから、時点ｔにおける処理実行量Ｍｔを決定する。
Ｍｔ＝（θｔ÷θａｌｌ）×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β＝１００（個）である。したがって、より具体的には、θｓが３０度、θａｌｌが６０度、形態監視部２３によって求められた時点ｔの指の傾きθｔが、１５度であるとすると、実行量決定部２４は、処理実行量Ｍｔを、（１５÷６０）×１００＝２５回と決定する。

〔１−１１：ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮した変形例〕
上述の実施形態では、ジェスチャ入力時の指示体（指）の移動方向と、処理実行量指定時の指示体の形態変化の進行方向とは、同一で、常に一方向である場合が想定されていた。例えば、ジェスチャ入力時に指が左に移動した場合には、その後、指は、左向きに傾き続けるという場合である。

しかし、ユーザがジェスチャ入力時の指示体（指）の移動方向と反対の進行方向に、指示体の形態を変化させるという状況も想定される。

（ケース１）
このような状況に対応するための構成として、実行量決定部２４は、形態監視部２３から供給された現時点ｔの形態変化量θｔが、直前の時点ｔ−１の変化量θｔ−１と比較して、減少した場合に、これを、ユーザからの停止指示として認識してもよい。そして、実行量決定部２４は、処理の実行停止を指示する処理停止指示を表示装置２に対して出力してもよい。

現時点ｔの形態変化量θｔが、直前の時点ｔ−１の変化量θｔ−１と比較して、下回る状況の一例を、図１６に示す。

図１６に示すとおり、ジェスチャ入力時の移動方向が、移動方向４３（左に移動）であって、処理実行量指定時の指示体の形態変化の進行方向も、移動方向４３と同じく、左向きの進行方向７１であるとする。この場合、指の傾き（形態変化量）は、基準線４９よりも左に傾くほど増大する。

したがって、ユーザが、指の傾きを、進行方向７１（移動方向４３）と反対の進行方向７２（右向き）に少しでも戻した場合には、指の傾き（形態変化量）は、直前の変化量θｔ−１よりも減少する。

このように、これまでの進行方向（左）と反対の方向（右）に指の傾きを戻す動作が行われたことに伴って、これまで継続して行われていた処理を停止するようにデジタルテレビ１００を構成する。

これまで、ユーザは、指の進行方向と同じ方向にてカーソル（フォーカス）を移動させる操作を行っている。ここで、進行方向と反対の方向に指の傾きを戻す動作は、ユーザにとって、カーソルの移動にブレーキをかけるイメージが連想されやすい。

したがって、上記構成によれば、ユーザが直感的に操作を理解でき、デジタルテレビ１００において操作性が向上するという効果を奏する。

（ケース２）
あるいは、上述のような状況において、指の傾き（形態変化量）が、基準線４９よりも右（すなわち、移動方向４３の反対方向）に傾くことも考えられる。

このような状況に対応するための構成として、形態監視部２３は、基準線４９から、移動方向と反対の方向に、指示体（指）が傾いた場合には、当該指示体の変化量を負の数によって表してもよい。

例えば、図１７に示すとおり、ジェスチャ入力時の移動方向が、移動方向４３（左に移動）であって、処理実行量指定時の指示体の形態変化の進行方向が、移動方向４３と反対の、右向きの進行方向７２であるとする。この場合、指の傾き（形態変化量）は、基準線４９よりも右に傾くほどマイナスになり減少する（絶対値は大きくなる）。

実行量決定部２４は、形態監視部２３から供給された形態変化量が正の数であった場合には、先の移動方向４３と同じ方向を、デジタルテレビ１００に実行させる処理の進行方向であると決定する。つまり、実行量決定部２４は、「フォーカスをオブジェクトＭｔ個ずつ左に遷移させる」処理を表示装置２に対して指示する。

一方、実行量決定部２４は、形態監視部２３から供給された形態変化量が負の数であった場合には、先の移動方向４３と反対の方向を、デジタルテレビ１００に実行させる処理の進行方向であると決定する。つまり、実行量決定部２４は、「フォーカスをオブジェクトＭｔ個ずつ右に遷移させる」処理を表示装置２に対して指示する。

当然、処理実行量Ｍｔは、現時点ｔの指の主軸４８が、基準線４９から左（または右）にどのくらい傾いているのかによって決定される。傾きが強いほど処理実行量が多くなる。

このように、これまでの進行方向（左）と反対の方向（右）に指を傾ける動作が行われたことに伴って、これまで行われていた処理の進行方向と反対の進行方向にて処理を継続するようにデジタルテレビ１００を構成する。

ここで、進行方向と反対の進行方向に指を傾ける動作は、ユーザにとって、最初にジェスチャで指示した進行方向とは反対の方向に、カーソルの移動方向が変わる（カーソルが引き返す）イメージが連想されやすい。

〔１−１２：形態変化監視対象について〕
上述の実施形態では、形態監視部２３は、指示体の形態として、指の傾きを監視対象とする構成であった。しかし、本発明のジェスチャ認識装置１の構成はこれに限定されない。

例えば、形態監視部２３は、ジェスチャ入力のために移動した指示体における、指の曲がり具合を監視対象としてもよい。

より具体的には、図１８に示すとおり、形態監視部２３は、指が曲がったときに角度が変化する部位（中節）の主軸を取得して傾きを監視し、指が曲がったときに変化する中節の角度の大きさθを、形態変化量として取得してもよい。あるいは、図１９に示すとおり、形態監視部２３は、指先（指示体基準点４２）のフレームにおけるＹ座標を監視し、指が曲がったときに変化する指示体基準点４２のＹ座標について、Ｙ座標差分により得られる移動距離ｄを、形態変化量として取得してもよい。

あるいは、例えば、形態監視部２３は、ジェスチャ入力のために移動した指示体における、二指間の角度θを、形態変化量として取得してもよい。図２０の（ａ）は、ジェスチャ入力を完了した時点の指示体の様子を示す図である。二指とは、ここでは、一例として親指と人差し指である。形態監視部２３は、それぞれの指の主軸を取得し、これらの主軸がなす角度を求める。ジェスチャ入力を完了した時点では、角度θ（図２０の（ａ）では不図示）は小さい。図２０の（ｂ）および（ｃ）は、処理実行量指定動作が行われているある時点の指示体の様子を示す図である。二指間の角度θは、図２０の（ａ）と比較して大きくなっている。実行量決定部２４は、二指間の角度が大きいほど、処理実行量が大きくなるという相関関係の情報に従って処理実行量を決定する。

あるいは、形態監視部２３は、フレーム内において、ジェスチャ入力のために移動した指示体とは別の第２の指示体を特定して、第２の指示体の形態変化量を監視してもよい。より具体的には、図２１に示すとおり、形態監視部２３は、ユーザの首のかしげ具合を監視対象としてもよい。形態監視部２３は、ユーザの顏を含む指示体包含領域７３を特定する。そして、形態監視部２３は、鼻筋などに基づいて顏の主軸を取得し、顏の傾きの変化量θ１を形態変化量として取得してもよい。あるいは、形態監視部２３は、ユーザの腕の曲げ具合を監視対象としてもよい。形態監視部２３は、腕を含む指示体包含領域７４を特定する。そして、形態監視部２３は、ユーザの上腕部と前腕部との主軸を取得し、これらの主軸がなす角度θ２を、形態変化量として取得してもよい。

〔１−１３：応用例〕
上述の実施形態では、図１０および図１１に示すとおり、処理実行主体である表示装置２としてのデジタルテレビ１００に、本発明の一実施形態に従うジェスチャ認識装置１を搭載した例について説明した。本発明の一実施形態に従うジェスチャ認識装置１は、デジタルテレビ１００に限らず、他のあらゆる表示装置に搭載することができる。

例えば、図２２に示すとおり、本発明の一実施形態に従うジェスチャ認識装置１を、電子書籍リーダ２００に搭載することができる。電子書籍リーダ２００のオブジェクト処理部２５は、電子書籍の各ページのうち、フォーカスされたページを表示部１３に表示する。例えば、オブジェクト処理部２５は、右綴じ左開きのイメージで電子書籍を表示する。電子書籍リーダ２００において、ジェスチャ認識装置１は、このページをめくるためのジェスチャを認識する構成である。

ユーザは、次のページを表示するために、現在表示されているページを左から右へとめくるための動作を行う。実施形態１と同様に、ユーザは、撮像部１２の前で、指示体を左から右へ動かす（白矢印７６）。ジェスチャ認識部２２によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部２５は、現在のページ（Ｐ．１５）の次のページ（Ｐ．１６）にフォーカスを遷してＰ．１６を表示する（白矢印７７）。さらに、形態監視部２３によって右方向への指の傾きが認識されると（白矢印７８）、オブジェクト処理部２５は、現在のページ（Ｐ．１６）から指定された処理実行量（ページ数）分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。

このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる１動作のみで簡単に、一気にたくさんのページを繰ることができる。

あるいは、図２３に示すとおり、本発明の一実施形態に従うジェスチャ認識装置１を、スマートフォン３００に搭載することができる。

ユーザは、次のページを表示するために、現在表示されているページを右から左へとスライドさせるための動作を行う。実施形態１と同様に、ユーザは、撮像部１２の前で、指示体を右から左へ動かす（白矢印７９）。ジェスチャ認識部２２によって「左へ移動」のジェスチャが認識されると、オブジェクト処理部２５は、現在のページ（３／１０）の次のページ（４／１０）にフォーカスを遷して４／１０のページを表示する。例えば、４／１０のページをスライドインさせる（白矢印８０）。さらに、形態監視部２３によって左方向への指の傾きが認識されると（白矢印８１）、オブジェクト処理部２５は、現在のページ（４／１０）から指定された処理実行量（ページ数）分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。

あるいは、図２４に示すとおり、本発明の一実施形態に従うジェスチャ認識装置１を、タブレットＰＣ４００に搭載することができる。

タブレットＰＣ４００のオブジェクト処理部２５は、オブジェクトとしてアイコン（選択肢）を、メイン項目と、サブ項目とに分けて表示する。オブジェクト処理部２５は、メイン項目（図２４においてアルファベットで識別されている）を横一列に一覧表示する。そして、フォーカスされているメイン項目に属するサブ項目（図２４において数字で識別されている）を縦一列に一覧表示する。さらに、オブジェクト処理部２５は、フォーカスされているアイコンにカーソル５０を表示する。

ユーザは、まず、所望のメイン項目を選択するために、カーソル５０を移動させるための動作を行う。実施形態１と同様に、ユーザは、撮像部１２の前で、指示体を左から右へ動かす（白矢印８２）。ジェスチャ認識部２２によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部２５は、現在のアイコン（大項目Ｄ）の右隣のアイコン（大項目Ｅ）にフォーカスを遷し、カーソル５０も右へ移動させる（白矢印８３）。さらに、形態監視部２３によって右方向への指の傾きが認識されると（白矢印８４）、オブジェクト処理部２５は、現在のアイコン（大項目Ｅ）から指定された処理実行量（アイコン個数）分右に配置されているアイコンにフォーカスを遷して、その新しいアイコンにカーソル５０を当てて表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。

このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる１動作のみで簡単に、現在のフォーカス位置から遠くに配置されているアイコンをすばやく選択することができる。

《２．実施形態２》
〔２−１：概要〕
次に、実施形態２として、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置１の実装例について説明する。ジェスチャ認識装置１については、デジタルテレビ１００に限られず、任意のデバイス（上述の電子書籍リーダ２００やスマートフォン３００など）に実装可能である。もちろん、ジェスチャ認識装置１そのものを単一の装置として構成してもよい。但し、説明の便宜上、実施形態１と同様に、実施形態２に従うジェスチャ認識装置１をデジタルテレビ１００に実装した場合の構成例について説明する。

実施形態２においては、ジェスチャ認識装置１から外部の装置へ指示を送出する構成について例示する。また、実施形態２においては、「指示体の形態」として、上述の実施形態１に例示したもの以外について例示する。

図２５は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置１の要部構成を示すブロック図である。図２５に示すジェスチャ認識装置１は、図１に示すジェスチャ認識装置１に比較して、指示送信部２６が追加されている。指示送信部２６は、ジェスチャ認識部２２および実行量決定部２４において決定される、実行すべき処理およびその実行量を対象の処理実行主体へ送信する。その他の機能については、図１を参照して説明したので、詳細な説明は繰り返さない。但し、以下に説明するように、認識される「指示体の形態」に応じて処理が実行されることになる。

〔２−２：入力されるジェスチャの例（その１）〕
図２６は、本発明の実施形態２に従うジェスチャ認識装置を実装したデジタルテレビ１００の応用例を示す模式図である。図２６を参照して、デジタルテレビ１００は、例えば、家庭のリビングなどに配置され、ユーザが入力したジェスチャに基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定し、これらを含む指示を対象の装置へ送信する。図２６には、処理実行主体の一例として、エアーコンディショナ５００およびシーリングライト５５０が例示されている。

例えば、エアーコンディショナ５００に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「暖房運転」、「冷房運転」、「ドライ運転」、「自動運転」などの空調動作の開始／停止や、各種設定の変更などを含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「設定温度」、「風量」、「風向」、「タイマ」などを含む。デジタルテレビ１００から送信される指示の具体的な一例としては、「冷房運転」を開始（処理実行主体が実行すべき処理）し、その「設定温度」は「２５℃」とする（実行すべき処理の処理実行量）といったものが挙げられる。

また、シーリングライト５５０に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「明るさ調整（調光）」や「色調整（調色）」などの調整動作を含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「明るさの度合い（０〜１００％）」、「演色性（暖色系〜寒色系）」、「点灯時間」などを含む。デジタルテレビ１００から送信される指示の具体的な一例としては、「減光」し、その「減光度合い」は「１０％」とする（実行すべき処理の処理実行量）といったものが挙げられる。

図２７は、本発明の実施形態２に従うジェスチャ認識装置１で認識可能なジェスチャの一例を示す図である。図２７（ａ）を参照して、ジェスチャ認識装置１がアクティブな状態において、ユーザがジェスチャ入力開始の合図となるジェスチャ（例えば、ユーザが指または手を細かく振る動き）を行うと、ジェスチャ認識装置１の開始認識部２０（図２５）は、上述の実施形態１と同様に、入力される動画像のフレーム間を比較することで、このジェスチャ入力開始の合図が入力されたと認識する。それ以降、ジェスチャ入力終了と認識されるまで、その指示体であるユーザの手指によってなされるジェスチャ入力の監視が継続される。より具体的には、ジェスチャ入力開始の直後では、指示体検出部２１がジェスチャ入力を行う指示体の検出を継続している。その状態において、例えば、ユーザが予め定められた指示体の形態（図２７（ａ）の例では、人差し指および中指を立てる、いわゆるピースサイン）を形成すると、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則に従って、入力されたジェスチャ（指示体の形態：図２７（ａ）に示す開始形態）に対応する処理を特定する。

続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部２３は、このユーザによるジェスチャ（指示体の形態）を監視しており、このジェスチャの移動（すなわち、指示体の形態の移動）に応答して、先に特定された処理の処理実行量を決定する。このように、形態監視部２３は、当該ジェスチャ（指示体の形態）の移動の軌跡に基づいて、対応する処理実行量を決定する。

なお、実施形態２においては、指示体の形態の移動の軌跡に基づいて処理実行量を決定するので、指示体の移動が完了したことを認識する必要がある。そのため、ユーザは、ジェスチャ入力終了の合図となるジェスチャ（例えば、ユーザが指または手を細かく振る動き）を行うことで、指示体の形態の移動の完了、つまりジェスチャの入力終了を指示できる。

但し、ジェスチャの入力終了の合図となるジェスチャについては、明示的に入力しなくともよい。例えば、最終形態のジェスチャとは異なるジェスチャを行う（あるいは、指示体を撮像部の視野外に移動させる）ことで、ジェスチャの入力終了を暗示的に指示できる。

図２７（ａ）において、形態監視部２３は、典型的には、ジェスチャ（指示体の形態）の移動の軌跡として、開始形態のジェスチャと最終形態のジェスチャとの間の移動量または移動速度などに応じて、対応する処理実行量を決定する。

例えば、図２７（ａ）に示す例では、開始形態のジェスチャが運転中のエアーコンディショナ５００に対する設定温度の変更を意味しており、開始形態のジェスチャに対して、終了形態のジェスチャが上方向にあれば、設定温度の上昇を意味しているとする。このとき、開始形態から終了形態までの移動量に比例して、設定温度の上昇幅を決定できる。例えば、ユーザがその手を開始形態から上側に少しだけ移動させた場合には、現在の設定温度に対して「＋１℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から上側により多く移動させた場合には、現在の設定温度に対して「＋３℃」が処理実行量として決定される。

なお、図２７（ｂ）に示すように、開始形態のジェスチャに対して、終了形態のジェスチャが下方向にあれば、設定温度の下降を意味するとしてもよい。このときも同様に、開始形態から終了形態までの移動量に比例して、設定温度の下降幅を決定できる。例えば、ユーザがその手を開始形態から下側に少しだけ移動させた場合には、現在の設定温度に対して「−１℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から下側により多く移動させた場合には、現在の設定温度に対して「−３℃」が処理実行量として決定される。

上述のような処理によって決定された、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量が指示として送信される先（この例では、エアーコンディショナ５００）についてもジェスチャ認識部２２によって決定される。すなわち、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則は、各ジェスチャに対応する処理に加えて、指示体の軌跡に対応する処理実行量と、各処理を実行する処理実行主体を特定するための情報（処理実行主体となる装置の属性を示すメタデータ）とを含む。メタデータは、装置ＩＤ番号、装置の種類を示す符号、装置の設置位置、装置にアクセスするためのＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）アドレスなどがある）などを含む。ジェスチャ認識部２２は、処理の特定にあわせて、送信先も特定する。

図２８は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則のデータ構造の一例を示す図である。図２８には、ジェスチャ規則を表現するデータテーブル３０ａを示す。図２８に示すデータテーブル３０ａにおいて、処理実行量は、例えば、撮像範囲（フレーム）を基準とした移動量に基づいて決定される。より具体的には、撮像範囲内で５％移動するごとに設定温度の変更量が「＋１℃」ずつ増加するように設定されている。

このような、指示体の形態および当該形態の移動の軌跡に基づいて、ジェスチャ認識装置１の外部にある装置（処理実行主体）に対して、実行すべき処理および当該実行すべき処理の処理実行量を指示できるので、ユーザは、装置別に複数のリモコンなどを用いることなく、デジタルテレビ１００に対してジェスチャ入力を行うことで、複数の装置をそれぞれ制御できる。

〔２−３：入力されるジェスチャの例（その２）〕
上述の図２７では、ユーザがジェスチャ入力開始の合図を明示的に行うことで、ジェスチャ入力の認識が開始される例を示した。但し、ジェスチャ入力開始の合図を暗示的に行うような構成を採用してもよい。

図２９は、本発明の実施形態２に従うジェスチャ認識装置１で認識可能なジェスチャの別の一例を示す図である。図２９を参照して、ジェスチャ認識装置１がアクティブな状態において、ユーザが予め定められた指示体の形態（図２７（ａ）の例では、親指および人差し指を立てるサイン）を形成すると、ジェスチャ認識装置１の開始認識部２０（図２５）は、入力される動画像のフレーム間を比較することで、入力されたジェスチャを認識する。さらに、開始認識部２０（図２５）は、ジェスチャ認識部２２と連係して、ジェスチャ規則記憶部３０のジェスチャ規則において、入力されたジェスチャが定義されていることを認識すると、ジェスチャ入力開始の合図が入力されたと判断する。同時に、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則に従って、入力されたジェスチャ（指示体の形態：図２９に示す開始形態）に対応する処理を特定する。

続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部２３は、このユーザによるジェスチャ（指示体の形態）を監視しており、このジェスチャの移動（すなわち、指示体の移動）に応答して、先に特定された処理の処理実行量を決定する。すなわち、形態監視部２３は、当該ジェスチャ（指示体の形態）の移動の軌跡に基づいて、対応する処理実行量を決定する。

その後、ユーザは、ジェスチャ入力終了の合図となるジェスチャ（例えば、ユーザが人差し指と親指とでマルをつくるＯＫサイン）を行うことで、指示体の移動の完了、つまりジェスチャの入力終了を指示できる。

図２９に示すジェスチャに対して、決定される処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量については、図２７と同様である。

図２９に示すようなジェスチャ入力開始を暗示的に指示するような構成を採用することで、ユーザは、より簡素化された手順で、目的の指示を行うことができる。

〔２−４：入力されるジェスチャの例（その３）〕
上述の図２７および図２９においては、ユーザが片手でジェスチャを入力する例について例示した。これに代えて、ユーザが両手でジェスチャを入力するようにしてもよい。両手でジェスチャを入力することで、より自由度の高い指示を生成することができる。

ジェスチャ認識装置１は、ユーザが両手を用いて入力したジェスチャに対して、上述と同様の方法に従って、当該入力されたジェスチャ全体に基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定してもよい。この場合の処理は、上述したものと実質的に同様である。

これに加えて、実行すべき処理および当該実行すべき処理の処理実行量の決定に用いる特徴量を互いに異ならせてもよい。すなわち、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定するようにしてもよい。例えば、ユーザが両手を用いて入力したジェスチャの全体に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの一部の移動の軌跡に基づいて、当該実行すべき処理の処理実行量を決定してもよい。

より具体的には、実施形態２に従うジェスチャ認識装置１の指示生成手段は、指示体としてのユーザ（操作者）の２つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の２つの手の形の組み合わせに基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する。

以下、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。
図３０は、本発明の実施形態２に従うジェスチャ認識装置１で認識可能なジェスチャの別の一例を示す図である。

図３０（ａ）を参照して、ジェスチャ認識装置１がアクティブな状態において、ユーザが予め定められた指示体の形態を形成（ジェスチャを入力）すると、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則に従って、入力されたジェスチャ（指示体の形態：図３０（ａ）に示す開始形態）に対応する処理を特定する。このとき、入力されたジェスチャの全体に基づいて、対応する処理が特定される。

その後、形態監視部２３は、指示体の形態の変化を監視するとともに、その変化量を特定する。図３０（ａ）の例では、形態監視部２３は、紙面左側の手の指先（指示体基準点６８）の動きを追尾すべき対象として決定し、指示体基準点６８の移動の軌跡を監視する。なお、追尾すべき対象は、ジェスチャ規則記憶部３０のジェスチャ規則において定義されているとする。そして、形態監視部２３がユーザによるジェスチャが最終形態であると認識すると、実行量決定部２４は、指示体基準点６８の移動の軌跡に基づいて、実行すべき処理の処理実行量を決定する。

例えば、図３０（ａ）の開始形態のジェスチャが運転中のエアーコンディショナ５００に対する設定温度の変更を意味しており、開始形態から終了形態に至るまでに、指示体基準点６８が下方向に移動していれば、設定温度の下降を意味しているとする。このとき、開始形態から終了形態までの指示体基準点６８の移動量に比例して、設定温度の下降幅が決定される。

なお、図３０（ｂ）に示すように、開始形態から終了形態に至るまでに、指示体基準点６８が上方向に移動していれば、設定温度の上昇を意味するとしてもよい。このときも同様に、開始形態から終了形態までの指示体基準点６８の移動量に比例して、設定温度の下降幅が決定されるとする。

このように、ユーザは両手を用いてジェスチャを入力することができ、これによって、より自由度の高い指示を生成することができる。

〔２−５：入力されるジェスチャの例（その４）〕
代替の構成として、ユーザが両手を用いて入力したジェスチャの一部の移動の軌跡に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの全体に基づいて、当該実行すべき処理の処理実行量を決定してもよい。

より具体的には、実施形態２に従うジェスチャ認識装置１の指示生成手段は、指示生成手段は、指示体としてのユーザ（操作者）の２つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の２つの手の一方の代表点の軌跡に基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定してもよい。

再度図３０を参照して、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。

図３０（ａ）を参照して、ジェスチャ認識装置１がアクティブな状態において、ユーザが開始形態として示される指示体の形態を形成すると、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応し得る複数の処理候補を抽出する。この例では、指示体の形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理が特定されるので、この時点では、候補が抽出されるにとどまる。

この時点において、実行量決定部２４は、紙面左側の手の指先（指示体基準点６８）と紙面右側の手の指先（指示体基準点６９）との間の距離（間隔）に基づいて、実行すべき処理の処理実行量を決定する。

その後、形態監視部２３は、指示体の形態の変化を監視するとともに、その変化量を特定する。図３０（ａ）の例では、形態監視部２３は、紙面左側の手の指先（指示体基準点６８）の動きを追尾すべき対象として決定し、指示体基準点６８の移動の軌跡を監視する。そして、形態監視部２３がユーザによるジェスチャが最終形態であると認識すると、ジェスチャ認識部２２は、指示体基準点６８の移動の軌跡に基づいて、対応する処理を特定する。

例えば、図３０（ａ）の開始形態から終了形態までの移動の軌跡（ジェスチャ）が運転中のエアーコンディショナ５００に対する設定温度の下降を意味している場合には、開始形態における、紙面左側の手の指先（指示体基準点６８）と紙面右側の手の指先（指示体基準点６９）との間の距離（間隔）に比例して、設定温度の下降幅が決定される。

なお、図３０（ｂ）に示すように、紙面左側の手の指先（指示体基準点６８）が上方向に移動する場合には、その開始形態から終了形態までの移動の軌跡（ジェスチャ）が運転中のエアーコンディショナ５００に対する設定温度の上昇を意味するとしてもよく、この場合には、開始形態における、紙面左側の手の指先（指示体基準点６８）と紙面右側の手の指先（指示体基準点６９）との間の距離（間隔）に比例して、設定温度の上昇幅が決定される。

〔２−６：入力されるジェスチャの例（その５）〕
上述のジェスチャの例においては、指示体の移動の軌跡として、移動量や移動速度を典型例として説明したが、移動の軌跡そのものを入力としてもよい。

図３１は、本発明の実施形態２に従うジェスチャ認識装置１で認識可能なジェスチャの別の一例を示す図である。図３１を参照して、ジェスチャ認識装置１がアクティブな状態において、ユーザが予め定められた指示体の形態（図３１（ａ）の例では、人差し指を突き出すサイン）を形成すると、ジェスチャ認識部２２は、ジェスチャ規則記憶部３０に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応する処理を特定する。

続いて、ユーザは、ジェスチャ入力を継続した状態で、数字の「３」に相当する軌跡を描いたとする。形態監視部２３は、このユーザによるジェスチャ（指示体の形態）を監視しており、実行量決定部２４は、このユーザが描いた軌跡に応答して先に特定された処理の処理実行量を決定する。より具体的には、実行量決定部２４は、ユーザが描いた軌跡が数字の「３」に類似していると判断すると、処理実行量として「３」を出力する。

例えば、図３１の開始形態のジェスチャが運転中のエアーコンディショナ５００に対する風量の変更を意味している場合には、開始形態から終了形態に至るまでに、数字の「３」に類似した軌跡をユーザが描くことで、風量がレベル「３」に設定される。

なお、移動の軌跡そのものに基づいて、処理実行主体が実行すべき処理を特定するようにしてもよい。

このように、ユーザが描く軌跡そのものに用いて、処理実行主体が実行すべき処理および／または当該実行すべき処理の処理実行量を決定することで、ユーザが入力できるジェスチャの自由度を高めることができるとともに、移動量などに基づく場合に比較して、ユーザの意図どおりの指示を発することもできる。

〔２−７：デジタルテレビにおけるモニタ機能〕
上述したようなユーザによるジェスチャの入力時において、デジタルテレビ１００では、通常のテレビジョン放送で受信した映像などが流されている場合も多いと想定される。すなわち、デジタルテレビ１００は、何らかのソースからの映像を表示しつつ、ユーザからのジェスチャ入力を待つ。このような場合において、何らかのジェスチャ入力を行ったユーザから見れば、入力したジェスチャがジェスチャ認識装置１においてどのように認識されているのかをリアルタイムで知りたいというニーズが生じ得る。そのため、ジェスチャ認識装置１における処理の状態をデジタルテレビ１００などの表示部においてリアルタイムに表示することが好ましい。

図３２は、本発明の実施形態２に従うジェスチャ認識装置１の使用形態の一例を示す図である。図３２に示すように、ジェスチャ認識装置１が実装されたデジタルテレビ１００は、ジェスチャ認識装置１における処理の状態をＯＳＤ（Ｏｎ−ｓｃｒｅｅｎｄｉｓｐｌａｙ）などを用いて、ユーザへ（好ましくは、リアルタイムで）通知する。

より具体的には、図３２（ａ）には、入力されたジェスチャが開始形態であると判定され、その判定された開始形態のジェスチャがエアーコンディショナ５００にて実行すべき処理である（すなわち、指示の送信先がエアーコンディショナ５００である）と特定された場合に表示されるＯＳＤ１１０の一例を示す。ＯＳＤ１１０においては、「エアコン指示認識中・・・」というメッセージが表示されている。

その後、実行すべき処理の処理実行量が決定されると、デジタルテレビ１００に表示されるＯＳＤ１１０のメッセージは、図３２（ｂ）に示すように「設定温度変更指示送信中」へ切り替わる。

ＯＳＤ１１０などを用いてこのようなメッセージを表示することで、ユーザは、自身が行ったジェスチャ入力が正しく認識されているのかを容易に判断することができる。なお、上述の説明においては、デジタルテレビ１００の画面にメッセージを表示することで、ジェスチャ認識装置１における処理の状態をユーザに対して通知する構成を例示したが、これに限られず、例えば、音声や予め定められたインジケータを用いて、ユーザに対して通知を行ってもよい。さらに、メッセージではなく、デジタルテレビ１００の画面上に予め定められたマークや模様などを表示して、ユーザに対して通知を行ってもよい。

〔２−８：他の装置への適用〕
上述の実施形態２においては、ジェスチャ認識装置１がデジタルテレビ１００に実装された構成例を説明したが、これに限らず、任意の装置として実現できる。すなわち、ジェスチャ認識装置１そのものを独立した装置として実装してもよいし、タブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに実装してもよい。

《３．実施形態３》
〔３−１：概要〕
次に、実施形態３として、処理実行主体が安全スイッチである場合の実装例について説明する。安全スイッチは、自動化されたロボットなどによる作業者のケガなどを防止するために、作業者が立ち入ることができる範囲などを制限する装置である。具体的には、予め定められた範囲に作業者が立ち入ったときに、ロボットなどの動作を停止させるための安全機構である。

本発明の実施形態３に従う制御装置は、一例として、このようなロボットに近接した位置で作業を行う作業者やロボット自体を指示体として認識する。制御装置は、指示体の移動の軌跡に関する情報を取得し、それに基づいて、安全スイッチの動作範囲などを適正化する。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。

〔３−２：システム構成〕
図３３は、本発明の実施形態３に従う安全システム６００の概略構成を示す図である。図３３を参照して、安全システム６００は、互いにネットワーク６０４を介して接続された、制御装置６０２と、安全監視装置６０８とを含む。制御装置６０２は、ロボット６１０にアクセスする経路の範囲を撮像するための撮像部６３０からの動画像などを連続的に監視することで、作業者がロボット６１０に接近した場合に、安全動作を行う。より具体的には、制御装置６０２は、作業者が危険エリアに侵入したと認識すると、安全監視装置６０８に対して動作を停止させるための指示を送信する。制御装置６０２からの動作を停止させるための指示に応答して、安全監視装置６０８は、ロボット６１０のコントローラ６１２に対して停止指令を与え、ロボット６１０を停止させる。

また、制御装置６０２は、認識された作業者と設定されている危険エリア／安全エリアとの関係を評価し、作業者が危険エリアに入っているまたは入りそうであることを検知すると、警報通知装置６４０に対して警報出力を与える。この警報出力に応答して、警報通知装置６４０は、光や音などで作業者に対して、危険を通知する。

実施形態３においては、指示体として作業者および／またはロボット６１０を想定しており、これらの指示体の形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体である侵入監視部に実行させる処理の内容（例えば、ロボット６１０の強制停止や警報通知装置６４０での警報動作といった侵入検出時の出力操作の種別など）を特定するとともに、その処理を実行すべき量（例えば、安全エリアの範囲など）を決定する。これにより、安全を確保しつつ、作業効率を高めることができる。

〔３−３：指示体〕
次に、実施形態３において対象となる指示体の一例について説明する。図３４および図３５は、本発明の実施形態４に従う安全システム６００における指示体の一例を示す図である。図３４には、作業者が指示体とされる例を示し、図３５には、ロボットが指示体とされる例を示す。

図３４に示すように、作業者を指示体とする場合には、ヘルメットを装着しているか否かや、身に付けている道具や服装などをその態様として認識する。その上で、作業者が動く範囲や動く速度などを移動の軌跡として認識する。例えば、作業者の態様（典型的には、装着品や服装など）に基づいて、ロボットの扱いに慣れているか否かなどを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。より具体的には、装置の操作をその業務としている作業者に対しては、ロボットの挙動についての知識が少ないと考えられるので、危険エリアへの侵入の検出に応答してロボットを停止することで安全を確保する。一方で、ロボットのメンテナンスをその業務としている作業者に対しては、ロボットの挙動などについてより多くの知識を持っていると考えられるので、必要最小限の警報出力に留めておき、メンテナンス作業をより効率的に行う。このような作業者の業務の違いについては、例えば、作業者が工具類を腰からぶら下げているか否かといった作業者の形態に基づいて判断することができる。

その上で、本実施形態においては、作業者による該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図３４（ａ）に示すような座った状態で作業を行っている作業者は、移動量が少なく、安全エリアを拡大する必要性は低いと考えられる。これに対して、図３４（ａ）に示すような、作業者の動きが大きい場合や速い場合には、安全エリアを拡大する必要性が高いと考えられる。

そこで、実施形態４においては、移動の軌跡として、作業者の軌跡の情報に基づいて、安全エリアの大きさを決定する。この作業者の軌跡の情報としては、各作業者の移動量や移動速度などを含む。

一方、図３５に示すように、ロボットを指示体とする場合には、装置の大きさや外観などをその態様として認識する。その上で、ロボットが動く範囲や動く速度などを移動の軌跡として認識する。例えば、ロボットの外観などに基づいて、ロボットの動作パターンや可動部分などを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。

その上で、本実施形態においては、ロボットによる該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図３５（ａ）に示すような、一部の部分のみが可動するようなロボットについては、可動範囲が狭く、安全エリアを拡大する必要性は低いと考えられる。これに対して、図３５（ａ）に示すような、ロボット全体がスライドするような場合には、安全エリアを拡大する必要性が高いと考えられる。

そこで、実施形態４においては、移動の軌跡として、ロボットの軌跡の情報に基づいて、安全エリアの大きさを決定する。このロボットの軌跡の情報としては、各作業者の移動量や移動速度などを含む。

〔３−４：機能構成〕
次に、実施形態３に従う制御装置６０２の機能構成について説明する。図３６は、本発明の実施形態４に従う安全システムの制御装置６０２の機能構成を示すブロック図である。図３６を参照して、制御装置６０２は、主たる構成要素として、画像取得部６５０と、指示体検出部６５２と、軌跡監視部６５４と、安全エリア設定部６５６と、安全エリアＤＢ６５８と、侵入監視部６６０と、警報部６６２とを含む。

画像取得部６５０は、撮像部６３０から動画像などを取得する。
指示体検出部６５２は、画像取得部６５０によって取得された動画像に含まれる指示体を検出する。実施形態４においては、図３３に示すように、作業者が立ち入る可能性のあるエリアに対して、測定エリアおよび侵入付加エリアが設定される。これらのエリアは、安全エリアおよび危険エリアの変更に応じて動的に変更されてもよい。指示体検出部６５２は、測定エリアに存在する物体のうち指示体となるものを特定する。この特定された指示体の情報は軌跡監視部６５４へ出力される。

軌跡監視部６５４は、指示体検出部６５２からの情報に基づいて、測定エリア内の指示体を連続的に監視するとともに、その軌跡情報を算出する。軌跡監視部６５４が軌跡情報を算出するエリアは、測定エリアに加えて、侵入付加エリアも含む。すなわち、軌跡監視部６５４は、指示体がロボット６１０に近づくような動きをした場合もその軌跡を監視できるように、指示体検出部６５２に比較してより広いエリアにおける指示体の動きを監視する、
安全エリア設定部６５６は、指示体の形態の情報および軌跡監視部６５４からの指示体の軌跡の情報に基づいて、指示体が侵入付加エリアへ侵入する可能性を推定し、侵入監視部６６０および警報部６６２が実行すべき処理、ならびに、当該実行すべき処理の処理実行量を決定する。すなわち、安全エリア設定部６５６は、決定した実行すべき処理（例えば、侵入検出時の出力操作の種別など）を侵入監視部６６０および／または警報部６６２へ出力するとともに、決定した処理実行量（例えば、安全エリアの範囲）を侵入監視部６６０へ出力する。

安全エリアＤＢ６５８は、指示体検出部６５２によって検出される指示体の形態および軌跡監視部６５４によって算出される軌跡情報の組み合わせの各々に関連付けて、設定されるべき安全エリアの大きさを示す情報が定義されている。安全エリア設定部６５６は、この安全エリアＤＢ６５８に定義された情報を参照して、安全エリアの大きさを設定する。

侵入監視部６６０は、安全エリア設定部６５６により設定された危険エリアに指示体が侵入した場合または侵入しようとした場合に、予め指定された出力動作を実行する。警報部６６２は、侵入監視部６６０の出力動作に応答して、警報通知装置６４０などに対して、必要な警報出力を行う。

〔３−５：利点〕
上述のような構成を採用することで、安全エリアの大きさなどを指示体の態様および当該対象の移動の規制に基づいて、動的に最適化することができる。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。

《４．その他の実施形態：ソフトウェアによる実現例》
ジェスチャ認識装置１の各ブロック、特に、開始認識部２０、指示体検出部２１、ジェスチャ認識部２２、形態監視部２３、および、実行量決定部２４は、ハードウェアロジックによって構成してもよいし、次のようにＣＰＵを用いてソフトウェアによって実現してもよい。上述の制御装置６０２の各ブロックについても同様である。

すなわち、ジェスチャ認識装置１は、各機能を実現する制御プログラムの命令を実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、上記プログラムを格納したＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、上記プログラムを展開するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、上記プログラムおよび各種データを格納したメモリ等の記憶装置（記録媒体）などを備えている。より具体的には、ジェスチャ認識装置１は、以下に示すようなコンピュータによって実現することもできる。

図３７は、本発明の実施形態に従うジェスチャ認識装置１を実現するためのコンピュータ４００の要部構成を示すブロック図である。図３７を参照して、コンピュータ４００は、本実施形態に係る制御プログラムを含む各種プログラムを実行するＣＰＵ４０６と、ＣＰＵ４０６で実行される制御プログラムなどを不揮発的に格納するハードディスク（ＨＤＤ）４０２と、ＣＰＵ４０６での各種プログラムの実行に必要なデータを格納するための作業領域を提供するメモリＲＡＭ４０４と、記録媒体の典型例であるＣＤ−ＲＯＭ４１０からその格納された制御プログラムなどを読み出すための光学ディスクドライブ４０８とを含む。コンピュータ４００は、さらに、撮像部１２から動画などを取得するための撮像部インターフェイス４１２と、キーボードやマウスなどの入力部４１４と、各種情報を表示するための表示部４１６と、外部装置との間でデータを遣り取りするためのネットワークインターフェイス４１８とを含む。

本発明の目的は、上述した機能を実現するソフトウェアであるジェスチャ認識装置１の制御プログラムのプログラムコード（実行形式プログラム、中間コードプログラム、ソースプログラム）をコンピュータで読取可能に記録した記録媒体を、上記ジェスチャ認識装置１に供給し、そのコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。

上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フレキシブルディスク／ハードディスク等の磁気ディスクやＣＤ−ＲＯＭ／ＭＯ／ＭＤ／ＤＶＤ／ＣＤ−Ｒ等の光ディスクを含むディスク系、ＩＣカード（メモリカードを含む）／光カード等のカード系、あるいはマスクＲＯＭ／ＥＰＲＯＭ／ＥＥＰＲＯＭ／フラッシュＲＯＭ等の半導体メモリ系などを用いることができる。

また、ジェスチャ認識装置１を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、ＬＡＮ、ＩＳＤＮ、ＶＡＮ、ＣＡＴＶ通信網、仮想専用網（ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、ＩＥＥＥ１３９４、ＵＳＢ、電力線搬送、ケーブルＴＶ回線、電話線、ＡＤＳＬ回線等の有線でも、ＩｒＤＡやリモコンのような赤外線、Ｂｌｕｅｔｏｏｔｈ（登録商標）、８０２．１１無線、ＨＤＲ（ＨｉｇｈＤａｔａＲａｔｅ）、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。

本発明は上述した各実施形態に限定されるものではなく、特許請求の範囲に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

本実施形態に係る制御装置は、指示体を撮像するための撮像部を備えた各種電子機器、とりわけ、表示装置に好適に用いられる。本発明のジェスチャ認識装置は、これに限定されないが、処理実行主体である表示装置として、デジタルテレビ、タブレットＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに搭載することができる。

１ジェスチャ認識装置、２表示装置（処理実行主体）、３オブジェクト（選択肢）、１０制御部、１１記憶部、１２撮像部、１３表示部、１３ａ表示画面、１３ｂ表示画面、２０開始認識部（開始認識手段）、２１指示体検出部（指示体検出手段）、２２ジェスチャ認識部（認識手段）、２３形態監視部（監視手段）、２４実行量決定部（決定手段）、２５オブジェクト処理部（処理実行主体）、３０ジェスチャ規則記憶部、３１形態相関記憶部、３２オブジェクト記憶部、４０指示体包含領域、４１指示体領域、４１’ 突起部分、４２指示体基準点、４３移動方向、４４移動方向、４５注目領域、４６重心、４７直線、４８主軸、４９基準線、４９’ 基準線、５０カーソル、５１’〜５５’ サムネイル画像（オブジェクト／選択肢）、５２〜５４静止画、７０基準線、７１進行方向、７２進行方向、７３指示体包含領域、７４指示体包含領域、１００デジタルテレビ（電子機器／表示装置）、２００電子書籍リーダ（電子機器／表示装置）、３００スマートフォン（電子機器／表示装置）、４００コンピュータ、４０２ハードディスク、４０４ＲＡＭ、４０６ＣＰＵ、４０８光学ディスクドライブ、４１０ＣＤ−ＲＯＭ、４１２撮像部インターフェイス、４１４入力部、４１５表示部、４１８ネットワークインターフェイス、５００エアーコンディショナ、５５０シーリングライト、６００安全システム、６０２制御装置、６０４ネットワーク、６０８安全監視装置、６１０ロボット、６１２コントローラ６３０撮像部、６５０画像取得部、６５２指示体検出部、６５４軌跡監視部、６５６安全エリア設定部、６５８安全エリアＤＢ、６６０侵入監視部、６６２警報部。

Claims

処理実行主体に対する指示を生成する制御装置であって、
指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、
前記センシングデータを処理することで、前記指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、
前記認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、前記処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを備える、制御装置。
前記指示生成手段は、前記取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、前記取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、前記実行すべき処理の処理実行量を決定する、請求項１に記載の制御装置。
前記指示生成手段は、
前記センシングデータとして撮像された前記指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、前記処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、
撮像された前記指示体の形態の変化に基づいて前記処理実行量を決定する実行量決定手段とを含む、請求項２に記載の制御装置。
前記指示生成手段は、前記指示体を撮像して得られた動画の各フレームから、前記指示体の形態の変化量を特定する監視手段をさらに含み、
前記実行量決定手段は、前記指示体の形態の変化量に比例して、前記処理実行量を決定する、請求項３に記載の制御装置。
前記監視手段は、予め定められた前記指示体の基準の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項４に記載の制御装置。
前記監視手段は、前記認識手段によってジェスチャが認識された時点の前記指示体の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項４に記載の制御装置。
前記実行量決定手段は、前記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態における最大変化量に対して、前記監視手段によって特定された最新の形態における変化量が占める割合に基づいて、前記処理実行量を決定する、請求項５または６に記載の制御装置。
前記監視手段は、前記指示体の傾きが変化する角度を前記変化量として特定する、請求項４〜７のいずれか１項に記載の制御装置。
前記監視手段は、前記指示体としての指の傾きの変化量を特定する、請求項８に記載の制御装置。
前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が、前記指示体における直前の形態の変化量を下回る場合に、前記処理実行主体による処理の実行の停止を決定する、請求項４〜９のいずれか１項に記載の制御装置。
前記監視手段は、前記指示体の移動方向と反対の進行方向に向かって変化する、前記指示体の形態の変化量を負の数によって特定し、
前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が負の数である場合に、前記認識手段によって特定された前記処理の元の進行方向とは反対の進行方向における処理実行量を決定する、請求項４〜９のいずれか１項に記載の制御装置。
前記実行量決定手段は、前記処理実行量として、特定された前記処理実行主体が実行すべき処理の実行回数を決定する、請求項３〜１１のいずれか１項に記載の制御装置。
前記実行量決定手段は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、前記処理実行量として決定する、請求項３〜１１のいずれか１項に記載の制御装置。
前記実行量決定手段は、撮像された前記指示体としての指の傾きが変化するときの角度の変化量に比例して前記処理実行量を決定し、
前記処理実行量は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含む、請求項３に記載の制御装置。
前記実行量決定手段は、移動を開始した前記指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項３〜１４のいずれか１項に記載の制御装置。
前記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第２の指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項３〜１４のいずれか１項に記載の制御装置。
前記指示生成手段は、前記指示体としての操作者の２つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の２つの手の形の組み合わせに基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する、請求項２に記載の制御装置。
前記指示生成手段は、前記指示体としての操作者の２つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の２つの手の一方の代表点の軌跡に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の２つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定する、請求項２に記載の制御装置。
請求項１〜１８のいずれか１項に記載の制御装置と、
前記指示体を撮像した撮像画像を前記制御装置に供給する撮像部と、
前記制御装置によって特定された処理を、前記制御装置によって決定された処理実行量に従って実行する処理実行主体とを備える、電子機器。
前記制御装置によって決定される処理実行量は、前記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、
前記処理実行主体は、前記制御装置によって決定された選択肢の個数に従って、前記個数ごとの各選択肢にフォーカスを遷移させる、請求項１９に記載の電子機器。
処理実行主体に対する指示を生成する制御方法であって、
指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、
前記センシングデータを処理することで、前記指示体の形態および前記形態の移動の軌跡に関する情報を取得する認識ステップと、
前記認識ステップにおいて取得された形態および前記形態の移動の軌跡に基づいて、前記処理実行主体が実行すべき処理および前記実行すべき処理の処理実行量を決定する決定ステップとを含む、制御方法。
コンピュータを、請求項１〜１８のいずれか１項に記載の制御装置の各手段として機能させるための制御プログラム。
請求項２２に記載の制御プログラムを格納したコンピュータ読取可能な記録媒体。