JPWO2013137412A1 - 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 - Google Patents

制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JPWO2013137412A1
JPWO2013137412A1 JP2014505008A JP2014505008A JPWO2013137412A1 JP WO2013137412 A1 JPWO2013137412 A1 JP WO2013137412A1 JP 2014505008 A JP2014505008 A JP 2014505008A JP 2014505008 A JP2014505008 A JP 2014505008A JP WO2013137412 A1 JPWO2013137412 A1 JP WO2013137412A1
Authority
JP
Japan
Prior art keywords
indicator
gesture
unit
amount
execution amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014505008A
Other languages
English (en)
Inventor
隆義 山下
隆義 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp filed Critical Omron Corp
Priority to JP2014505008A priority Critical patent/JPWO2013137412A1/ja
Publication of JPWO2013137412A1 publication Critical patent/JPWO2013137412A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/0485Scrolling or panning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。

Description

本発明は、処理実行主体に対する指示を生成する制御装置、その制御装置を含む電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体に関するものである。
近年、各種の認識技術などを用いてユーザが発した指示を認識し、各種装置への指示を生成するような構成が知られている。このような技術の代表例として、ジェスチャ認識技術は、人間とコンピュータとのコミュニケーション手段として、知能ロボット、ゲーム、シミュレーション、生産技術など、様々な分野で応用され、発展してきた。具体的には、ジェスチャ認識装置は、撮像部の典型例であるビデオカメラなどによって、装置に対して指示を送る被写体の動きを撮像して得られた動画を画像処理して、被写体の一連の特定の動き(以下、「ジェスチャ」とも称す。)を認識する。
コンピュータをはじめとする各種装置は、ジェスチャ認識装置によって認識された、被写体のジェスチャの種類に応じた様々な処理を実行することができる。具体的には、ジェスチャ認識装置は、動画のあるフレームと別のフレームとを比較して、被写体がどこからどこへ移動したのか、すなわち、フレーム間の変化量を求めて被写体の動き(移動方向など)を認識することにより、ジェスチャを認識することができる。
例えば、特開2005−352531号公報(特許文献1)には、被写体の特定部位の往復運動を検出するジェスチャ検出方法および装置が開示されている。
また、特表2011−517357号公報(特許文献2)には、2枚の被写体の画像からジェスチャを認識する装置、および、このジェスチャ入力によって、ユーザインターフェースで表示された画像オブジェクトを操作する方法が開示されている。また、特許文献2では、被写体までの距離を測定可能なカメラを用いることにより、被写体の奥行きに係る動きからジェスチャを認識することが開示されている。
特開2007−12055号公報(特許文献3)には、移動通信端末機のカメラ部をアクティブにした状態において、ユーザが所定のモーションを行うと、移動通信端末機は、ユーザのモーションを認識し、そのモーションをパターン化してモーションパターンに応じる所定の動作を行う構成が開示されている。
特開2005−352531号公報 特表2011−517357号公報 特開2007−012055号公報
上述の特許文献1〜3に開示された技術では、操作者などの被写体の動作に基づいて、被写体が発した指示の種類を特定することができるに過ぎない。そのため、アナログ的な操作に適合させたり、より高い自由度で指示を生成したりすることができる構成が要望されている。
本発明の一実施形態に従う制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。
本明細書において、「処理実行主体」とは、本発明のいずれかの実施形態に従う制御装置、制御方法、制御プログラムなどによって生成された指示に従って、指示された処理を実行する主体を指す。すなわち、「処理実行主体」は、指示体に生じる形態およびその形態の移動の軌跡に関する情報に基づいて決定される、実行すべき処理、および、当該実行すべき処理の処理実行量に従って、現実に処理を具体化する装置やシステムなどを含む。後述するような、ジェスチャ認識装置において指示を生成する場合には、「処理実行主体」は、典型的には、指示体であるユーザによって指示されたジェスチャに対応する処理を実行する主体を指す。
本明細書において、「指示体」とは、処理実行主体に対して、明示的または暗示的に指示を生じるものを意味し、人間を含む生物だけでなく、任意の物体(無生物)を含む。典型的には、「指示体」は、動物(特に人)の手、指、腕、全身などを含む。あるいは、「指示体」は、外観や位置が時間的に変化するような装置などを含む。なお、「明示的に指示を生じる」とは、何らかの対象に対して指示を与えることを予め意図して、ユーザなどが何らかの動作を起こすような場合を意味する。一方、「暗示的に指示を生じる」とは、指示を行う意図の有無にかかわらず、「指示体」に生じる何らかの挙動に応答して、対応する処理の実行が必要であるとみなされる場合などを意味する。
「指示体の形態」とは、指示体に生じる立体的または平面的な外観や形状を指す。「指示体の形態」の情報は、これに限られることはないが、撮像部によって指示体を撮像することで得られる動画または一連の静止画列に含まれる。すなわち、「指示体の形態」の情報は、動画や一連の静止画列の形式をはじめとする、各種の形式の情報として出力され得る。
「(指示体の)移動の軌跡」とは、ある時空間範囲内における位置の移動を指す。そして、「移動の軌跡に関する情報」とは、典型的には、指示体がその存在位置を変化させるような場合に、ある時間内における指示体の変位量(スカラー量およびベクトル量のいずれも含む)、指示体の移動速度(瞬間速度、最高速度、平均速度、最低速度のいずれも含む)、指示体の移動加速度(瞬間加速度、最高加速度、平均加速度、最低加速度のいずれも含む)、指示体の移動加加速度(瞬間加加速度、最高加加速度、平均加加速度、最低加加速度のいずれも含む)、指示体の変位方向といった、指示体の移動に応じた特性値を含む。
「処理実行量」とは、処理実行主体が実行すべき処理についてどのくらいの量を実行すればよいのかを指す情報である。例えば、実行すべき処理が1回の実行によって完結するような場合には、「処理実行量」は、その実行すべき処理の繰り返し実行回数や連続実行回数などを含む。あるいは、実行すべき処理自体に度合いがあるような場合には、「処理実行量」は、その度合い(例えば、実行される時間や実行時の強度など)を指す。さらに、実行すべき処理において何らかのパラメータが変更されるような場合には、そのパラメータの変更度合いをも指す。
上記構成によれば、まず、取得手段が指示体をセンシングすることで得られたセンシングデータを取得する。続いて、認識手段がセンシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得し、指示生成手段が認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する。
このような構成を採用することで、形態と当該形態の移動の軌跡との組み合わせに応じた、特定の処理および当該特定の処理の処理実行量を含む指示を処理実行主体へ与えることができる。これによって、アナログ的な操作に適合させたり、より高い自由度で指示を発したりすることができる。
好ましくは、指示生成手段は、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定する。
好ましくは、指示生成手段は、センシングデータとして撮像された指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、撮像された指示体の形態の変化に基づいて処理実行量を決定する実行量決定手段とを含む。
上記構成によれば、ジェスチャ認識手段が、センシングデータとして撮像された指示体の移動の軌跡に関する情報に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、処理実行主体が実行すべき処理として特定する。続いて、実行量決定手段は、撮像された指示体の形態の変化に基づいて処理実行量を決定する。
つまり、制御装置は、指示体を撮像した動画を処理することによって、処理実行主体に実行させる処理の内容を特定することに加えて、その処理を実行すべき量を決定することが可能となる。
これにより、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、指示体の形態を変化させるだけで、簡単に、上記ジェスチャで指示した処理をどのくらい行えばよいのかを制御装置に対して指定することができる。つまり、ユーザは、上記ジェスチャを何度も繰り返し入力することに代わり、指示体の形態を変化させるという単純な動作を入力することによって、同じ処理を繰り返して行うことを処理実行主体に対して指示することができる。
上述の先行技術文献に開示されたジェスチャ認識装置は、多数表示された選択肢オブジェクト(特許文献2の例では画像オブジェクト)の中から目的のオブジェクトを選択するため指示を入力する入力デバイスとして不向きである。より具体的には、ユーザは、一般的なキーボード(例えば、十字キー)などにおいても、目的のオブジェクトにたどり着くまで、カーソルを移動させるための操作(十字キー押下など)を繰り返し行う。これと同様に、ジェスチャ認識装置においては、ユーザは、カーソルが目的のオブジェクトにたどり着くまで、カーソルを移動させるためのジェスチャを繰り返し行わなければならない。
従来、選択肢オブジェクトの一覧表示レイアウトによって、目的のオブジェクトに到達するまでの選択操作回数を減らす工夫が行われている。しかし、繰り返し操作を行うことを完全に回避することは不可能であり、依然、ジェスチャを入力する(指示体を動かす)という行為を繰り返し行うことは、ユーザにとって煩わしい操作である。
そのため、単純なジェスチャ入力に基づいて、繰り返し操作を認識することにより、ユーザの操作性を向上させる構成が要望されている。
例えば、従来、カーソルを左に10回移動させるという処理を処理実行主体にさせたい場合に、当該処理に対応するジェスチャ(例えば、指示体を左に動かす動作)を10回行わなければならなかった。これに対し、本実施形態に従う制御装置によれば、ユーザは、指示体を「左に動かす」動作1回と、指示体の形態に変化を付ける動作1回とを行うだけで済む(ここでは、例えば、「10回」という処理実行量に対応する変化を付けることになる)。
結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。つまり、単純なジェスチャ入力に基づいて、繰り返し操作を認識することが可能となり、結果として、ユーザの操作性が向上するという効果を奏する。
さらに、上記制御装置は、指示体を撮像して得られた動画の各フレームから、該指示体の形態の変化量を特定する監視手段をさらに含み、上記実行量決定手段は、指示体の形態の変化量に比例して、上記処理実行量を決定することが好ましい。
上記構成によれば、監視手段は、形態を変化させている指示体を監視し、その変化量を特定する。決定手段は、変化量が大きければ大きいほど、処理実行量が多くなるように決定することが可能となる。
したがって、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量(処理実行量)を、処理実行主体に対して簡単に指定することが可能になる。例えば、指示体の変化量を元の10倍にすれば、1回の処理を、10回繰り返し処理させるように、制御装置を介して、処理実行主体に対して指示することが可能である。
結果として、ユーザの操作性を向上させることが可能になるという効果を奏する。
より詳細には、上記監視手段は、予め定められた上記指示体の基準の形態(例えば、図9および図13の基準線49)と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。
上記構成によれば、監視手段は、撮像された最新の指示体の形態がどのように変化したのかを示す変化量を、予め決まっている絶対的な基準の指示体の形態と比較することによって、求めることができる。よって、変化量を特定する処理を単純化することが可能である。
あるいは、上記監視手段は、上記認識手段によってジェスチャが認識された時点の上記指示体の形態(例えば、図14および図15の開始形態s)と、撮像された上記指示体の最新の形態とを比較することにより、上記変化量を特定してもよい。
上記構成によれば、監視手段は、ユーザがジェスチャ入力のために指示体を移動させる動作を終えた後、引き続きユーザが処理実行量を指定するために指示体の形態を変化させる動作を監視する。監視手段は、指示体の移動が終了したとき指示体の形態を最初の形態(開始形態)とみなし、それ以降に指示体がどのように変化したのかを変化量として特定する。
つまり、ユーザが、指示体を移動させる動作を終えた後から、処理実行量を指定するために指示体を動かした量が、監視手段によって直接的に変化量として特定され、決定手段によって直接的に処理実行量に変換される。
したがって、処理実行量を指定するための動作と、その結果、処理実行主体が処理を繰り返す量とがユーザの感覚により一層一致し、ユーザにとってより直感的なユーザインターフェースを実現できる。
さらに、上記実行量決定手段は、上記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態(例えば、図13および図15の最終形態e)における最大変化量(例えば、図13および図15のθall)に対して、上記監視手段によって特定された最新の形態における変化量(例えば、図13および図15のθt)が占める割合に基づいて、上記処理実行量を決定してもよい。
上記構成では、処理実行主体の処理実行量の最大値が予め決められており、ユーザは、指示体の形態をどこまで変化させれば、最も多く処理実行主体に処理を実行させるのかを把握している。つまり、実行量決定手段は、基準の最終形態を把握している。
実行量決定手段は、ユーザが変化させた指示体の形態の変化量が、基準の最終形態の最大変化量に対して何%到達しているのかに応じて、実際に、処理実行主体に実行させる処理実行量を決定する。
このように、処理実行量の最大値に対する最大変化量が予め定められている構成では、ユーザは、指示体の形態をどの程度変化させれば、処理をどのくらいの量実行させることができるのかを予測することが可能となる。
なお、上記監視手段は、上記指示体の傾きが変化する角度を上記変化量として特定してもよい。なお、上記監視手段は、上記指示体としての指の傾きの変化量を特定してもよい。
上記構成によれば、ユーザは、指の傾きを変えるという簡単な動作によって、処理実行量を電子機器(処理実行主体)に対して指定することができる。
さらに、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、上記指示体における直前の形態の変化量を下回る場合に、上記処理実行主体による処理の実行の停止を決定してもよい。
指示体の最新の形態の変化量が、上記指示体における直前の形態の変化量を下回るということは、ユーザは、これまで進めてきた指示体の形態の変化を戻して、元の指示体の形態(基準の形態または開始形態)に近づけたということを意味する。
ユーザにとって、進めてきた動作を元に戻そうする動作からは、これまで実行されてきた処理を停止させるという結果に結びつきやすい。
このように、処理実行の停止を指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。
あるいは、上記監視手段は、上記指示体の移動方向と反対の進行方向に向かって変化する、上記指示体の形態の変化量を負の数によって特定し、上記実行量決定手段は、上記監視手段によって特定された、上記指示体における最新の形態の変化量が、負の数である場合に、上記認識手段によって特定された上記処理の元の進行方向とは反対の進行方向における処理実行量を決定してもよい。
指示体における最新の形態の変化量が、負の数であるということは、ユーザがジェスチャ入力のために指示体を移動させた方向とは反対の方向に向かって、指示体の形態を変化させたということを意味する。
ユーザにとって、これまでと反対の方向に指示体を進めるという動作からは、これまでの進行方向とは反対の方向に処理を進行させるという結果に結びつきやすい。
このように、処理の進行方向を反対側に切り替えることを指示するためのユーザインターフェースをユーザにとってより直感的なものにすることができる。
さらに、上記実行量決定手段は、上記処理実行量として、特定された上記処理実行主体が実行すべき処理の実行回数を決定してもよい。
あるいは、上記実行量決定手段は、上記特定された上記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、上記処理実行量として決定してもよい。
上述のとおり本実施形態に従う制御認識装置において、上記実行量決定手段は、撮像された上記指示体としての指の傾きが変化するときの角度の変化量に比例して上記処理実行量を決定し、上記処理実行量は、上記特定された処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含むようにしてもよい。
なお、上記実行量決定手段は、移動を開始した上記指示体の形態の変化に基づいて、上記処理実行量を決定することが好ましい。
これにより、ユーザは、ジェスチャ入力の移動に用いた指示体を、引き続き、そのまま処理実行量を指定するための動作に用いることができる。
あるいは、上記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第2の指示体の形態の変化に基づいて、上記処理実行量を決定してもよい。
複数の指示体を用いることにより、処理実行量を指定するための動作の表現力が増し、より詳細に、あるいは、より多段階的に、処理実行量を指定することが可能になる。
なお、上記指示生成手段は、上記指示体としての操作者の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。
あるいは、上記指示生成手段は、上記指示体としての操作者の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、上記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定することが好ましい。
これにより、生成する実行すべき処理およびその処理実行量をより高い自由度で生成することができる。つまり、処理実行主体が受け付ける指示内容の種類が多岐にわたる場合であっても、各指示内容を的確に認識することができる。
なお、上述の制御装置と、上記指示体を撮像した撮像画像を上記制御装置に供給する撮像部と、上記制御装置によって特定された処理を、上記制御装置によって決定された処理実行量に従って実行する処理実行主体とを含んでいる電子機器も本発明の技術的範囲に包含される。
上記電子機器において、上記制御装置によって決定される処理実行量は、上記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、上記処理実行主体は、上記制御装置によって決定された選択肢の個数に従って、当該個数ごとの各選択肢にフォーカスを遷移させてもよい。
本発明の別の一実施形態に従う制御方法は、処理実行主体に対する指示を生成する。制御方法は、指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、センシングデータを処理することで、指示体の形態および形態の移動の軌跡に関する情報を取得する認識ステップと、認識ステップにおいて取得された形態および形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および実行すべき処理の処理実行量を決定する決定ステップとを含む。
なお、上記制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記制御装置をコンピュータにて実現させるための制御プログラム、および、それを格納したコンピュータ読取可能な記録媒体も、本発明の技術的範囲に包含される。
本発明の一実施形態に従う制御装置は、処理実行主体に対する指示を生成する。制御装置は、指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、センシングデータを処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを含む。
本発明の別の一実施形態に従う制御方法は、処理実行主体に対する指示を生成する。制御方法は、指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、センシングデータを処理することで、指示体の形態および形態の移動の軌跡に関する情報を取得する認識ステップと、認識ステップにおいて取得された形態および形態の移動の軌跡に関する情報に基づいて、処理実行主体が実行すべき処理および実行すべき処理の処理実行量を決定する決定ステップとを含む。
デジタルテレビ(電子機器)に搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。 ジェスチャ認識装置に供給される動画の1フレームの一具体例を示す図であり、開始認識部の動作を説明する図である。 指示体検出部に供給される指示体包含領域の一具体例を示す図であり、指示体検出部の動作を説明する図である。 ジェスチャ認識部が追尾するフレーム上の指示体基準点の一具体例を示す図である。 ジェスチャ認識部が追尾するフレーム上の指示体基準点の一具体例を示す図である。 ジェスチャ規則記憶部に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。 ジェスチャ認識部がジェスチャを認識した直後、形態監視部に供給されたフレームの一具体例を示す図である。 形態監視部が、監視対象の指の傾きを特定するための、指の主軸を特定する方法の一具体例を示す図である。 形態監視部が、指の傾きを特定する方法の一具体例を示す図である。 認識されたジェスチャに従って、処理実行主体が処理を実行した結果、得られる表示画面の一具体例を示す図である。 認識されたジェスチャに従って、処理実行主体が処理を実行した結果、得られる表示画面の一具体例を示す図である。 ジェスチャ認識装置が実行するジェスチャ認識処理および処理実行主体が実行するオブジェクト処理の流れを示すフローチャートである。 本発明の他の実施形態に従う処理実行量決定方法を説明する図である。 本発明の他の実施形態に従う処理実行量決定方法を説明する図である。 本発明の他の実施形態に従う処理実行量決定方法を説明する図である。 ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮して、処理実行の停止を決定する方法を説明する図である。 ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮して、実行すべき処理の進行方向を決定する方法を説明する図である。 形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。 形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。 形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。 形態監視部が監視する、指示体の形態の変化量についての他の例を示す図である。 本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。 本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。 本発明の一実施形態に従うジェスチャ認識装置を他の電子機器に搭載した様子を示す図である。 表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。 本発明の実施形態2に従うジェスチャ認識装置を実装したデジタルテレビの応用例を示す模式図である。 本発明の実施形態2に従うジェスチャ認識装置で認識可能なジェスチャの一例を示す図である。 ジェスチャ規則記憶部に記憶されているジェスチャ規則のデータ構造の一例を示す図である。 本発明の実施形態2に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。 本発明の実施形態2に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。 本発明の実施形態2に従うジェスチャ認識装置で認識可能なジェスチャの別の一例を示す図である。 本発明の実施形態2に従うジェスチャ認識装置の使用形態の一例を示す図である。 本発明の実施形態3に従う安全システムの概略構成を示す図である。 本発明の実施形態4に従う安全システムにおける指示体の一例を示す図である。 本発明の実施形態4に従う安全システムにおける指示体の一例を示す図である。 本発明の実施形態4に従う安全システムの制御装置の機能構成を示すブロック図である。 本発明の実施形態に従うジェスチャ認識装置を実現するためのコンピュータの要部構成を示すブロック図である。
本発明の実施形態について、図面を参照しながら詳細に説明する。なお、以下の図面において同一または相当する部分には、同一の参照符号を付すものとし、それらの説明は重複して行わない。また、図面における長さ、大きさおよび幅などの寸法関係ならびに形状は、図面の明瞭化と簡略化のために適宜に変更されており、実際の寸法および形状を表してはいない。
本発明の実施形態について、図面に基づいて説明すると以下のとおりである。
《1.実施形態1》
以下で説明する実施形態1では、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置の実装例について説明する。ジェスチャ認識装置は、処理実行主体に対する指示を生成する。より具体的な実装例として、ジェスチャ認識装置を処理実行主体としての表示装置に適用した場合について説明する。処理実行主体は、本発明の一実施形態に従うジェスチャ認識装置によって認識されたジェスチャに対応する処理を実行する主体を含む。表示装置は、例えば、これに限定されないが、デジタルテレビ、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどである。なお、本発明の一実施形態に従うジェスチャ認識装置は、これらの表示装置と接続する、処理実行主体としての、録画再生装置(BD(Blu−ray Disc)レコーダ、DVD(Digital Versatile Disc)レコーダ)などに適用されてもよい。
以下の説明では、一例として、本発明の一実施形態に従うジェスチャ認識装置をデジタルテレビに適用した場合について説明する。
〔1−1:ジェスチャ認識装置の構成〕
図1は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置の要部構成を示すブロック図である。
まず、デジタルテレビのハードウェア構成について説明すると、図1に示すとおり、デジタルテレビ100は、少なくとも、制御部10、記憶部11、撮像部12および表示部13を備える構成となっている。その他にも、デジタルテレビ100は、デジタルテレビの一般的な機能を備えているが、このうち本発明に直接関係のない部分については記載を省略した。
撮像部12は、デジタルテレビ100の周辺(特に、前方)を撮像し、指示体の動きをとらえるための動画を得るものである。撮像部12は、例えば、CCD(Charge Coupled Devices)カメラまたはCMOS(Complementary Metal−Oxide−Semiconductor)カメラなどで実現されるが、その他の撮像装置を撮像部12として用いてもよい。撮像部12が撮像して得られた動画は、デジタルテレビ100に搭載されたジェスチャ認識装置1に供給される。例えば、ユーザは、撮像部12の前で、指示体(手指、顏、全身、あるいは、道具など)を動かす。これにより、ユーザは、ジェスチャ認識装置1に対してジェスチャを入力することができる。
言い換えれば、ジェスチャ認識装置1は、明示的または暗示的に指示を生じる被写体である指示体をセンシングすることで得られたセンシングデータ(動画や一連の静止画列)を取得する手段を有する。このセンシングデータを取得する手段としては、ジェスチャ認識装置1に接続される撮像部12の他に、ジェスチャ認識装置1に内蔵される撮像部であってもよい。さらに、別体の撮像部によって撮像された動画のデータなどを任意の通信手段または記録媒体を介してジェスチャ認識装置1に取り込むようにしてもよい。このように、センシングデータを取得する手段としては、公知の任意の手段を採用できる。
表示部13は、デジタルテレビ100(ジェスチャ認識装置1、または、デジタルテレビ100において、デジタルテレビの一般的な機能を実現する表示装置2)が処理した情報を表示するものである。例えば、表示部13は、ユーザがデジタルテレビ100を操作するための操作画面をGUI(Graphical User Interface)画面として表示する。表示部13は、デジタルテレビ100が処理可能な、画像(動画または静止画)またはアイコンを一覧表示する。表示部13は、画像またはアイコンの他にも、ユーザが選択可能な、種々の選択肢オブジェクト(以下、「オブジェクト」とも称する。)を一覧表示することができる。表示部13は、例えば、LCD(液晶ディスプレイ)などの表示装置で構成される。
記憶部11は、(1)デジタルテレビ100の制御部10が実行する制御プログラム、(2)制御部10が実行するOSプログラム、(3)制御部10が、ジェスチャ認識装置1または表示装置2が有する各種機能を実行するためのアプリケーションプログラム、および、(4)該アプリケーションプログラムを実行するときに読み出す各種データを、非一時的に記憶するものである。あるいは、(5)制御部10が各種機能を実行する過程で演算に使用するデータおよび演算結果等を一時的に記憶するものである。例えば、上記の(1)〜(4)のデータは、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)、HDD(Hard Disk Drive)などの不揮発性記憶装置に記憶される。例えば、上記の(5)のデータは、RAM(Random Access Memory)などの揮発性記憶装置に記憶される。どのデータをどの記憶装置に記憶するのかについては、デジタルテレビ100の使用目的、利便性、コスト、物理的な制約などから適宜決定される。例えば、撮像部12によって撮像されて得られた動画データは、ジェスチャ認識装置1が処理できるように、揮発性記憶装置にて実現された記憶部11に一時的に保存される。一方、ジェスチャ認識装置1がジェスチャを認識するために必要な規則などは、不揮発性記憶装置にて実現された記憶部11に非一時的に保存される。また、例えば、表示装置2(デジタルテレビ100)が表示部13に表示するオブジェクトのデータは、不揮発性記憶装置にて実現された記憶部11に非一時的に保存される。
制御部10は、デジタルテレビ100が備える各部を統括制御するものである。ジェスチャ認識装置1を実現するための機能ブロックとして、制御部10は、少なくとも、ジェスチャ認識部22、形態監視部23および実行量決定部24を備えている。さらに、制御部10は、ジェスチャ認識装置1を実現するための機能ブロックとして、開始認識部20および指示体検出部21を備えていてもよい。
なお、制御部10は、表示装置2(デジタルテレビ)を実現するための機能ブロックとして、オブジェクト処理部25を備えていてもよい。
上述した制御部10の各機能ブロックは、CPU(Central Processing Unit)などが、ROM(Read Only Memory)、NVRAM(Non−Volatile Random Access Memory)等で実現された不揮発性記憶装置に記憶されているプログラムをRAM(Random Access Memory)等の揮発性記憶装置に読み出して実行することで実現できる。
あるいは、制御部10の機能ブロックの一部または全部を専用のハードウェア回路(例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)など)で実現してもよい。
デジタルテレビ100の制御部10が実現する機能のうち、開始認識部20、指示体検出部21、および形態監視部23は、互いに連携してまたは単独で、センシングデータである動画像を処理することで、指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段として機能する。また、ジェスチャ認識部22および実行量決定部24は、認識手段(開始認識部20、指示体検出部21、または形態監視部23)によって取得された形態および当該形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段として機能する。これらのデジタルテレビ100の制御部10が実現する各種機能について、以下に詳述する。
〔1−2:開始認識部20の動作〕
開始認識部20は、ジェスチャ入力の開始を認識するものである。
デジタルテレビ100に電源が入っている間、撮像部12は、常に、動画の撮像を継続している。つまり、ユーザがジェスチャを入力している(意図的に指示体を動かしている)場合も、ユーザがジェスチャを入力していない(意図的に指示体を動かしていない)場合も、常に、撮像部12から動画が供給される。したがって、前者の場合を、後者と区別して、前者の場合のみ、動画を処理してジェスチャ認識処理を実行することが好ましい。これにより、処理負荷の高いジェスチャ認識処理が、不要な動画のフレームに対して無駄に実行されることを回避できるからである。
開始認識部20は、ジェスチャ認識部22によって認識される、デジタルテレビ100に対してジェスチャが入力されるときの動きとは種類が異なる特殊な動きを認識する。そして、開始認識部20は、この特殊な動きを、ジェスチャ認識装置1に対して入力された、ジェスチャ入力の開始を告げる合図として認識する。
図2は、ジェスチャ認識装置1に供給される動画の1フレームの一具体例を示す図であり、開始認識部20の動作を説明する図である。
本実施形態では、一例として、開始認識部20は、ユーザが指または手を細かく振る動きを、ジェスチャ入力開始の合図として認識する。
より具体的には、開始認識部20は、撮像部12から逐次供給されてくる動画の各フレームを順次処理して、フレーム間差分を順次求めていく。開始認識部20は、求めたフレーム間の差分値を記憶部11に一時的に格納して累積していく。この差分値の累積値が所定値を超えたとき、開始認識部20は、ジェスチャ入力開始の合図が入力されたと認識する。
例えば、図2に示すとおり、ユーザが撮像部12の前で、一定期間、指を左右に細かく振ったとする。開始認識部20は、フレーム間を比較して、領域40に変化が激しい部分を認める。これにより、開始認識部20は、ジェスチャ入力開始の合図が入力されたと認識することができる。
本実施形態では、さらに、開始認識部20は、この一定以上の差分値の累積が認められた領域40を、指示体が含まれている指示体包含領域40として特定することが好ましい。
これにより、下流の工程における各機能部(特に、指示体検出部21)の処理効率を向上させることが可能である。下流の工程における各機能部は、指示体の動きを認識するために、まず、指示体を特定する処理を行う。指示体を特定するために走査する領域が、フレーム全体から指示体包含領域40に絞られれば、指示体検出部21の処理効率が格段に向上することは明らかである。
〔1−3:指示体検出部21の動作〕
指示体検出部21は、ジェスチャ入力を行う指示体を検出するものである。
ジェスチャ認識装置1は、指示体がどのような動きを行うかによって入力されたジェスチャを認識する装置であるので、動きを追尾すべき対象がフレーム上のどこにあるのかを特定する必要がある。指示体検出部21は、追尾対象の指示体領域を検出する。
図3の(a)および(b)は、指示体検出部21に供給される指示体包含領域40の一具体例を示す図であり、指示体検出部21の動作を説明する図である。
本実施形態では、指示体は、ユーザの手指であり、ユーザは、手指を撮像部12の前で動かしてジェスチャを入力する。よって、本実施形態では、指示体検出部21は、図3の(a)または(b)に示すとおり、指示体包含領域40に含まれるユーザの手指の領域を、指示体領域41として検出する。
指示体検出部21が、指示体領域41を検出する方法としては、これには限定されないが、以下の方法が挙げられる。例えば、指示体検出部21は、snake法などの輪郭抽出手法によって指示体領域41を検出してもよい(図3の(a)の破線枠領域)。あるいは、指示体検出部21は、HSV色空間における肌色モデルを用いて、肌色の領域を指示体領域41として検出してもよい(図3の(b)の網点領域)。
これにより、下流の工程における各機能部(特に、ジェスチャ認識部22)は、ジェスチャ認識のために追尾すべき指示体を指示体領域41に明確に絞り込むことができる。
さらに、本実施形態では、指示体検出部21は、指示体領域41に含まれる1点を、指示体基準点42として検出することが好ましい。本実施形態では、一例として、指示体検出部21は、指の先端を指示体基準点42として検出する。
これにより、ジェスチャ認識部22は、ジェスチャ認識のために追尾すべき指示体を、指示体領域41ではなく、指示体基準点42として明確に絞り込むことができる。指示体を追尾する対象が、指示体領域41から指示体基準点42に絞られれば、ジェスチャ認識部22の処理効率が格段に向上することは明らかである。
ジェスチャ認識部22は、指示体の動きからジェスチャを認識し、ジェスチャに対応する指示内容を特定するものである。本実施形態では、各ジェスチャには、それぞれ、デジタルテレビ100が実行すべき処理が対応付けられている。よって、ジェスチャ認識部22は、認識したジェスチャに対応する、デジタルテレビ100が実行する処理の内容を特定する。
〔1−4:ジェスチャ認識部22の動作〕
図4〜図6は、ジェスチャ認識部22の動作を説明する図である。図4および図5は、ジェスチャ認識部22が追尾するフレーム上の指示体基準点42の一具体例を示す図である。図6は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則のデータ構造および具体例を示す図である。
本実施形態では、一例として、ジェスチャ認識部22は、指示体の上下左右の移動をジェスチャとして認識する。すなわち、ジェスチャ認識部22は、図4に示すとおり、指示体が、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」の4種類のジェスチャを認識する。ジェスチャ認識部22は、「円を描く」など、上記4種類に限定されず、別のジェスチャを認識してもよい。
具体的には、ジェスチャ認識部22は、指示体検出部21によって検出された指示体基準点42を追尾し、動画の各フレームを順次処理する。そして、ジェスチャ認識部22は、指示体基準点42の移動方向と、移動距離とを順次求める。移動距離は、指示体基準点42の位置についてフレーム間差分を求めることで得られる。ジェスチャ認識部22は、求めた指示体基準点42の移動距離を記憶部11に一時的に格納して累積していく。この移動距離の累積値が所定値を超えたとき、ジェスチャ認識部22は、上記求めた移動方向への指示体の移動が行われたことを認識する。
例えば、図5に示す例では、ジェスチャ認識部22は、指示体基準点42が、元の位置(白丸)から、現在の位置(黒丸)に移動したことにより、指示体基準点42の「移動」と、その移動方向43とを認識する。
図4における右向きの矢印、すなわち、移動方向43は、このフレーム上では(撮像部12から見て)、指示体基準点42が右に移動していることを表している。一方、移動方向43は、指示体を動かしている当人のユーザによって、指示体を左に動かしていると認識される方向である。よって、ジェスチャ認識部22は、指示体(指示体基準点42)の移動方向を、移動方向43特定した場合には、「左に移動」のジェスチャが入力されたと認識する。反対方向、すなわち、移動方向44を、指示体基準点42の移動方向であると求めた場合には、ジェスチャ認識部22は、「右に移動」のジェスチャが入力されたと認識する。
なお、ジェスチャの種別は、ここでは、図示しないが、識別情報によって識別されてもよい。例えば、「左に移動」、「右に移動」、「上に移動」、および、「下に移動」のジェスチャには、それぞれ、「00」、「01」、「10」、および、「11」などの識別情報が割り当てられていてもよい。この場合、移動方向43(図4および図5)が特定されたら、ジェスチャ認識部22は、「00」のジェスチャが入力されたと認識する。
次に、ジェスチャ認識部22は、認識したジェスチャに対応する指示内容、すなわち、デジタルテレビ100が実行すべき処理の内容を特定する。本実施形態では、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則(図6)に従って、入力されたジェスチャに対応する処理を特定する。
図6に示すとおり、ジェスチャ規則記憶部30は、ジェスチャ認識部22が認識したジェスチャの種類ごとに、デジタルテレビ100によって実行される処理が対応付けられている。なお、図6では、ジェスチャ規則をテーブル形式にて示しているが、これは、ジェスチャ規則記憶部30に記憶されるジェスチャ規則のデータ構造をテーブルに限定することを意図していない。
図6に示す例では、移動方向43に基づく「左に移動」のジェスチャには、処理「フォーカスをオブジェクト1つ分『左』に遷移させる」が対応付けられている。したがって、指示体が、移動方向43に沿って移動した場合には、ジェスチャ認識部22は、「左に移動」のジェスチャを認識し、デジタルテレビ100が実行すべき処理は、「フォーカスをオブジェクト1つ分『左』に遷移させる」ことであると特定する。
形態監視部23は、指示体の形態の変化を監視、その変化量を特定するものである。形態監視部23は、ジェスチャ認識部22によるジェスチャ認識の処理が開始された後に、指示体の形態の監視を開始してもよいし、ジェスチャ認識部22がジェスチャを認識した後に、指示体の形態の監視を開始してもよい。また、形態監視部23は、ユーザが、ジェスチャを入力するために動かしていた上記指示体(手指)の形態変化を監視してもよいし、上記指示体と同フレームに写っている別の指示体(第2の指示体)の形態変化を監視してもよい。
本実施形態では、先にジェスチャ認識部22がジェスチャを認識し、その後に、今度は、形態監視部23が、当該ジェスチャを入力するために動かされていた(移動していた)同指示体の形態変化を監視するものとする。つまり、ユーザは、ジェスチャ入力のために、指示体を上下左右のいずれかの方向へ移動させたのち、今後は、同指示体の形態を変化させる。本発明において、指示体の形態を変化させる動作は、先に入力したジェスチャに対応する処理をどのくらいの量繰り返すのかを指示するための処理実行量指定動作である。本発明において、ユーザは、同じジェスチャを繰り返し入力することに代わって、上記処理実行量指定動作を1つ行うだけで、繰り返し処理をデジタルテレビ100に対して指示することができる。
〔1−5:形態監視部23の動作〕
図7〜図9は、形態監視部23の動作を説明する図である。図7は、ジェスチャ認識部22がジェスチャを認識した直後、ジェスチャ認識装置1に入力されたフレームの一具体例を示す図である。図8は、形態監視部23が、指示体の形態としての指の傾きを求めるための、指の主軸を特定する方法の一具体例を示す図である。図9は、形態監視部23が、指の傾きを求める方法の一具体例を示す図である。
本実施形態では、形態監視部23は、一例として、ジェスチャ入力のための移動を終えた指示体、すなわち、ユーザの指の傾きの変化を、形態の変化として監視する。
まず、形態監視部23は、図7に示すとおり、ジェスチャ認識部22がジェスチャを認識した直後のフレームから、開始対象となる指示体を特定する。ここでは、形態監視部23は、開始認識部20によって特定された指示体包含領域40と、指示体検出部21によって特定された指示体領域41とを取得する。指示体領域41は、ここでは、先ほどまでジェスチャ入力を行っていたユーザの手指である。
次に、本実施形態では、形態監視部23は、ユーザの指の傾きを求めるために、監視対象の指の基準となる主軸を特定する。形態監視部23が、指の主軸を求める方法はこれに限定されないが、例えば、以下の方法が考えられる。
図8に示すとおり、形態監視部23は、指示体包含領域40における指示体領域41のうち、突起物の形状(指の形状)を有する突起部分41’を特定し、この突起部分の外接矩形を注目領域45として切り出す。そして、形態監視部23は、注目領域45における突起部分41’の重心46を求める。形態監視部23は、重心46を通る直線47を定義する。重心46を通る直線47は無数にあるので、本実施形態では、一例として、形態監視部23は、重心46を通る直線47を、重心46を垂直に通る直線47を基準にして5度間隔で定義してもよい。続いて、形態監視部23は、定義した各直線47のうち、注目領域45において、突起部分41’と重なる線分の長さが最も長くなる直線47を、指の主軸として特定する。図8に示す例では、形態監視部23は、突起部分41’と重なる線分の長さが最も長くなる直線として、太い直線47を、主軸48と特定する。
最後に、形態監視部23は、以上のとおり求めた指の主軸48と、基準となる角度を持った直線とがなす角度を求めることにより、監視対象である指示体(ユーザの指)の傾きを得ることができる。そして、上記角度の変化を監視することにより、形態の変化、すなわち、指の傾きの変化を監視することができる。
本実施形態では、一例として、形態監視部23は、図9に示すとおり、フレームに対して垂直な線を、基準線49と定義する。ここでは、形態監視部23は、基準線49の傾きθsを0度とみなす。そして、形態監視部23は、ある時点tのフレームにおいて上記のようにして求めた指の主軸48と、基準線49とがなす角度θtを求める。形態監視部23は、求めた角度θtを、上記時点tの指の傾きとして得る。
ユーザは、デジタルテレビ100に実行させたい処理実行量に応じて、徐々に指を傾けることができる。指を傾ける動作を写した動画の各フレームは逐次撮像部12からジェスチャ認識装置1に供給される。
形態監視部23は、フレーム(t、t+1、t+2、・・・)ごとに順次指の主軸48を求めて、指の傾きの変化を監視する。形態監視部23は、求めた指の傾きθtを実行量決定部24に逐次通知する。
なお、形態監視部23は、上記の例に限定されず、例えば、指示体領域41に対して、楕円フィッティング法を用いることにより、指の傾きを求めてもよい。
〔1−6:実行量決定部24の動作〕
実行量決定部24は、形態監視部23によって求められた指示体の形態に応じて、デジタルテレビ100に実行させる処理の量(以下、「処理実行量」とも称する。)を決定するものである。実行量決定部24は、処理実行量を、どのような単位で表現してもよい。例えば、実行量決定部24は、処理の実行回数を処理実行量として決定してもよいし、処理対象となるオブジェクトの個数を処理実行量として決定してもよい。
本実施形態では、図6に示すとおり、デジタルテレビ100に実行させる処理は、フォーカス(カーソル)をオブジェクト(選択肢)1つ分、いずれかの方向に遷移させる、という処理である。そこで、実行量決定部24は、本実施形態では、形態監視部23によって求められた指の傾きに応じて、「フォーカスをオブジェクト1個分所定方向に遷移させる」処理を連続して実行する回数(処理実行回数)を、処理実行量として決定する。なお、実行量決定部24は、形態監視部23によって求められた指の傾きに応じて、「フォーカスをオブジェクト所定個数分所定方向に遷移させる」処理を実行するときの、上記「オブジェクト所定個数」を処理実行量として決定してもよい。
実行量決定部24によって、上記処理実行回数が決定された場合には、デジタルテレビ100は、「フォーカスをオブジェクト1個分所定方向に遷移させる」処理を、決定された処理実行回数分だけ連続して実行する。
また、実行量決定部24によって、上記「オブジェクト所定個数」が決定された場合には、デジタルテレビ100は、決定されたオブジェクト個数分、上記所定方向にフォーカスを遷移させる。
なお、実行量決定部24が処理実行量を決定するためには、形態の変化量、すなわち、指の傾き(形態変化量)と、それに応じた処理実行量との相関関係が予め規定されている必要がある。
形態相関記憶部31には、指示体の形態の変化量と、処理実行量との相関関係が記憶されている。形態相関記憶部31が記憶する相関関係の情報は、対応テーブルの形で実現されてもよいし、計算式の形で実現されてもよい。いずれにしても、実行量決定部24は、形態相関記憶部31に記憶されている相関関係の情報を参照することにより、得られた形態の変化量に基づいて、処理実行量を決定することができる。
実行量決定部24が処理実行量を決定する方法は、これには限定されないが、例えば、以下の方法が考えられる。
ジェスチャ入力が終わり、引き続きユーザは、指示体である指を傾ける動作を行っているとする。このときのある時点tにおいて、当該時点tのフレームが撮像部12より得られる。
形態監視部23は、上記時点tの上記指の傾きθtを求める。
実行量決定部24は、下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=α×θt
ここで、αは、予め定められた係数である。上記計算式および係数αは、形態相関記憶部31に記憶されており、実行量決定部24によって読み出される。このように、上記計算式に従えば、実行量決定部24は、ユーザが指を傾けるほど、処理実行量を多く決定することができる。
例えば、係数αが、‘0.5(回)’と定められていて、形態監視部23によって求められた時点tの指の傾きθtが、60度であるとする。この場合、実行量決定部24は、時点tにおける、処理実行量Mtを、0.5×60=30回と決定する。なお、もし、ユーザが80度指を傾けた場合には、実行量決定部24は、処理実行量を40回と決定することになる。
ここで、形態監視部23および実行量決定部24の上流の工程で、ジェスチャ認識部22が、入力されたジェスチャに対応する処理が、「フォーカスをオブジェクト1つ分『左』に遷移させる」であると特定したとする。
この場合、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を30回繰り返す、という指示が、ジェスチャ認識装置1から表示装置2(すなわち、デジタルテレビ100)に対して入力されることになる。
〔1−7:表示装置2におけるオブジェクト処理機能〕
オブジェクト処理部25は、オブジェクト記憶部32に記憶されている各オブジェクトを処理するものである。本実施形態では、オブジェクト処理部25は、選択肢である各オブジェクトを、表示部13に表示する。さらに、オブジェクト処理部25は、選択されている(フォーカスされている)オブジェクトを、他の非選択のオブジェクトと区別して表示する。
例えば、オブジェクト処理部25は、オブジェクトに対してフォーカス制御を行う。具体的には、オブジェクト処理部25は、特定のオブジェクトにフォーカスを当てて、そのオブジェクトを他の非選択のオブジェクトと区別する。さらに、そのことが可視化されるように、オブジェクト処理部25は、カーソル表示位置を制御して、フォーカスされたオブジェクトにカーソルを当てる。オブジェクト処理部25は、他のオブジェクトにフォーカスを遷した場合には、当該他のオブジェクトにカーソルを合わせる。例えば、オブジェクトがサムネイル画像である場合、オブジェクト処理部25は、複数のサムネイル画像をオブジェクト記憶部32から読み出して、タイル状に一覧表示する。そして、その中でフォーカスされたサムネイル画像にカーソルを当てて表示する。
あるいは、オブジェクトが電子書籍のページ(選択肢)である場合には、以下のようにフォーカス制御する。つまり、オブジェクト処理部25は、フォーカスされたページだけを表示部13に表示してもよい。そして、他のページが選択された場合には、フォーカスを、当該他のページに遷し、これまで表示されていたページを非表示にし、新たにフォーカスされた上記他のページを表示する。
オブジェクト処理部25は、ジェスチャ認識装置1から供給される指示に従って動作することができる。より詳細には、ジェスチャ認識装置1のジェスチャ認識部22によって認識されたジェスチャに対応する処理を、オブジェクト処理部25はジェスチャ認識部22からの指示に従って実行する。また、実行量決定部24によって決定された処理実行量を満たすように、上記処理を繰り返す。
上述の例のとおり、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を30回繰り返す、という指示が、ジェスチャ認識装置1から表示装置2(すなわち、デジタルテレビ100)に対して入力されるとする。この場合、オブジェクト処理部25は、一覧表示されているオブジェクトのうち、フォーカスを、現在のフォーカス中のオブジェクトから、30個分左に配置されているオブジェクトに遷移させる。そして、オブジェクト処理部25は、カーソルをオブジェクト30個分左に移動させる。あるいは、オブジェクトが書籍ページの場合には、オブジェクト処理部25は、30ページ先のページにフォーカスを遷移させて、30回ページを繰って、当該ページを表示させる(書籍が、右綴じ左開きの場合)。
図10および図11は、ジェスチャ認識装置1によって認識されたジェスチャに従ってオブジェクト処理部25が処理を実行した結果、得られる表示画面の一具体例を示す図である。
図10および図11に示す例では、一例として、オブジェクト処理部25は、オブジェクト記憶部32に記憶された静止画のサムネイル画像を表示画面(13a、13b)の上段に一覧表示する(サムネイル画像51’〜55’)。さらに、オブジェクト処理部25は、一覧表示されたサムネイル画像のうち、フォーカスされているサムネイル画像に対応する静止画を、表示画面(13a、13b)の下段に表示する。例えば、図10の表示画面13aでは、サムネイル画像52'がフォーカスされているので、サムネイル画像52'に対応する静止画52が下段に表示される。さらに、オブジェクト処理部25は、フォーカスされているサムネイル画像を明示するために、カーソル50を、フォーカスされているサムネイル画像の位置に表示する。
例えば、表示部13の表示画面で、サムネイル画像51'がフォーカスされている状態のときに、ユーザが指を左に移動させてジェスチャ入力を行ったとする(図10のSce1;シーン1)。この場合、ジェスチャ認識部22は、ジェスチャ「左に移動」を認識し、対応する処理「フォーカスをオブジェクト1つ分『左』に遷移させる」を、オブジェクト処理部25に指示する。
オブジェクト処理部25は、上記のジェスチャ認識部22からの指示に従って、表示画面13aに示すとおり、サムネイル画像51'の1つ左のサムネイル画像52'にフォーカスを遷移させる。そして、本実施形態では、さらに、オブジェクト処理部25は、カーソル50をサムネイル画像51'から1つ左に動かしてサムネイル画像52'に当てる。さらに、サムネイル画像52'に対応する静止画52を下段に表示する。
ユーザは、指の移動を終えた後、引き続き、指の形態を変化させる。具体的には、指の傾きを左に所定角度だけ変化させる(図10のSce2;シーン2)。形態監視部23は、上記指が傾いていく様を監視しており、逐次、指の傾きを求める。一例として、上記シーン2の時点では、形態監視部23は、基準線49と、指の主軸48とがなす角度θaを、シーン2の時点の指の傾き(形態の変化量)として特定する。
実行量決定部24は、例えば、形態相関記憶部31に記憶されている相関関係の情報と、上記角度θaとに従って、角度θaに対応する処理実行量を「1枚」と決定したとする。ここでは、指の移動も、形態変化も左方向に実行された。そこで、実行量決定部24は、シーン2の時点で、処理実行量「1枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示する。
オブジェクト処理部25は、上記の実行量決定部24からの指示に従って、先のジェスチャ認識部22によって指示された処理を繰り返す。すなわち、オブジェクト処理部25は、もう一度、フォーカスをオブジェクト1つ分「左」に遷移させる。結果として、表示画面13bに示すとおり、オブジェクト処理部25は、フォーカスを、サムネイル画像52’からサムネイル画像53’に遷移させて、カーソル50も左に1つ動かす。
ここで、ユーザが、θaの角度のまま指を傾ける動作を継続すると、逐次、実行量決定部24は、処理実行量「1枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示する。
オブジェクト処理部25は、上記指示が供給される間、フォーカスを、サムネイル画像53’から、54’、55、’・・・と1枚送りで遷移させる処理を継続して実行する。ここでは、カーソル50も、サムネイル画像53’から、54’、55、’・・・と1枚ごとに移動させる。
一方、図11に示すとおり、図10と同じシーン1(図11のSce1)に引き続き、今度は、ユーザが、指を、θbの角度で傾けたとする(図11のSce2’)。シーン2’(Sce2’)におけるθbは、シーン2(図10のSce2)におけるθaよりも大きな角度である。これに伴い、実行量決定部24は、角度θbに対応する処理実行量を「2枚」と決定し、また、処理進行方向を「左」と決定したとする。
このシーン2’が継続すれば、実行量決定部24は、処理実行量「2枚」および処理進行方向「左」を、オブジェクト処理部25に対して指示し続ける。
この場合、オブジェクト処理部25は、表示画面13bに示すとおり、上記指示が供給される間、フォーカスを、サムネイル画像52’から、サムネイル画像54’へと2枚送りで遷移させる。そして、オブジェクト処理部25は、この処理を、上記指示が供給される間継続する。すなわち、オブジェクト処理部25は、フォーカスを、図示しない、サムネイル画像56’、58’、60’、・・・と2枚送りで遷移させ続ける。
なお、指の傾きが、θbからさらに大きくなっていく場合には、実行量決定部24は、処理実行量を、「3枚」、「4枚」、・・・と逐次決定する。オブジェクト処理部25は、新たな処理実行量が実行量決定部24から供給された場合には、それに従って、3枚送り、4枚送り、・・・とさらに高速にフォーカスを遷移させることができる。なお、上述の1枚送りとは、フォーカスを、オブジェクト1個ごとに遷移させていくことを指す。2枚送りとは、オブジェクトを1個飛ばして、オブジェクト2個ごとにフォーカスを遷移させていくことを指す。3枚送り(4枚送り)とは、それぞれ、オブジェクトを2個(3個)飛ばして、オブジェクト3個(4個)ごとにフォーカスを遷移させていくことを指す。オブジェクト処理部25は、オブジェクト何個ごとにでもフォーカスを遷移させることができる構成である。例えば、1000個のオブジェクトが一覧表示されている場合には、オブジェクト処理部25は、100個ごとにフォーカスを遷移させていくこともできる。
〔1−8:利点〕
以上の構成によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ100に対して入力することができる。
例えば、従来、カーソルを左に10回動かしたい場合に、指示体を左に動かす動作を10回行わなければならないところ、本発明の一実施形態に従うジェスチャ認識装置1によれば、指示体を左に動かす動作1回と、指示体を傾ける動作1回とで済む。
さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量をデジタルテレビ100に対して指定することが可能になる。例えば、指示体の形態の変化量(指の傾き)を10倍にすれば、10枚ずつ移動させていたカーソルを、100枚ずつ移動させるようにデジタルテレビ100に対して指示することが可能である。
〔1−9:処理フロー〕
図12は、ジェスチャ認識装置1が実行するジェスチャ認識処理および表示装置2(デジタルテレビ100)が実行するオブジェクト処理の流れを示すフローチャートである。
ユーザは、ジェスチャを入力するためにまず、撮像部12の前で、指を振る動作をするなどして、ジェスチャ入力開始の合図を送る。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、開始認識部20は、フレーム間の変化量に基づいて、ジェスチャ入力開始の合図を認識する(ステップS101)。続いて、開始認識部20は、ジェスチャを入力する指示体が含まれている領域(例えば、指示体包含領域40)をフレームから特定する(ステップS102)。
ここで、さらに続けて、指示体検出部21が、指示体包含領域40から指示体領域41を検出し、さらには、指示体領域41上に指示体基準点42を検出することが好ましい。
そして、ジェスチャ認識部22は、指示体を追尾してジェスチャ認識処理を開始する(ステップS103)。例えば、指示体検出部21によって検出された指示体基準点42を追尾することが好ましい。
本実施形態では、ユーザは、所望のジェスチャを入力するために、上下左右のいずれかの方向に指示体(指)を移動させる。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、ジェスチャ認識部22は、フレーム間差分から、指示体基準点42の移動方向および移動距離を求める。移動距離は、フレームが順次供給されることで累積される。移動距離が一定以上になると、ジェスチャ認識部22は、指示体が「移動した」と認識する。ジェスチャ認識部22は、指示体の移動を認識すると(ステップS104においてYES)、指示体基準点42を追尾した結果得られた指示体基準点42の移動方向に基づいて、ジェスチャを認識する(ステップS105)。例えば、図5に示すとおり、指示体基準点42が、移動方向43に移動した場合には、ジェスチャ認識部22は、図6に示す「左に移動」のジェスチャが入力されたことを認識する。続いて、ジェスチャ認識部22は、入力されたジェスチャに応じて表示装置2が実行すべき処理を特定する。例えば、図6に示すジェスチャ規則に従って、「左に移動」に対応付けられた「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を、表示装置2に実行させる処理として特定する。ジェスチャ認識部22は、特定した処理を表示装置2に実行させるための指示を表示装置2(ここでは、オブジェクト処理部25)に出力する(ステップS107)。
これに対し、表示装置2のオブジェクト処理部25は、上記指示に従って、指示された処理を実行する(ステップS108)。上述の例では、オブジェクト処理部25は、これまでフォーカスされていたオブジェクトの左に表示されているオブジェクトにフォーカスを遷移させる。また、オブジェクト処理部25は、これまでフォーカスされていたオブジェクトに当てられていたカーソルを、新しくフォーカスされた左のオブジェクトに移動させる。
一方、本実施形態では、ユーザは、ジェスチャの入力を終えると、当該ジェスチャによって装置に行われる処理を繰り返したい場合には、引き続き、連続して処理を実行させるための動作を、指示体(ここでは、例えば指)を使って行う。この様子を撮像した動画(フレーム群)がジェスチャ認識装置1に供給されると、ジェスチャ認識装置1の形態監視部23は、引き続き随時供給されるフレームを処理して撮像された指示体の形態を監視する(ステップS109)。形態監視部23は、上流の各工程によって特定された指示体包含領域40における指示体領域41(手指)の形態を監視する。ここでは、一例として、形態監視部23は、指示体領域41から、さらに、突起状の指の部分だけを含む注目領域45を特定し、注目領域45における指の主軸48を特定する。そして、この指の主軸48の傾きを追尾するものとする。
形態監視部23は、フレーム間差分値を累積して、指示体の動き(すなわち、形態の変化)を認識すると(ステップS110においてYES)、最新のフレームにおいて、注目領域45における指の傾きを求める(ステップS111)。例えば、形態監視部23は、フレームにおいて垂直な基準線49と主軸48とがなす角度を指の傾きとして求める。
続いて、実行量決定部24は、形態相関記憶部31に記憶された相関関係の情報に従って、形態監視部23によって求められた指の傾きに基づいて、処理実行量を決定する。相関関係の情報は、形態の変化量と、処理実行量との相関関係を示す情報であり、この情報によって、形態監視部23が求めた指の傾きに対応する処理実行量が得られる。
例えば、実行量決定部24は、「Mt=0.5(回)×θt」という計算式(相関関係の情報)に従って、形態の変化量θt=60度であること基づいて、処理実行量Mtを「30回」と求める。
続いて、実行量決定部24は、ステップS112にて決定した処理実行量「30回」を、表示装置2に対して出力する(ステップS113)。
これに対し、表示装置2のオブジェクト処理部25は、上記処理実行量をジェスチャ認識装置1から受信すると(ステップS114においてYES)、ステップS108において指示された処理を、上記処理実行量にて指定された回数実行する(ステップS115)。上述の例では、オブジェクト処理部25は、「フォーカスをオブジェクト1つ分『左』に遷移させる」処理を、30回実行する。さらに、オブジェクト処理部25は、カーソルを、30個左のオブジェクトに移動させてもよい。ここで、オブジェクト処理部25は、カーソルを、1個1個のオブジェクトに当てながら移動させてもよいが、30個左のオブジェクトに一気に移動(ジャンプ)させることが好ましい。
ユーザは、上述のカーソルの移動速度をさらに早めたいときは、指の傾きを大きくすればよい。指示体がフレーム内に認められる間は(ステップS116においてNO)、ステップS110〜S115の処理が繰り返し実行される。すなわち、オブジェクト処理部25は、カーソルをオブジェクト30個ごとに左にジャンプさせる処理を繰り返す。
あるいは、ユーザは、カーソルの移動(繰り返し)を終わらせたいときは、指示体自体を撮像部12の撮像範囲からはずしてジェスチャ入力を完了させることができる。撮像部12から供給されるフレームにおいて、指示体が認識されなくなったら(ステップS116においてYES)、形態監視部23は、形態の監視を終了し、実行量決定部24に対して行っていた形態変化量(指の傾き)の供給を停止する。これに伴い、実行量決定部24は、表示装置2に対して行っていた処理実行量の供給を停止し、代わりに、処理の実行を停止するように表示装置2に対して指示する(ステップS117)。
これに対し、表示装置2のオブジェクト処理部25は、ジェスチャ認識装置1から処理停止指示を受信すると(ステップS118においてYES)、ステップS108において指示された処理を停止する(ステップS119)。すなわち、オブジェクト処理部25は、カーソルの移動(フォーカスの遷移)を停止する。
以上の方法によれば、ユーザは、指示体を移動させてジェスチャを入力するのに加えて、上記指示体の形態を変化させるだけで、簡単に、上記ジェスチャを何度も繰り返し入力するのと同等の指示をデジタルテレビ100に対して入力することができる。
例えば、従来、カーソルを左に10回動かしたい場合に、指示体を左に動かす動作を10回行わなければならないところ、本発明の一実施形態に従うジェスチャ認識装置1によれば、指示体を左に動かす動作1回と、指示体を傾ける動作1回とで済む。
さらに、ユーザは、指示体の形態の変化量を調節することにより、その繰り返し量(処理実行量)をデジタルテレビ100に対して指定することが可能になる。例えば、指示体の変化量(指の傾き)を10倍にすれば、10枚ずつ移動させていたカーソルを、100枚ずつ移動させるようにデジタルテレビ100に対して指示することが可能である。
〔1−10:処理実行量決定方法についての変形例〕
上述の実施形態では、図9に示すとおり、形態監視部23は、絶対的な基準の形態(θs=0度の、垂直な基準線49)と、現時点tにおける形態(主軸48)との比較によって、指示体の現時点tにおける形態変化量(θt)を取得する構成であった。そして、実行量決定部24は、Mt=α×θt(αは定数)に従って、処理実行量を決定する構成であった。
しかし、形態監視部23および実行量決定部24を以下のように構成し、他の方法で処理実行量を決定してもよい。本発明の他の実施形態に従う処理実行量決定方法について、図13〜図15を参照しながら説明する。
図13は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図13に示す変形例では、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、表示装置2のオブジェクト処理部25において、カーソルをジャンプさせるオブジェクト数の最大値が「100個」と定まっている。つまり、オブジェクト処理部25は、カーソル(フォーカス)を、最大で100ずつ上下左右に移動させることが可能な構成であるとする。
形態監視部23は、実施形態1と同様に、基準線49を定義し、現時点tにおける変化量θtを求め、実行量決定部24に供給する。
本変形例では、実行量決定部24は、さらに、図13に示すとおり、予め定まっている処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、水平な基準線70と定義する。実行量決定部24は、処理実行量の最小値(例えば、0個)に対応する基準の形態を、θs=0度(垂直な基準線49)とみなす。また、実行量決定部24は、処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、θe=90度(水平な基準線70)とみなす。そして、実行量決定部24は、垂直な基準線49におけるθs=0度と、水平な基準線70におけるθe=90度とに基づいて、最大変化量(θe−θs=θall=90度)を取得する。
そして、本変形例では、実行量決定部24は、上記最大変化量(θall=90度)に対して、現時点tの形態変化量(θt)の占める割合を求める。そして、実行量決定部24は、この割合の大きさに比例して、処理実行量を決定する。
例えば、実行量決定部24は、形態相関記憶部31に記憶されている下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、形態監視部23によって求められた時点tの指の傾きθtが、45度であるとすると、実行量決定部24は、処理実行量Mtを、(45÷90)×100=50回と決定する。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
図14は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図14に示す変形例において、図9に示す実施形態1の処理実行量決定方法と異なる点は、以下のとおりである。すなわち、形態監視部23は、フレームにおいて垂直な線を、絶対的な基準線として定義する構成であった。本変形例では、形態監視部23は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態(開始形態s)とみなす。したがって、ユーザの指が、ジェスチャ入力を完了した時点で、すでに傾いていたとしても、その時に形態監視部23が監視を開始すれば、その時点での指の主軸を、基準線49’として定義する。形態監視部23は、定義した基準線49’の傾きθsを0度と定義する。
形態監視部23は、現時点tにおける指の主軸48を求めて、基準線49’と主軸48とがなす角度θtを、現時点tにおける指示体の形態の変化量として、実行量決定部24に供給する。
実行量決定部24は、実施形態1と同様に、形態相関記憶部31に記憶されている相関関係の情報(Mt=α×θt)に従って、処理実行量を決定すればよい。係数αは、実施形態1と同様であっても構わないし、別の値を設定してもよい。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
図15は、本発明の他の実施形態に従う処理実行量決定方法を説明する図である。
図15に示す変形例では、上述したとおり、表示装置2において処理実行量の最大値が予め定まっている構成である。例えば、オブジェクト処理部25がカーソルをジャンプさせることが可能なオブジェクト数の最大値が「100個」と定まっているとする。
本変形例では、形態監視部23は、実施形態1と同様に、フレームにおいて垂直な基準線49を定義し、基準線49の傾きθを0度と定義する。しかし本変形例では、さらに、形態監視部23は、指示体の形態変化の監視を開始する時点の指示体の形態を、基準の形態(開始形態s)とみなす。形態監視部23は、開始形態sにおける指の主軸を、基準線49’と定義する。
形態監視部23は、現時点tにおける指の主軸48を求めて、基準線49’と主軸48とがなす角度θtを、現時点tにおける指示体の形態の変化量として、実行量決定部24に供給する。
本変形例では、実行量決定部24は、さらに、図15に示すとおり、予め定まっている処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、水平な基準線70と定義する。本変形例では、実行量決定部24は、処理実行量の最小値(例えば、0個)に対応する基準の形態を、開始形態sに対応する基準線49’(θs)とみなす。また、実行量決定部24は、処理実行量の最大値(例えば、100個)に対応する基準の形態(最終形態e)を、θe=90度(水平な基準線70)とみなす。そして、実行量決定部24は、基準線49’におけるθsと、水平な基準線70におけるθe=90度とに基づいて、最大変化量(θe−θs=θall)を取得する。なお、θsは、ここでは、垂直な基準線49と、開始形態sの基準線49’とがなす角度によって求められる。
そして、本変形例では、実行量決定部24は、上記最大変化量(θall)に対して、現時点tの形態変化量(θt)の占める割合を求める。そして、実行量決定部24は、この割合の大きさに比例して、処理実行量を決定する。
例えば、実行量決定部24は、形態相関記憶部31に記憶されている下記の所定の計算式に従って、指の傾きθtから、時点tにおける処理実行量Mtを決定する。
Mt=(θt÷θall)×β
ここで、βは、予め定められた最大処理実行量である。上述の例では、β=100(個)である。したがって、より具体的には、θsが30度、θallが60度、形態監視部23によって求められた時点tの指の傾きθtが、15度であるとすると、実行量決定部24は、処理実行量Mtを、(15÷60)×100=25回と決定する。
以上の構成においても、実行量決定部24は、形態監視部23によって求められた、指示体の形態の変化量に比例して、処理実行量を決定することが可能となり、実施形態1と同様の効果を得ることができる。
〔1−11:ジェスチャ入力時の移動方向に対する形態変化の進行方向を考慮した変形例〕
上述の実施形態では、ジェスチャ入力時の指示体(指)の移動方向と、処理実行量指定時の指示体の形態変化の進行方向とは、同一で、常に一方向である場合が想定されていた。例えば、ジェスチャ入力時に指が左に移動した場合には、その後、指は、左向きに傾き続けるという場合である。
しかし、ユーザがジェスチャ入力時の指示体(指)の移動方向と反対の進行方向に、指示体の形態を変化させるという状況も想定される。
(ケース1)
このような状況に対応するための構成として、実行量決定部24は、形態監視部23から供給された現時点tの形態変化量θtが、直前の時点t−1の変化量θt−1と比較して、減少した場合に、これを、ユーザからの停止指示として認識してもよい。そして、実行量決定部24は、処理の実行停止を指示する処理停止指示を表示装置2に対して出力してもよい。
現時点tの形態変化量θtが、直前の時点t−1の変化量θt−1と比較して、下回る状況の一例を、図16に示す。
図16に示すとおり、ジェスチャ入力時の移動方向が、移動方向43(左に移動)であって、処理実行量指定時の指示体の形態変化の進行方向も、移動方向43と同じく、左向きの進行方向71であるとする。この場合、指の傾き(形態変化量)は、基準線49よりも左に傾くほど増大する。
したがって、ユーザが、指の傾きを、進行方向71(移動方向43)と反対の進行方向72(右向き)に少しでも戻した場合には、指の傾き(形態変化量)は、直前の変化量θt−1よりも減少する。
このように、これまでの進行方向(左)と反対の方向(右)に指の傾きを戻す動作が行われたことに伴って、これまで継続して行われていた処理を停止するようにデジタルテレビ100を構成する。
これまで、ユーザは、指の進行方向と同じ方向にてカーソル(フォーカス)を移動させる操作を行っている。ここで、進行方向と反対の方向に指の傾きを戻す動作は、ユーザにとって、カーソルの移動にブレーキをかけるイメージが連想されやすい。
したがって、上記構成によれば、ユーザが直感的に操作を理解でき、デジタルテレビ100において操作性が向上するという効果を奏する。
(ケース2)
あるいは、上述のような状況において、指の傾き(形態変化量)が、基準線49よりも右(すなわち、移動方向43の反対方向)に傾くことも考えられる。
このような状況に対応するための構成として、形態監視部23は、基準線49から、移動方向と反対の方向に、指示体(指)が傾いた場合には、当該指示体の変化量を負の数によって表してもよい。
例えば、図17に示すとおり、ジェスチャ入力時の移動方向が、移動方向43(左に移動)であって、処理実行量指定時の指示体の形態変化の進行方向が、移動方向43と反対の、右向きの進行方向72であるとする。この場合、指の傾き(形態変化量)は、基準線49よりも右に傾くほどマイナスになり減少する(絶対値は大きくなる)。
実行量決定部24は、形態監視部23から供給された形態変化量が正の数であった場合には、先の移動方向43と同じ方向を、デジタルテレビ100に実行させる処理の進行方向であると決定する。つまり、実行量決定部24は、「フォーカスをオブジェクトMt個ずつ左に遷移させる」処理を表示装置2に対して指示する。
一方、実行量決定部24は、形態監視部23から供給された形態変化量が負の数であった場合には、先の移動方向43と反対の方向を、デジタルテレビ100に実行させる処理の進行方向であると決定する。つまり、実行量決定部24は、「フォーカスをオブジェクトMt個ずつ右に遷移させる」処理を表示装置2に対して指示する。
当然、処理実行量Mtは、現時点tの指の主軸48が、基準線49から左(または右)にどのくらい傾いているのかによって決定される。傾きが強いほど処理実行量が多くなる。
このように、これまでの進行方向(左)と反対の方向(右)に指を傾ける動作が行われたことに伴って、これまで行われていた処理の進行方向と反対の進行方向にて処理を継続するようにデジタルテレビ100を構成する。
ここで、進行方向と反対の進行方向に指を傾ける動作は、ユーザにとって、最初にジェスチャで指示した進行方向とは反対の方向に、カーソルの移動方向が変わる(カーソルが引き返す)イメージが連想されやすい。
したがって、上記構成によれば、ユーザが直感的に操作を理解でき、デジタルテレビ100において操作性が向上するという効果を奏する。
〔1−12:形態変化監視対象について〕
上述の実施形態では、形態監視部23は、指示体の形態として、指の傾きを監視対象とする構成であった。しかし、本発明のジェスチャ認識装置1の構成はこれに限定されない。
例えば、形態監視部23は、ジェスチャ入力のために移動した指示体における、指の曲がり具合を監視対象としてもよい。
より具体的には、図18に示すとおり、形態監視部23は、指が曲がったときに角度が変化する部位(中節)の主軸を取得して傾きを監視し、指が曲がったときに変化する中節の角度の大きさθを、形態変化量として取得してもよい。あるいは、図19に示すとおり、形態監視部23は、指先(指示体基準点42)のフレームにおけるY座標を監視し、指が曲がったときに変化する指示体基準点42のY座標について、Y座標差分により得られる移動距離dを、形態変化量として取得してもよい。
あるいは、例えば、形態監視部23は、ジェスチャ入力のために移動した指示体における、二指間の角度θを、形態変化量として取得してもよい。図20の(a)は、ジェスチャ入力を完了した時点の指示体の様子を示す図である。二指とは、ここでは、一例として親指と人差し指である。形態監視部23は、それぞれの指の主軸を取得し、これらの主軸がなす角度を求める。ジェスチャ入力を完了した時点では、角度θ(図20の(a)では不図示)は小さい。図20の(b)および(c)は、処理実行量指定動作が行われているある時点の指示体の様子を示す図である。二指間の角度θは、図20の(a)と比較して大きくなっている。実行量決定部24は、二指間の角度が大きいほど、処理実行量が大きくなるという相関関係の情報に従って処理実行量を決定する。
あるいは、形態監視部23は、フレーム内において、ジェスチャ入力のために移動した指示体とは別の第2の指示体を特定して、第2の指示体の形態変化量を監視してもよい。より具体的には、図21に示すとおり、形態監視部23は、ユーザの首のかしげ具合を監視対象としてもよい。形態監視部23は、ユーザの顏を含む指示体包含領域73を特定する。そして、形態監視部23は、鼻筋などに基づいて顏の主軸を取得し、顏の傾きの変化量θ1を形態変化量として取得してもよい。あるいは、形態監視部23は、ユーザの腕の曲げ具合を監視対象としてもよい。形態監視部23は、腕を含む指示体包含領域74を特定する。そして、形態監視部23は、ユーザの上腕部と前腕部との主軸を取得し、これらの主軸がなす角度θ2を、形態変化量として取得してもよい。
〔1−13:応用例〕
上述の実施形態では、図10および図11に示すとおり、処理実行主体である表示装置2としてのデジタルテレビ100に、本発明の一実施形態に従うジェスチャ認識装置1を搭載した例について説明した。本発明の一実施形態に従うジェスチャ認識装置1は、デジタルテレビ100に限らず、他のあらゆる表示装置に搭載することができる。
例えば、図22に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、電子書籍リーダ200に搭載することができる。電子書籍リーダ200のオブジェクト処理部25は、電子書籍の各ページのうち、フォーカスされたページを表示部13に表示する。例えば、オブジェクト処理部25は、右綴じ左開きのイメージで電子書籍を表示する。電子書籍リーダ200において、ジェスチャ認識装置1は、このページをめくるためのジェスチャを認識する構成である。
ユーザは、次のページを表示するために、現在表示されているページを左から右へとめくるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を左から右へ動かす(白矢印76)。ジェスチャ認識部22によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のページ(P.15)の次のページ(P.16)にフォーカスを遷してP.16を表示する(白矢印77)。さらに、形態監視部23によって右方向への指の傾きが認識されると(白矢印78)、オブジェクト処理部25は、現在のページ(P.16)から指定された処理実行量(ページ数)分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、一気にたくさんのページを繰ることができる。
あるいは、図23に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、スマートフォン300に搭載することができる。
ユーザは、次のページを表示するために、現在表示されているページを右から左へとスライドさせるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を右から左へ動かす(白矢印79)。ジェスチャ認識部22によって「左へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のページ(3/10)の次のページ(4/10)にフォーカスを遷して4/10のページを表示する。例えば、4/10のページをスライドインさせる(白矢印80)。さらに、形態監視部23によって左方向への指の傾きが認識されると(白矢印81)、オブジェクト処理部25は、現在のページ(4/10)から指定された処理実行量(ページ数)分先のページにフォーカスを遷して、その新しいページを表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、一気にたくさんのページを繰ることができる。
あるいは、図24に示すとおり、本発明の一実施形態に従うジェスチャ認識装置1を、タブレットPC400に搭載することができる。
タブレットPC400のオブジェクト処理部25は、オブジェクトとしてアイコン(選択肢)を、メイン項目と、サブ項目とに分けて表示する。オブジェクト処理部25は、メイン項目(図24においてアルファベットで識別されている)を横一列に一覧表示する。そして、フォーカスされているメイン項目に属するサブ項目(図24において数字で識別されている)を縦一列に一覧表示する。さらに、オブジェクト処理部25は、フォーカスされているアイコンにカーソル50を表示する。
ユーザは、まず、所望のメイン項目を選択するために、カーソル50を移動させるための動作を行う。実施形態1と同様に、ユーザは、撮像部12の前で、指示体を左から右へ動かす(白矢印82)。ジェスチャ認識部22によって「右へ移動」のジェスチャが認識されると、オブジェクト処理部25は、現在のアイコン(大項目D)の右隣のアイコン(大項目E)にフォーカスを遷し、カーソル50も右へ移動させる(白矢印83)。さらに、形態監視部23によって右方向への指の傾きが認識されると(白矢印84)、オブジェクト処理部25は、現在のアイコン(大項目E)から指定された処理実行量(アイコン個数)分右に配置されているアイコンにフォーカスを遷して、その新しいアイコンにカーソル50を当てて表示する。黒矢印は、上述の説明と左右が反対の場合の動きを示している。
このように、ユーザは、何度も同じジェスチャを入力することなく、指示体の形態を変化させる1動作のみで簡単に、現在のフォーカス位置から遠くに配置されているアイコンをすばやく選択することができる。
《2.実施形態2》
〔2−1:概要〕
次に、実施形態2として、本発明の一実施形態に従う制御装置としてのジェスチャ認識装置1の実装例について説明する。ジェスチャ認識装置1については、デジタルテレビ100に限られず、任意のデバイス(上述の電子書籍リーダ200やスマートフォン300など)に実装可能である。もちろん、ジェスチャ認識装置1そのものを単一の装置として構成してもよい。但し、説明の便宜上、実施形態1と同様に、実施形態2に従うジェスチャ認識装置1をデジタルテレビ100に実装した場合の構成例について説明する。
実施形態2においては、ジェスチャ認識装置1から外部の装置へ指示を送出する構成について例示する。また、実施形態2においては、「指示体の形態」として、上述の実施形態1に例示したもの以外について例示する。
図25は、表示装置としてのデジタルテレビに搭載された、本発明の一実施形態に従うジェスチャ認識装置1の要部構成を示すブロック図である。図25に示すジェスチャ認識装置1は、図1に示すジェスチャ認識装置1に比較して、指示送信部26が追加されている。指示送信部26は、ジェスチャ認識部22および実行量決定部24において決定される、実行すべき処理およびその実行量を対象の処理実行主体へ送信する。その他の機能については、図1を参照して説明したので、詳細な説明は繰り返さない。但し、以下に説明するように、認識される「指示体の形態」に応じて処理が実行されることになる。
〔2−2:入力されるジェスチャの例(その1)〕
図26は、本発明の実施形態2に従うジェスチャ認識装置を実装したデジタルテレビ100の応用例を示す模式図である。図26を参照して、デジタルテレビ100は、例えば、家庭のリビングなどに配置され、ユーザが入力したジェスチャに基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定し、これらを含む指示を対象の装置へ送信する。図26には、処理実行主体の一例として、エアーコンディショナ500およびシーリングライト550が例示されている。
例えば、エアーコンディショナ500に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「暖房運転」、「冷房運転」、「ドライ運転」、「自動運転」などの空調動作の開始/停止や、各種設定の変更などを含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「設定温度」、「風量」、「風向」、「タイマ」などを含む。デジタルテレビ100から送信される指示の具体的な一例としては、「冷房運転」を開始(処理実行主体が実行すべき処理)し、その「設定温度」は「25℃」とする(実行すべき処理の処理実行量)といったものが挙げられる。
また、シーリングライト550に対する処理実行主体が実行すべき処理としては、これに限られることはないが、「明るさ調整(調光)」や「色調整(調色)」などの調整動作を含む。また、実行すべき処理の処理実行量としては、これに限られることはないが、「明るさの度合い(0〜100%)」、「演色性(暖色系〜寒色系)」、「点灯時間」などを含む。デジタルテレビ100から送信される指示の具体的な一例としては、「減光」し、その「減光度合い」は「10%」とする(実行すべき処理の処理実行量)といったものが挙げられる。
図27は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの一例を示す図である。図27(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザがジェスチャ入力開始の合図となるジェスチャ(例えば、ユーザが指または手を細かく振る動き)を行うと、ジェスチャ認識装置1の開始認識部20(図25)は、上述の実施形態1と同様に、入力される動画像のフレーム間を比較することで、このジェスチャ入力開始の合図が入力されたと認識する。それ以降、ジェスチャ入力終了と認識されるまで、その指示体であるユーザの手指によってなされるジェスチャ入力の監視が継続される。より具体的には、ジェスチャ入力開始の直後では、指示体検出部21がジェスチャ入力を行う指示体の検出を継続している。その状態において、例えば、ユーザが予め定められた指示体の形態(図27(a)の例では、人差し指および中指を立てる、いわゆるピースサイン)を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図27(a)に示す開始形態)に対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、このジェスチャの移動(すなわち、指示体の形態の移動)に応答して、先に特定された処理の処理実行量を決定する。このように、形態監視部23は、当該ジェスチャ(指示体の形態)の移動の軌跡に基づいて、対応する処理実行量を決定する。
なお、実施形態2においては、指示体の形態の移動の軌跡に基づいて処理実行量を決定するので、指示体の移動が完了したことを認識する必要がある。そのため、ユーザは、ジェスチャ入力終了の合図となるジェスチャ(例えば、ユーザが指または手を細かく振る動き)を行うことで、指示体の形態の移動の完了、つまりジェスチャの入力終了を指示できる。
但し、ジェスチャの入力終了の合図となるジェスチャについては、明示的に入力しなくともよい。例えば、最終形態のジェスチャとは異なるジェスチャを行う(あるいは、指示体を撮像部の視野外に移動させる)ことで、ジェスチャの入力終了を暗示的に指示できる。
図27(a)において、形態監視部23は、典型的には、ジェスチャ(指示体の形態)の移動の軌跡として、開始形態のジェスチャと最終形態のジェスチャとの間の移動量または移動速度などに応じて、対応する処理実行量を決定する。
例えば、図27(a)に示す例では、開始形態のジェスチャが運転中のエアーコンディショナ500に対する設定温度の変更を意味しており、開始形態のジェスチャに対して、終了形態のジェスチャが上方向にあれば、設定温度の上昇を意味しているとする。このとき、開始形態から終了形態までの移動量に比例して、設定温度の上昇幅を決定できる。例えば、ユーザがその手を開始形態から上側に少しだけ移動させた場合には、現在の設定温度に対して「+1℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から上側により多く移動させた場合には、現在の設定温度に対して「+3℃」が処理実行量として決定される。
なお、図27(b)に示すように、開始形態のジェスチャに対して、終了形態のジェスチャが下方向にあれば、設定温度の下降を意味するとしてもよい。このときも同様に、開始形態から終了形態までの移動量に比例して、設定温度の下降幅を決定できる。例えば、ユーザがその手を開始形態から下側に少しだけ移動させた場合には、現在の設定温度に対して「−1℃」が処理実行量として決定される。一方、ユーザがその手を開始形態から下側により多く移動させた場合には、現在の設定温度に対して「−3℃」が処理実行量として決定される。
上述のような処理によって決定された、処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量が指示として送信される先(この例では、エアーコンディショナ500)についてもジェスチャ認識部22によって決定される。すなわち、ジェスチャ規則記憶部30に記憶されているジェスチャ規則は、各ジェスチャに対応する処理に加えて、指示体の軌跡に対応する処理実行量と、各処理を実行する処理実行主体を特定するための情報(処理実行主体となる装置の属性を示すメタデータ)とを含む。メタデータは、装置ID番号、装置の種類を示す符号、装置の設置位置、装置にアクセスするためのIP(Internet Protocol)アドレスなどがある)などを含む。ジェスチャ認識部22は、処理の特定にあわせて、送信先も特定する。
図28は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則のデータ構造の一例を示す図である。図28には、ジェスチャ規則を表現するデータテーブル30aを示す。図28に示すデータテーブル30aにおいて、処理実行量は、例えば、撮像範囲(フレーム)を基準とした移動量に基づいて決定される。より具体的には、撮像範囲内で5%移動するごとに設定温度の変更量が「+1℃」ずつ増加するように設定されている。
このような、指示体の形態および当該形態の移動の軌跡に基づいて、ジェスチャ認識装置1の外部にある装置(処理実行主体)に対して、実行すべき処理および当該実行すべき処理の処理実行量を指示できるので、ユーザは、装置別に複数のリモコンなどを用いることなく、デジタルテレビ100に対してジェスチャ入力を行うことで、複数の装置をそれぞれ制御できる。
〔2−3:入力されるジェスチャの例(その2)〕
上述の図27では、ユーザがジェスチャ入力開始の合図を明示的に行うことで、ジェスチャ入力の認識が開始される例を示した。但し、ジェスチャ入力開始の合図を暗示的に行うような構成を採用してもよい。
図29は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。図29を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態(図27(a)の例では、親指および人差し指を立てるサイン)を形成すると、ジェスチャ認識装置1の開始認識部20(図25)は、入力される動画像のフレーム間を比較することで、入力されたジェスチャを認識する。さらに、開始認識部20(図25)は、ジェスチャ認識部22と連係して、ジェスチャ規則記憶部30のジェスチャ規則において、入力されたジェスチャが定義されていることを認識すると、ジェスチャ入力開始の合図が入力されたと判断する。同時に、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図29に示す開始形態)に対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、その手を上に移動させたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、このジェスチャの移動(すなわち、指示体の移動)に応答して、先に特定された処理の処理実行量を決定する。すなわち、形態監視部23は、当該ジェスチャ(指示体の形態)の移動の軌跡に基づいて、対応する処理実行量を決定する。
その後、ユーザは、ジェスチャ入力終了の合図となるジェスチャ(例えば、ユーザが人差し指と親指とでマルをつくるOKサイン)を行うことで、指示体の移動の完了、つまりジェスチャの入力終了を指示できる。
図29に示すジェスチャに対して、決定される処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量については、図27と同様である。
図29に示すようなジェスチャ入力開始を暗示的に指示するような構成を採用することで、ユーザは、より簡素化された手順で、目的の指示を行うことができる。
〔2−4:入力されるジェスチャの例(その3)〕
上述の図27および図29においては、ユーザが片手でジェスチャを入力する例について例示した。これに代えて、ユーザが両手でジェスチャを入力するようにしてもよい。両手でジェスチャを入力することで、より自由度の高い指示を生成することができる。
ジェスチャ認識装置1は、ユーザが両手を用いて入力したジェスチャに対して、上述と同様の方法に従って、当該入力されたジェスチャ全体に基づいて、実行すべき処理および当該実行すべき処理の処理実行量を決定してもよい。この場合の処理は、上述したものと実質的に同様である。
これに加えて、実行すべき処理および当該実行すべき処理の処理実行量の決定に用いる特徴量を互いに異ならせてもよい。すなわち、取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、処理実行主体が実行すべき処理を決定するとともに、取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、実行すべき処理の処理実行量を決定するようにしてもよい。例えば、ユーザが両手を用いて入力したジェスチャの全体に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの一部の移動の軌跡に基づいて、当該実行すべき処理の処理実行量を決定してもよい。
より具体的には、実施形態2に従うジェスチャ認識装置1の指示生成手段は、指示体としてのユーザ(操作者)の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する。
以下、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。
図30は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。
図30(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態を形成(ジェスチャを入力)すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャ(指示体の形態:図30(a)に示す開始形態)に対応する処理を特定する。このとき、入力されたジェスチャの全体に基づいて、対応する処理が特定される。
その後、形態監視部23は、指示体の形態の変化を監視するとともに、その変化量を特定する。図30(a)の例では、形態監視部23は、紙面左側の手の指先(指示体基準点68)の動きを追尾すべき対象として決定し、指示体基準点68の移動の軌跡を監視する。なお、追尾すべき対象は、ジェスチャ規則記憶部30のジェスチャ規則において定義されているとする。そして、形態監視部23がユーザによるジェスチャが最終形態であると認識すると、実行量決定部24は、指示体基準点68の移動の軌跡に基づいて、実行すべき処理の処理実行量を決定する。
例えば、図30(a)の開始形態のジェスチャが運転中のエアーコンディショナ500に対する設定温度の変更を意味しており、開始形態から終了形態に至るまでに、指示体基準点68が下方向に移動していれば、設定温度の下降を意味しているとする。このとき、開始形態から終了形態までの指示体基準点68の移動量に比例して、設定温度の下降幅が決定される。
なお、図30(b)に示すように、開始形態から終了形態に至るまでに、指示体基準点68が上方向に移動していれば、設定温度の上昇を意味するとしてもよい。このときも同様に、開始形態から終了形態までの指示体基準点68の移動量に比例して、設定温度の下降幅が決定されるとする。
このように、ユーザは両手を用いてジェスチャを入力することができ、これによって、より自由度の高い指示を生成することができる。
〔2−5:入力されるジェスチャの例(その4)〕
代替の構成として、ユーザが両手を用いて入力したジェスチャの一部の移動の軌跡に基づいて、実行すべき処理を決定するとともに、入力したジェスチャの全体に基づいて、当該実行すべき処理の処理実行量を決定してもよい。
より具体的には、実施形態2に従うジェスチャ認識装置1の指示生成手段は、指示生成手段は、指示体としてのユーザ(操作者)の2つの手の形の組み合わせがセンシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定してもよい。
再度図30を参照して、具体的なジェスチャ入力の例とともに、これらの処理の詳細について説明する。
図30(a)を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが開始形態として示される指示体の形態を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応し得る複数の処理候補を抽出する。この例では、指示体の形態の移動の軌跡に基づいて、処理実行主体が実行すべき処理が特定されるので、この時点では、候補が抽出されるにとどまる。
この時点において、実行量決定部24は、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に基づいて、実行すべき処理の処理実行量を決定する。
その後、形態監視部23は、指示体の形態の変化を監視するとともに、その変化量を特定する。図30(a)の例では、形態監視部23は、紙面左側の手の指先(指示体基準点68)の動きを追尾すべき対象として決定し、指示体基準点68の移動の軌跡を監視する。そして、形態監視部23がユーザによるジェスチャが最終形態であると認識すると、ジェスチャ認識部22は、指示体基準点68の移動の軌跡に基づいて、対応する処理を特定する。
例えば、図30(a)の開始形態から終了形態までの移動の軌跡(ジェスチャ)が運転中のエアーコンディショナ500に対する設定温度の下降を意味している場合には、開始形態における、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に比例して、設定温度の下降幅が決定される。
なお、図30(b)に示すように、紙面左側の手の指先(指示体基準点68)が上方向に移動する場合には、その開始形態から終了形態までの移動の軌跡(ジェスチャ)が運転中のエアーコンディショナ500に対する設定温度の上昇を意味するとしてもよく、この場合には、開始形態における、紙面左側の手の指先(指示体基準点68)と紙面右側の手の指先(指示体基準点69)との間の距離(間隔)に比例して、設定温度の上昇幅が決定される。
このように、ユーザは両手を用いてジェスチャを入力することができ、これによって、より自由度の高い指示を生成することができる。
〔2−6:入力されるジェスチャの例(その5)〕
上述のジェスチャの例においては、指示体の移動の軌跡として、移動量や移動速度を典型例として説明したが、移動の軌跡そのものを入力としてもよい。
図31は、本発明の実施形態2に従うジェスチャ認識装置1で認識可能なジェスチャの別の一例を示す図である。図31を参照して、ジェスチャ認識装置1がアクティブな状態において、ユーザが予め定められた指示体の形態(図31(a)の例では、人差し指を突き出すサイン)を形成すると、ジェスチャ認識部22は、ジェスチャ規則記憶部30に記憶されているジェスチャ規則に従って、入力されたジェスチャに対応する処理を特定する。
続いて、ユーザは、ジェスチャ入力を継続した状態で、数字の「3」に相当する軌跡を描いたとする。形態監視部23は、このユーザによるジェスチャ(指示体の形態)を監視しており、実行量決定部24は、このユーザが描いた軌跡に応答して先に特定された処理の処理実行量を決定する。より具体的には、実行量決定部24は、ユーザが描いた軌跡が数字の「3」に類似していると判断すると、処理実行量として「3」を出力する。
例えば、図31の開始形態のジェスチャが運転中のエアーコンディショナ500に対する風量の変更を意味している場合には、開始形態から終了形態に至るまでに、数字の「3」に類似した軌跡をユーザが描くことで、風量がレベル「3」に設定される。
なお、移動の軌跡そのものに基づいて、処理実行主体が実行すべき処理を特定するようにしてもよい。
このように、ユーザが描く軌跡そのものに用いて、処理実行主体が実行すべき処理および/または当該実行すべき処理の処理実行量を決定することで、ユーザが入力できるジェスチャの自由度を高めることができるとともに、移動量などに基づく場合に比較して、ユーザの意図どおりの指示を発することもできる。
〔2−7:デジタルテレビにおけるモニタ機能〕
上述したようなユーザによるジェスチャの入力時において、デジタルテレビ100では、通常のテレビジョン放送で受信した映像などが流されている場合も多いと想定される。すなわち、デジタルテレビ100は、何らかのソースからの映像を表示しつつ、ユーザからのジェスチャ入力を待つ。このような場合において、何らかのジェスチャ入力を行ったユーザから見れば、入力したジェスチャがジェスチャ認識装置1においてどのように認識されているのかをリアルタイムで知りたいというニーズが生じ得る。そのため、ジェスチャ認識装置1における処理の状態をデジタルテレビ100などの表示部においてリアルタイムに表示することが好ましい。
図32は、本発明の実施形態2に従うジェスチャ認識装置1の使用形態の一例を示す図である。図32に示すように、ジェスチャ認識装置1が実装されたデジタルテレビ100は、ジェスチャ認識装置1における処理の状態をOSD(On−screen display)などを用いて、ユーザへ(好ましくは、リアルタイムで)通知する。
より具体的には、図32(a)には、入力されたジェスチャが開始形態であると判定され、その判定された開始形態のジェスチャがエアーコンディショナ500にて実行すべき処理である(すなわち、指示の送信先がエアーコンディショナ500である)と特定された場合に表示されるOSD110の一例を示す。OSD110においては、「エアコン指示認識中・・・」というメッセージが表示されている。
その後、実行すべき処理の処理実行量が決定されると、デジタルテレビ100に表示されるOSD110のメッセージは、図32(b)に示すように「設定温度変更指示送信中」へ切り替わる。
OSD110などを用いてこのようなメッセージを表示することで、ユーザは、自身が行ったジェスチャ入力が正しく認識されているのかを容易に判断することができる。なお、上述の説明においては、デジタルテレビ100の画面にメッセージを表示することで、ジェスチャ認識装置1における処理の状態をユーザに対して通知する構成を例示したが、これに限られず、例えば、音声や予め定められたインジケータを用いて、ユーザに対して通知を行ってもよい。さらに、メッセージではなく、デジタルテレビ100の画面上に予め定められたマークや模様などを表示して、ユーザに対して通知を行ってもよい。
〔2−8:他の装置への適用〕
上述の実施形態2においては、ジェスチャ認識装置1がデジタルテレビ100に実装された構成例を説明したが、これに限らず、任意の装置として実現できる。すなわち、ジェスチャ認識装置1そのものを独立した装置として実装してもよいし、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに実装してもよい。
《3.実施形態3》
〔3−1:概要〕
次に、実施形態3として、処理実行主体が安全スイッチである場合の実装例について説明する。安全スイッチは、自動化されたロボットなどによる作業者のケガなどを防止するために、作業者が立ち入ることができる範囲などを制限する装置である。具体的には、予め定められた範囲に作業者が立ち入ったときに、ロボットなどの動作を停止させるための安全機構である。
本発明の実施形態3に従う制御装置は、一例として、このようなロボットに近接した位置で作業を行う作業者やロボット自体を指示体として認識する。制御装置は、指示体の移動の軌跡に関する情報を取得し、それに基づいて、安全スイッチの動作範囲などを適正化する。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。
〔3−2:システム構成〕
図33は、本発明の実施形態3に従う安全システム600の概略構成を示す図である。図33を参照して、安全システム600は、互いにネットワーク604を介して接続された、制御装置602と、安全監視装置608とを含む。制御装置602は、ロボット610にアクセスする経路の範囲を撮像するための撮像部630からの動画像などを連続的に監視することで、作業者がロボット610に接近した場合に、安全動作を行う。より具体的には、制御装置602は、作業者が危険エリアに侵入したと認識すると、安全監視装置608に対して動作を停止させるための指示を送信する。制御装置602からの動作を停止させるための指示に応答して、安全監視装置608は、ロボット610のコントローラ612に対して停止指令を与え、ロボット610を停止させる。
また、制御装置602は、認識された作業者と設定されている危険エリア/安全エリアとの関係を評価し、作業者が危険エリアに入っているまたは入りそうであることを検知すると、警報通知装置640に対して警報出力を与える。この警報出力に応答して、警報通知装置640は、光や音などで作業者に対して、危険を通知する。
実施形態3においては、指示体として作業者および/またはロボット610を想定しており、これらの指示体の形態および当該形態の移動の軌跡に関する情報に基づいて、処理実行主体である侵入監視部に実行させる処理の内容(例えば、ロボット610の強制停止や警報通知装置640での警報動作といった侵入検出時の出力操作の種別など)を特定するとともに、その処理を実行すべき量(例えば、安全エリアの範囲など)を決定する。これにより、安全を確保しつつ、作業効率を高めることができる。
〔3−3:指示体〕
次に、実施形態3において対象となる指示体の一例について説明する。図34および図35は、本発明の実施形態4に従う安全システム600における指示体の一例を示す図である。図34には、作業者が指示体とされる例を示し、図35には、ロボットが指示体とされる例を示す。
図34に示すように、作業者を指示体とする場合には、ヘルメットを装着しているか否かや、身に付けている道具や服装などをその態様として認識する。その上で、作業者が動く範囲や動く速度などを移動の軌跡として認識する。例えば、作業者の態様(典型的には、装着品や服装など)に基づいて、ロボットの扱いに慣れているか否かなどを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。より具体的には、装置の操作をその業務としている作業者に対しては、ロボットの挙動についての知識が少ないと考えられるので、危険エリアへの侵入の検出に応答してロボットを停止することで安全を確保する。一方で、ロボットのメンテナンスをその業務としている作業者に対しては、ロボットの挙動などについてより多くの知識を持っていると考えられるので、必要最小限の警報出力に留めておき、メンテナンス作業をより効率的に行う。このような作業者の業務の違いについては、例えば、作業者が工具類を腰からぶら下げているか否かといった作業者の形態に基づいて判断することができる。
その上で、本実施形態においては、作業者による該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図34(a)に示すような座った状態で作業を行っている作業者は、移動量が少なく、安全エリアを拡大する必要性は低いと考えられる。これに対して、図34(a)に示すような、作業者の動きが大きい場合や速い場合には、安全エリアを拡大する必要性が高いと考えられる。
そこで、実施形態4においては、移動の軌跡として、作業者の軌跡の情報に基づいて、安全エリアの大きさを決定する。この作業者の軌跡の情報としては、各作業者の移動量や移動速度などを含む。
一方、図35に示すように、ロボットを指示体とする場合には、装置の大きさや外観などをその態様として認識する。その上で、ロボットが動く範囲や動く速度などを移動の軌跡として認識する。例えば、ロボットの外観などに基づいて、ロボットの動作パターンや可動部分などを推定でき、これによって、処理実行主体が実行すべき処理として、警報出力や停止の要否などを決定する。
その上で、本実施形態においては、ロボットによる該形態の移動の軌跡から、処理実行量として、安全エリアの大きさを決定する。例えば、図35(a)に示すような、一部の部分のみが可動するようなロボットについては、可動範囲が狭く、安全エリアを拡大する必要性は低いと考えられる。これに対して、図35(a)に示すような、ロボット全体がスライドするような場合には、安全エリアを拡大する必要性が高いと考えられる。
そこで、実施形態4においては、移動の軌跡として、ロボットの軌跡の情報に基づいて、安全エリアの大きさを決定する。このロボットの軌跡の情報としては、各作業者の移動量や移動速度などを含む。
〔3−4:機能構成〕
次に、実施形態3に従う制御装置602の機能構成について説明する。図36は、本発明の実施形態4に従う安全システムの制御装置602の機能構成を示すブロック図である。図36を参照して、制御装置602は、主たる構成要素として、画像取得部650と、指示体検出部652と、軌跡監視部654と、安全エリア設定部656と、安全エリアDB658と、侵入監視部660と、警報部662とを含む。
画像取得部650は、撮像部630から動画像などを取得する。
指示体検出部652は、画像取得部650によって取得された動画像に含まれる指示体を検出する。実施形態4においては、図33に示すように、作業者が立ち入る可能性のあるエリアに対して、測定エリアおよび侵入付加エリアが設定される。これらのエリアは、安全エリアおよび危険エリアの変更に応じて動的に変更されてもよい。指示体検出部652は、測定エリアに存在する物体のうち指示体となるものを特定する。この特定された指示体の情報は軌跡監視部654へ出力される。
軌跡監視部654は、指示体検出部652からの情報に基づいて、測定エリア内の指示体を連続的に監視するとともに、その軌跡情報を算出する。軌跡監視部654が軌跡情報を算出するエリアは、測定エリアに加えて、侵入付加エリアも含む。すなわち、軌跡監視部654は、指示体がロボット610に近づくような動きをした場合もその軌跡を監視できるように、指示体検出部652に比較してより広いエリアにおける指示体の動きを監視する、
安全エリア設定部656は、指示体の形態の情報および軌跡監視部654からの指示体の軌跡の情報に基づいて、指示体が侵入付加エリアへ侵入する可能性を推定し、侵入監視部660および警報部662が実行すべき処理、ならびに、当該実行すべき処理の処理実行量を決定する。すなわち、安全エリア設定部656は、決定した実行すべき処理(例えば、侵入検出時の出力操作の種別など)を侵入監視部660および/または警報部662へ出力するとともに、決定した処理実行量(例えば、安全エリアの範囲)を侵入監視部660へ出力する。
安全エリアDB658は、指示体検出部652によって検出される指示体の形態および軌跡監視部654によって算出される軌跡情報の組み合わせの各々に関連付けて、設定されるべき安全エリアの大きさを示す情報が定義されている。安全エリア設定部656は、この安全エリアDB658に定義された情報を参照して、安全エリアの大きさを設定する。
侵入監視部660は、安全エリア設定部656により設定された危険エリアに指示体が侵入した場合または侵入しようとした場合に、予め指定された出力動作を実行する。警報部662は、侵入監視部660の出力動作に応答して、警報通知装置640などに対して、必要な警報出力を行う。
〔3−5:利点〕
上述のような構成を採用することで、安全エリアの大きさなどを指示体の態様および当該対象の移動の規制に基づいて、動的に最適化することができる。これによって、不適切な警告の発生による作業中断などを防ぎ、安全を確保しつつ、作業効率を高めることができる。
《4.その他の実施形態:ソフトウェアによる実現例》
ジェスチャ認識装置1の各ブロック、特に、開始認識部20、指示体検出部21、ジェスチャ認識部22、形態監視部23、および、実行量決定部24は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。上述の制御装置602の各ブロックについても同様である。
すなわち、ジェスチャ認識装置1は、各機能を実現する制御プログラムの命令を実行するCPU(Central Processing Unit)、上記プログラムを格納したROM(Read Only Memory)、上記プログラムを展開するRAM(Random Access Memory)、上記プログラムおよび各種データを格納したメモリ等の記憶装置(記録媒体)などを備えている。より具体的には、ジェスチャ認識装置1は、以下に示すようなコンピュータによって実現することもできる。
図37は、本発明の実施形態に従うジェスチャ認識装置1を実現するためのコンピュータ400の要部構成を示すブロック図である。図37を参照して、コンピュータ400は、本実施形態に係る制御プログラムを含む各種プログラムを実行するCPU406と、CPU406で実行される制御プログラムなどを不揮発的に格納するハードディスク(HDD)402と、CPU406での各種プログラムの実行に必要なデータを格納するための作業領域を提供するメモリRAM404と、記録媒体の典型例であるCD−ROM410からその格納された制御プログラムなどを読み出すための光学ディスクドライブ408とを含む。コンピュータ400は、さらに、撮像部12から動画などを取得するための撮像部インターフェイス412と、キーボードやマウスなどの入力部414と、各種情報を表示するための表示部416と、外部装置との間でデータを遣り取りするためのネットワークインターフェイス418とを含む。
本発明の目的は、上述した機能を実現するソフトウェアであるジェスチャ認識装置1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読取可能に記録した記録媒体を、上記ジェスチャ認識装置1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フレキシブルディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、ジェスチャ認識装置1を通信ネットワークと接続可能に構成し、上記プログラムコードを、通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(Virtual Private Network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR(High Data Rate)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。
本発明は上述した各実施形態に限定されるものではなく、特許請求の範囲に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本実施形態に係る制御装置は、指示体を撮像するための撮像部を備えた各種電子機器、とりわけ、表示装置に好適に用いられる。本発明のジェスチャ認識装置は、これに限定されないが、処理実行主体である表示装置として、デジタルテレビ、タブレットPC(Personal Computer)、スマートフォン、携帯電話、電子書籍リーダ、電子手帳、PDA(Personal Digital Assistant)、パソコン、ノートパソコン、デジタルカメラ、デジタルビデオカメラ、家庭用ゲーム機、携帯用ゲーム機、デジタルフォトフレームなどに搭載することができる。
1 ジェスチャ認識装置、2 表示装置(処理実行主体)、3 オブジェクト(選択肢)、10 制御部、11 記憶部、12 撮像部、13 表示部、13a 表示画面、13b 表示画面、20 開始認識部(開始認識手段)、21 指示体検出部(指示体検出手段)、22 ジェスチャ認識部(認識手段)、23 形態監視部(監視手段)、24 実行量決定部(決定手段)、25 オブジェクト処理部(処理実行主体)、30 ジェスチャ規則記憶部、31 形態相関記憶部、32 オブジェクト記憶部、40 指示体包含領域、41 指示体領域、41’ 突起部分、42 指示体基準点、43 移動方向、44 移動方向、45 注目領域、46 重心、47 直線、48 主軸、49 基準線、49’ 基準線、50 カーソル、51’〜55’ サムネイル画像(オブジェクト/選択肢)、52〜54 静止画、70 基準線、71 進行方向、72 進行方向、73 指示体包含領域、74 指示体包含領域、100 デジタルテレビ(電子機器/表示装置)、200 電子書籍リーダ(電子機器/表示装置)、300 スマートフォン(電子機器/表示装置)、400 コンピュータ、402 ハードディスク、404 RAM、406 CPU、408 光学ディスクドライブ、410 CD−ROM、412 撮像部インターフェイス、414 入力部、415 表示部、418 ネットワークインターフェイス、500 エアーコンディショナ、550 シーリングライト、600 安全システム、602 制御装置、604 ネットワーク、608 安全監視装置、610 ロボット、612 コントローラ630 撮像部、650 画像取得部、652 指示体検出部、654 軌跡監視部、656 安全エリア設定部、658 安全エリアDB、660 侵入監視部、662 警報部。

Claims (23)

  1. 処理実行主体に対する指示を生成する制御装置であって、
    指示体をセンシングすることで得られたセンシングデータを取得する取得手段と、
    前記センシングデータを処理することで、前記指示体の形態および当該形態の移動の軌跡に関する情報を取得する認識手段と、
    前記認識手段によって取得された形態および当該形態の移動の軌跡に関する情報に基づいて、前記処理実行主体が実行すべき処理および当該実行すべき処理の処理実行量を決定する指示生成手段とを備える、制御装置。
  2. 前記指示生成手段は、前記取得された形態および当該形態の移動の軌跡に関する少なくとも一部の情報に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、前記取得された形態および当該形態の移動の軌跡に関する、当該少なくとも一部とは異なる情報に基づいて、前記実行すべき処理の処理実行量を決定する、請求項1に記載の制御装置。
  3. 前記指示生成手段は、
    前記センシングデータとして撮像された前記指示体の移動の軌跡に基づいてジェスチャを認識し、認識したジェスチャに対応する処理を、前記処理実行主体が実行すべき処理として特定するジェスチャ認識手段と、
    撮像された前記指示体の形態の変化に基づいて前記処理実行量を決定する実行量決定手段とを含む、請求項2に記載の制御装置。
  4. 前記指示生成手段は、前記指示体を撮像して得られた動画の各フレームから、前記指示体の形態の変化量を特定する監視手段をさらに含み、
    前記実行量決定手段は、前記指示体の形態の変化量に比例して、前記処理実行量を決定する、請求項3に記載の制御装置。
  5. 前記監視手段は、予め定められた前記指示体の基準の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項4に記載の制御装置。
  6. 前記監視手段は、前記認識手段によってジェスチャが認識された時点の前記指示体の形態と、撮像された前記指示体の最新の形態とを比較することにより、前記変化量を特定する、請求項4に記載の制御装置。
  7. 前記実行量決定手段は、前記処理実行主体の処理実行量の最大値に対応する、予め定められた基準の最終形態における最大変化量に対して、前記監視手段によって特定された最新の形態における変化量が占める割合に基づいて、前記処理実行量を決定する、請求項5または6に記載の制御装置。
  8. 前記監視手段は、前記指示体の傾きが変化する角度を前記変化量として特定する、請求項4〜7のいずれか1項に記載の制御装置。
  9. 前記監視手段は、前記指示体としての指の傾きの変化量を特定する、請求項8に記載の制御装置。
  10. 前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が、前記指示体における直前の形態の変化量を下回る場合に、前記処理実行主体による処理の実行の停止を決定する、請求項4〜9のいずれか1項に記載の制御装置。
  11. 前記監視手段は、前記指示体の移動方向と反対の進行方向に向かって変化する、前記指示体の形態の変化量を負の数によって特定し、
    前記実行量決定手段は、前記監視手段によって特定された、前記指示体における最新の形態の変化量が負の数である場合に、前記認識手段によって特定された前記処理の元の進行方向とは反対の進行方向における処理実行量を決定する、請求項4〜9のいずれか1項に記載の制御装置。
  12. 前記実行量決定手段は、前記処理実行量として、特定された前記処理実行主体が実行すべき処理の実行回数を決定する、請求項3〜11のいずれか1項に記載の制御装置。
  13. 前記実行量決定手段は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を、前記処理実行量として決定する、請求項3〜11のいずれか1項に記載の制御装置。
  14. 前記実行量決定手段は、撮像された前記指示体としての指の傾きが変化するときの角度の変化量に比例して前記処理実行量を決定し、
    前記処理実行量は、前記特定された前記処理実行主体が実行すべき処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含む、請求項3に記載の制御装置。
  15. 前記実行量決定手段は、移動を開始した前記指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項3〜14のいずれか1項に記載の制御装置。
  16. 前記実行量決定手段は、移動を開始した指示体とは異なる、撮像された第2の指示体の形態の変化に基づいて、前記処理実行量を決定する、請求項3〜14のいずれか1項に記載の制御装置。
  17. 前記指示生成手段は、前記指示体としての操作者の2つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の2つの手の形の組み合わせに基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の一方の代表点の軌跡に基づいて、当該実行すべき処理の処理実行量を決定する、請求項2に記載の制御装置。
  18. 前記指示生成手段は、前記指示体としての操作者の2つの手の形の組み合わせが前記センシングデータに含まれると認識された場合に、当該操作者の2つの手の一方の代表点の軌跡に基づいて、前記処理実行主体が実行すべき処理を決定するとともに、当該操作者の2つの手の形の組み合わせに基づいて、当該実行すべき処理の処理実行量を決定する、請求項2に記載の制御装置。
  19. 請求項1〜18のいずれか1項に記載の制御装置と、
    前記指示体を撮像した撮像画像を前記制御装置に供給する撮像部と、
    前記制御装置によって特定された処理を、前記制御装置によって決定された処理実行量に従って実行する処理実行主体とを備える、電子機器。
  20. 前記制御装置によって決定される処理実行量は、前記制御装置によって特定された処理が、配置された複数の選択肢のいずれかに当てられたフォーカスを他の選択肢に遷移させる処理である場合に、選択肢何個おきにフォーカスを遷移させるかを示す選択肢の個数を含み、
    前記処理実行主体は、前記制御装置によって決定された選択肢の個数に従って、前記個数ごとの各選択肢にフォーカスを遷移させる、請求項19に記載の電子機器。
  21. 処理実行主体に対する指示を生成する制御方法であって、
    指示体をセンシングすることで得られたセンシングデータを取得する取得ステップと、
    前記センシングデータを処理することで、前記指示体の形態および前記形態の移動の軌跡に関する情報を取得する認識ステップと、
    前記認識ステップにおいて取得された形態および前記形態の移動の軌跡に基づいて、前記処理実行主体が実行すべき処理および前記実行すべき処理の処理実行量を決定する決定ステップとを含む、制御方法。
  22. コンピュータを、請求項1〜18のいずれか1項に記載の制御装置の各手段として機能させるための制御プログラム。
  23. 請求項22に記載の制御プログラムを格納したコンピュータ読取可能な記録媒体。
JP2014505008A 2012-03-15 2013-03-14 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体 Pending JPWO2013137412A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014505008A JPWO2013137412A1 (ja) 2012-03-15 2013-03-14 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012059139 2012-03-15
JP2012059139 2012-03-15
JP2014505008A JPWO2013137412A1 (ja) 2012-03-15 2013-03-14 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体

Publications (1)

Publication Number Publication Date
JPWO2013137412A1 true JPWO2013137412A1 (ja) 2015-08-03

Family

ID=47747336

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014505008A Pending JPWO2013137412A1 (ja) 2012-03-15 2013-03-14 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体

Country Status (6)

Country Link
US (1) US20130241819A1 (ja)
EP (1) EP2650754A3 (ja)
JP (1) JPWO2013137412A1 (ja)
KR (1) KR101437760B1 (ja)
CN (1) CN103309439B (ja)
WO (1) WO2013137412A1 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8831794B2 (en) * 2011-05-04 2014-09-09 Qualcomm Incorporated Gesture recognition via an ad-hoc proximity sensor mesh for remotely controlling objects
JP5923395B2 (ja) * 2012-06-26 2016-05-24 京セラ株式会社 電子機器
US9785228B2 (en) * 2013-02-11 2017-10-10 Microsoft Technology Licensing, Llc Detecting natural user-input engagement
US9477315B2 (en) * 2013-03-13 2016-10-25 Honda Motor Co., Ltd. Information query by pointing
US8977378B2 (en) * 2013-03-15 2015-03-10 Northeastern University Systems and methods of using a hieroglyphic machine interface language for communication with auxiliary robotics in rapid fabrication environments
JP5862587B2 (ja) * 2013-03-25 2016-02-16 コニカミノルタ株式会社 ジェスチャ判別装置、ジェスチャ判別方法、およびコンピュータプログラム
KR101374720B1 (ko) * 2013-07-15 2014-03-17 전자부품연구원 손동작 기반 가상 마우스 제어장치 및 그 방법
CN103488296B (zh) * 2013-09-25 2016-11-23 华为软件技术有限公司 体感交互手势控制方法及装置
CN103785180B (zh) * 2014-01-22 2016-07-06 广东奥飞动漫文化股份有限公司 一种电动玩具的感应控制系统
JP6442755B2 (ja) * 2014-02-28 2018-12-26 富士通コネクテッドテクノロジーズ株式会社 電子機器、制御プログラム、及び、制御方法
JP6460862B2 (ja) * 2014-03-20 2019-01-30 国立研究開発法人産業技術総合研究所 ジェスチャ認識装置、システム及びそのプログラム
KR102167289B1 (ko) * 2014-06-03 2020-10-19 엘지전자 주식회사 영상 표시 기기 및 그의 동작 방법
US9811164B2 (en) * 2014-08-07 2017-11-07 Google Inc. Radar-based gesture sensing and data transmission
JP6320237B2 (ja) * 2014-08-08 2018-05-09 株式会社東芝 仮想試着装置、仮想試着方法、およびプログラム
US9778749B2 (en) 2014-08-22 2017-10-03 Google Inc. Occluded gesture recognition
US11169988B2 (en) 2014-08-22 2021-11-09 Google Llc Radar recognition-aided search
US9600080B2 (en) 2014-10-02 2017-03-21 Google Inc. Non-line-of-sight radar-based gesture recognition
CN104699244B (zh) * 2015-02-26 2018-07-06 小米科技有限责任公司 智能设备的操控方法及装置
US10016162B1 (en) 2015-03-23 2018-07-10 Google Llc In-ear health monitoring
JP6427279B2 (ja) 2015-04-30 2018-11-21 グーグル エルエルシー ジェスチャの追跡および認識のための、rfに基づいた微細動作追跡
JP6544044B2 (ja) * 2015-05-27 2019-07-17 株式会社リコー 画像処理装置、画像処理システム及び画像処理方法
US10817065B1 (en) 2015-10-06 2020-10-27 Google Llc Gesture recognition using multiple antenna
US9888340B2 (en) 2015-10-10 2018-02-06 International Business Machines Corporation Non-intrusive proximity based advertising and message delivery
CN105791558A (zh) * 2016-02-26 2016-07-20 努比亚技术有限公司 移动终端及其控制终端设备的方法
KR20170104819A (ko) * 2016-03-08 2017-09-18 삼성전자주식회사 제스처를 가이드하는 전자 장치 및 그의 제스처 가이드 방법
US10102423B2 (en) * 2016-06-30 2018-10-16 Snap Inc. Object modeling and replacement in a video stream
JP6809022B2 (ja) * 2016-07-29 2021-01-06 富士ゼロックス株式会社 画像表示装置、画像形成装置、および、プログラム
WO2019120290A1 (zh) 2017-12-22 2019-06-27 北京市商汤科技开发有限公司 动态手势识别方法和装置、手势交互控制方法和装置
CN109144260B (zh) * 2018-08-24 2020-08-18 上海商汤智能科技有限公司 动态动作检测方法、动态动作控制方法及装置
JP2020136898A (ja) * 2019-02-19 2020-08-31 ソニーセミコンダクタソリューションズ株式会社 撮像装置、電子機器、および撮像方法
JP2020149228A (ja) * 2019-03-12 2020-09-17 株式会社デンソーテン 制御装置および制御方法
CN112487844A (zh) * 2019-09-11 2021-03-12 华为技术有限公司 手势识别方法、电子设备、计算机可读存储介质和芯片
KR20210101858A (ko) * 2020-02-11 2021-08-19 삼성전자주식회사 제스처 인식 기반의 기능 운용 방법 및 이를 지원하는 전자 장치
CN111443802B (zh) * 2020-03-25 2023-01-17 维沃移动通信有限公司 测量方法及电子设备
JP7489048B2 (ja) 2020-06-01 2024-05-23 国立研究開発法人産業技術総合研究所 ジェスチャ認識装置、システム及びそのプログラム
KR20230026832A (ko) * 2021-08-18 2023-02-27 삼성전자주식회사 동작 제스처를 감지하는 전자 장치 및 그 동작 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04257014A (ja) * 1991-02-12 1992-09-11 Matsushita Electric Ind Co Ltd 入力装置
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2003186596A (ja) * 2001-12-13 2003-07-04 Seiko Epson Corp 表示装置及び表示装置の入力方法
JP2005063090A (ja) * 2003-08-11 2005-03-10 Keio Gijuku ハンドパターンスイッチ装置
JP2008529135A (ja) * 2005-01-21 2008-07-31 ジェスチャー テック,インコーポレイテッド 動作に基づくトラッキング
JP2010259064A (ja) * 2009-04-03 2010-11-11 Olympus Imaging Corp 表示装置及び撮像装置
US20100306714A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Gesture Shortcuts
JP4897939B2 (ja) * 2010-05-28 2012-03-14 パナソニック株式会社 ジェスチャ認識装置及びジェスチャ認識方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60215504T2 (de) * 2002-10-07 2007-09-06 Sony France S.A. Verfahren und Gerät zur Analyse von Gesten eines Menschen, z.B. zur Steuerung einer Maschine durch Gestik
JP4172793B2 (ja) 2004-06-08 2008-10-29 株式会社東芝 ジェスチャ検出方法、ジェスチャ検出プログラムおよびジェスチャ検出装置
KR100783552B1 (ko) * 2006-10-11 2007-12-07 삼성전자주식회사 휴대 단말기의 입력 제어 방법 및 장치
JP2008146243A (ja) * 2006-12-07 2008-06-26 Toshiba Corp 情報処理装置、情報処理方法、及びプログラム
US9772689B2 (en) 2008-03-04 2017-09-26 Qualcomm Incorporated Enhanced gesture-based image manipulation
JP5182202B2 (ja) * 2009-04-14 2013-04-17 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2010147600A2 (en) * 2009-06-19 2010-12-23 Hewlett-Packard Development Company, L, P. Qualified command
KR100941927B1 (ko) 2009-08-21 2010-02-18 이성호 터치입력 인식방법 및 장치
KR101132598B1 (ko) * 2009-09-10 2012-04-06 문준희 디스플레이 장치의 화면 크기 제어 방법 및 장치
WO2011102688A2 (en) * 2010-02-19 2011-08-25 Samsung Electronics Co., Ltd. Method and apparatus for enabling communication between a mobile device and universal plug and play devices
JPWO2011142317A1 (ja) * 2010-05-11 2013-07-22 日本システムウエア株式会社 ジェスチャー認識装置、方法、プログラム、および該プログラムを格納したコンピュータ可読媒体
KR101626301B1 (ko) * 2010-05-28 2016-06-01 엘지전자 주식회사 휴대 단말기 및 그 동작 제어방법
KR101360149B1 (ko) * 2010-11-02 2014-02-11 한국전자통신연구원 센서리스 기반 손가락 모션 트래킹 방법 및 그 장치

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04257014A (ja) * 1991-02-12 1992-09-11 Matsushita Electric Ind Co Ltd 入力装置
JP2001216069A (ja) * 2000-02-01 2001-08-10 Toshiba Corp 操作入力装置および方向検出方法
JP2003186596A (ja) * 2001-12-13 2003-07-04 Seiko Epson Corp 表示装置及び表示装置の入力方法
JP2005063090A (ja) * 2003-08-11 2005-03-10 Keio Gijuku ハンドパターンスイッチ装置
JP2008529135A (ja) * 2005-01-21 2008-07-31 ジェスチャー テック,インコーポレイテッド 動作に基づくトラッキング
JP2010259064A (ja) * 2009-04-03 2010-11-11 Olympus Imaging Corp 表示装置及び撮像装置
US20100306714A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Gesture Shortcuts
JP4897939B2 (ja) * 2010-05-28 2012-03-14 パナソニック株式会社 ジェスチャ認識装置及びジェスチャ認識方法

Also Published As

Publication number Publication date
KR20130105321A (ko) 2013-09-25
CN103309439A (zh) 2013-09-18
WO2013137412A1 (ja) 2013-09-19
EP2650754A2 (en) 2013-10-16
US20130241819A1 (en) 2013-09-19
KR101437760B1 (ko) 2014-09-03
EP2650754A3 (en) 2014-09-24
CN103309439B (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
WO2013137412A1 (ja) 制御装置、電子機器、制御方法、制御プログラム、および、制御プログラムを格納したコンピュータ読取可能な記録媒体
US10114463B2 (en) Display apparatus and method for controlling the same according to an eye gaze and a gesture of a user
CN103869967B (zh) 控制装置、车辆以及便携终端
KR101830975B1 (ko) 정보 처리 장치, 정보 처리 방법, 및 컴퓨터 판독가능 기록 매체
JP6011165B2 (ja) ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
CN108900767B (zh) 相机装置及其控制方法
JP6252409B2 (ja) 情報処理装置、情報処理方法およびプログラム
EP2924539B1 (en) Display device and operating method thereof using gestures
JP5264844B2 (ja) ジェスチャ認識装置及び方法
US20130204408A1 (en) System for controlling home automation system using body movements
US20130077831A1 (en) Motion recognition apparatus, motion recognition method, operation apparatus, electronic apparatus, and program
US20120306740A1 (en) Information input device using virtual item, control method therefor, and storage medium storing control program therefor
WO2014027666A1 (ja) 入力装置、入力方法、及び記憶媒体
KR20130105725A (ko) 콘텐츠의 양 손 제어에 기반한 컴퓨터 비전
JP2008052590A (ja) インターフェース装置及びその方法
EP2746899A1 (en) Gesture recognition device, electronic apparatus, gesture recognition device control method, control program, and recording medium
KR20160010540A (ko) 정보 처리 장치 및 기록 매체
CN111656313A (zh) 屏幕显示切换方法、显示设备、可移动平台
US20160147294A1 (en) Apparatus and Method for Recognizing Motion in Spatial Interaction
JP6808408B2 (ja) 表示制御装置およびその制御方法
KR101314641B1 (ko) 사용자 제스처를 이용한 조작 방법 및 디지털 장치
KR102070598B1 (ko) 카메라 장치 및 그의 제어 방법
JP5558899B2 (ja) 情報処理装置、その処理方法及びプログラム
JP6548068B2 (ja) 電子機器、表示制御方法及びプログラム
TW201419051A (zh) 電腦遙控系統及方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150714

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20151110