WO2011027397A1

WO2011027397A1 - ユーザーインターフェース装置

Info

Publication number: WO2011027397A1
Application number: PCT/JP2009/004364
Authority: WO
Inventors: 池司; 岡田隆三; 浅野三恵子; 登内洋次郎; 大平英貴
Original assignee: 株式会社東芝
Priority date: 2009-09-03
Filing date: 2009-09-03
Publication date: 2011-03-10

Abstract

　ＵＩ装置１０は、複数の画像から対象物が所定の形状であるかどうかを識別する対象物識別部を備え、所定の形状であると識別された場合に、前記対象物の認識開始を指示する開始判定部３０と、開始判定部３０からの認識開始の指示に応じて、対象物の動きを認識する認識部４０と、前記対象物の動きが認識されなくなった場合、対象物の認識終了を認識部４０に指示する終了判定部５０と、を備える。

Description

ユーザーインターフェース装置

　本発明は、ジェスチャを用いたユーザーインターフェース装置に関する。

　現在、テレビやコンピュータ等の機器を制御するためのインターフェース装置としては、リモコンやキーボード、マウスなどの指示装置を用いて操作を行うものが一般的である。しかしながら、これらのインターフェース装置では、指示装置を介して操作を行うために必ずしも直感的で分かりやすいものとはなっていない。また、指示装置を紛失してしまうとインターフェース装置を利用できなくなってしまう。

　そこで、上記課題を解決するためのインターフェース装置の一つとして、ユーザーが手を動かしたり手の形状を変化させたりすることにより、指示装置を用いることなく機器の制御を可能とする、ジェスチャを用いたユーザーインターフェース（以下、ＵＩ（Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）と称する）装置に関する技術が提案されている。

　例えば、特開２００２－８３３０２号公報では、ディスプレイに内蔵されたＣＣＤカメラによって撮影した時系列画像内の全体、もしくは所定の部分領域においてユーザーの手の動きを検出してその時系列変化から軌跡を認識し、軌跡の種類に応じて制御対象機器を制御する情報処理装置が開示されている。

特開２００２－８３３０２号公報

　しかしながら、特開２００２－８３３０２号公報に開示された発明では、手の動きだけから軌跡を認識するため、検出された手の動きが、例えば、ユーザーが髪をかけあげる動作など、制御対象機器に対する制御を意図しない手の動きであってもその軌跡を認識してしまう恐れがある。

　そこで、本発明は、対象物の誤認識の発生を抑えることを目的とする。

　本発明の一側面は、ＵＩに係り、複数の画像から対象物が所定の形状であるかどうかを識別する対象物識別部を備え、所定の形状であると識別された場合に、前記対象物の認識開始を指示する開始判定部と、前記開始判定部からの認識開始の指示に応じて、前記対象物の動きを認識する認識部と、前記対象物の動きが認識されなくなった場合、前記対象物の認識終了を前記認識部に指示する終了判定部と、を備える。

　本発明によれば、対象物の誤認識の発生を抑えることができる。

第１の実施形態に係るＵＩ装置の構成を示すブロック図。第１の実施形態を説明するための図。第１の実施形態を説明するための図。第１の実施形態を説明するための図。第１の実施形態を説明するための図。第１の実施形態の動作を表すフローチャートを示す図。

　以下、図面を参照しつつ本発明の実施形態について説明する。また、以下説明する図面において、同一の符号は、同様のものを示しており、重複した説明は省略する。

（第１の実施形態）
　図１は、本発明の第１の実施形態に係るＵＩ装置１０のブロック図である。

　ＵＩ装置１０は、撮像部２０で撮像された複数の画像中に認識すべき対象物（たとえば、手の画像）が存在するか否かを判定する開始判定部３０と、対象物のジェスチャがどのような動きをしているかを認識する（以下、ジェスチャ認識）認識部４０と、対象物の動きが認識されなくなった場合、対象物に対するジェスチャ認識の認識終了を認識部４０に指示する終了判定部５０と、対象物の動きに基づいて制御対象部（図示せず）を制御する制御部６０とを備える。ここで、制御対象部は、制御部６０によって制御される対象物を指す。制御対象部は、例えば、テレビやエアコンの制御回路など、ハードウェアで構成されてもよい。また、例えば、コンピュータ上で動作する基本ソフトウェア（ＯＳ)のマウスカーソルや、応用ソフトウェアといったソフトウェアで構成されてもよい。

　撮像部２０は、イメージセンサ等の撮像デバイスを備え、撮像した時系列画像をＵＩ装置１０へ送る。

　開始判定部３０は、撮像部２０から送られた時系列の複数の画像から対象物の特徴量を検出して対象物が存在するか否かを判定する。開始判定部３０は、撮像部２０から送られた複数の画像中に対象物が存在する場合、対象物の認識開始を指示する。対象物としては、例えば、ユーザーの体の部位（例えば、ユーザの手など）を用いることができる。開始判定部３０は、図２に示すように、領域設定部３１と、少なくとも１つの対象物識別部３２と、開始検出部３３とを備える。

　領域設定部３１は、撮像部２０から送られた画像に識別領域を設定し、設定した識別領域を画像として切り出して対象物識別部３２へ送る。具体的には、図３に示すように、撮像部２０から送られた画像に対して、ｎ種類（ｎは正の整数）の任意の形状の識別領域に相当する窓枠７０を用意して、用意した窓枠のそれぞれを画面全体に渡って走査して、画像を切り出していく。

　対象物識別部３２は、領域設定部３１から送られた窓枠７０の切り出し画像が対象物の画像であるか否かを識別する。例えば、所定の形状の手を検出する場合、検出対象形状である多数の手のサンプル画像を用いた学習により、事前に検出対象形状の手が有する可能性の高い輝度パターンを多数選択し、切り出し画像中で選択された各輝度パターンの評価を行うことにより、ユーザーの手を識別する。これ以外にも、例えば、切り出し画像から輪郭画像を生成して、模範画像との類似性を評価する方法や、切り出し画像中の色彩のパターン類似性を評価する方法などを用いることができる。輝度パターンとは、領域内の輝度平均値の差が、切り出し画像が検出対象形状の手である場合に、所定の条件を満たす可能性の高い２個の領域の組み合わせを示す。

　また、複数の対象物識別部３２を用いることにより、複数の対象物のパターンを識別してもよい。例えば、ユーザーが手を握っている状態と、手を開いている状態の２つの状態を識別しようとする場合、複数の対象物識別部３２のそれぞれで、手を握っている状態と手を開いている状態を識別することができる。

　開始検出部３３は、対象物識別部３２で対象物が存在すると識別した場合、認識部４０に対象物を認識するように指示する。対象物の存在を認識することができない場合は、認識部４０に対象物を認識するように指示しない。なお、開始判定部３０が、複数個の対象物識別部３２によって構成される場合、開始検出部３３は検出した対象物の種類を認識部４０及び制御部６０に通知してもよい。

　認識部４０は、開始判定部３０からの認識開始の指示に応じて、対象物の動きを認識する（ジェスチャ認識）。対象物を認識中の場合、撮像部２０から送られた画像に基づいて、対象物を認識するとともに、対象物が描く軌跡を認識する。認識部４０は、図４に示すように、認識制御部４１と、１つ以上の特徴点認識部４２と、形状認識部４３と、軌跡認識部４４とを備える。また、認識部４０は形状認識部４３と軌跡認識部４４の双方を構成要素として含んでいるが、これらを構成要素として含まない場合も制御対象部に対して所定の命令を与えるような制御を行うことが可能である。

　認識制御部４１は、対象物が認識中かどうかを示す認識フラグを保持し、開始判定部３０及び終了判定部５０からの通知に基づき認識フラグの状態を更新する。認識フラグが立っている場合、対象物を認識するように、特徴点認識部４２に指示し、さらに、撮像部２０から送られてきた画像を送る。

　特徴点認識部４２は、認識制御部４１から送られた画像から対象物の存在する領域を対象物領域として検出する。対象物が検出された場合は、認識制御部４１から送られた画像中に存在する対象物の特徴点の位置を形状認識部４３又は軌跡認識部４４へ出力すると共に、画像を形状認識部４３へ送る。例えば、ユーザーの手の動きを認識する場合、認識制御部４１から送られた一連の時系列画像から、その時系列の画像間の部分領域ごとに輝度値の変化から動きベクトルを算出し、動き領域の面積及び動作速度から手であるかどうかを判断し、手であると判断した場合にその領域を対象物領域とする方法を用いることができる。このようにすることによって、ユーザーは手形状を意識せず操作をすることが可能となり、操作時のユーザーの疲労感を低減することができる。

　他にも例えば、認識対象である手の認識開始時の画像をテンプレート画像として保存しておき、撮像部２０から送られてきた時系列画像の各画像において、特徴点認識部４２に保存しておいたテンプレート画像と最も類似した領域を検出する方法など、検出可能な手の形状にある程度制限のある方法を用いることもできる。

　また、検出した対象物の種類を通知するように開始検出部３３を構成されている場合、特徴点認識部４２を複数個備え、検出した対象物の種類に応じて異なる特徴点認識部４２を用いることで、対象物の種類に応じて最適な認識処理を行えるため、認識の精度を高めることできる。例えば、手首のふり幅が比較的小さく画像上での形状変化の少ない認識対象については、テンプレート画像と類似した領域を検出することにより対象物を認識し、手首のふり幅が大きく画像上でも形状変化が大きい認識対象については、画像中を手が動く動き領域の面積及び動作速度から手であるかどうかを判断することにより対象物を認識する、といったことが考えられる。

　形状認識部４３は、対象物の動きを認識している間に特徴点認識部４２によって得られた対象物領域の画像が所定の形状になった場合に、その形状を認識してその種類を制御部６０に通知する。形状認識の方法としては、例えば、対象物の形状毎に開始判定部３０を構成する対象物識別部３３を備えておき、特徴点認識部４２によって得られた対象物領域の画像を識別する方法を用いることができる。

　軌跡認識部４４は、特徴点認識部４２によって得られる対象物の特徴点の位置の時系列変化によって対象物の形状が描く軌跡を認識し、得られた軌跡が所定の形状になった場合に、対象物の軌跡が検出されたことを、その軌跡の種類とともに制御部６０に通知する。

　制御部６０は、認識部４０から通知された対象物の形状、対象物が移動した軌跡の種類、及び撮像部２０が撮像した画像中に存在する対象物の特徴点の位置に基づき、制御対象となる機器（図示せず）の制御を行う。例えば、機器がテレビであり、ユーザーの手を対象物とする場合、ユーザーの手が右方向、又は左方向に一定量移動する軌跡に対しては次のチャンネル及び前のチャンネルへ変更し、数字の筆跡に対応する軌跡に対しては数字に対応するチャンネル番号へ変更する。また、所定角度の円弧状の軌跡が検出された場合は音量調整を開始するとともに手の位置を初期位置として記憶しておく。その後、次に送られてきた画像で検出された手の位置と初期位置として記憶した手の位置とを比較することにより、音量調整開始後に描いた円弧の角度を算出し、角度に応じて音量の大きさを制御する。さらに、電子番組表を表示中は、番組に対応する矩形領域を選択するためのカーソルを表示しておき、手の位置に応じてカーソルを移動させ、握り拳の形状が検出された場合に、選択されている矩形領域に対応する番組の詳細情報を表示する、といった制御を行う。

　また、開始検出部３３が検出した対象物の形状の種類を認識部４０又は制御部６０に通知することにより、ジェスチャ開始時の対象物の形状によって制御内容を変更することもできる。例えば、ユーザーの手が右方向、又は左方向に一定量移動する軌跡に対して、ジェスチャ開始時の手形状が掌の場合はチャンネルを変更し、ジェスチャ開始時の手形状が拳の場合は放送波の種類を変更する、ということが考えられる。

　終了判定部５０は、撮像部２０から送られた画像から対象物のジェスチャが終了したか否かを判定する。終了判定部５０は、図５に示すように、動作検出部５１と、終了検出部５２とを備える。

　動作検出部５１は、撮像部２０から送られた画像から対象物の動作を検出し、検出結果を終了検出部５２に出力する。例えば、ユーザーの手を対象物とする場合、撮像部２０から送られた一連の時系列画像から、その時系列の画像間の差分画像を用いて、対象物であるユーザーの手の動作が検出されたか否かを判定する。

　例えば、現時刻の画像を構成する各画素について、直前の時刻の画像における対応する画素との輝度値の差を算出する。画像中のノイズを除去するために、輝度値の差が所定の第１しきい値を超えた場合、そのときの状態の画素を動き検出画素として処理する。さらに、動き検出画素の数が所定の第２しきい値を超えた場合に、動作が検出されたことを終了検出部５２に通知する。なお、第１及び第２しきい値は、固定値である必要はなく、例えば検出されている手の大きさや、時系列画像に含まれる白色雑音の大きさなどに応じて動的に変化させてもよい。また、動作の検出は、撮像部２０から送られた画像全体に対して行うこともでき、対象物の周辺に限定して行うこともできる。

　終了検出部５２は、動作検出部５１の出力に基づき対象物の動作が終了したかどうかを判定し、動作が終了したと判定した場合、認識部４０に認識をしないように指示する。動作が終了していないと判定した場合は、認識部４０に認識状態の更新を指示しない。動作が終了したかどうかの判定は、例えば、所定の枚数の入力画像において動作が検出されなかった場合に、動作が終了したと判定する、といった方法を用いることができる。

　図６は、ＵＩ装置１０の動作を表すフローチャートを示す図である。対象物をユーザーの手として以下説明をする。

　ステップＳ１０において、撮像部２０は、ユーザーの手を含む画像を撮像し、ＵＩ装置１０に送る。

　ステップＳ１５において、開始判定部３０及び終了判定部５０は、認識部４０の認識フラグをチェックする。認識フラグが立っている場合は（ステップＳ１５で「ＹＥＳ」）、ステップＳ２０に進む。認識フラグが立っていない場合は（ステップＳ１５で「ＮＯ」）、ステップＳ２１に進む。

　ステップＳ２０において、終了判定部５０は、撮像部２０によって撮像された時系列画像から、ジェスチャの動きが認識されなくなったかどうかを判定し、ジェスチャの動きが認識されなくなったと場合には、認識部４０に対して認識をしないように指示する。これを受けて、認識部４０は認識フラグをクリアする。

　ステップＳ２１において、開始判定部３０は、撮像部２０によって撮像された時系列画像から、ユーザーがジェスチャを開始したかどうかを判定し、開始したと判定した場合は、認識部４０に対してジェスチャ認識をするように指示する。これを受けて、認識部４０は認識フラグを立てる。

　ステップＳ２５において、認識部４０は、認識フラグをチェックする。認識フラグが立っている場合は（ステップＳ２５で「ＹＥＳ」）、ステップＳ３０に進む。認識フラグが立っていない場合は（ステップＳ２５で「ＮＯ」）、認識処理を終了する。

　ステップＳ３０において、認識部４０は、対象物を検出して、撮像部２０が撮像した画像中に存在する対象物の特徴点の位置を制御部６０に対して出力するとともに、対象物が所定の形状になった場合や、対象物の特徴点の位置の時系列変化により所定の軌跡が形成された場合に、これを制御部６０に対して通知する。

　ステップＳ４０において、制御部６０は、認識部より通知されたジェスチャ認識の結果に基づき、制御対象となる機器（図示せず）を制御する。

　上記実施形態は本発明を実施するための一例であり、本発明は上記各実施形態に限られるものではない。本発明の主旨を逸脱しない限り、上記実施形態を様々に変更することができる。

　上述した各実施の形態において、ＵＩ装置１０は、ハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ＵＩ装置１０がソフトウェアで構成される場合には、ＵＩ装置１０で実行される各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、当該プログラムを、インストール可能な形式又は実行可能な形式のファイルでコンピュータで読み取り可能な記録媒体に記録し、コンピュータで実行可能な複数の命令を含むプログラムを有するコンピュータ読取り可能な記録媒体として構成されても良い。

　１０　…　ＵＩ装置、２０　…　撮像部、３０　…　開始判定部、３１　…　領域設定部、３２　…　対象物識別部、３３　…　開始検出部、４０　…　認識部、４１　…　認識制御部、４２　…　特徴点認識部、４３　…　形状認識部、４４　…　軌跡認識部、５０　…　終了判定部、５１　…　動作検出部、５２　…　終了検出部、６０　…　制御部、７０　…　窓枠

Claims

　複数の画像から対象物が所定の形状であるかどうかを識別する対象物識別部を備え、所定の形状であると識別された場合に、前記対象物の認識開始を指示する開始判定部と、
　前記開始判定部からの認識開始の指示に応じて、前記対象物の動きを認識する認識部と、
　前記対象物の動きが認識されなくなった場合、前記対象物の認識終了を前記認識部に指示する終了判定部と、
　を備えることを特徴とするユーザーインターフェース装置。
　前記認識部は、
前記対象物の動きを認識している間に前記対象物の形状を認識する形状認識部と、
前記対象物の形状が描く軌跡を認識する軌跡認識部と、
　を備えることを特徴とする請求項２に記載のユーザーインターフェース装置。
　制御対象部を制御する制御部を更に備え、
　前記対象物識別部は、前記対象物の種類に応じて識別し、
　前記制御部は、前記対象物識別部が識別した前記対象物の種類に応じて前記制御対象部の制御内容を変更することを特徴とする請求項２に記載のユーザーインターフェース装置。
　前記開始判定部は、前記複数の画像中に識別領域を設定する領域設定部を備え、
　前記対象物識別部は、前記識別領域内で前記対象物が所定形状であると識別した場合に、前記認識部に前記対象物の認識開始を指示する開始検出部を備えることを特徴とする請求項１に記載のユーザーインターフェース装置。