WO2011158542A1

WO2011158542A1 - ジェスチャ認識装置、ジェスチャ認識方法およびプログラム

Info

Publication number: WO2011158542A1
Application number: PCT/JP2011/057944
Authority: WO
Inventors: 脩繁田; 野田　卓郎
Original assignee: ソニー株式会社
Priority date: 2010-06-15
Filing date: 2011-03-30
Publication date: 2011-12-22
Also published as: JP2012003414A; JP5685837B2; RU2012152935A; BR112012031335A2; EP2584531A1; US20130088426A1; CN102939617A

Abstract

　撮像センサ３の前面を遮蔽するジェスチャを認識するジェスチャ認識装置１であって、撮像センサの前面を遮蔽していない状態と遮蔽している状態の間で撮影画像Ｐａ、Ｐｂの変化を検出する第１の検出部（特徴点検出部１５、特徴点処理部１７）と、撮像センサの前面を遮蔽している状態の撮影画像において、撮影画像の輝度値の勾配が閾値未満の領域を検出する第２の検出部（ヒストグラム算出部２１、ヒストグラム処理部２３）とを備える。

Description

ジェスチャ認識装置、ジェスチャ認識方法およびプログラム

　本発明は、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムに関する。

　従来の機器操作において、ユーザは、通常、操作の対象となるソフトウェアキーやハードウェアキーを確認した上で所定の操作を行う。このため、操作に手間を要するとともに、よそ見しながら等、キーを確認せずに操作することが困難となる。

　ところで、機器の操作性を改善するために、センサを手等の物体で遮蔽するジェスチャを認識することが考えられる。このようなジェスチャによる操作は、操作に手間を要さず、かつ、よそ見しながら操作することを可能とする。

特開平７－１４６７４９号公報

池等"Ｃｅｌｌ　Ｂｒｏａｄｂａｎｄ　ＥｎｇｉｎｅＴＭを用いたハンドジェスチャユーザーインターフェース"、東芝レビュー、Ｖｏｌ．６２、Ｎｏ．６、ｐｐ．５２－５５、２００７

　ジェスチャ認識は、通常、撮像センサの撮影画像から検出対象の形状を検出し、検出結果にパターン認識処理を施すことで行われる（上記非特許文献１等参照）。このため、撮像センサの前面を手等の物体で遮蔽するジェスチャを認識しようとしても、撮像センサの真近かに位置する物体の形状を検出することができないので、ジェスチャを適切に認識することができない。

　また、ジェスチャ認識は、赤外光の発光素子および受光素子を用いて行われる場合もある（上記特許文献１等参照）。この場合、発光素子から出射された赤外光が検出対象で反射された後に、反射された赤外光が受光素子に受光されることで、発光素子を遮蔽する物体が認識される。しかし、赤外光の発光素子および受光素子という特殊なデバイスを利用しなければ、ジェスチャを適切に認識することができない。

　そこで、本発明は、特殊なデバイスを利用せずに、撮像センサのセンサ面を遮蔽するジェスチャを認識可能な、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムを提供しようとするものである。

　本発明のある観点によれば、撮像センサの前面を遮蔽するジェスチャを認識するジェスチャ認識装置であって、撮像センサの前面を遮蔽していない状態と遮蔽している状態の間で撮影画像の変化を検出する第１の検出部と、撮像センサの前面を遮蔽している状態の撮影画像において、撮影画像の輝度値の勾配が閾値未満の領域を検出する第２の検出部とを備えるジェスチャ認識装置が提供される。

　上記第１の検出部は、撮影画像中の特徴点の追跡結果に基づき撮影画像の変化を検出してもよい。

　上記第１の検出部は、撮像センサの前面を遮蔽していない状態の撮影画像中で追跡される特徴点が撮像センサの前面を手で覆った状態の撮影画像中で消失することを検出してもよい。

　上記第１の検出部は、所定期間に含まれる複数の撮影画像中で追跡される特徴点のうち、追跡中に消失した特徴点の比率が閾値以上であるかを判定してもよい。

　上記ジェスチャ認識装置は、複数の特徴点の移動傾向に基づき撮像センサの移動を判定する移動判定部をさらに備え、上記所定期間は、撮像センサが移動していない期間として設定されてもよい。

　上記第２の検出部は、撮影画像に関する輝度値ヒストグラムの算出結果に基づき撮影画像の輝度値の勾配が閾値未満の領域を検出してもよい。

　上記第２の検出部は、所定期間に含まれる複数の撮影画像に関する輝度値ヒストグラムを用いて、最大頻度近傍の頻度の和を頻度の総和で正規化した値が所定期間に亘って閾値以上であるかを判定してもよい。

　上記第２の検出部は、撮影画像に関するエッジ画像に基づき撮影画像の輝度値の勾配が閾値未満の領域を検出してもよい。

　上記第２の検出部は、所定期間に含まれる複数の撮影画像に関するエッジ画像を用いて、エッジ画像中のエッジ領域の比率が所定期間に亘って閾値未満であるかを判定してもよい。

　上記第１および第２の検出部は、撮影画像に代えて撮影画像の部分領域に対して処理を行ってもよい。

　上記第１および第２の検出部は、撮影画像から撮影画像よりも粗い解像度で生成された濃淡画像に対して処理を行ってもよい。

　上記ジェスチャ認識装置は、撮像センサの前面を遮蔽するジェスチャと撮像センサの前面を開放するジェスチャの組合せからなるジェスチャを認識してもよい。

　上記ジェスチャ認識装置は、前方の画像を捉える撮影センサをさらに備えてもよい。

　また、本発明の別の観点によれば、撮像センサの前面を遮蔽するジェスチャを認識するジェスチャ認識方法であって、撮像センサの前面を遮蔽している状態と遮蔽していない状態の間で撮影画像の変化を検出するステップと、撮像センサの前面を遮蔽している状態の撮影画像において、撮影画像の輝度値の勾配が閾値未満の領域を検出するステップとを含むジェスチャ認識方法が提供される。

　また、本発明の別の観点によれば、撮像センサの前面を遮蔽している状態と遮蔽していない状態の間で撮影画像の変化を検出するステップ、上記撮像センサの前面を遮蔽している状態の上記撮影画像において、上記撮影画像の輝度値の勾配が閾値未満の領域を検出するステップ、をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段等を介して提供されてもよい。

　以上説明したように本発明によれば、特殊なデバイスを利用せずに、撮像センサのセンサ面を遮蔽するジェスチャを認識可能な、ジェスチャ認識装置、ジェスチャ認識方法およびプログラムを提供することができる。

本発明の実施形態に係るジェスチャ認識装置の概要を示す図である。第１の実施形態に係るジェスチャ認識装置の主要な機能構成を示すブロック図である。ジェスチャ認識装置の主要な動作手順を示すフロー図である。遮蔽ジェスチャの認識手順を示すフロー図である。ジェスチャ前の特徴点の検出結果を示す図である。ジェスチャ前の濃淡画像と輝度値ヒストグラムの算出結果を示す図である。撮像センサが移動した場合における特徴点の検出結果を示す図である。ジェスチャ時の特徴点の検出結果を示す図である。ジェスチャ時の濃淡画像と輝度値ヒストグラムの算出結果を示す図である。第２の実施形態に係るジェスチャ認識装置の主要な機能構成を示すブロック図である。遮蔽ジェスチャの認識手順を示すフロー図である。ジェスチャ前の濃淡画像とエッジ画像を示す図である。ジェスチャ時の濃淡画像とエッジ画像を示す図である。第１および第２の実施形態の変形例に係るジェスチャ時の特徴点の検出結果を示す図である。

　以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　［１．ジェスチャ認識装置１の概要］
　まず、図１を参照して、本発明の実施形態に係るジェスチャ認識装置１の概要について説明する。

　図１に示すように、ジェスチャ認識装置１は、特殊なデバイスを利用せずに、撮像センサ３のセンサ面を遮蔽するジェスチャを認識することができる。なお、以下では、撮像センサ３の前面にセンサ面が設けられる場合を想定するが、他の面にセンサ面が設けられてもよい。

　ジェスチャ認識装置１は、パーソナルコンピュータ、テレビジョン受像機、携帯情報端末、携帯電話等の情報処理装置である。ジェスチャ認識装置１には、ジェスチャ認識装置１に搭載または接続されるビデオカメラ等の撮像センサ３から映像信号が入力される。なお、以下では、ジェスチャ認識装置１と撮像センサ３が別体として構成される場合について説明するが、一体として構成されてもよい。

　撮像センサ３の前面でユーザＵが所定の動作を行うと、ジェスチャ認識装置１は、撮像センサ３から入力される映像信号に基づきジェスチャを認識する。ジェスチャとしては、例えば、撮像センサ３の前面を手等の物体で遮蔽する遮蔽ジェスチャ、撮像センサ３の前面で物体を左右に移動させるフリックジェスチャが挙げられる。

　例えば、楽曲再生アプリケーションにジェスチャ認識装置１を適用する場合、遮蔽ジェスチャは、楽曲の再生停止操作に対応し、左右のフリックジェスチャは、再生送り・戻し操作に各々に対応する。そして、ジェスチャが認識されると、ジェスチャ認識装置１は、ジェスチャの認識結果をユーザＵに通知し、認識されたジェスチャに対応する処理を実行する。

　ジェスチャ認識装置１は、以下の手順で遮蔽ジェスチャを認識する。ユーザＵが遮蔽ジェスチャを行うと、撮像センサ３の前面を遮蔽していない状態（ジェスチャ前）の撮影画像Ｐａと、遮蔽している状態（ジェスチャ時）の撮影画像Ｐｂの間で撮影画像の変化が検出される（第１の検出）。また、遮蔽している状態（ジェスチャ時）の撮影画像Ｐｂにおいて、撮影画像の輝度値ｉの勾配が閾値未満の領域が検出される（第２の検出）。

　ここで、撮像センサ３の前面を手等の物体で遮蔽するジェスチャが行われると、撮影画像が撮像センサ３の前方の状態を捉えていた画像Ｐａから物体を捉えた画像Ｐｂに大きく変化するので、撮影画像の変化が検出される。また、撮像センサ３の前面を遮蔽する物体を真近かに捉えた撮影画像Ｐｂでは輝度値ｉの勾配が小さくなるので、輝度値ｉの勾配が閾値未満の領域が検出される。

　このため、第１および第２の検出条件を満たすことで、撮像センサ３の前面を遮蔽するジェスチャを認識することができる。ここで、撮像センサ３は、撮影画像の変化および輝度値ｉの勾配を検出するので、撮像センサ３の前面に真近かに位置する物体の形状を検出しなくてもよい。また、撮像センサ３の撮影画像に基づきジェスチャを認識するので、特殊なデバイスを利用しなくてもよい。

　＜第１の実施形態＞
　［２．ジェスチャ認識装置１の構成］
　つぎに、図２を参照して、第１の実施形態に係るジェスチャ認識装置１の構成について説明する。

　図２に示すように、第１の実施形態に係るジェスチャ認識装置１は、フレーム画像生成部１１、濃淡画像生成部１３、特徴点検出部１５、特徴点処理部１７、センサ移動判定部１９、ヒストグラム算出部２１、ヒストグラム処理部２３、ジェスチャ判定部２５、動き領域検出部２７、動き領域処理部２９、認識結果通知部３１、特徴点記憶部３３、ヒストグラム記憶部３５、動き領域記憶部３７を含んで構成される。

　フレーム画像生成部１１は、撮像センサ３から入力された映像信号に基づきフレーム画像を生成する。なお、フレーム画像生成部１１は、撮像センサ３に設けられてもよい。

　濃淡画像生成部１３は、フレーム画像生成部１１から供給されたフレーム画像に基づき、フレーム画像よりも粗い解像度の濃淡画像Ｍ（濃淡画像の総称）を生成する。濃淡画像Ｍは、フレーム画像を例えば１／２５６の解像度に圧縮したモノトーン画像として生成される。

　特徴点検出部１５は、濃淡画像生成部１３から供給された濃淡画像Ｍに基づき、濃淡画像Ｍ中の特徴点を検出する。濃淡画像Ｍ中の特徴点とは、例えば、撮像センサ３により捉えられた物体のコーナー部等、特徴的な部位に相当する画素パターンを意味する。特徴点の検出結果は、特徴点データとして特徴点記憶部３３に一時記憶される。

　特徴点処理部１７は、直前の数フレーム～数１０フレーム分に相当する判定期間内に含まれる複数の濃淡画像Ｍを対象として、特徴点データを処理する。特徴点処理部１７では、特徴点記憶部３３から読み出された特徴点データに基づき、濃淡画像Ｍ中の特徴点が追跡される。そして、特徴点の移動ベクトルが算出され、特徴点の移動方向に応じて移動ベクトルがクラスタリングされる。

　また、特徴点処理部１７では、所定期間内に含まれる複数の濃淡画像Ｍを対象として、濃淡画像Ｍ中で追跡される特徴点のうち、追跡中に消失した特徴点（消失特徴点）の比率が算出され、所定閾値と比較される。なお、所定期間は、上記判定期間よりも短い期間として設定される。消失特徴点は、所定期間の追跡中に見失われて追跡不能となった特徴点を意味する。消失特徴点の比較結果は、ジェスチャ判定部２５に供給される。

　センサ移動判定部１９は、特徴点処理部１７から供給されたクラスタリング結果に基づき撮像センサ３（または撮像センサ３を搭載したジェスチャ認識装置１）の移動を判定する。センサ移動判定部１９では、特徴点の移動ベクトルのうち、一定方向への移動を表す移動ベクトルの比率が算出され、所定閾値と比較される。そして、算出結果が所定閾値以上である場合に撮像センサ３が移動したと判定され、所定値未満である場合に撮像センサ３が移動していないと判定される。センサ移動の判定結果は、ジェスチャ判定部２５に供給される。

　ヒストグラム算出部２１は、濃淡画像生成部１３から供給された濃淡画像Ｍに基づき、濃淡画像Ｍを構成する画素について輝度値ｉの頻度分布を示すヒストグラムＨ（ヒストグラムの総称）を算出する。ヒストグラムＨの算出結果は、ヒストグラムデータとしてヒストグラム記憶部３５に一時記憶される。

　ヒストグラム処理部２３は、ヒストグラム記憶部３５から読み出されたヒストグラムデータに基づき、所定期間内に含まれる複数の濃淡画像Ｍを対象として、一定の輝度値ｉを伴う画素の比率を算出する。そして、ヒストグラム処理部２３は、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値以上であるかを判定する。なお、所定期間は、上記判定期間よりも短い期間として設定される。画素比率の判定結果は、ジェスチャ判定部２５に供給される。

　ジェスチャ判定部２５は、特徴点処理部１７から消失特徴点の比較結果を供給され、ヒストグラム処理部２３から画素比率の判定結果を供給される。そして、ジェスチャ判定部２５では、消失特徴点の比率が所定閾値以上であり、かつ、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値以上であるかが判定される。ここで、判定結果が肯定的である場合には、遮蔽ジェスチャが認識される。遮蔽判定の結果は、認識結果通知部３１に供給される。なお、ジェスチャ判定部２５では、センサ移動判定部１９から供給されるセンサ移動の判定結果に基づき、撮像センサ３が移動していない場合にのみ、遮蔽ジェスチャが認識される。

　動き領域検出部２７は、濃淡画像生成部１３から供給された濃淡画像Ｍのフレーム差分に基づき、動き領域を検出する。動き領域の検出結果は、動き領域データとして動き領域記憶部３７に一時記憶される。動き領域とは、濃淡画像Ｍ中で移動する物体を表している領域である。

　動き領域処理部２９は、所定期間に含まれる複数の濃淡画像Ｍを対象として、濃淡画像Ｍの動き領域データを処理する。動き領域処理部２９では、動き領域記憶部３７から読み出された動き領域データに基づき、動き領域の重心位置が算出され、連続する濃淡画像Ｍ中における動き領域の移動軌跡が算出される。なお、所定期間は、上記判定期間よりも短い期間として設定される。

　前述したジェスチャ判定部２５は、動き領域処理部２９から供給された移動軌跡の算出結果に基づき、動き領域の移動量（必要に応じて速度）を算出する。そして、ジェスチャ判定部２５では、動き領域の移動量（必要に応じて速度）が所定基準を満たしているかが判定される。ここで、判定結果が肯定的である場合には、フリックジェスチャが認識される。フリック判定の結果は、認識結果通知部３１に供給される。

　認識結果通知部３１は、ジェスチャ判定部２５から供給された判定結果に基づき、ジェスチャの認識結果をユーザＵに通知する。ジェスチャの認識結果は、例えば、文字情報、画像情報、音声情報等として、ジェスチャ認識装置１に接続されたディスプレイ、スピーカ等を通じて通知される。

　なお、特徴点処理、ヒストグラム処理、および動き領域処理で用いる所定期間は、同一の期間として設定されてもよく、互いに多少シフトされた期間として設定されてもよい。また、特徴点処理、ヒストグラム処理および移動判定処理で用いる所定閾値は、要求される検出精度に応じて各々に設定される。

　特徴点検出部１５および特徴点処理部１７は、第１の検出部として機能し、ヒストグラム算出部２１およびヒストグラム処理部２３は、第２の検出部として機能する。また、特徴点記憶部３３、ヒストグラム記憶部３５、動き領域記憶部３７は、例えば、プロセッサ等により制御される内部記憶装置や外部記憶装置として構成される。

　フレーム画像生成部１１、濃淡画像生成部１３、特徴点検出部１５、特徴点処理部１７、センサ移動判定部１９、ヒストグラム算出部２１、ヒストグラム処理部２３、ジェスチャ判定部２５、動き領域検出部２７、動き領域処理部２９、認識結果通知部３１は、例えば、ＣＰＵ、ＤＳＰ等のプロセッサを伴う情報処理装置として構成される。

　上記構成要素の機能は、少なくとも一部が回路等のハードウェアとして実現されてもよく、プログラム等のソフトウェアとして実現されてもよい。また、各構成要素をソフトウェアとして実現する場合、プロセッサ上で実行されるプログラムを通じて各構成要素の機能が実現される。

　［３．ジェスチャ認識装置１の動作］
　つぎに、図３から図９を参照して、第１の実施形態に係るジェスチャ認識装置１の動作について説明する。

　まず、ジェスチャ認識装置１の全体的な動作について説明する。図３に示すように、ジェスチャ認識装置１では、遮蔽ジェスチャおよびフリックジェスチャを認識するための認識処理が行われる（ステップＳ１）。なお、認識処理の詳細については後述する。そして、遮蔽ジェスチャまたはフリックジェスチャが認識された場合（Ｓ３、Ｓ５で「Ｙｅｓ」の場合）、認識結果がユーザＵに通知され（Ｓ７）、認識されたジェスチャに対応する処理が実行される（Ｓ８）。認識処理は、認識処理が終了（Ｓ９）するまで繰返される。なお、ジェスチャが認識されない場合に、認識結果が通知されてもよい。

　（遮蔽ジェスチャ）
　つぎに、遮蔽ジェスチャを認識するための認識処理について説明する。

　図４に示すように、認識処理を開始すると、フレーム画像生成部１１では、撮像センサ３から入力された映像信号に基づきフレーム画像が生成される（Ｓ１１）。フレーム画像は、１フレーム毎に生成されてもよく、映像信号を間引いて数フレーム間隔で生成されてもよい。

　濃淡画像生成部１３では、フレーム画像生成部１１から供給されたフレーム画像に基づき濃淡画像Ｍが生成される（Ｓ１３）。ここで、フレーム画像よりも粗い解像度の濃淡画像Ｍを用いて検出処理を行うことで、フレーム画像の変化や輝度値ｉの勾配を効率的に検出することができる。また、モノトーン画像を用いることで、比較的陰影に乏しい環境でも、フレーム画像の変化や輝度値ｉの勾配を比較的高い精度で検出することができる。

　特徴点検出部１５では、濃淡画像生成部１３から供給された濃淡画像Ｍに基づき、濃淡画像Ｍ中の特徴点が検出される（Ｓ１５）。特徴点の検出結果は、特徴点の画素パターン、検出位置等を含む特徴点データとして、フレーム番号に関連付けて特徴点記憶部３３に一時記憶される（Ｓ１５）。

　図５には、ジェスチャ前の特徴点の検出結果が示されている。図５に示す例では、ユーザＵの上半身および背景を捉えた画像を含む濃淡画像Ｍ１とともに、画像から検出された複数の特徴点を示すマーカーＣが表示されている。図５に示すように、ユーザＵおよび背景の特徴的な部位に相当する画素パターンが特徴点として検出されている。

　ヒストグラム算出部２１では、濃淡画像生成部１３から供給された濃淡画像Ｍに基づき、濃淡画像Ｍを構成する画素について輝度値ｉのヒストグラムＨが算出される（Ｓ１７）。ヒストグラムＨの算出結果は、輝度値ｉの頻度分布を示すヒストグラムデータとして、フレーム番号に関連付けてヒストグラム記憶部３５に一時記憶される。なお、ヒストグラムＨは、濃淡画像Ｍの生成時（Ｓ１３）に算出されてもよい。

　図６には、ジェスチャ前の濃淡画像Ｍ１と輝度値ヒストグラムＨ１の算出結果が示されている。ヒストグラムＨは、横軸を輝度値ｉ（階級値）、縦軸を輝度値ｉの頻度ｈｉとして輝度値ｉの頻度分布を表している。ここで、輝度値ｉの分布は、次式の正規化指標ｒを用いて表すことができる。ヒストグラムＨ上で、頻度ｈｉの総和をｈｓｕｍ、最大頻度の輝度値ｉをｉｍａｘ、最大頻度の輝度値ｉｍａｘの近傍の所定範囲をｗとする。なお、所定範囲ｗは、要求される検出精度に応じて設定される。

　正規化指標ｒは、最大頻度の輝度値ｉｍａｘの近傍の所定範囲ｗにおける頻度ｈｉの和を頻度の総和ｈｓｕｍで正規化した指標である。正規化指標ｒは、濃淡画像Ｍが一定の輝度値ｉを伴う画素により構成されているほど、つまり輝度値ｉの勾配が小さい領域が多いほど、大きな値として算出される。

　ここで、図６に示す濃淡画像Ｍ１は、ユーザＵの上半身および背景を捉えているので、各種の輝度値ｉを伴う画素により構成されている。このため、ヒストグラムＨ１では、最大頻度の輝度値ｉｍａｘの近傍の所定範囲ｗに頻度ｈｉが集中しておらず、輝度値ｉの分布に大きなバラツキが認められる。よって、図６に示す濃淡画像Ｍ１では、例えば正規化指標ｒ＝０．１と算出される。

　ステップＳ１１～Ｓ１７の処理は、直前の数フレーム～数１０フレーム分に相当する判定期間（０．５秒等）内に含まれる複数のフレーム画像を対象として、例えば、第１の判定期間でフレーム番号１～１０の処理、第２の判定期間でフレーム番号２～１１の処理というように順次に実行される。なお、特徴点データ、ヒストグラムデータ（動き領域データも含む。）は、少なくとも判定期間に対応するように一時記憶される。そして、特定の判定期間に含まれる複数のフレーム画像を対象としてステップＳ１１～Ｓ１７の処理が完了すると、ステップＳ１９以降の処理が実行される。

　特徴点処理部１７では、まず、特徴点記憶部３３から読み出された特徴点データに基づき、複数の濃淡画像Ｍ中の特徴点が追跡される（Ｓ１９）。特徴点の追跡は、連続する濃淡画像Ｍにおいて、画素パターンに基づき同一の特徴点を特定することで行われる。特徴点の追跡結果は、特徴点の移動軌跡として表すことができる。なお、特徴点の追跡中に濃淡画像Ｍから消失した特徴点は、消失特徴点とみなされる。

　つぎに、特徴点の移動ベクトルが算出され、特徴点の移動方向に応じて移動ベクトルがクラスタリングされる（Ｓ２１）。特徴点の移動ベクトルは、判定期間に含まれる複数の濃淡画像Ｍ中で追跡される特徴点の移動開始点と移動終了点を結ぶ直線または曲線として表される。

　センサ移動判定部１９では、特徴点処理部１７から供給されたクラスタリング結果に基づき撮像センサ３の移動が判定される（Ｓ２３）。まず、特徴点の移動ベクトルのうち、一定方向への移動を表す移動ベクトルの比率が算出され、所定閾値（比率０．８等）と比較される。そして、算出結果が所定閾値以上である場合に撮像センサ３が移動したと判定され、所定閾値未満である場合に撮像センサ３が移動していないと判定される。

　図７には、撮像センサ３が移動した場合における特徴点の検出結果が示されている。図７に示す濃淡画像Ｍ３は、図５に示した濃淡画像Ｍ１から数フレーム後の濃淡画像Ｍである。図７に示す例では、撮像センサ３が右下方向に移動することで、濃淡画像Ｍ３中の特徴点が左上方向に移動している。特徴点の移動は、濃淡画像Ｍ３とともに、特徴点の移動軌跡を表すマーカーＣにより表示されている。ここで、撮像センサ３の移動により、大半の特徴点が一定の方向（左斜め上）に移動していることが認められる。

　ここで、撮像センサ３が移動したと判定された場合には、判定結果がジェスチャ判定部２５に供給される。そして、ジェスチャ判定部２５では、撮像センサ３が移動した場合に、消失特徴点の誤検出により遮蔽ジェスチャが誤って認識されることを回避するために、撮像センサ３が遮蔽されていないと判定される（Ｓ２５）。

　一方、撮像センサ３が移動していないと判定された場合には、以下の処理が行われる。特徴点処理部１７では、特徴点記憶部３３から読み出された特徴点データに基づき、所定期間内に含まれる複数の濃淡画像Ｍを対象として、濃淡画像Ｍ中で追跡される特徴点に対する消失特徴点の比率が算出され、所定閾値（比率０．８等）と比較される（Ｓ２７）。つまり、所定期間内に検出された特徴点（所定期間内に亘って検出され続けた特徴点と、途中で消失した特徴点の合計）に対する、所定期間内に消失した特徴点の比率が所定閾値と比較される。

　図８には、ジェスチャ時の特徴点の検出結果が例示されている。図８に示す例では、撮像センサ３の前面を遮蔽する手を捉えた濃淡画像Ｍ２が表示されている。図８に示す例では、撮像センサ３の前面を遮蔽することで、ユーザＵの上半身および背景を捉えた画像が隠されてしまい、画像から検出されていた特徴点を示すマーカーＣが消えている。

　ヒストグラム処理部２３では、ヒストグラム記憶部３５から読み出されたヒストグラムデータに基づき、所定期間内に含まれる複数の濃淡画像Ｍを対象として、一定の輝度値ｉを伴う画素の比率が算出される。ここで、一定の輝度値ｉを伴う画素の比率は、前述した正規化指標ｒにより表すことができる。そして、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値（ｒ＞０．７等）以上であるかが判定される（Ｓ２９）。

　図９には、ジェスチャ時の濃淡画像Ｍ２と輝度値ヒストグラムＨ２の算出結果が示されている。ここで、図９に示す濃淡画像Ｍ２は、撮像センサ３の前面を遮蔽する手を捉えており、一定の輝度値ｉを伴う画素を多く含んで構成されている。

　このため、ヒストグラムＨ２では、最大頻度の輝度値ｉｍａｘの近傍の所定範囲ｗに頻度ｈｉが集中しており、輝度値ｉの分布に大きなバラツキが認められない。例えば、図９に示す濃淡画像Ｍ２では、正規化指標がｒ＝０．８と算出される。そして、所定期間に亘って撮像センサ３の前面が遮蔽されると、所定期間に亘って大きな正規化指標ｒが算出される。よって、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値以上である、つまり輝度値ｉの勾配が所定閾値より小さい領域が所定期間に亘って多く存在すると判定される。

　ジェスチャ判定部２５では、特徴点処理部１７から消失特徴点の比較結果が供給され、ヒストグラム処理部２３から画素比率の判定結果が供給される。そして、消失特徴点の比率が所定閾値以上であり、かつ、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値以上であるかが判定される。ここで、判定結果が肯定的である場合には、撮像センサ３が遮蔽されたと判定され（Ｓ３１）、遮蔽ジェスチャが認識される。なお、少なくとも一方の条件を満たさない場合には、撮像センサ３が遮蔽されていないと判定され（Ｓ２５）、遮蔽ジェスチャが認識されない。

　認識結果通知部３１では、ジェスチャ判定部２５から供給された遮蔽判定の結果に応じて、ユーザＵに対して認識結果が通知される。そして、遮蔽ジェスチャが認識された場合には、対応する処理が実行される。

　（フリックジェスチャ）
　つぎに、フリックジェスチャを認識するための認識処理について説明する。

　動き領域検出部２７では、濃淡画像生成部１３から供給された濃淡画像Ｍのフレーム差分に基づき、動き領域が検出される。つまり、連続する濃淡画像Ｍに含まれる変化領域を求めることで、動き領域が検出される。動き領域の検出結果は、動き領域データとして動き領域記憶部３７に一時記憶される。

　動き領域処理部２９では、所定期間に含まれる複数の濃淡画像Ｍを対象として、濃淡画像Ｍの動き領域データが処理される。そして、動き領域記憶部３７から読み出された動き領域データに基づき、動き領域の重心位置が算出され、連続する濃淡画像Ｍ中における動き領域の移動軌跡が算出される。

　ジェスチャ判定部２５では、動き領域処理部２９から供給された移動軌跡の算出結果に基づき、動き領域の移動量（必要に応じて速度）を算出する。そして、ジェスチャ判定部２５では、まず、撮像センサ３の移動による動きをフリックジェスチャとして認識しないように、動き領域のサイズが所定閾値未満であるかが判定される（撮像センサ３が移動すると、撮影画像が全体的に移動するため）。次に、非常に小さい移動量を伴う動きをフリックジェスチャとして認識しないように、動き領域の移動量が所定閾値以上であるかが判定される。

　次に、動き領域の移動方向が所定方向であるかが判定される。例えば左・右フリックジェスチャを認識する場合には、動き領域の移動方向が撮像センサ３に対して許容誤差を考慮した上で左・右方向として認識可能であるかが判定される。ここで、判定結果が肯定的である場合には、フリックジェスチャが認識される。フリック判定の結果は、認識結果通知部３１に供給され、ユーザＵに通知され、認識結果に応じて、フリックジェスチャに対応する処理が実行される。

　＜第２の実施形態＞
　［４．ジェスチャ認識装置２の構成および動作］
　つぎに、図１０から図１３を参照して、第２の実施形態に係るジェスチャ認識装置２について説明する。第２の実施形態に係るジェスチャ認識装置２は、輝度値ｉの頻度分布を示すヒストグラムＨに代えて、エッジ画像Ｅ（エッジ画像の総称）中のエッジ領域Ａを用いて遮蔽ジェスチャを認識する。なお、以下では、第１の実施形態と重複する説明を省略する。

　図１０に示すように、ジェスチャ認識装置２は、ヒストグラム算出部２１およびヒストグラム処理部２３に代えて、エッジ領域抽出部４１およびエッジ領域処理部４３を含んで構成される。

　エッジ領域抽出部４１は、濃淡画像生成部１３から供給された濃淡画像Ｍに基づきエッジ画像Ｅを生成し、エッジ画像Ｅからエッジ領域Ａを抽出する。エッジ領域Ａは、例えば、Ｓｏｂｅｌフィルタ、Ｌａｐｌａｃｉａｎフィルタ、ＬＯＧフィルタ、Ｃａｎｎｙの方法等を用いて抽出される。エッジ領域Ａの抽出結果は、エッジ領域データとしてエッジ領域記憶部４５に一時記憶される。

　エッジ領域処理部４３は、エッジ領域記憶部４５から読み出されたエッジ領域データに基づき、所定期間内に含まれる複数のエッジ画像Ｅを対象として、エッジ画像Ｅ中のエッジ領域Ａの比率を算出する。そして、エッジ領域処理部４３は、エッジ領域Ａの比率が所定期間に亘って所定閾値（０．１等）未満であるかを判定する。なお、所定期間は、直前の数フレームから数１０フレーム分に相当する判定期間よりも短い期間として設定される。エッジ領域Ａの判定結果は、ジェスチャ判定部２５に供給される。

　ジェスチャ判定部２５は、特徴点処理部１７から消失特徴点の比較結果を供給され、エッジ領域処理部４３からエッジ領域Ａの判定結果を供給される。そして、ジェスチャ判定部２５では、消失特徴点の比率が所定閾値以上であり、かつ、エッジ領域Ａの比率が所定期間に亘って所定閾値未満であるかが判定される。

　図１１に示すように、エッジ領域抽出部４１では、濃淡画像生成部１３から供給された濃淡画像Ｍに基づきエッジ画像Ｅが生成され、エッジ領域Ａが抽出される（Ｓ４１）。エッジ領域Ａは、エッジ画像Ｅ中のエッジ領域Ａの比率を示すエッジ領域データとして、フレーム番号に関連付けてエッジ領域記憶部４５に一時記憶される（Ｓ４１）。

　エッジ領域処理部４３では、エッジ領域記憶部４５から読み出されたエッジ領域データに基づき、所定期間内に含まれる複数のエッジ画像Ｅを対象として、エッジ画像Ｅ中のエッジ領域Ａの比率が所定期間に亘って所定閾値未満であるかが判定される（Ｓ４３）。

　図１２には、ジェスチャ前の濃淡画像Ｍ１とエッジ画像Ｅ１が示されている。図１２に示すように、エッジ画像Ｅは、濃淡画像Ｍを構成する画素のうち、輝度値ｉの差が大きい画素同士の境界をなすエッジ領域Ａを示す画像である。ここで、図１２に示すエッジ画像Ｅ１は、ユーザＵの上半身および背景を捉えているので、各種の輝度値ｉを伴う画素により構成されている。このため、エッジ画像Ｅ１では、輝度値ｉの異なる画素が多く存在し、輝度値ｉの差が大きい画素同士の境界をなすエッジ領域Ａが多く認められる。

　一方、図１３には、ジェスチャ時の濃淡画像Ｍ２とエッジ画像Ｅ２が示されている。ここで、図１３に示す濃淡画像Ｍ２は、撮像センサ３の前面を遮蔽する手を捉えているので、一定の輝度値ｉを伴う画素を多く含んで構成されている。このため、エッジ画像Ｅ２では、輝度値ｉの異なる画素が多く存在せず、輝度値ｉの差が大きい画素同士の境界をなすエッジ領域Ａが多く認められない。そして、所定期間に亘って撮像センサ３の前面が遮蔽されると、所定期間に亘ってエッジ領域Ａを多く含まないエッジ画像Ｅが生成されることになる。よって、エッジ領域Ａの比率が所定期間に亘って所定閾値未満である、つまり輝度値ｉの勾配が所定閾値より小さい領域が所定期間に亘って多く存在すると判定される。

　そして、ジェスチャ判定部２５では、特徴点処理部１７から消失特徴点の比較結果が供給され、エッジ領域処理部４３からエッジ領域比率の判定結果が供給される。そして、消失特徴点の比率が所定閾値以上であり、かつ、エッジ領域Ａの比率が所定期間に亘って所定閾値未満であるかが判定される。ここで、判定結果が肯定的である場合には、撮像センサ３が遮蔽されたと判定され（Ｓ３１）、遮蔽ジェスチャが認識される。

　＜変形例＞
　つぎに、図１４を参照して、第１および第２の実施形態の変形例に係るジェスチャ認識装置について説明する。変形例では、撮影画像全体に相当する濃淡画像Ｍに代えて、撮影画像の部分領域に相当する濃淡画像Ｍを用いて遮蔽ジェスチャを認識する。なお、以下では、第１および第２の実施形態と重複する説明を省略する。

　本変形例では、フレーム画像生成部１１または濃淡画像生成部１３において、フレーム画像の部分領域に相当するフレーム画像または濃淡画像Ｍが生成される。ここで、フレーム画像の部分領域とは、撮像センサ３の前面領域のうち、遮蔽ジェスチャ時に手等の物体により遮蔽される領域を意味する。なお、部分領域は、撮影画像の上部等の所定範囲として予め設定される。

　本変形例では、図１４に示すように、フレーム画像の部分領域（図１４中の領域Ｆ）を対象として、第１および第２の実施形態と同様に、第１および第２の検出処理を行う。つまり、部分領域を対象として、消失特徴点の比率が所定閾値以上であり、かつ、一定の輝度値ｉを伴う画素の比率が所定期間に亘って所定閾値以上であり、もしくは、エッジ領域Ａの比率が所定期間に亘って所定閾値未満であるかが判定される。図１４に示す例では、撮影画像の上部が部分的に遮蔽されている。なお、図１４に示す例では、ジェスチャ時の特徴点の検出結果が示されているが、一定の輝度値ｉを伴う画素の比率やエッジ領域の比率を算出する場合についても、フレーム画像の部分領域を対象として処理が行われる。

　これにより、撮像センサ３の前面を完全に遮蔽しなくても、所定範囲を部分的に遮蔽することで、遮蔽ジェスチャを認識することができる。また、照明・採光等の影響によって、撮像センサ３を遮蔽する物体に多少陰影が生じている場合でも、遮蔽ジェスチャを認識することができる。

　［５．まとめ］
　以上説明したように、本発明の実施形態に係るジェスチャ認識装置１、２およびジェスチャ認識方法によれば、撮影画像（濃淡画像Ｍ）の変化および輝度値ｉの勾配を検出するので、撮像センサ３の前面に真近かに位置する物体の形状を検出しなくてもよく、撮像センサ３の撮影画像（濃淡画像Ｍ）に基づきジェスチャを認識するので、特殊なデバイスを利用しなくてもよい。よって、特殊なデバイスを利用せずに、撮像センサ３のセンサ面を遮蔽するジェスチャを認識することができる。

　以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

　例えば、上記説明では、撮像センサ３の前面を遮蔽する遮蔽ジェスチャを認識する場合について説明した。しかし、撮像センサ３の前面を遮蔽するジェスチャと、撮像センサ３の前面を開放するジェスチャを組合せたジェスチャを認識してもよい。この場合、撮像センサ３の前面を開放するジェスチャは、新たに検出された特徴点の比率が所定閾値（比率０．８等）以上であるかを判定し、一定の輝度値ｉを伴う画素の比率が所定閾値（比率０．２等）未満であるかを判定することで認識される。

　また、上記説明では、楽曲再生アプリケーションにジェスチャ認識装置１を適用する場合について説明した。しかし、ジェスチャ認識装置１は、例えば、動画やスライドショーの再生停止、メニュー表示のオン／オフ切替等のトグル操作が可能なアプリケーション、再生モードの変更等のモード操作が可能なアプリケーションに適用してもよい。

　　１、２　　ジェスチャ認識装置
　　１１　　フレーム画像生成部
　　１３　　濃淡画像生成部
　　１５　　特徴点検出部
　　１７　　特徴点処理部
　　１９　　センサ移動判定部
　　２１　　ヒストグラム算出部
　　２３　　ヒストグラム処理部
　　２５　　ジェスチャ判定部
　　２７　　動き領域検出部
　　２９　　動き領域処理部
　　３１　　認識結果通知部
　　３３　　特徴点記憶部
　　３５　　ヒストグラム記憶部
　　３７　　動き領域記憶部
　　４１　　エッジ領域抽出部
　　４３　　エッジ領域処理部
　　４５　　エッジ領域記憶部
　　Ｐａ、Ｐｂ　　撮影画像
　　Ｍ１、Ｍ２、Ｍ３、Ｍ４　　濃淡画像
　　Ｈ１、Ｈ２　　輝度値ヒストグラム
　　Ｅ１、Ｅ２　　エッジ画像
　　Ｃ　　特徴点マーク
　　Ａ　　エッジ領域

Claims

　撮像センサの前面を遮蔽していない状態と遮蔽している状態の間で撮影画像の変化を検出する第１の検出部と、
　前記撮像センサの前面を遮蔽している状態の前記撮影画像において、前記撮影画像の輝度値の勾配が閾値未満の領域を検出する第２の検出部と、
　を備えるジェスチャ認識装置。
　前記第１の検出部は、前記撮影画像中の特徴点の追跡結果に基づき前記撮影画像の変化を検出する、請求項１に記載のジェスチャ認識装置。
　前記第１の検出部は、前記撮像センサの前面を遮蔽していない状態の前記撮影画像中で追跡される特徴点が前記撮像センサの前面を手で覆った状態の前記撮影画像中で消失することを検出する、請求項２に記載のジェスチャ認識装置。
　前記第１の検出部は、所定期間に含まれる複数の前記撮影画像中で追跡される前記特徴点のうち、追跡中に消失した前記特徴点の比率が閾値以上であるかを判定する、請求項３に記載のジェスチャ認識装置。
　複数の前記特徴点の移動傾向に基づき前記撮像センサの移動を判定する移動判定部をさらに備え、
　前記所定期間は、前記撮像センサが移動していない期間として設定される、請求項４に記載のジェスチャ認識装置。
　前記第２の検出部は、前記撮影画像に関する輝度値ヒストグラムの算出結果に基づき前記撮影画像の輝度値の勾配が閾値未満の領域を検出する、請求項１に記載のジェスチャ認識装置。
　前記第２の検出部は、前記所定期間に含まれる複数の前記撮影画像に関する前記輝度値ヒストグラムを用いて、最大頻度近傍の頻度の和を頻度の総和で正規化した値が前記所定期間に亘って閾値以上であるかを判定する、請求項６に記載のジェスチャ認識装置。
　前記第２の検出部は、前記撮影画像に関するエッジ画像に基づき前記撮影画像の輝度値の勾配が閾値未満の領域を検出する、請求項１に記載のジェスチャ認識装置。
　前記第２の検出部は、前記所定期間に含まれる複数の前記撮影画像に関する前記エッジ画像を用いて、前記エッジ画像中のエッジ領域の比率が前記所定期間に亘って閾値未満であるかを判定する、請求項８に記載のジェスチャ認識装置。
　前記第１および第２の検出部は、前記撮影画像に代えて前記撮影画像の部分領域に対して処理を行う、請求項１に記載のジェスチャ認識装置。
　前記第１および第２の検出部は、前記撮影画像から前記撮影画像よりも粗い解像度で生成された濃淡画像に対して処理を行う、請求項１に記載のジェスチャ認識装置。
　前記撮像センサの前面を遮蔽するジェスチャと前記撮像センサの前面を開放するジェスチャの組合せからなるジェスチャを認識する、請求項１に記載のジェスチャ認識装置。
　前方の画像を捉える前記撮影センサをさらに備える、請求項１に記載のジェスチャ認識装置。
　撮像センサの前面を遮蔽している状態と遮蔽していない状態の間で撮影画像の変化を検出するステップと、
　前記撮像センサの前面を遮蔽している状態の前記撮影画像において、前記撮影画像の輝度値の勾配が閾値未満の領域を検出するステップと、
　を含むジェスチャ認識方法。
　撮像センサの前面を遮蔽している状態と遮蔽していない状態の間で撮影画像の変化を検出するステップ、
　前記撮像センサの前面を遮蔽している状態の前記撮影画像において、前記撮影画像の輝度値の勾配が閾値未満の領域を検出するステップ、
　をコンピュータに実行させるためのプログラム。