WO2010095190A1

WO2010095190A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2010095190A1
Application number: PCT/JP2009/005583
Authority: WO
Inventors: 池上渉一
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2009-02-19
Filing date: 2009-10-23
Publication date: 2010-08-26
Also published as: EP2400370A1; EP2400370B1; US8509484B2; JP2010191826A; US20110317874A1; JP5483899B2; EP2400370A4

Abstract

　撮像装置１２が取得したユーザの姿を含む動画像のデータを、情報処理装置１４の画像取得部２０が取得する。追跡処理部２６は、パーティクルフィルタによる視覚追跡を動画像に対し行い、ユーザの頭部輪郭を推定する。ジェスチャ検出部２８は、頭部輪郭の内部領域における顔の領域を特定し、顔の向きを表すパラメータを取得して履歴化する。顔の向きの時間変化が所定の基準を満たしたとき、ジェスチャがなされたと判定する。出力データ生成部３０は、ジェスチャの検出結果に応じた出力データを生成する。出力制御部３２は生成された出力データを、例えば表示装置１６に表示するよう制御する。

Description

情報処理装置および情報処理方法

　本発明は情報処理技術に関し、特にユーザの入力に応じた処理を行うためのユーザインターフェースを含む情報処理装置およびそこで実行される情報処理方法に関する。

　近年、ゲーム装置や電化製品などを含む電子機器や情報処理装置は、その機能が著しく高度化している。それに伴い、ユーザインターフェースによってユーザが行うことのできる入力体系は複雑化している。そのような複雑な入力体系にあっても容易な入力が可能となるように、ユーザインターフェースには様々な工夫がなされてきた。例えば、コントローラにおけるボタンの割り付けを工夫したり、タッチパネルを利用したりするほか、ユーザを撮像する装置をインターフェースとして取得した画像を解析することにより、ユーザの顔の向きの変化に応じた処理を行う技術も提案されている（例えば特許文献１参照）。

　このように撮像装置をユーザインターフェースとする場合、一般的には顔検出技術を利用してユーザの顔の状態などを検出することができる。例えばあらかじめ準備した基準画像と検出した顔領域の画像とをマッチングしたり特徴点を抽出したりすることにより顔の部位を検出し、その時間変化を取得する。

特開２００８－１１２３６０号公報

　情報処理技術の進歩によって、電子機器や情報処理装置を利用する環境、ユーザ、処理内容なども多様化し、それらの要因に応じて、望まれるユーザインターフェースも異なってくる。したがってそのようなニーズに合致させて、ユーザインターフェースの態様もさらに多様化させる必要がある。特に、多くのボタンなどによって複雑な入力を行わずともより自然な動きで入力が可能なユーザインターフェースが望まれている。

　本発明はこのような課題に鑑みてなされたものであり、その目的は、人の頭部のジェスチャによって正確な入力が可能なユーザインターフェースを含む情報処理技術を提供することにある。

　本発明のある態様は情報理装置に関する。この情報処理装置は、対象物の動きを動画像として撮像する撮像装置と、撮像装置が撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定する追跡処理部と、追跡処理部が推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得し、パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定するジェスチャ検出部と、ジェスチャ検出部がジェスチャがなされたと判定したとき、当該ジェスチャに対応した処理を行い出力データを生成する出力データ生成部と、を備えることを特徴とする。

　本発明の別の態様は情報処理方法に関する。この情報処理方法は、対象物の動きを動画像として撮像するステップと、撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定するステップと、推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得するステップと、パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定するステップと、ジェスチャがなされたと判定されたとき、当該ジェスチャに対応した処理を行い出力データを生成するステップと、を含むことを特徴とする。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、人の頭部のジェスチャを利用して多様な処理を精度よく行うことができる。

本実施の形態を適用できる情報処理システムの構成例を示す図である。人間が頭部を用いたジェスチャをする際に頭部が回転する方向を説明するための図である。人物を追跡対象とした場合の視覚追跡手法を説明するための図である。パーティクルフィルタを用いた確率密度分布推定の手法を説明する図である。本実施の形態における情報処理装置の構成を詳細に示す図である。本実施の形態における追跡処理部の構成を詳細に示す図である。本実施の形態におけるジェスチャ検出部の構成を詳細に示す図である。本実施の形態において履歴記憶部に記憶される顔向き角度の時間変化の例を示す図である。本実施の形態の報処理装置の処理手順を示すフローチャートである。図９のフローチャートで処理対象としたゲームにおいて表示装置に表示する画像の例を示す図である。

　図１は本実施の形態を適用できる情報処理システムの構成例を示す。情報処理システム１０は、ユーザ１８を撮像する撮像装置１２、ユーザのジェスチャを検出しそれに応じた情報処理を行う情報処理装置１４、情報処理装置が処理した結果得られた画像データを出力する表示装置１６を含む。

　情報処理装置１４と、撮像装置１２あるいは表示装置１６との接続は、有線、無線を問わず、また種々のネットワークを介していてもよい。あるいは撮像装置１２、情報処理装置１４、表示装置１６のうちいずれか２つ、または全てが組み合わされて一体的に装備されていてもよい。また、撮像装置１２は必ずしも表示装置１６の上に搭載されていなくてもよい。以後の説明では、撮像装置１２は表示装置１６に対峙したユーザ１８を正面から撮像することを前提とするが、撮像する方向が異なっていても、簡単な座標変換により同様の処理を行うことができる。またユーザ１８は情報処理装置１４で処理される内容によって複数でもよい。

　撮像装置１２はユーザ１８を含む画像のデータを、所定のフレームレートで取得する。取得された動画像データは情報処理装置１４に入力される。情報処理装置１４は、撮像装置１２から取得した動画像データからユーザ１８の顔の向きあるいは頭部の向きの時間変化を取得する。本実施の形態では、ユーザ１８の顔の向きの時間変化を取得することにより頭部のジェスチャを検出し、その結果を様々な処理に利用する。ここで、頭部のジェスチャを精度よく検出するために、頭部輪郭の視覚追跡を行う。具体的な手法は後に詳述する。また、ジェスチャを検出したあと、それを利用して情報処理装置１４が実行する処理は様々考えられ、その内容は限定されない。また本実施の形態では頭部に着目して首を振るジェスチャを検出する態様を主に述べるが、頭部に限らず手のひら、足などの体の部位または体全体を用いたジェスチャや、ユーザに持たせた物の動きによるジェスチャなどでも同様に検出できる。

　図２は人間が頭部を用いたジェスチャをする際に頭部が回転する方向を説明するための図である。ユーザ１８が首を横に振った場合、それはＹａｗ軸方向の回転と考えることができる。同様にうなずいた場合はＰｉｔｃｈ軸方向の回転、首をかしげた時はＲｏｌｌ軸の回転と考えることができる。本実施の形態では、これらの回転軸のうち少なくとも１つの軸に対する回転を、各画像フレームの時刻に対する顔の向きを取得することにより検出する。そして、例えばＰｉｔｃｈ軸方向の回転角の変化をうなずき（肯定）、Ｙａｗ軸方向の回転角の変化を首を横に振る（否定）、Ｒｏｌｌ軸方向の回転角の変化を首をかしげる（わからない）という意志を表現するジェスチャと捉えると、そのような意志を反映させることのできるゲームや情報処理を行うことができる。

　また、単にそれらの３種類の変化を最大３種類の選択肢からの選択入力に利用することもできる。この場合、あらかじめ首を振る向きと処理とを対応づけておくことにより、情報処理装置１４は、マウス、トラッキングボール、アナログスティックなど一般的な入力装置に代えて顔の向きの変化を利用でき、さらに幅広い分野の情報処理を行うことができる。以後の説明では、一般的に用いるジェスチャの他、このように情報処理ごとに定めた対応づけによって行う首振りも広義の「ジェスチャ」とする。情報処理装置１４が実行する処理の例は後に述べる。表示装置１６は、情報処理装置１４がユーザ１８のジェスチャを検出した結果を反映させて生成した画像データを取得し、画像として出力する。

　次に情報処理装置１４が行う、ユーザ１８の顔の向きの時間変化の検出原理を説明する。本実施の形態では、顔の向きの時間変化を精度よく検出するため、まず頭部輪郭の動きを追跡する。具体的には、パーティクルフィルタを用いた視覚追跡処理を、撮像装置１２が撮像したユーザ１８を含む画像に対して実行する。頭部輪郭の視覚追跡は、動画像の各画像フレームの頭部輪郭を時間発展的に推定していく技術である。また、顔の向きが変化しても画像フレーム間でその頭部輪郭が大幅に変化することは考えにくい。結果として、顔の向きが時間変化してもジェスチャ検出精度への影響が少ない。

　本実施の形態では上述のとおり、「顔の向きの時間変化」という時間幅を有する行為を入力として利用する。顔領域の画像処理として一般的に用いられる顔検出技術は、基本的に静止画に対する処理であり、それを時間変化の検出に利用するということは、結局、複数の静止画についての検出結果をつなげていくことに他ならない。顔検出の処理自体は、処理の効率化という観点以外に、基本的には前の画像フレームとの関連性を考慮しないため、複数の人が画像に含まれていたり人が移動したりといった状況の変化が考えられるような有限の時間で発生した事象を検出するときは誤差を含みやすい。本実施の形態によれば、頭部輪郭の追跡処理自体が時間発展的であるため、前の画像フレームとの関連性から個々人の動きを精度よく捉えることができる。

　図３は人物を追跡対象とした場合の視覚追跡手法を説明するための図である。人物画像１５０は撮像した動画像の画像ストリームを構成する画像フレームのひとつであり、追跡対象である人物１５２が写っている。当該人物１５２が、図１におけるユーザ１８に対応する。

　この人物１５２の動きを追跡するために、人物１５２の頭部輪郭の形状を近似するΩ形の曲線１５４を既知の表現で記述する。一方、人物１５２を含む人物画像１５０にはエッジ抽出処理を施し、エッジ画像を取得しておく。そして曲線１５４を規定するパラメータを変化させることにより当該曲線１５４を並進、伸縮、回転させて、その近傍にあるエッジを探索することにより、人物１５２の頭部輪郭と最もマッチすると推定されるパラメータの値を特定する。以上の処理をフレームごとに繰り返すことにより人物１５２の追跡が進捗する。ここでエッジとは一般的には画像の濃度や色に急な変化を有する箇所のことである。

　規定するパラメータの値を様々にした曲線１５４と人物１５２の頭部輪郭とのマッチングを行うために、パーティクルフィルタによる確率分布予測技術を導入する。すなわち、ひとつ前のフレームにおけるパラメータ空間上の対象物の確率分布に応じて曲線１５４のサンプリング数を増減させ、追跡候補の絞り込みを行う。これにより存在確率の高い部分に対しては重点的に探索を行うことができ、精度のよいマッチングが効率的に行える。

　対象物の輪郭に着目した追跡に対するパーティクルフィルタの適用手法は、例えば非特許文献（ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998）に詳述されている。ここでは本実施の形態に係る点に着目して説明する。

　まずΩ形の曲線１５４を、Ｂスプライン曲線で記述する。Ｂスプライン曲線はｎ個の制御点（Ｑ０，・・・，Ｑｎ）とｎ個のノット（ｓ０，・・・，ｓｎ）とから定義される。そして基本となる曲線形状、この場合はΩ形の曲線となるように、それらのパラメータをあらかじめ設定しておく。このときの設定によって得られる曲線を以後、テンプレートＱtと呼ぶ。なお、図２で示した人物画像１５０における人物１５２の追跡を行う場合は、テンプレートＱtはΩ形であるが、その形状は追跡対象によって変化させる。すなわち追跡対象がボールであれば円形、手のひらであれば手の形状などとなる。

　次にテンプレートの状態を変化させるための変換パラメータとして、形状空間ベクトルｘを準備する。形状空間ベクトルｘは以下のような６つのパラメータで構成される。

　ここで（shift_ｘ，shift_ｙ）は（ｘ，ｙ）方向への並進量、（extend_ｘ，extend_ｙ）は倍率、θは回転角である。そして形状空間ベクトルｘをテンプレートＱtに作用させるための作用行列Ｗを用いると、変形後の曲線、すなわち候補曲線Ｑは以下のように記述できる。

　式２を用いれば、形状空間ベクトルｘを構成する６つのパラメータを適宜変化させることにより、テンプレートを並進、伸縮、回転させることができ、組み合わせによって候補曲線Ｑを種々変化させることができる。

　そして、制御点、およびノットの間隔といったテンプレートＱtのパラメータや、形状空間ベクトルｘを構成する６つのパラメータを変化させることによって表現される複数の候補曲線について、各ノットの近傍にある人物１５２のエッジを探索する。その後、エッジとの距離などから各候補曲線の尤度を求めることにより、形状空間ベクトルｘを構成する６つのパラメータで定義される６次元空間における確率密度分布を推定する。

　図４はパーティクルフィルタを用いた確率密度分布推定の手法を説明する図である。同図では理解を簡単にするために、形状空間ベクトルｘを構成する６つのパラメータのうち、あるパラメータｘ１の変化を横軸に表しているが、実際には６次元空間において同様の処理が行われる。ここで確率密度分布を推定したい画像フレームが時刻ｔの画像フレームであるとする。

　まず、時刻ｔの画像フレームのひとつ前のフレームである時刻ｔ－１の画像フレームにおいて推定された、パラメータｘ１軸上の確率密度分布を用いて（Ｓ１１０）、時刻ｔにおけるパーティクルを生成する（Ｓ１１２）。それまでにフィルタリングを行い、すでにパーティクルが存在する場合は、その分裂、および消滅を決定する。Ｓ１１０において表した確率密度分布は、パラメータ空間上の座標に対応して離散的に求められたものであり、円が大きいほど確率密度が高いことを表している。

　パーティクルはサンプリングするパラメータｘ１の値とサンプリング密度とを実体化したものであり、例えば時刻ｔ－１において確率密度が高かったパラメータｘ１の領域は、パーティクル密度を高くすることで重点的にサンプリングを行い、確率密度の低かった範囲はパーティクルを少なくすることでサンプリングをあまり行わない。これにより、例えば人物１５２のエッジ近傍において候補曲線を多く発生させて、効率よくマッチングを行う。

　次に所定の運動モデルを用いて、パーティクルをパラメータ空間上で遷移させる（Ｓ１１４）。所定の運動モデルとは例えば、ガウシアン型運動モデル、自己回帰予測型運動モデルなどである。前者は、時刻ｔにおける確率密度は時刻ｔ－１における各確率密度の周囲にガウス分布している、とするモデルである。後者は、サンプルデータから取得した２次以上の自己回帰予測モデルを仮定する手法で、例えば人物１５２がある速度で等速運動をしているといったことを過去のパラメータの変化から推定する。図２の例では、自己回帰予測型運動モデルによりパラメータｘ１の正方向への動きが推定され、各パーティクルをそのように遷移させている。

　次に、各パーティクルで決定される候補曲線の近傍にある人物１５２のエッジを、時刻ｔのエッジ画像を用いて探索することにより、各候補曲線の尤度を求め、時刻ｔにおける確率密度分布を推定する（Ｓ１１６）。前述のとおり、このときの確率密度分布はＳ１１６に示すように、真の確率密度分布４００を離散的に表したものになる。以降、これを繰り返すことにより、各時刻における確率密度分布がパラメータ空間において表される。例えば確率密度分布が単峰性であった場合、すなわち追跡対象が唯一であった場合は、得られた確率密度を用いて各パラメータの値に対し重み付けした和を最終的なパラメータとすることにより、追跡対象の輪郭と推定される曲線が得られることになる。

　Ｓ１１６において推定される時刻ｔにおける確率密度分布p(x_t ⁱ)は以下のように計算される。

　ここでｉはパーティクルに一意に与えられた番号、p(x_t ⁱ|x_t ⁱ, u_t-1)は所定の運動モデル、p(y_t|x_t ⁱ)は尤度である。式３で得られる確率密度分布は、形状空間ベクトルの各パラメータに対して得られる。したがって当該確率密度分布でパーティクルの加重平均を求めることにより、各時刻の形状空間ベクトルが推定できる。

　このようにして得られた各時刻の形状空間ベクトルが定めるΩ形の頭部輪郭の内部領域は、およそ顔領域および髪の毛の領域で構成される。そこで当該頭部輪郭の顔領域の変化を取得することにより、顔の向きの変化を検出する。例えば、テクスチャマッチングにより頭部領域のうち顔領域を各画像フレームで特定し、その面積の変化と変化の方向を取得する。なお顔領域の特定は、テクスチャ以外に、色、エッジ、周波数分布など画像が有する特徴のいずれを利用してもよい。この場合、面積が振動していれば顔の向きが振動している、ひいてはユーザ１８が首を振っていると判定する。領域が縦方向に伸縮していればＰｉｔｃｈ角、横方向に伸縮していればＹａｗ角の変化である。

　これらの変化を統合すれば、「肯定」、「否定」のジェスチャを検出できる。またＲｏｌｌ角の変化は、上述の視覚追跡処理における形状空間ベクトルのうち、回転角θの変化で特定でき、これにより首をかしげる「疑問」のジェスチャを検出できる。このように、本実施の形態では頭部のジェスチャを精度よく検出することができるため、それを利用した様々なアプリケーションと組み合わせることができる。

　図５は情報処理装置１４の構成を詳細に示している。情報処理装置１４は、撮像装置１２から入力される入力画像データを取得する画像取得部２０、上述の視覚追跡処理を実行する追跡処理部２６、追跡の結果得られた頭部輪郭の内部領域の画像データからジェスチャを検出するジェスチャ検出部２８、検出したジェスチャを利用したゲームなどのアプリケーションを実行し画像データなどの出力データを生成する出力データ生成部３０、および、生成された出力データの表示装置１６などへの出力を制御する出力制御部３２を含む。

　図５および以後の図６、７において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

　画像取得部２０は、有線、無線を問わず撮像装置１２からユーザの画像をリアルタイムで取得する。追跡処理部２６は、上述の視覚追跡の手法によりユーザの頭部輪郭を追跡する。ジェスチャ検出部２８は、追跡処理部２６の追跡の結果得られる各画像フレームの時刻における頭部輪郭のデータに基づき、上述のようにジェスチャを検出する。なお上述の説明では、各時刻の頭部領域における顔領域をテクスチャマッチングにより特定し、顔領域の面積の時間変化とその変化の方向を用いて、Ｐｉｔｃｈ軸方向、Ｙａｗ軸方向の向きの時間変化を取得するとした。一方、テクスチャマッチング以外の手法を用いることもできる。

　例えば、頭部領域について顔検出処理を施してもよい。この場合、頭部輪郭の内部に顔が検出されたら、各部位の相対位置、あるいは特定の部位の位置などの検出結果を各時刻について記録することにより、Ｐｉｔｃｈ角、Ｙａｗ角の時間変化を取得してもよい。あるいは、コンピュータビジョンの分野で一般的に用いられるオプティカルフローやＬｕｃａｓ－Ｋａｎａｄｅアルゴリズム（ｋｌｔ）の技術を用いて、頭部輪郭の内部領域の移動方向と移動量を大域的に解析してもよい。

　または、各時刻の頭部輪郭の内部領域と、直前の画像フレームなど時間的に前の画像フレームにおける頭部輪郭の内部領域とをマッチングし、内部領域中の注目箇所の移動量や面積の変化量とその方向から頭部領域の向きの変化を取得してもよい。このようなマッチングやオプティカルフローなどの画像解析では、頭部そのものの回転を検出することができるため、ユーザの背後に近い位置から撮影した場合など顔領域が少ない場合でもジェスチャの検出が可能である。いずれの場合であっても、顔の向き、あるいは頭部の向きを表すパラメータを各画像フレームで取得してその時間変化を記録し、あらかじめジェスチャごとに設定した所定の基準を満たした場合に、ジェスチャが行われたと判定する。

　出力データ生成部３０は、ジェスチャ検出部２８がジェスチャが行われたと判定した場合に、その結果に対応する処理を行い、画像データなどの出力データを生成する。上述のように本実施の形態は様々なアプリケーションへの応用が可能であるため、出力データ生成部３０は、画像データを生成するばかりでなく各アプリケーションに応じた処理を行ってよい。例えば、ジェスチャ検出部２８が検出するジェスチャと、それに応じた処理とをあらかじめ対応づけておき、出力データ生成部３０は当該ジェスチャに対応する処理を行うようにしてもよい。

　図６は追跡処理部２６の構成を詳細に示している。追跡処理部２６は、入力画像データからエッジ画像などを生成する画像処理部４０、パーティクルの生成および消滅によってパラメータ空間におけるサンプリングを行うサンプリング部４２、各パーティクルが規定する候補曲線の尤度を観測する観測部４６、観測の結果を統合し、形状空間ベクトルを推定する結果取得部５０、Ω形のテンプレートを規定するパラメータを記憶するパラメータ記憶部４８を含む。

　画像処理部４０は、入力画像データの画像フレームごとにエッジ抽出処理を施し、エッジ画像を生成する。ここではキャニーエッジフィルタや、ソーベルフィルタなど一般的なエッジ抽出アルゴリズムを用いることができる。また画像処理部４０は、背景差分を利用した前景抽出器（図示せず）を実装していてもよく、エッジ抽出処理の前処理として入力画像から追跡対象を含む前景を抽出することにより、追跡対象のエッジを効率的に抽出するようにしてもよい。

　サンプリング部４２は、一つ前の時刻ｔ－１における画像フレームに対して推定された、形状空間ベクトルｘの空間での確率密度分布に基づきパーティクルの生成および消滅の処理を行う。そして全パーティクルに対し所定の運動モデルを適用して、パーティクルを当該空間上で遷移させる。

　観測部４６は、サンプリング部４２が生成・消滅、遷移させた各パーティクルが定める候補曲線の尤度を観測する。尤度は上述のように、画像処理部４０が生成したエッジ画像上で、各候補曲線の近傍にあるエッジを探索し、当該エッジまでの距離を候補曲線ごとに見積もることによって決定する。候補曲線は上述のように、パラメータ記憶部４８から読み出したΩ形のテンプレートに対し、各パーティクルを規定するパラメータを作用させることによって得られる。

　結果取得部５０は、観測部４６が観測した尤度に基づき式３で示すような確率密度分布を形状空間ベクトルｘの空間において算出し、それにより各パラメータを重み付け平均する。また次の時刻ｔ＋１における追跡処理に使用するため、サンプリング部４２にそのデータを返す。

　追跡対象が複数存在する場合、結果取得部５０はさらに、それぞれに用意したテンプレートを用いて、追跡対象ごとに追跡を行う。また複数の追跡対象が重なるような場合を追跡結果によって検出し、後ろに隠れる追跡対象については所定のタイミングで追跡処理対象からはずすなどの措置を講じる。これにより追跡対象が別の追跡対象の背後に回ったことによって観測尤度が一時的に低下しても、不適当な追跡結果を出力するのを避けることができる。

　図７はジェスチャ検出部２８の構成を詳細に示している。ジェスチャ検出部２８は、視覚追跡の結果推定された各時刻の頭部輪郭の曲線を取得する追跡結果取得部５２、頭部輪郭の内部領域の画像を解析することにより顔の向きを表す所定のパラメータを算出する顔領域解析部５４、当該パラメータを蓄積し履歴として記憶する履歴記憶部５６、当該パラメータの時間変化に対しジェスチャがなされたと判定する基準を記憶する判定基準記憶部５８、当該パラメータの時間変化を判定基準に照らしジェスチャがなされたか否かを判定するジェスチャ判定部６０を含む。

　以後、「顔の向きを表すパラメータ」は単に各軸についての「顔向き角度」と呼ぶ。例えば頭部輪郭の内部領域に顔検出処理を施す場合、顔あるいは所定の部位のＰｉｔｃｈ軸、Ｙａｗ軸の角度は一般的な手法により取得することができる。またＲｏｌｌ軸の角度は上述のとおり、形状空間ベクトルのパラメータのうち回転を表すパラメータθを用いることができる。一方、上述のように顔検出の手法を用いずとも、テクスチャマッチングによって得られる顔の面積などによっても顔の向きを類推することができる。このように、顔の向きを特定するための手法に応じて「顔向き角度」は適宜別のパラメータに置き換えることができる。

　追跡結果取得部５２は、追跡処理部２６が各画像フレームに対し推定した頭部輪郭を表す曲線のデータを取得する。これは上述のように、各パーティクルを規定する形状空間ベクトルのパラメータを確率密度分布で重み付け平均して得られた結果である。顔領域解析部５４は、頭部輪郭の内部領域に対しテクスチャマッチング、顔検出処理などあらかじめ定めた処理を適用し、各画像フレームにおける顔向き角度を取得する。取得した結果は回転軸ごとに履歴記憶部５６に順に蓄積していく。

　ジェスチャ判定部６０は、顔領域解析部５４が顔向き角度について解析する都度、それまで履歴記憶部５６に記憶された顔向き角度の履歴と新たな解析結果とから、その時点までの顔向き角度の時間変化と、判定基準記憶部５８に設定した判定基準とを照合し、ジェスチャがなされたか否かを判定する。判定結果は出力データ生成部３０に通知する。

　図８は、履歴記憶部５６に記憶される、ある回転軸の顔向き角度の時間変化の例を示している。同図は横軸を時間軸、縦軸を顔向き角度とし、ジェスチャのないニュートラルポジションでの顔向き角度を角度「０」としている。なお顔向き角度を求める手法に応じて、ニュートラルポジション時の顔向き角度のパラメータをあらかじめ取得しておく。

　ニュートラルポジションからの顔向き角度は、各画像フレームにおける顔向き角度を顔検出やマッチングなどを用いて直接求めてもよいし、前の画像フレームからのテクスチャの移動を検出することにより相対的な角度変化を求めるようにしてもよい。このとき、さらにニュートラルポジション時の顔領域の画像と比較することによってニュートラルポジションからの角度を取得することにより相対的な角度変化を補正するようにしてもよい。

　また顔向き角度は各回転軸に対して同様の履歴を取得しておく。判定基準記憶部５８には、ジェスチャと判定するための判定基準を、同図のような顔向き角度の変化に対しあらかじめ設定して格納しておく。例えば、顔向き角度の振幅に対してしきい値を設定し、さらに振動の継続時間に対してしきい値を設定する。図８の例では、前者を「±θ１」、後者を「Ｔ」として表している。この場合、しきい値「±θ１」を超える振幅を有する角度の振動が時間「Ｔ」以上観測されたら、ジェスチャがなされたと判定する。

　なお回転軸とジェスチャとの対応関係を判定基準記憶部５８に格納しておいてもよい。例えば、Ｐｉｔｃｈ軸の振動であれば「肯定」、Ｙａｗ軸の振動であれば「否定」と対応づける。角度の振動は高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）などを用いて周波数解析を行うことにより検出することができる。あるいは、ピークの出現回数にさらにしきい値を設け、所定時間「Ｔ」内にしきい値「±θ１」を超えるピークが、所定回数出現したらジェスチャがなされたと判定してもよい。図８の例では、始めの段階では小さな動きが見られるものの、その振幅はしきい値「±θ１」には至っていない。このような動きは、ユーザが意志をもって行ったジェスチャではないと判断する。

　一方後半には、しきい値「±θ１」を超える４つのピーク「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」が、継続時間のしきい値Ｔの間、継続して観測できる。このとき、最初のピーク「Ａ」からしきい値Ｔを経過した時点でジェスチャがなされたと判定する。この例では角度の振動を観測しているため、例えば「肯定」を示すうなずきと「否定」を示す首を横に振るジェスチャを検出することができる。一方、判定基準は後に出力データ生成部３０が行う処理によって様々に設定してよい。例えば、一回だけうなずく、首をかしげるなど、いずれかの回転軸に対し一回だけ大きく角度が変化し戻る動作を検出する場合は、角度のしきい値のみを設定すればよい。

　図８の例は、ニュートラルポジションにおける顔向き角度を「０」としたときの顔向き角度の時間変化を示しているが、上述のように、厳密に角度の絶対値を取得しなくてもよい。例えば、前の時刻の画像フレームからの変化量から単位時間当たりの変化量とその方向、すなわち速度ベクトルが概ね取得できれば、その時間変化から向きや位置の振動が検出できる。ここで取得する「変化量」は、角度の変化量以外に、前の画像フレームとのマッチングによって得られた注目箇所の移動量、面積の変化などでもよい。このように「速度ベクトルの時間変化」に基づきジェスチャを検出する場合は、例えば速度のピークに対ししきい値を設け、判定基準としてもよい。

　次にこれまで述べた構成によって実現できる動作を説明する。図９は情報処理装置１４の処理手順を示すフローチャートである。ここではユーザのＰｉｔｃｈ軸（縦方向）およびＹａｗ軸（横方向）の首振りを、それぞれ「ＹＥＳ」（肯定）、「ＮＯ」（否定）のジェスチャとして検出し、それをゲームに利用する場合を例に説明する。

　まずユーザが当該ゲームのソフトウェアを起動させると、撮像装置１２が当該ユーザの撮像を開始するとともに表示装置１６に初期画面を表示する（Ｓ８）。一方、追跡処理部２６は撮像装置１２が撮像した画像を逐次読み込んで頭部輪郭の視覚追跡を開始する（Ｓ１０）。ジェスチャ検出部２８の追跡結果取得部５２は、追跡の結果として、現在時刻ｔにおける画像フレームの頭部輪郭の曲線データを取得する（Ｓ１２）。次にジェスチャ検出部２８の顔領域解析部５４は、得られた頭部輪郭の内部領域に対し顔領域特定、顔向き角度の取得を試みる（Ｓ１４）。何らかの原因で顔領域が特定できなかったり顔向き角度が得られない場合は（Ｓ１４のＮ）、次の時刻ｔ＋１の画像フレームの頭部輪郭を取得する（Ｓ１５、Ｓ１２）。

　顔領域が特定でき、顔向き角度も得られた場合は（Ｓ１４のＹ）、当該顔向き角度のデータを履歴記憶部５６に格納する（Ｓ１６）。この際、画像フレームのＩＤあるいは時刻ｔと対応させて、各回転軸に対する角度を格納する。次にジェスチャ検出部２８のジェスチャ判定部６０は、判定基準記憶部５８に設定された判定基準に照らし、まずＹａｗ軸で判定基準を満たしたか否かを判定する（Ｓ１８）。基準を満たした場合は（Ｓ１８のＹ）、ユーザが「ＮＯ」のジェスチャをしたと判定する（Ｓ２０）。

　Ｙａｗ軸で基準を満たしていなければ（Ｓ１８のＮ）、次にＰｉｔｃｈ軸で判定基準を満たしたか否かを判定する（Ｓ２２）。基準を満たした場合（Ｓ２２のＹ）、ユーザが「ＹＥＳ」のジェスチャをしたと判定する（Ｓ２４）。一般的に、人が首を振るジェスチャは、縦方向の動きより横方向の動きの方が明確に行われることがわかっている。そのため、Ｙａｗ軸の振動を先に判定してＳ１８のＹの分岐を早く確定させることにより、Ｐｉｔｃｈ軸の判定による計算負荷を軽減させることができる。ただし本実施の形態はこれに限らず、例えば２つの回転軸に対する判定を並列に行ってもよい。

　いずれの回転軸でも判定基準を満たさない場合は（Ｓ１８のＮ、Ｓ２２のＮ）、次の時刻ｔ＋１の画像フレームの頭部輪郭を取得し（Ｓ１５、Ｓ１２）、同様の処理を繰り返す（Ｓ１４～Ｓ２４）。なお複数の人間が撮像対象となっている場合は、それぞれの頭部輪郭についてＳ１４～Ｓ２４の処理を繰り返す。いずれかのジェスチャがなされたと判定されたら（Ｓ２０またはＳ２４）、出力データ生成部３０は当該ジェスチャに対応する処理を行い、その結果生成された画像データは、出力制御部３２の制御のもと表示装置１６に表示される（Ｓ２６）。

　なお図９のフローチャートは、ユーザのジェスチャ検出に主眼を置いているため、その他の処理は省略しているが、ジェスチャがなくても画像内のオブジェクトが動くなど、Ｓ２６で表示する最新画像には動きがあってもよい。ゲーム自体が終了したりユーザが終了指示を出したり、といったことにより処理を終了する必要がなければ（Ｓ２８のＮ）、次の画像フレームの時刻ｔ＋１を現在時刻ｔとして（Ｓ３０）、Ｓ１２からＳ２６までの処理を繰り返す。処理終了の必要が生じたら（Ｓ２８のＹ）、そこで処理を終了する。

　図９のフローチャートにおいてＳ１８およびＳ２２のジェスチャ判定の処理は、上述のように、継続時間のしきい値Ｔだけ顔向き角度の振動が継続した時点でジェスチャがなされたと判定する。このとき実際には、しきい値Ｔまで待たずとも、振動が開始した後、その継続時間とともに当該振動がジェスチャである確率が増えていく。この性質を利用して、しきい値Ｔより前の所定のタイミング、例えばしきい値Ｔの７０％の時間経過後などで、「ＮＯ」または「ＹＥＳ」のジェスチャがなされそうであることを先読みしてもよい。そしてこの段階で、ジェスチャがなされたと最終的に判定された後にすべき処理、例えば更新する画像データの生成などの処理の一部を投機的に行っておいてもよい。

　この場合、しきい値Ｔまで振動が継続すれば、投機的に行っていた処理の結果を利用してその後の処理を開始し、しきい値Ｔ経過前に振動がなくなれば投機的な処理の結果は破棄する。このようにすることで、ジェスチャに対するその後の処理や出力の応答性が向上する。

　次に本実施の形態で実現できるアプリケーションの例を説明する。図１０は図９のフローチャートで処理対象としたゲームにおいて、表示装置１６に表示する画像の例を示している。このゲームは、複数の参加者が表示装置１６に表示された質問に「ＹＥＳ」か「ＮＯ」で答えるものである。答えが「ＹＥＳ」であれば首を縦に数回振り、「ＮＯ」であれば首を横に数回振るようにルールづけをしておく。ゲーム中、表示装置１６にはゲーム画面７０を表示する。

　ゲーム画面７０は、テレビのクイズ番組を模した構成を有し、参加者の人数分の回答者席７４が表示される。そして撮像装置１２が撮影した参加者を含む画像のうち、視覚追跡の結果得られた各参加者の頭部領域の部分を切り取り、各回答者席７４の上に参加者の顔画像７６ａ、７６ｂ、７６ｃとして表示する。そして質問領域７２に表示した質問を見た参加者が、上述のルールに基づき、首の振り具合によって回答する。ジェスチャ検出部２８は各参加者が「ＹＥＳ」のジェスチャをしたか「ＮＯ」のジェスチャをしたかを判定し、出力データ生成部３０に通知する。

　視覚追跡とジェスチャ検出は実際には撮像装置１２が撮像した画像上で処理が行われているため、頭部領域の画像とジェスチャの内容とは対応がとれている。したがって出力データ生成部３０は、ジェスチャの内容である「ＹＥＳ」または「ＮＯ」の文字列を、各参加者の回答として回答者席７４に表示することができる。さらに各回答に対して正解か不正解かを表す表示を行ってもよいし、回答者席の背後に得点を表示するなどしてもよい。このような画面を表示することで、ユーザは、あたかも自分がクイズ番組の回答者になったような感覚でゲームを楽しむことができる。回答は頭部のジェスチャによって行うため、参加者一人一人にコントローラを用意する必要がなく、多人数の参加が可能である。

　このように、首を振るジェスチャの本来の意味を利用することで、ユーザにとってより自然な動きで装置への入力が可能となるため、特にゲームなどをリラックスした状態で楽しむことができる。クイズ以外でも、表示装置１６に表示された仮想世界における自分を表すアバターに意思表示をさせて他のユーザとコミュニケーションをとるなど、様々なゲームに応用することができる。

　また、少なくとも２方向の首振りを検出することができるため、一方をマウスの左クリック、他方を右クリックに置き換えることにより、マウスの代替物とすることができる。この場合も直感的な動作で入力が可能であるうえ、マウスを使用するためのスペースが必要なくなるため、省スペースで様々な情報処理を行うことができる。

　以上述べた本実施の形態によれば、ユーザの頭部領域を視覚追跡技術により時間発展的に追跡し、当該頭部領域のうち顔領域の向きを監視することによりジェスチャがなされたか否かを判定する。これにより、人の動作という時間に対する連続的な変化を、前の画像フレームとの関連性を踏まえつつ追うことができる。結果として、正面を向いていない顔では検出精度を維持しづらい顔検出処理を適用しても、顔の検出に失敗することなく顔向き角度を取得することができ、ジェスチャ検出を高精度に行うことができる。また、顔検出を用いずに、テクスチャマッチングなど顔の向きを表すパラメータを取得できる処理を適用することにより、容易にジェスチャ検出を行える。また画像の明るさや撮像する人数などに応じて顔の向きを特定する手法を適宜選択することができる。

　マッチングで頭部輪郭の内部領域を大域的に捉える場合は、頭部領域の面積変化などにより、顔の向きに関わらず撮像装置に対する頭部の角度変化のみを捉えることもできる。これを利用すれば、撮像装置に対して横向きのユーザが首をかしげたジェスチャをうなずきと認識させるなど検出のバリエーションが増え、アプリケーションに望まれる態様を容易に実現することができる。

　また、前の画像との関連性を考慮して頭部領域を特定したうえでジェスチャ検出を行うため、ユーザが移動したり屈んだりして頭部領域が大きくずれても、当該変化は頭部輪郭の追跡処理において吸収されるため、顔向き角度の取得を継続して行うことができる。またそのようなジェスチャ以外の動きが顔向き角度の値に大きく影響してしまうことがない。ユーザが手を顔にあてたりマスクをしていたりしても、頭部輪郭に大きな変化はないため、追跡処理、ひいてはジェスチャの検出処理は大きな影響を受けることなくジェスチャ検出の精度維持が可能である。

　さらに複数の人を同時に撮影しても、頭部輪郭はそれぞれの人に対して連続して追跡できるため、人とジェスチャとの対応づけが自然に行われる。また人が動いて接近したり交錯しても、追跡した各頭部輪郭に対してジェスチャ検出を行うため、ジェスチャの途中で別人の顔と混同し、ジェスチャを誤検出してしまうといったことが起こりにくい。結果として、複数の人が参加できるゲームなどへの適用が容易であり、様々なアプリケーションへの発展が可能である。

　以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　例えば本実施の形態では、顔向き角度の時間変化に基づきジェスチャを検出する例について説明したが、顔の位置の時間変化に基づいても同様の処理でジェスチャを検出することができる。この場合、視覚追跡によって得られた頭部輪郭を規定する形状空間ベクトルの並進量のパラメータや、頭部輪郭の内部領域に対する顔検出などの画像解析によって、撮像装置に対する縦横の平面における顔の位置を特定することができる。さらに頭部輪郭を規定する形状空間ベクトルの倍率パラメータや顔領域の大きさなどから撮像装置に対する奥行き方向の位置を特定することができる。

　そして顔の位置の時間変化に対しジェスチャを検出する基準を設定することにより、各ジェスチャを検出する。例えば顔を引いて撮像装置から離れた場合は驚きのジェスチャ、身を乗り出して顔が画像装置に近づいた場合は興味があるというジェスチャなどと対応させることができる。さらに視覚追跡で頭部輪郭を表すΩ形の形状そのものに着目すれば、首をすくめる、伸ばすといったジェスチャも検出できる。またこのような位置の変化を上述のマウスの機能のうちポインティングに利用すれば、左右のクリックとポインティングを顔の動きで全て実現することができる。

　また本実施の形態では、頭部領域を視覚追跡により特定したあと、顔の向きの時間変化を特定して首を振るジェスチャを検出したが、顔の向きに限らず、目や口の状態変化を取得してもよい。この場合、視覚追跡により得られた頭部輪郭の内部領域に対し、顔検出処理を行って対象部位の状態、例えばまぶたや口の開き具合を取得する。そしてその時間変化を履歴化することにより、まばたきや発話を検出する。この場合も、本実施の形態と同様、頭部領域、ひいては顔領域の時間変化を忠実に追ったうえで部位の状態を特定するため、高い精度での検出が可能である。

　１０　情報処理システム、　１２　撮像装置、　１４　情報処理装置、　１６　表示装置、　２０　画像取得部、　２６　追跡処理部、　２８　ジェスチャ検出部、　３０　出力データ生成部、　３２　出力制御部、　４０　画像処理部、　４２　サンプリング部、　４６　観測部、　５０　結果取得部、　５２　追跡結果取得部、　５４　顔領域解析部、　５６　履歴記憶部、　５８　判定基準記憶部、　６０　ジェスチャ判定部。

　以上のように本発明はコンピュータ、ゲーム機、画像処理装置などの情報処理装置に利用可能である。

Claims

　対象物の動きを動画像として撮像する撮像装置と、
　前記撮像装置が撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定する追跡処理部と、
　前記追跡処理部が推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得し、前記パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定するジェスチャ検出部と、
　前記ジェスチャ検出部がジェスチャがなされたと判定したとき、当該ジェスチャに対応した処理を行い出力データを生成する出力データ生成部と、
　を備えることを特徴とする情報処理装置。
　前記ジェスチャ検出部は前記対象物の向きの時間変化として、３方向の回転軸に対する対象物の向きの角度変化をそれぞれ推定することを特徴とする請求項１に記載の情報処理装置。
　前記ジェスチャ検出部は、各画像フレームにおいて推定された対象物の輪郭の内部領域の画像と、それより前の画像フレームにおいて推定された対象物の内部領域の画像とをマッチングすることにより、対象物の向きまたは位置の変化を取得することを特徴とする請求項１または２に記載の情報処理装置。
　前記ジェスチャ検出部は、画像フレーム間における前記内部領域の注目箇所の移動量をマッチングにより取得し、対象物の向きを取得することを特徴とする請求項３に記載の情報処理装置。
　前記追跡処理部はユーザの頭部の輪郭を推定し、
　前記ジェスチャ検出部は、前記頭部の輪郭の内部領域にテクスチャマッチングを施すことにより顔領域を特定し、当該顔領域の面積の変化および変化する方向に基づき、頭部の向きの時間変化を推定することを特徴とする請求項１または２に記載の情報処理装置。
　前記追跡処理部はユーザの頭部の輪郭を推定し、
　前記ジェスチャ検出部は、推定される頭部の向きの時間変化において、頭部の向きの角度の縦方向の振動が、所定のしきい値を超える振幅で所定時間分、継続したとき、頷くジェスチャがなされたと判定することを特徴とする請求項２に記載の情報処理装置。
　前記追跡処理部はユーザの頭部の輪郭を推定し、
　前記ジェスチャ検出部は、推定される頭部の向きの時間変化において、頭部の向きの角度の横方向の振動が、所定のしきい値を超える振幅で所定時間分、継続したとき、首を横に振るジェスチャがなされたと判定することを特徴とする請求項２に記載の情報処理装置。
　前記追跡処理部はユーザの頭部の輪郭を推定し、
　前記ジェスチャ検出部は、推定される頭部の向きの時間変化において、単位時間当たりの頭部の向きの変化量および変化の方向を表す速度ベクトルが所定の基準を満たしたとき、ジェスチャがなされたと判定することを特徴とする請求項２に記載の情報処理装置。
　前記追跡処理部はユーザの頭部の輪郭を推定し、
　前記ジェスチャ検出部は、推定される頭部の向きの時間変化において、頭部の向きの角度の横方向の振動が所定の基準を満たしたか否かを確認して、首を横に振るジェスチャの有無を判定し、当該首を横に振るジェスチャがなされなかったと判定された場合に、頭部の向きの角度の縦方向の振動が所定の基準を満たしたか否かを確認して、頷くジェスチャの有無を判定することを特徴とする請求項２に記載の情報処理装置。
　前記撮像装置は複数のユーザの動きを撮像し、
　前記追跡処理部は各画像フレームにおける頭部輪郭をユーザごとに推定し、
　前記ジェスチャ検出部は推定された各頭部輪郭に対しジェスチャがなされたか否かを判定することを特徴とする請求項１に記載の情報処理装置。
　前記出力データ生成部は、複数のユーザに対し前記追跡処理部が推定した頭部輪郭の内部領域の画像と、各頭部輪郭に対しジェスチャがなされたか否かを判定した結果に応じた画像とを、ユーザごとに対応させて表示した画像のデータを生成することを特徴とする請求項１０に記載の情報処理装置。
　対象物の動きを動画像として撮像するステップと、
　撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定するステップと、
　推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得するステップと、
　前記パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定するステップと、
　ジェスチャがなされたと判定されたとき、当該ジェスチャに対応した処理を行い出力データを生成するステップと、
　を含むことを特徴とする情報処理方法。
　対象物の動きを動画像として撮像する機能と、
　撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定する機能と、
　推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得する機能と、
　前記パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定する機能と、
　ジェスチャがなされたと判定されたとき、当該ジェスチャに対応した処理を行い出力データを生成する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラム。
　対象物の動きを動画像として撮像する機能と、
　撮像した動画像に含まれる各画像フレームにおける対象物の輪郭の候補曲線を、前の時刻の画像フレームにおいて推定した対象物の輪郭に基づいて定め、各候補曲線の尤度を観測することにより、各画像フレームにおける対象物の輪郭を推定する機能と、
　推定した対象物の輪郭の内部領域について画像解析を行うことにより対象物の向きまたは対象物の位置を表すパラメータを取得する機能と、
　前記パラメータによって推定される対象物の向きまたは対象物の位置の時間変化を、あらかじめジェスチャごとに設定した基準と照合することにより、当該ジェスチャがなされたか否かを判定する機能と、
　ジェスチャがなされたと判定されたとき、当該ジェスチャに対応した処理を行い出力データを生成する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した、コンピュータにて読み取り可能な記録媒体。