WO2011142313A1

WO2011142313A1 - 物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体

Info

Publication number: WO2011142313A1
Application number: PCT/JP2011/060649
Authority: WO
Inventors: 聡味香; 陽子波田
Original assignee: 日本システムウエア株式会社
Priority date: 2010-05-11
Filing date: 2011-05-09
Publication date: 2011-11-17
Also published as: JP5887264B2; JPWO2011142313A1

Abstract

【課題】単純な構成で動画像内の移動物体を正確に認識することが可能な物体認識装置を提供する。【解決手段】本発明の物体認識装置（１０００）は、処理対象のフレーム画像を構成する色相の中で最も広い面積を占める色相である第１の基準色と、該処理対象のフレーム画像のＲＧＢヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第１の色相に対して最も離れたピークを示す第２の基準色とを特定する基準色特定手段（８０）と、エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定手段（５０）と、前記閉領域の中で、前記フレーム画像の１つ前に処理を行った画像フレームで特定された前記第１および第２の基準色を含み、かつ前記１つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識手段（６０）とを備える。

Description

物体認識装置、方法、プログラム、および該ソフトウェアを格納したコンピュータ可読媒体

　本発明は、画像内の物体を認識するための装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体に関する。より詳細には、本発明は、単純な構成で動画像内の移動物体を認識可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体に関する。

　パーソナルコンピュータなどの処理装置に所定の情報を入力する場合に、通常、ユーザインターフェース用のデバイスが使用される。このデバイスの主な例としては、キーボード、トラックボール、ジョイスティックなどが挙げられ、これらのデバイスによりユーザは容易に所望の情報を処理装置に入力することができる。

　しかし、処理装置を狭い机の上で使用する場合、あるいはハンディ機器として野外で使用する場合など、ユーザインターフェース用デバイスを使用するための十分な領域を確保できない場合がある。このような場合、近年ではジェスチャー認識装置が利用されている。ジェスチャー認識装置とは主にカメラとプログラムとによって実装され、ユーザの手や指の形状や動作を認識し、その形状や動作に従った処理を処理装置に行わせるものである。

　このジェスチャー認識装置は、カメラで撮像した画像に所定の処理を施し、その画像に写っているユーザの手や指の位置や形状を認識している。この画像処理技術で最も一般的なものとしてはテンプレートマッチングが挙げられる。テンプレートマッチングは、予めテンプレート画像として人間の手などの画像を用意し、撮像した画像に当該テンプレート画像と同一の部分があるかどうかを探索する手法である（特許文献１参照）。

　また、カメラが撮像した画像の中から対象の物体と同色の部分（対象の物体が人間の手ならば肌色の部分）を検出し、検出した箇所に対象の物体が存在していると判断する色検出技術もある（特許文献２参照）。

特許第４４４４５８３号特許第４１２６７２１号

　上記の手法には以下のような改善すべき不都合点がある。
　テンプレートマッチング処理では、テンプレート画素と
カメラが撮像した画素の両画素を総当りで比較することになるため、処理に相当の時間が掛かってしまう。特に、動画像から移動物体を検出する場合には、処理量が膨大になり、処理装置の処理が動画像のフレームレートに追従できない可能性がある。

　色検出技術では、通常、処理量を抑えるために単一の色相を用いる。しかし、単色に見える物体でも実際には複数の色相から構成されている。また、太陽光、蛍光灯光などの外乱光の影響などで見る角度で物体の色が異なってしまう。また、画像内に対象の物体とほぼ同一の色相を有する対象外の物体が存在する場合には、その対象外の物体を誤って検出してしまう可能性がある。そのため、このような色検出技術では正確に対象の物体を検出できない恐れがある。

　本発明は上記の不都合を改善するために創案されたものであり、本発明の目的は、単純な構成で動画像内の移動物体を正確に認識することが可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体を提供することである。

　前記課題を解決するために創案された請求項１の発明は、対象となる物体が含まれた動画像から該物体を認識する物体認識装置である。当該物体認識装置は、処理対象のフレーム画像内の対象物が有する色相の中で最も広い面積を占める色相である第１の基準色と、該処理対象のフレーム画像のＲＧＢヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第１の色相に対して最も離れたピークを示す第２の基準色とを特定する基準色特定手段と、エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定手段と、前記閉領域の中で、前記フレーム画像の１つ前に処理を行った画像フレームで特定された前記第１および第２の基準色を含み、かつ前記１つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識手段と、を備える。

前記課題を解決するために創案された請求項２の発明は、請求項１に記載の物体認識装置が、前記１つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定手段をさらに備え、前記基準色特定手段と、前記閉領域特定手段と、前記対象物体認識手段は、前記処理対象領域のみに処理を行う。

前記課題を解決するために創案された請求項３の発明は、請求項２に記載の物体認識装置において、前記対象物体認識手段が前記処理対象領域内に前記物体が存在しないと判断した場合に、前記処理対象領域決定手段が前記処理対象領域を前記フレーム画像の全領域まで拡大して、該拡大した領域内を基準色特定手段と、閉領域特定手段と、対象物体認識手段とが再度処理を行う。

前記課題を解決するために創案された請求項４の発明は、対象となる物体が含まれた動画像から該物体を認識する物体認識方法である。当該物体認識方法は、処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第１の基準色を特定する第１の基準色特定段階と、前記処理対象のフレーム画像のＲＧＢヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第１の色相に対して最も離れたピークを示す第２の基準色を特定する第２の基準色特定段階と、エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定段階と、前記閉領域の中で、前記フレーム画像の１つ前に処理を行った画像フレームで特定された前記第１および第２の基準色を含み、かつ前記１つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識段階と、を含む。

前記課題を解決するために創案された請求項５の発明は、請求項４に記載の物体認識方法が、前記１つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定段階をさらに含み、前記第１の基準色特定段階の処理と、前記第２の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理は、前記処理対象領域のみに行われる。

前記課題を解決するために創案された請求項６の発明は、請求項５に記載の物体認識方法において、前記対象物体認識段階で前記処理対象領域内に前記物体が存在しないと判断された場合に、前記処理対象領域を前記画像フレームの全領域まで拡大して、該拡大した領域内で前記第１の基準色特定段階の処理と、前記第２の基準色特定段階の処理と、前記閉領域特定手段の処理と、前記対象物体認識手段の処理とが再度行われる。

前記課題を解決するために創案された請求項７の発明は、請求項４ないし６の何れか一項に記載の物体認識方法を実行する電子回路である。

前記課題を解決するために創案された請求項８の発明は、請求項７に記載の電子回路を搭載したジェスチャー認識装置である。

前記課題を解決するために創案された請求項９の発明は、請求項４ないし６の何れか一項に記載の物体認識方法を処理装置に実行させるプログラムである。

前記課題を解決するために創案された請求項１０の発明は、請求項９に記載のプログラムを格納したコンピュータ可読媒体である。

　従来の色検出の手法は、予め決められた単一の色を基準色として用いる。しかし、物体は単色に見えるものでも実際には複数の色で構成されているため、単一の基準色では確度の高い物体認識を行うことが難しい。そのため、請求項１および４の発明では２種類の基準色を用いている。また、この基準色として、色相から求めた第１の基準色と、ＲＧＢから求めた第２の基準色とを用いることで色検出の精度を高めている。

　位置する角度や、太陽光や蛍光灯光等の外乱光の影響により、同一の物体でも経時的にその色が変化して見える場合がある。そのため、基準色を固定してしまうと正確に色検出ができなくなる恐れがある。しかし、本発明では、フレーム画像毎に基準色を求め、対象のフレーム画像の１つ前のフレーム画像で求めた基準色を用いて当該対象のフレームを処理している。そのため、物体の経時的な色変化にも対応することができる。

　また、認識対象の物体が同一の色を有する他の物体と重なって位置した場合に、従来の色検出ではその物体と他の物体とを単一の物体として認識してしまう。しかし、本発明ではエッジ検出を行い、このような同一色を有する複数の物体が重なった場合でもそれぞれ独立した閉領域として取り扱う。

　さらに、認識対象の物体と同一の色を有する他の物体が存在する場合には、従来はどちらの物体が認識対象の物体か識別することが困難であった。しかし、本発明では、対象のフレーム画像の１つ前のフレーム画像で認識した物体と少なくとも一部が重複した位置に存在する閉領域を認識対象の物体として識別している。これは、通常の動画像は１秒間に数１０枚以上撮像されるフレーム画像の群から構成されるため、たとえ物体がある程度の速度で移動しても、隣接するフレーム画像では必ずその物体は前のフレーム画像内の物体と重複する部分を有するという根拠に基づいている。

動画像を取り扱う場合、１秒間に数１０枚以上撮像されるフレーム画像をリアルタイムで処理せねばならない。したがって、物体認識装置の演算能力が低い場合には処理速度が動画像のフレームレートに追従できない可能性がある。そのため、請求項２および５の発明では、フレーム画像中の処理を行うエリアを限定して、物体認識装置の演算負荷を低減させている。

　しかし、仮に認識すべき物体が処理対象領域の外に移動してしまった場合は物体の認識が不可能となる。そのため、請求項３および６の発明では、処理対象領域内に認識対象の物体が存在しない場合には、処理対象領域をフレーム画像の全枠まで拡大させて再度処理を行う。これにより、物体認識の確度を向上させている。

　請求項７により、本発明を電子回路の形態で提供することが可能となる。

　請求項８により、本発明をジェスチャー認識装置の形態で提供することが可能となる。

　請求項９により、本発明をプログラムの形態で提供することが可能となる。

　請求項１０により、本発明をコンピュータ可読媒体の形態で提供することが可能となる。

　本発明によって、複雑なアルゴリズムが不要で、それゆえ単純な構成で動画像内の移動物体を正確に認識することが可能な装置、該装置によって行われる物体認識方法、該方法をコンピュータに実行させるプログラム、および該ソフトウェアを格納したコンピュータ可読媒体を提供することが可能となった。

本発明の一実施形態に係る色検出方法を説明するための図であり、（ａ）は検出対象の掌の画像であり、（ｂ）は従来の単色検出方法で得られる掌画像であり、（ｃ）は本発明の一実施形態に係る色検出方法で得られる掌画像である。本発明の一実施形態に係る閉領域特定方法を説明するための図であり、（ａ）は撮像対象であり、（ｂ）は撮像した画像フレームと処理対象領域であり、（ｃ）はラベリングした閉領域である。本発明の一実施形態に係る重複領域決定方法を説明するための図であり、（ａ）は処理する画像フレームの物体と、１つ前のフレーム画像の物体とを重ね合わせた図であり、（ｂ）は（ａ）における重複領域のみを示した図であり、（ｃ）は処理する画像フレーム全体と、重複領域とを示した図である。本発明の一実施形態に係る処理対象領域を説明するための図であり、（ａ）はフレーム画像であり、（ｂ）は認識する物体を囲んだ領域であり、（ｃ）は処理対象領域である。本発明の一実施形態に係る物体認識装置の機能ブロック図である。本発明の一実施形態に係る物体認識方法の初期設定を説明するための図であり、（ａ）は初期設定直前の画像であり、（ｂ）は初期設定中の画像である。本発明の一実施形態に係る物体認識方法の初期設定の手順を示すフロー図である。本発明の一実施形態に係る物体認識方法の手順を示すフロー図である。

　本発明の一実施形態に係る物体認識装置の構成や機能について添付図面を参照して以下に詳細に説明する。この物体認識装置は動画像内の物体、特に移動物体の位置を認識する機能を有する。
　本実施形態では認識の対象とする物体が自由空間を動く人間の手であることを前提として物体認識装置の構成及び機能を説明するが、対象の物体は人間の手に限定されるものではなく、如何なる物体も認識することが可能である。
　本発明の一実施形態に係る物体認識装置は主に以下の４つの処理を実行している。まず、それぞれの処理の特徴について以下に説明する。

［２つの基準色を用いた色検出処理］
　図１（ａ）は認識対象の物体である人間の手が写った画像の例である。従来の技術において、画像内の人間の手を色検出する場合には、例えば０～３０°程度の色相を人間の肌色と仮定し、これに該当する色相部分を検索する。この手法により検索を行い、二値画像にした例を図１（ｂ）に示す。このように、従来の色検出技術では、正確に人間の手を検出することができない。なぜならば、人間の手の肌色の度合いは、掌、甲など部分により異なり、また、太陽、蛍光灯光など外乱光の影響により経時的に変化する。したがって、本発明の一実施形態に係る物体認識装置は第１の基準色と第２の基準色とからなる２つの基準色を用いて色検出を行う。

　第１の基準色とは、画像内の認識対象の物体が有する色相のうち、最も広い範囲を占める色相である。第２の基準色とは、画像内の認識対象の物体を構成するすべての画素についてＲＧＢのヒストグラムを生成し、所定の閾値を超える複数のピーク値の中から第１の基準色と最も離れたピークの色である。ＲＧＢのヒストグラムは、三原色のすべてを併せた画素数で作成する。また、所定の閾値は特に限定するものではないが、例えばピーク値の５０％の値でよい。この手法により検出を行い、二値画像にした例を図１（ｃ）に示すこのように、従来の色検出手法とは異なり、本発明の色検出手法を用いれば好適に物体を検出することができる。また、第１および第２の基準色は予め決定されるものではなく、フレーム画像ごとに求められる。これにより、色の経時変化にも対応することができる。

［閉領域検出処理］
　上記の色検出処理では、対象の物体とこの物体と同一の色を有する他の物体とが相互に接触した状態で配置されていた場合に、これらの物体を単一の物体として検出してしまう。例えば、図２（ａ）に示す状態で矩形の枠で囲まれた領域を撮像して得られた画像に上述の色検出処理を行うと、図２（ｂ）に示す二値画像が得られる。この画像では、人間の手と顔の区分けができていないため、手および顔が単一の物体となり、手の部分だけを検出することができない。そこで、色検出で得られた領域に対してエッジ検出を行って複数の領域に分割する。詳細には、各画素における色情報を分析し、連結している画像に同一ラベルを付加することで複数の閉領域をグループ分けする。図２（ｃ）は、この閉領域特定部５０が閉領域をグループ分けして、ラベリングした例である。この図では、５つのグループが形成されており、認識対象の物体である手の部分はグループ１である。このように、認識対象の物体の周囲に同一色の別の物体と重なって存在しても混同すること無く、それぞれ区分けすることが可能となる。

［重複閉領域検出処理］
　上述の閉領域検出処理では、複数の閉領域が存在する場合にこの中のどの領域が対象の物体に相当するか判断することができない。そこで、現行のフレーム画像の１つ前に処理をしたフレーム画像の情報を用いて対象の物体に相当する閉領域を識別する。図３（ａ）に示すように、人間の手を自由空間で移動させた場合に、それを撮像した動画像の時間的に隣接する２つのフレーム画像を重ね合わせる。すると、図３（ｂ）に示すような重複した部分が形成される。そこで、図３（ｃ）のように、この重複した部分を有する閉領域を対象の物体として検出する。

［処理対象領域画定処理］
　この処理はオプションであり、処理全体に伴う装置の演算負荷を低減させることを目的とする。図４（ａ）に示したフレーム画像中に存在する対象の物体の位置を認識すると、図４（ｂ）の点線で示すようにこの物体のエッジに隣接する矩形の領域を求める。次に、図４（ｃ）に示すように、図４（ｂ）の点線の領域よりも所定の面積だけ拡大した太字で示された領域を求め、この領域を処理対象領域とし、次のフレーム画像では上述のすべての処理はこの処理対象領域のみに行う。なお、ここで拡大する所定の面積は、特定の値に限定されるものではないが、本実施形態では２０～５０％の範囲であることが望ましい。所定の面積が大きいほど物体を認識する確度は向上するが、その反面、処理する負荷量が増大してしまう。物体の移動速度や装置の演算能力などを考慮して最適な値を選択されたい。
　以上の４つの処理を行う、本発明の物体認識装置の詳細な機能要素について以下に説明する。

　図５は、本発明の一実施形態に係る物体認識装置１０００の機能ブロック図を示している。図示のように、物体認識装置１０００は、機能要素として、フレーム画像受信部１０と、処理対象領域抽出部２０と、基準色取得部３０と、二値画像生成部４０と、閉領域特定部５０と、重複閉領域選択部６０と、処理対象領域決定部７０と、基準色決定部８０と、記憶部９０と、から構成される。物体認識装置１０００はパーソナルコンピュータ等の処理装置によって実装される。また、入力部には撮像装置が接続され、出力部には後段の装置が接続されている。撮像装置は、認識する対象の物体を所定のフレームレートで撮像し、その撮像したデータを所定の形式の動画像データとして出力する機能を有する。この撮像装置には汎用ビデオカメラを用いてよい。

　［フレーム画像受信部］
　フレーム画像受信部１０は、撮像装置から動画像データを受け取る機能を有する。具体的には、撮像装置が生成した所定の形式の動画像データを受け取り、必要に応じてその動画像データを後段の機能要素が処理可能なデータ形式に変換する。

　［処理対象領域抽出部］
　処理対象領域抽出部２０は、フレーム画像受信部１０から受け取ったフレーム画像から処理対象領域に相当する部分の画像のみを抽出する機能を有する。この処理対象領域はフレーム画像ごとに一意に求められ、後述する処理対象領域決定部７０によって決定され、記憶部９０に格納されている。なお、使用される処理対象領域は、処理を行う画像フレームの１つ前に処理を行った画像フレームから求められたものである。抽出された画像部分は二値画像生成部４０に送られる。

　［基準色取得部］
　基準色取得部３０は、記憶部９０にアクセスして、該記憶部９０に格納された第１の基準色と第２の基準色とを取得する機能を有する。この第１の基準色および第２の基準色はフレーム画像ごとに一意に求められ、後述する基準色決定部８０によって決定され、記憶部９０に格納されている。なお、使用される第１の基準色および第２の基準色は、処理を行う画像フレームの１つ前に処理を行った画像フレームから求められたものである。取得された第１の基準色と第２の基準色とは二値画像生成部４０に送られる。

　［二値画像生成部］
　二値画像生成部４０は、処理対象領域抽出部２０から受け取った画像部分を、基準色取得部３０から受け取った第１の基準色および第２の基準色を用いて二値画像に変換する機能を有する。生成された二値画像は閉領域特定部５０に送られる。

　［閉領域特定部］
　閉領域特定部５０は、二値画像生成部４０が作成した二値画像の中の閉領域を検出し、その閉領域にラベリングをする機能を有する。ラベリングをした画像は重複閉領域選択部６０へ送られる。

　［重複閉領域選択部］
　重複閉領域選択部６０は、閉領域特定部５０がラベリングした閉領域の中から認識する物体に相当する閉領域を選択する機能を有する。具体的には、記憶部９０に格納された１つ前に処理を行ったフレーム画像の情報を用い、当該１つ前のフレーム画像で認識した物体（手）が占めるエリアと、閉領域特定部５０がラベリングした閉領域とを比較し、該物体のエリアと重なり合う閉領域を認識する物体と判断する。次いで、その物体に相当する閉領域を構成するすべての画素の座標を求め、この座標情報を後段の装置に出力すると共に、記憶部９０に格納する。

　［処理対象領域決定部］
　処理対象領域決定部７０は、重複閉領域選択部６０が認識すべき物体として判断した閉領域を基に、次の画像フレームにおける処理対象領域を求める機能を有する。求めた処理対象領域は記憶部９０に格納される。

　［基準色決定部］
　基準色決定部８０は、重複閉領域選択部６０が認識すべき物体として判断した閉領域から次の画像フレームの処理で用いる第１および第２基準色を求める機能を有する。求めた第１および第２基準色は記憶部９０に格納される。

　［記憶部］
　記憶部９０は、認識した物体の画素座標、第１および第２の基準色、処理対象領域などを格納する機能を有し、ハードディスク、メモリ、各種のディスク等で実装される。

　以上が本発明の一実施形態に係る物体認識装置１０００の有する主な機能である。次に、この物体認識装置１０００が実行する物体認識方法について説明する。
　本発明の一実施形態に係る物体認識方法では、最初に初期設定を行わなければならない。初期設定は、物体認識装置１０００に処理の開始の意志を示し、認識対象となる物体を把握させることを目的とする。以下、図７および図８のフロー図を参照して、この初期設定について説明する。

　まず、ユーザは、物体認識装置１０００に接続された撮像装置に対向し、その撮像装置が撮像する画像内に画定された所定のエリア（第１エリア）内に認識対象の物体である右手が収まるように配置させる（図６（ｂ）参照）（ステップＳ１０）。このとき、エリア内に右手が十分に収まるように、ユーザが移動して右手の位置を調整してもよく、あるいは撮像装置のズームを調整してもよい。また、右手が顔と重ならないようにし、できる限り右手の背景には他の物体が存在しないようにする。
　また、ユーザが正対した時、顔認識により顔の位置を特定し、顔の右側に対象となる手を開いてかざすことにより開始する様にしてもよい。

　以上の状態で撮像装置がユーザを撮像して、その画像を物体認識装置１０００が受け取る（ステップＳ２０）。この撮像画像から第１エリアを所定面積だけ拡大した最初の処理対象領域を求める（ステップＳ３０）。次いで、撮像画像内の認識対象の物体である右手の最初の第１および第２の基準色を求める（ステップＳ４０）。さらに、当該第２エリア内の閉領域を求める（ステップＳ５０）。ここで、第１エリア内にはユーザの右手以外の物体は存在しないため、検出された閉領域はユーザの右手に相当する。最後に求めた最初の第１および第２の基準色および最初の処理対象領域、並びに物体の画素座標の情報を記憶部９０に格納する（ステップＳ６０）。

　以上の所定設定が終了すると、物体認識装置１０００が物体認識方法を行う。この方法の手順を図８のフロー図に示す。
　最初に、撮像装置が右手を継続的に撮像し、撮像した動画像をフレーム画像受信部１０に送付する。フレーム画像受信部１０がその動画像を受け取ると（ステップＳ１００）、この動画像を構成するフレーム画像を順次、処理対象領域抽出部２０に転送する。

　フレーム画像を受け取った処理対象領域抽出部２０は、記憶部９０にアクセスして１つ前のフレーム画像で求めた処理対象領域に関する情報を取得する（ステップＳ１１０）。そして、受け取ったフレーム画像から所得した処理対象領域に相当するエリアの画像部分を抽出して二値画像生成部４０に渡す（ステップＳ１２０）。それと同時に、基準色取得部３０は、記憶部９０にアクセスして１つ前のフレーム画像で求めた第１の基準色および第２の基準色に関する情報を取得し、これを二値画像生成部４０に転送する（ステップＳ１３０）。

　二値画像生成部４０は、基準色取得部３０から受け取った第１および第２の基準色を用いて、処理対象領域抽出部２０から受け取った画像に対して二値画像処理を行う（ステップＳ１４０）。

　二値画像生成部４０が二値画像を生成すると、閉領域特定部５０がその二値画像内におけるすべての閉領域を識別する（ステップＳ１５０）。次いで、重複閉領域選択部６０が記憶部９０にアクセスして１つ前のフレーム画像で認識した右手の画素座標を取得し、この画素座標で形成されるエリアと重複する閉領域があるかどうかを調べる（ステップＳ１６０）。

　重複した閉領域が存在する場合には（ステップＳ１７０で「ＹＥＳ」）、その重複した閉領域が右手、すなわち認識すべき物体であると判断する（ステップＳ１８０）。そして、認識した物体の画素座標を後段の装置に出力すると共に記憶部９０に格納する。一方、重複した閉領域が存在しない場合には（ステップＳ１７０で「ＮＯ」）、認識すべき物体が処理対象領域外に移動したことを意味するため、処理対象領域を画像フレームの枠全体まで拡大して（ステップＳ１９０）、再度ステップＳ１４０ないしＳ１８０の処理を行う。

　最後に、処理対象領域決定部７０が認識した物体の大きさを基に次のフレーム画像で用いる処理対象領域を求め（ステップＳ２００）、基準色決定部８０が認識した物体から次のフレーム画像で用いる第１および第２の基準色を求め（ステップＳ２１０）、求めた処理対象領域と第１および第２の基準色を記憶部９０に格納する（ステップＳ２２０）。以上で物体認識処理を終了する。

　以上に渡って本発明の一実施形態に係る物体認識装置１０００およびこの装置によって行われる物体認識方法について説明をしたが、本発明はこの実施形態に限定されるものではない。

　例えば、物体認識装置１０００が行う色検出では、最大色相である第１の基準色と、ＲＧＢのピーク値である第２の基準色を用いているが、本発明はこの内容に限定されるものではない。代替的に、２番目に高い色相やＲＧＢの２番目のピーク値がなどを第３、第４の基準色と設定して色検出を行ってもよい。このように３種以上の基準色を用いることは、認識する物体が複数の色の組み合わせから構成される場合には特に有用である。

　また、本実施形態では、図８のフロー図のステップＳ１７０の処理で重複する閉領域が存在しない場合、ステップＳ１９０で処理対象領域をフレーム画像の枠まで拡大する処理を行っているが、本発明はこの手順に限定されるものではない。代替的に、処理対象領域を所定の割合、例えば面積比で１０％ずつ段階的に拡大させて、重複する閉領域が見つかるまでステップＳ１４０ないしＳ１８０の手順を繰り返してもよい。

　本発明の一実施形態に係る物体認識装置１０００は、認識する物体の位置を検出する機能を有しているが、本発明はこの機能に限定されるものでない。例えば、本発明の物体認識装置１０００は、認識する物体の位置に加えてその形状を検出してもよい。例えば、右手の領域の重心およびエッジを求めて右手の形状、例えば、パー、グーなどを識別し、この形状に対応するコマンドの実行、あるいはパルス波形を出力するなどの機能を追加してもよい。

　本発明の一実施形態に係る物体認識装置１０００は、ユーザインターフェース用のジェスチャー認識装置に好適に適用することができるが、その用途は特定のものに限定されるものではなく、様々な物体を認識する用途に用いることができる。

　本発明の一実施形態に係る物体認識装置１０００が有する機能は、特定のハードウェア資源またはソフトウェア処理に限定されないことに留意されたい。すなわち、この機能を実現できる限り、如何なるハードウェア（電子回路等）、ソフトウェア（プログラム）、あるいはそれらの組み合わせ等を用いてよい。

　上述した本発明の一実施形態に係る物体認識方法を、プログラムとして実装する場合には、このプログラムを外部のサーバ等から該方法を実行する情報処理装置にダウンロードするか、あるいはコンピュータ可読媒体の形態で分配されることが好ましい。コンピュータ可読媒体の例としては、ＣＤ－ＲＯＭ、ＤＶＤ、磁気テープ、フレキシブルディスク、光磁気ディスク、ハードディスク、メモリ媒体などが挙げられる。

　以上、本発明を図面に示した実施形態を用いて説明したが、これらは例示的なものに過ぎず、本技術分野の当業者ならば、本発明の範囲および趣旨から逸脱しない範囲で多様な変更および変形が可能なことは理解できるであろう。したがって、本発明の範囲は、説明された実施形態によって定められず、特許請求の範囲に記載された技術的趣旨により定められねばならない。

　１０　　フレーム画像受信部
　２０　　処理対象領域抽出部
　３０　　基準色取得部
　４０　　二値画像生成部
　５０　　閉領域特定部
　６０　　重複閉領域選択部
　７０　　処理対象領域決定部
　８０　　基準色決定部
　９０　　記憶部
　１０００　物体認識装置

Claims

　対象となる物体が含まれた動画像から該物体を認識する物体認識装置であって、
　処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第１の基準色と、該処理対象のフレーム画像のＲＧＢヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第１の色相に対して最も離れたピークを示す第２の基準色とを特定する基準色特定手段と、
　エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定手段と、
　前記閉領域の中で、前記フレーム画像の１つ前に処理を行った画像フレームで特定された前記第１および第２の基準色を含み、かつ前記１つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識手段と、
を備えることを特徴とする物体認識装置。
　前記１つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定手段をさらに備え、
　前記基準色特定手段と、前記閉領域特定手段と、前記対象物体認識手段は、前記処理対象領域のみに処理を行うことを特徴とする請求項１に記載の物体認識装置。
　前記対象物体認識手段が前記処理対象領域内に前記物体が存在しないと判断した場合に、前記処理対象領域決定手段が前記処理対象領域を前記フレーム画像の全領域まで拡大して、該拡大した領域内を基準色特定手段と、閉領域特定手段と、対象物体認識手段とが再度処理を行うことを特徴とする請求項２記載の物体認識装置。
　対象となる物体が含まれた動画像から該物体を認識する物体認識方法であって、
　処理対象のフレーム画像が有する色相の中で最も広い面積を占める色相である第１の基準色を特定する第１の基準色特定段階と、
　前記処理対象のフレーム画像のＲＧＢヒストグラムを作成し、そのヒストグラムの所定の閾値以上で、かつ前記第１の色相に対して最も離れたピークを示す第２の基準色を特定する第２の基準色特定段階と、
　エッジ検出により、前記フレーム画像の中に存在する閉領域を特定する閉領域特定段階と、
　前記閉領域の中で、前記フレーム画像の１つ前に処理を行った画像フレームで特定された前記第１および第２の基準色を含み、かつ前記１つ前の画像フレームで前記物体として認識された閉領域に相当するエリアと少なくとも一部が重複する閉領域を前記物体として認識する対象物体認識段階と、
を含むことを特徴とする物体認識方法。
　前記１つ前の画像フレームで前記物体として認識された閉領域を包含し、かつ前記フレーム画像の全領域よりも小さいエリアを処理対象領域とする処理対象領域決定段階をさらに含み、
　前記第１の基準色特定段階の処理と、前記第２の基準色特定段階の処理と、前記閉領域特定段階の処理と、前記対象物体認識段階の処理は、前記処理対象領域のみに行われることを特徴とする請求項４に記載の物体認識方法。
　前記対象物体認識段階で前記処理対象領域内に前記物体が存在しないと判断された場合に、前記処理対象領域を前記画像フレームの全領域まで拡大して、該拡大した領域内で前記第１の基準色特定段階の処理と、前記第２の基準色特定段階の処理と、前記閉領域特定手段の処理と、前記対象物体認識手段の処理とが再度行われることを特徴とする請求項５に記載の物体認識方法。
　請求項４ないし６の何れか一項に記載の物体認識方法を実行する電子回路。
　請求項７に記載の電子回路を搭載したジェスチャー認識装置。
　請求項４ないし６の何れか一項に記載の物体認識方法を処理装置に実行させるプログラム。
　請求項９に記載のプログラムを格納したコンピュータ可読媒体。