WO2013051681A1

WO2013051681A1 - 手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム

Info

Publication number: WO2013051681A1
Application number: PCT/JP2012/075898
Authority: WO
Inventors: 聖星野; 遥平豊原; 教彰藤嶋
Original assignee: 国立大学法人筑波大学
Priority date: 2011-10-07
Filing date: 2012-10-05
Publication date: 2013-04-11
Also published as: JPWO2013051681A1; JP6066093B2

Abstract

　本発明の手指形状推定装置は、画像取得部と、画像解析部と、手指形状推定部とを備える。画像取得部は、手指形状を含む画像を取得する。画像解析部は、画像取得部により取得された画像を解析して、画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得する。そして、手指形状推定部は、画像解析部により得られた第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、第１の特徴量に対応する手指形状を推定する。

Description

手指形状推定装置、手指形状推定方法、及び手指形状推定プログラム

　本発明は、手指形状推定装置、手指形状推定方法、及び手指形状推定プログラムに係り、特に画像中の手指の形状や動きを高速かつ高精度に推定するための手指形状推定装置、手指形状推定方法、及び手指形状推定プログラムに関する。

　従来では、例えば決まった形の物体であれば、自動制御でロボット等にその物体を把持させることが可能となっている。しかしながら、様々な形状の物体を人間が思っているように自在に把持させることは困難である。

　そこで、従来では、人間の手指にセンサやマーカー等を取り付け、取り付けたセンサやマーカー等から人間の手指の動作を検知し、検知した手指動作にしたがってロボット等を駆動させる仕組みが存在する。なお、上述したセンサやマーカー等を用いずにロボット等をジェスチャー駆動することができれば、直観的で自由度が高く、入力時の拘束が少ない状態で、遠隔操作によりロボットを自在に動かして所望する作業をロボットにさせることができる。また、情報通信端末等も日常動作と同じように振る舞うことで操作できるため、操作方法の事前の習熟も不要となる。

　なお、従来では、例えば、画像から読み取った手指の輪郭線等から得られる画像特徴量等を用いて、データベースによる類似度検索を行い、手指形状を決定する手法、すなわち手指モーションキャプチャ等が用いられている（例えば、特許文献１及び２等参照）。

国際公開第２００５／０４６９４２号パンフレット国際公開第２００９／１４７９０４号パンフレット

　しかしながら、特許文献１に示されているような技術では、入力画像及びデータベースの照合用画像のそれぞれから読み取った手指の輪郭線のみを抽出した画像を、６４分割し、縦線・横線・斜線・折れ線・ドット等に相当する画像特徴量により手指形状を表現していた。したがって、データベースに登録された手指の形状よりも、指が著しく太い人や長い人が当該システムを利用する場合には、同じ手指の形状の特徴量を算出しても異なる値となってしまい、登録されたデータベースには、１つの分類に収まるはずの情報が２つの異なる分類に分かれて格納され、誤推定をしてしまうことがある。

　また、特許文献２に示されているような技術では、撮像画像及び照合用画像の各画像を６４分割し、かつ各分割領域を２５次元の画像特徴量で表現したため、各画像が合計で１６００次元の特徴量を持つことになる。そのため、特許文献２に示されているような技術では、計算機のメモリにアップロードできる手指形状の種類に限界があり、ビデオレート或いはその２倍の速さの実時間処理を行うためには、せいぜい３００００種類程度の形状しか推定できない。その結果、特許文献２に示されている技術は、個人差を持つ手指形状に対して高速かつ高精度な推定は困難であった。

　つまり、従来手法では、個人差に対応する手段として、個人差に対応したデータ（データセット）を新たにデータベースに追加するしかなく、これは大きな手間であり、データベースによる照合処理の時間も増大してしまう。ここで、個人差とは、例えば手の形（骨の長さ、太さ、掌と指の比率）や、手の動かし方（関節可動域、その中での姿勢の取り方）の差等を含む。

　本発明は、上述した課題に鑑みてなされたものであって、画像中の手指の形状や動きを高速かつ高精度に推定するための手指形状推定装置、手指形状推定方法、及び手指形状推定プログラムを提供することを目的とする。

　上述した課題を解決するために、本件発明は、以下の特徴を有する。

　本発明の手指形状推定装置は、手指形状を含む画像を取得する画像取得部と、前記画像取得部により取得された画像を解析して、前記画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得する画像解析部と、前記画像解析部により得られた前記第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、前記第１の特徴量に対応する手指形状を推定する手指形状推定部とを備える。

　また、本発明の手指形状推定方法は、手指形状を含む画像を取得することと、前記取得された画像を解析して、前記画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得することと、前記第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、前記第１の特徴量に対応する手指形状を推定することとを含む。

　また、本発明の手指形状推定プログラムは、上記本発明の手指形状推定方法の各処理を、情報処理装置に実装して実行させるための手指形状推定プログラムである。

　本発明によれば、画像中の手指の形状や動きを高速かつ高精度に推定することができる。

図１は、第１の実施形態における手指形状推定装置の機能構成の一例を示す図である。図２は、第１の実施形態における手指形状推定処理が実現可能なハードウェア構成の一例を示す図である。図３は、第１の実施形態における手指形状推定処理手順の一例を示すフローチャートである。図４は、第１の実施形態における照合処理の概要を説明するための図である。図５は、第１の実施形態における照合用データベース構築処理の手順の一例を示すフローチャートである。図６Ａ～６Ｄは、データグローブを用いて得られた複数の手指形状画像の一例を示す図である。図７Ａ及び７Ｂは、データベース構造の一例を示す図である。図８は、画像形状比率の算出に必要な各種パラメータの一例を示す図である。図９Ａ～９Ｃは、画像特徴量を取得する基準となるデータの一例を示す図である。図１０Ａ及び１０Ｂは、尾根線情報抽出結果の一例を示す図である。図１１は、８×８分割した尾根線画像の各分割領域の尾根線情報に施す高次局所自己相関処理を説明するための図である。図１２Ａ～１２Ｃは、画素の移動方法の一例を示す図である。図１３は、第１の実施形態における輪郭線走査から尾根線ベクトルを取得する処理手順の一例を示すフローチャートである。図１４は、照合処理の第２段階目の処理手順の一例を示すフローチャートである。図１５Ａ及び１５Ｂは、素手の状態と軍手を付けた状態とで同じ手指形状をした場合に得られる輪郭線情報と尾根線情報の違いの一例を示す図である。図１６Ａ～１６Ｃは、関節角度の比較結果を示す図である。図１７は、誤差平均、誤差標準偏差の一例を示す図である。図１８Ａ及び１８Ｂは、本発明の手指形状推定装置の適用例を示す図である。図１９は、第２の実施形態における爪領域抽出装置の機能構成の一例を示す図である。図２０は、第２の実施形態における爪領域抽出処理が実現可能なハードウェア構成の一例を示す図である。図２１は、第２の実施形態における爪領域抽出処理手順の一例を示すフローチャートである。図２２は、手指画像のＲＧＢ色空間における画素分布のモデルの一例を示す図である。図２３は、第２の実施形態における爪領域抽出処理の具体例を示すフローチャートである。図２４Ａ～２４Ｃは、主成分軸を基底とした座標変換の一例を示す図である。図２５Ａ及び２５Ｂは、分離平面位置決定手法の一例を示す図である。図２６Ａ及び２６Ｂは、第２の実施形態において、抽出された爪領域部分を示す図である。図２７は、誤抽出確率の高い肌の分布位置の一例を示す図である。図２８Ａ及び２８Ｂは、それぞれ爪領域を再抽出した場合及び誤抽出肌領域を再抽出した場合の実行結果の一例を示す図である。図２９Ａ～２９Ｃは、第２の実施形態における評価結果について説明するための図である。図３０は、第２の実施形態における爪領域抽出装置の適用例を示す図である。

１．第１の実施形態
　＜本発明の手指形状推定技術について＞
　本発明では、上述した手指の個人差の問題に対応する際、必ずしも個別の情報を新たにデータベースに加えなくても推定を行うことができるようにするために、輪郭線の情報に対応する特徴量を算出するのではなく、例えば指の中心を通る情報に着目し、この情報に対応する特徴量を算出する。これにより、指の太さが大きく異なる場合や指の長さがある程度異なる場合でも同じ特徴量を取得することができる。具体的には、まず、例えば画像中に含まれる手画像（手指画像）を前景画像とし、それ以外の画像を背景画像とする。次いで、前景画像（手画像）の各画素おいて、該画素と、それに最も近い背景画素の画素との距離（ピクセル）を高さとし、手画像を山状の画像（以下では、単に、山という）として見る。そして、該山に対して引くことのできる尾根線情報（指の中心を通る情報）を取得し、取得した尾根線情報（尾根線形状）を手指形状の推定に用いる。これにより、本発明では、特別に個人差に対応したデータベースを付加しなくてもよいため、高速かつ高精度に手指形状の推定を行うことができる。

　また、本発明は、指の中心を通る情報を用いて推定を行うため、この情報のベクトル化により、該情報に対応する特徴量を取得することができる。具体的には、例えば、上述した尾根線情報に対応する特徴量を取得する際に、ベクトル化によって該情報の特徴量を算出する。尾根線情報のベクトル化により得られる特徴量は、指の形状により得られるベクトルの本数が変動するため、特徴量次元数が安定しない可能性があるが、多くとも約１００次元程度で済む。これにより、照合用データベースの各データセットが持つ特徴量次元を大幅に低減することができ、逆に大量のデータセットを増やしても、処理速度において、従来と同じ高速性を維持できる。更に、尾根線情報は、個人差に影響されにくいため、後々に新たに個人差に対応した照合用の大規模データベースを加える必要がなくなる。

　つまり、本発明は、従来手法と比較すると、例えば以下に示すような特徴を有する。なお、以下の説明は、一例であり、本発明の特徴はこれに限定されるものではない。

　＜手指形状推定に用いる情報＞
　例えば、特許文献２に示すような従来技術では、入力画像を縦６４［ｐｉｘｅｌ］×横６４［ｐｉｘｅｌ］の画像に縮小し、その輪郭線情報に対応する特徴量を取得することにより画像特徴を表現した。しかしながら、本発明では、上述のように、例えば手画像を前景とし、それ以外の画像を背景としたときに前景画像の背景画像からの距離を高さと見なすことで手画像を１つの山と見なす。そして、該山に引くことのできる尾根線を手指形状の推定に用いる。尾根線情報は、指の中心を通る情報であるため、尾根線情報に対応する特徴量を算出した場合には、該特徴量に大きな変化がない。これによって、個人差の上記問題に対応するためのデータベースを新たに登録する必要なく、個人差に対応した手指形状推定を行うことができる。

　＜画像特徴量の次元数＞
　例えば、特許文献２に示すような従来技術では、１つの手指データセット或いは入力画像を、縦８×横８の合計６４の区画に分割し、各区画の画像の特徴を、高次局所自己相関関数に相当するような２５パターンの点・線分・折れ線・エッジ等の低次の特徴量により表現した。その結果、１つの手指画像は８×８区画×２５パターンの合計１６００次元を持っていた。

　それに対して本発明では、抽出した尾根線情報のベクトル化により尾根線情報の特徴量を得る。ベクトル化により得られた特徴量次元数は、入力画像により様々であるが、最大でも約１００次元程度となる。したがって、その特徴量次元数は、従来技術の１６００次元から比べると少なくとも約１／１６となり大幅な画像特徴量の削減が可能である。

　＜データベース規模＞
　例えば、特許文献２に示すような従来技術のデータベース規模は、約３００００個のデータセットであった。その数は、多数の予備実験により、特に各指が、完全屈伸及び完全伸展と、その中間の姿勢とを高精度に推定できるようにデータベースが構築された結果である。約３００００セットという数は、必ずしもコンピュータのメモリ（蓄積部）にアップロード可能な上限ではないが、推定できる分解能を更に細かくすると、必要なデータセットの桁数が爆発的に増えるため、現実的には上限に近い数であった。

　しかしながら、本発明では、１つのデータセットあたりの特徴量次元数が約１／１６に大幅に減少するため、計算機のメモリにアップロードできる情報（データセット数）が大幅に大きくなる。１６倍のデータベース規模の拡大が可能であるため、約４８００００個のデータセットを有するデータベースを作ることが可能である。

　＜推定の分解能＞
　上述したように、従来技術のデータベース規模は、約３００００個のデータセットであった。四指の３関節がそれぞれ１自由度（すなわち、一定比率で連動して動く）、母指が３自由度、四指開閉が１自由度とすると、手指形状の種類は、四指及び母指のそれぞれの４段階の姿勢と、四指開閉の２段階の姿勢との組み合わせだけで３００００種類を超えてしまう。実際には、四指開閉（すなわち、四指の内外転）が推定の良し悪しに及ぼす影響が大きいため、四指開閉の姿勢の段階を増やす必要がある。つまり、従来技術では、手指形状推定の分解能は、完全屈曲及び完全伸展と、中間姿勢１～３種類程度とを含む荒い分解能であった。また、個人差に対応したデータセットも用意すると、従来技術のデータベース規模の３００００個のデータセットでは全く足りない。

　それに対して本発明では、同じ処理速度でも上述したように、データベース規模を約１６倍のデータベース規模まで増大できる。四指及び母指３関節の姿勢を、それぞれ５段階設け、四指開閉の姿勢を３段階設けると、全ての組み合わせは約２５００００種類となる。また、個人差に対応するためのデータセットがいらないので拡大した分のデータセットには、全て分解能を向上するためのデータを入れることができるため、示指・中指・拇指に少し細かい分解能を与えることで約４０００００個のデータセットを有するデータベースを構築することが可能となる。

　以下に、本発明における手指形状推定装置、手指形状推定方法、及び手指形状推定プログラムを好適に実施した形態について、図面を用いて説明する。

　＜手指形状推定装置：機能構成例＞
　次に、第１の実施形態における手指形状推定装置の機能構成例について図を用いて説明する。図１は、本実施形態における手指形状推定装置の機能構成の一例を示す図である。図１に示す手指形状推定装置１０は、入力部１１と、出力部１２と、蓄積部１３と、画像取得部１４と、データベース構築部１５と、画像解析部１６と、照合部１７と、手指形状推定部１８と、送受信部１９と、制御部２０とを有するよう構成されている。

　入力部１１は、ユーザ等からの画像取得指示、データベース構築手指示、データベース構築指示、画像解析指示、照合指示、手指形状推定指示、送受信指示等の各種指示の開始／終了等の入力を受け付ける。なお、入力部１１は、例えばＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等の汎用のコンピュータであればキーボードやマウス等のポインティングデバイスからなり、スマートフォンや携帯電話等の情報端末装置やゲーム機器であれば各操作ボタン群等からなる。また、入力部１１は、音声等により上述した指示等の音声を入力する音声入力機能を有していてもよい。

　出力部１２は、入力部１１により入力された内容や、入力内容に基づいて実行された内容等の情報の出力を行う。具体的には、出力部１２は、取得した画像や、データベースの構築結果、画像解析結果、照合結果、手指形状推定結果等の各構成における処理の結果などの画面表示や音声出力等を行う。なお、出力部１２は、ディスプレイ、スピーカ、ロボット等からなる。

　更に、出力部１２は、プリンタ等の印刷機能を有していてもよく、上述の各出力内容を、例えば紙等の各種印刷媒体等に印刷し、ユーザ等に提供することもできる。

　蓄積部１３は、本実施形態において必要となる各種情報や、処理の実行時又は実行後の各種データなどを蓄積する。具体的には、蓄積部１３は、予め蓄積されている画像や画像取得部１４で取得される撮影等により得られた画像（例えば、映像等のように時系列的な画像も含む）等を蓄積する。また、蓄積部１３は、データベース構築部１５により得られたデータベースの内容、画像解析部１６により得られた解析結果、照合部１７により得られた照合結果、手指形状推定部１８により得られた推定結果等を蓄積する。また、蓄積部１３は、必要に応じて蓄積されている各種データを読み出すことができる。

　画像取得部１４は、例えば撮像装置２１等により撮影された画像や映像等を取得する。なお、説明の便宜上、画像取得部１４により取得される画像には、全て手指が含まれているものとするが、本発明においてはこれに限定されるものではない。

　ここで、本実施形態では、撮像装置２１を手指形状推定装置１０の外部に設けたが、本発明においてはこれに限定されるものではなく、撮像装置２１が例えば手指形状推定装置１０内に内蔵されていてもよい。また、画像取得部１４により取得される画像や映像は、撮像装置２１により撮影される実際の手指の画像や映像等に限定されるものではなく、例えば模型の手指や写真、ポスター等を撮影した画像、ＣＧ（Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ）編集ソフト等により生成された画像等であってもよい。

　また、画像取得部１４は、送受信部１９を介して、通信ネットワーク上に接続される外部装置やデータベース等に蓄積されている画像や映像等を取得することもできる。画像取得部１４によって取得した画像等は、蓄積部１３に蓄積させることができ、必要に応じて蓄積部１３から読み出すことができる。

　データベース構築部１５は、必要に応じて、ユーザ等が、予めセンサやマーカー等がついたデータグローブ等を装着して得られる、データグローブから手の各関節の動き等の必要な情報を取得して、本実施形態における手指形状推定に必要とされる照合用のデータベースを構築する。或いは、ＣＧ編集ソフト等により、手指の関節角度を指定することで生成される画像を取得して、本実施形態における手指形状推定に必要とされる照合用のデータベースを構築してもよい。

　データベース構築部１５による構築されるデータベースには、所定の手指形状に対して、少なくとも角度データと画像特徴量とを蓄積する。そして、例えば、入力された画像に対して前腕回旋角度である角度データ（例えば、関節角度等）、画像形状比率、及び上述した画像特徴量の３つのデータを１つの組み（データセット）として、データベースを構築してもよい。なお、上述した３つのデータは、例えば画像解析部１６等により入力画像を解析することで得られる。また、上述したデータセットは、上述した３つのデータに限定されるものではなく、例えば上述した３つのデータのうち、少なくとも１つが含まれていればよい。

　つまり、本実施形態では、データベースに「尾根線を使った画像特徴量」と「関節角度情報」とが対応付けられて蓄積される。つまり、本実施形態では、例えば、カメラ等の撮像装置２１でユーザの手指等が撮影されると、ユーザの手指の「尾根線を使った画像特徴量」と、データベース中の「尾根線を使った画像特徴量」とを比較して照合を行い、最も類似した画像特徴量に対応付けられたデータセットの「関節角度情報」が、推定結果として出力される。したがって、本実施形態で構築されるデータベースには、例えば尾根線の画像特徴量と、角度データとが必要となる。また、上述した前腕回旋角度や画像形状比率等は、例えばデータを絞り込むために用いられる付加的なデータであり、データベースとして蓄積されていなくてもよいが、これらの付加的なデータをデータベースに蓄積することにより効率的かつ高精度な絞り込みを実現することができる。

　また、データベース構築部１５は、既に本実施形態で用いられるデータベースが構築され、蓄積部１３等に蓄積されている場合や、送受信部１９を介して通信ネットワークにより接続される外部装置から取得している場合には、データベースの構築を行わなくてもよい。

　画像解析部１６は、画像取得部１４により取得した画像（映像を含む）等を解析する。具体的には、画像解析部１６は、画像中から背景や腕或いは体躯のような非手指領域を除去し、画像中における画素毎の特徴量等から、どの部分（位置、領域）に手指等のオブジェクトの位置がどのような姿勢で映し出されているか、或いは、映像中において手指等のオブジェクトがどのように移動しているか等を解析する。つまり、画像解析部１６は、撮影された手指等の画像の特徴量の数値化処理を行う。具体的には、画像解析部１６は、例えば手指の輪郭形状（輪郭線）等を用いて尾根線情報を取得し、取得した尾根線形状から特徴量を取得する。また、画像解析部１６は、入力された画像に対して画像形状比率、及び、上述した画像特徴量の２つのデータを取得する。ただし、画像形状比率は必ずしも取得しなくてもよく、また上述した画像形状比率のデータ以外のデータが含まれていてもよい。

　なお、輪郭線の取得例としては、例えば隣接画素間における輝度差の情報等に基づいて、画像中から手指部分と背景部分とを分離し、手指部分の輪郭線を取得することができるが、本発明においては、これに限定されるものではない。

　照合部１７は、入力画像から画像解析部１６により得られる解析結果に基づいて、入力画像と、予め設定された照合用のデータベースとの照合を行い、類似度判定を行う。具体的には、照合部１７は、例えば上述した２つのデータ（画像形状比率、画像特徴量）のうち、少なくとも画像特徴量を用いてデータベースに含まれる手指形状と入力画像内の手指形状との照合を行う。

　手指形状推定部１８は、照合部１７により得られた照合結果に基づいて、画像中の手指に対応する手指形状を推定する。なお、手指形状推定部１８における手指形状推定の具体的な手法については、後述する。

　また、送受信部１９は、通信ネットワーク等を用いて接続可能な外部装置から所望する外部画像（例えば撮影画像や映像等）や、本発明における手指形状推定処理を実現するための実行プログラム等を取得するためのインターフェースである。また、送受信部１９は、手指形状推定装置１０内で得られた各種情報を外部装置に送信することができる。

　制御部２０は、手指形状推定装置１０の各構成部全体の制御を行う。具体的には、制御部２０は、例えばユーザ等による入力部１１からの指示等に基づいて、画像の取得、データベース構築、画像解析、画像照合、手指形状の推定等の各処理における制御等を行う。

　撮像装置２１は、例えばデジタルカメラや高精度カメラ等からなり、ユーザの実際の手指や模型の手指等の画像や映像を取得する。なお、撮像装置２１は、１台だけ設けられていてもよいし、異なる方向から同時に手指を撮影できるように複数台、設けられていてもよい。

　＜手指形状推定装置１０：ハードウェア構成＞
　ここで、上述した手指形状推定装置１０においては、各機能をコンピュータ（情報処理装置、ハードウェア）に実行させることができるソフトウェアとしての実行プログラム（手指形状推定プログラム）等を生成し、例えばＰＣ等の汎用のパーソナルコンピュータ、サーバ、スマートフォンや携帯電話等の情報端末装置、ゲーム機器等にその実行プログラムをインストールすることにより、本発明における手指形状推定処理等を実現することができる。

　ここで、本実施形態における手指形状推定処理が実現可能なコンピュータのハードウェア構成例について図を用いて説明する。図２は、本実施形態における手指形状推定処理が実現可能なハードウェア構成の一例を示す図である。

　図２におけるコンピュータ本体には、入力装置３１と、出力装置３２と、ドライブ装置３３と、補助記憶装置３４と、メモリ装置３５と、各種制御を行うＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）３６と、ネットワーク接続装置３７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

　入力装置３１は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザ等からのプログラムの実行等の各種操作信号を入力する。また、入力装置３１は、例えばカメラ等の撮像装置２１から撮影された画像を入力する画像入力ユニットを有していてもよい。

　出力装置３２は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ３６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

　ここで、本発明においてコンピュータ本体にインストールされる実行プログラムは、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリやＣＤ－ＲＯＭ等の可搬型の記録媒体３８等により提供される。プログラムを記録した記録媒体３８は、ドライブ装置３３にセット可能であり、記録媒体３８に含まれる実行プログラムが、記録媒体３８からドライブ装置３３を介して補助記憶装置３４にインストールされる。

　補助記憶装置３４は、ハードディスク等のストレージ装置であり、本発明における実行プログラムやコンピュータに設けられた制御プログラム等を蓄積し、必要に応じてそれらの入出力を行うことができる。

　メモリ装置３５は、ＣＰＵ３６により補助記憶装置３４から読み出された実行プログラム等を格納する。なお、メモリ装置３５は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等からなる。

　ＣＰＵ３６は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）等の制御プログラム、及びメモリ装置３５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、手指形状推定処理における各処理を実現することができる。なお、プログラムの実行中に必要な各種情報等は、補助記憶装置３４から取得することができ、また実行結果等を補助記憶装置３４に格納することもできる。

　ネットワーク接続装置３７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラム自体を他の端末等に提供することができる。

　上述したようなハードウェア構成により、本発明における手指形状推定処理を実行することができる。また、プログラムをインストールすることにより、汎用のパーソナルコンピュータ等で本発明における手指形状推定処理を容易に実現することができる。

　次に、上述した手指形状推定プログラムにおける手指形状推定処理について具体的に説明する。

　＜手指形状推定処理手順＞
　まず、本実施形態における手指形状推定処理手順について説明する。図３は、本実施形態における手指形状推定処理手順の一例を示すフローチャートである。なお、以下に説明する各種処理における各部の動作は、制御部２０（ＣＰＵ３６）により制御される。

　図３に示す手指形状推定処理では、まず、制御部２０は、手指形状を推定するための照合用データベースがあるか否かを判断する（Ｓ０１）。制御部２０は、具体的には、照合用データベースが予め蓄積部１３等に蓄積されていたり、通信ネットワーク等により外部装置等から取得されていたりするか否かを判断する。ここで、照合用データベースがない場合（Ｓ０１の処理において、ＮＯ）、制御部２０は、各部を制御して照合用データベースを構築する（Ｓ０２）。

　ただし、本実施形態においてＳ０１及びＳ０２の処理は必須ではなく、例えばＳ０１の処理においてＮＯの場合、処理を終了することにしてもよい。

　また、Ｓ０１の処理において、照合用データベースがある場合（Ｓ０１において、ＹＥＳ）、又はＳ０２の処理において、照合用データベースを構築した場合、画像取得部１４は、手指形状を推定する必要のある手指を含む画像を取得する（Ｓ０３）。次いで、画像解析部１６は、取得した画像の解析を行う（Ｓ０４）。なお、Ｓ０４における解析処理としては、例えば画像形状比率を求めたり、手指の尾根線形状等から画像特徴量（第１の特徴量）を算出する等の処理を行うが、本発明においてはこれに限定されるものではない。

　また、手指形状推定処理では、照合部１７は、Ｓ０４の処理で得られた解析結果に基づいて、Ｓ０２の処理等により得られた照合用データベースや予め蓄積部１３等に蓄積された照合用データベースとＳ０３で取得した画像との照合を行う（Ｓ０５）。次いで、手指形状推定部１８は、取得した画像内の手指形状の推定を行い（Ｓ０６）、画像形状比率や尾根線形状の画像特徴量等と対応付けて照合用データベースに蓄積されている手指の角度データを、推定結果として出力する（Ｓ０７）。

　次に、制御部２０は、処理を終了するか否かを判断し（Ｓ０８）、終了しない場合（Ｓ０８において、ＮＯ）、Ｓ０３に戻り、制御部２０は、例えば連続する画像、つまり映像に対して上述の処理を行って時系列的に結果を出力したり、又は、他の画像に対して上述の処理を行う。

　また、Ｓ０８の処理において、ユーザの指示等により処理を終了する場合（Ｓ０８において、ＹＥＳ）、制御部２０は、手指形状推定処理を終了する。

　なお、上述したように、Ｓ０１及びＳ０２の処理は、手指形状推定処理に含まれていなくてもよい。つまり、データベースの構築は、手指形状推定処理とは非同期で行われる。したがって、例えば推定の初回時に限って、上述したＳ０１及びＳ０２に示すようにデータベースの有無の判断及びデータベースの構築を行ってもよく、所望するデータベースが見当たらなかった場合やユーザ等の指示があった場合に、データベースを構築するようにしてもよい。

　ここで、図４は、本実施形態における照合処理（Ｓ０５）の概要を説明するための図である。本実施形態の照合処理は、大別すると、図４に示すように、照合用のデータベースに含まれる各データセットから、例えば前腕回旋による探索範囲の制限や画像形状比率等によるデータセットの絞りこみ等（すなわち、手指形状における所定の形状パラメータによるデータセットの絞り込み）を行う第１段階目の処理と、画像特徴量による類似度計算を行って、最も類似するデータセットを出力する第２段階目の処理とからなる。また、本実施形態では、例えば上述した入力画像の画像形状比率（次元数は３）等のデータセットを用いて、全データベースのデータセットと取得した画像とを照合する。

　つまり、本実施形態では、例えば画像形状比率等による粗い絞り込みで残ったデータセット（データセット群）に対して、更に、画像特徴量（例えば約１００次元）による精緻な類似度照合を行い、最も類似したデータセットを手指形状の推定結果として出力する。これにより、取得した画像中の手指の形状や動きを高速かつ高精度に推定することができる。

　＜データベース構築処理手順＞
　次に、上述した本実施形態における照合用データベース構築処理（Ｓ０２）の手順について、フローチャートを用いて説明する。図５は、本実施形態における照合用データベース構築処理手順の一例を示すフローチャートである。なお、以下に説明する各種処理における各部の動作は、制御部２０（ＣＰＵ３６）により制御される。

　照合用データベースの構築では、まず、画像取得部１４は、データグローブ等を用いて得られた複数の手指形状の画像を取得する（Ｓ１１）。ここで、図６Ａ～６Ｄは、データグローブを用いて得られた複数の手指形状画像の一例を示す図である。ユーザは、手指形状を推定するための照合用データベースを構築するに際し、例えば図６Ａ～６Ｄに示すような予め設定された手指形状に基づく画像を取得する。なお、手指形状は、図６Ａ～６Ｄの例に限定されるものではなく、多数の形状が用いられる。

　また、Ｓ１１の処理では、画像取得部１４は、各手指形状として、例えば上面、側面、斜め前方等の少なくとも１つの角度からの形状を取得する。なお、本実施形態では、１つの手指に対する所定方向からの画像を、データセットとして扱う。

　次に、画像解析部１６は、各画像に含まれる手指の関節角度を取得する（Ｓ１２）。関節角度とは、例えば手指の関節角度データを示すが、本発明においてはこれに限定されるものではなく、例えば前腕回旋角度等の関節角度等も含んでもよい。なお、関節角度の取得例については、後述する。

　なお、本実施形態では、データグローブ等を用いて複数の手指形状の画像と関節角度情報とを取得する代わりに、例えばＣＧ編集ソフト等を用いて手指画像を生成し、複数の関節角度情報とそれに対応する複数の手指形状の画像とを取得してもよい。

　次に、画像解析部１６は、各画像に含まれる手指の画像形状比率を算出する（Ｓ１３）。Ｓ１３の処理における画像形状比率の算出手法については、後述する。なお、本発明においては必ずしも画像形状比率の算出を行わなくてもよい。次に、画像解析部１６は、各画像に含まれる手指の輪郭線等に基づいて尾根線形状を取得する（Ｓ１４）。具体的には、Ｓ１４の処理では、画像特徴量に基づいて手画像を山と見なして尾根線を設定する。

　次に、画像解析部１６は、取得した尾根線からベクトル情報を画像特徴量として取得する（Ｓ１５）。そして、データベース構築部１５は、取得した関節角度（角度データ）、画像形状比率、画像特徴量（第２の特徴量）を含む組（データセット）からなる照合用データベースを構築する（Ｓ１６）。

　なお、Ｓ１６の処理では、上述した画像特徴量と、推定結果の出力のために用いる関節角度（角度データ）とが含まれていればよく、また上述した画像形状比率のデータ以外のデータが含まれていてもよい。ここで、上述したデータベースの構造について、具体的に説明する。

　＜データベース構造＞
　図７Ａ及び７Ｂは、データベース構造の一例を示す図である。本実施形態では、例えば、図７Ａに示すように、例えば所定の手指形状における手指の関節角度や前腕回旋角度等を含む角度データ（ＪＯＩＮＴ　ＡＮＧＬＥＳ　ＷＩＴＨ　ＷＲＩＳＴ　ＲＯＴＡＴＩＯＮ）、画像形状比率（ＩＭＡＧＥ　ＡＳＰＥＣＴＳ）、及び画像特徴量（ＩＭＡＧＥ　ＦＥＡＴＵＲＥＳ）の３つのデータを１つのデータセット（ＤＡＴＡ　ＳＥＴ）とし、様々な手指形状に対するデータセットの集まりをデータベース（ＤＡＴＡＢＡＳＥ）とする。なお、角度データについては、例えば図７Ｂに示すように、予め角度データに対する把持動作を識別情報等により設定しておいてもよい。これにより、照合時に角度データに基づく把持動作（手指の動き）を効率的に取得することができる。

　つまり、ユーザ（操作者）の手指動作により、例えば遠隔ロボットを制御しようとする場合には、必ずしも詳細な手指形状推定を行うよりは、カメラにより撮像された手指映像に対して迅速に把持動作の何れかを識別した方が、安定で高速な遠隔ロボット操作が実現できる。そこで、本実施形態では、図７Ｂに示すように、データベース構築時に、例えば識別が必要な手指形状とその個人差データとを集中的に生成し、手指関節角度データの代わりに、把持動作パターンの番号（１，２，３，…）を付与する。

　これにより、本実施形態では、上述した照合処理における第１段階目の粗い絞り込みと、第２段階目の精緻な類似度照合とにより検索された最も類似する手指形状を推定結果とすることができる。なお、この場合に、推定結果として出力される内容は、関節角度でなくてもよく、例えば推定結果に対応して予め設定されている把持動作パターン番号を出力してもよい。

　＜手指関節角度＞
　ここで、照合用データベースに含まれる手指関節角度は、例えばデータグローブ（例えば、Ｖｉｒｔｕａｌ　Ｔｅｃｈｎｏｌｏｇｉｅｓ社製、ＣｙｂｅｒＧｌｏｖｅ（登録商標））によって取得される。

　＜画像形状比率＞
　次に、画像形状比率の算出方法について、具体的に説明する。図８は、画像形状比率の算出に必要な各種パラメータの一例を示す図である。画像形状比率の算出方法では、まず手指領域と背景を分離し、手指領域に対してラベリング処理を行う。そのとき、最も大きなラベル番号を持つ画素を基準点とし、基準点に基づいて手指範囲を決定する。ここで、例えば基準点から基準点のラベル番号分の画素だけ下部分を手指範囲の下端とし、手指領域が手指範囲にちょうど入るように手指範囲の上端，右端，左端を決定する。そして、画像形状比率は、縦長度，上長度，右長度の３つの値で表わされ、それぞれ次式（１）～（３）で定義される。

　ここで、上述した式において、Ｒ_ｔａｌｌは縦長度を示し、Ｒ_{ｔｏｐｈｅａｖｙ}は上長度を示し、Ｒ_{ｒｉｇｈｔｂｉａｓｅｄ}は右長度を示し、Ｌ_{ｈｅｉｇｈｔ}は手指範囲の上端から下端までの距離を示し、Ｌ_{ｗｉｄｔｈ}は手指範囲の右端から左端までの距離を示し、Ｌ_{ｕｐｐｅｒ}は手指範囲の上端から基準点までの距離を示し、Ｌ_{ｌｏｗｅｒ}は手指範囲の下端から基準点までの距離を示し、Ｌ_{ｒｉｇｈｔ}は手指範囲の右端から基準点までの距離を示し、Ｌ_ｌｅｆｔは手指範囲の左端から基準点までの距離を示す。

　＜画像特徴量について＞
　次に、本実施形態における画像特徴量の取得方法について、図を用いて説明する。図９Ａ～９Ｃは、画像特徴量を取得する基準となるデータの一例を示す図である。また、図１０Ａ及び１０Ｂは、尾根線情報抽出結果の一例を示す図である。

　本実施形態では、従来手法で推定に用いられていた手画像の輪郭線情報用いると個人差の影響が大きく出てしまうため、例えば前景画像である手画像の各画素の背景画像からの距離を高さと考え、図９Ａ～９Ｃに示すように手画像を山と見なす。そして、本実施形態では、その山に引くことのできる尾根線の情報を推定に用いる。

　なお、図９Ａ～９Ｃに示す点群は、例えば手画像の輪郭線走査により求める。例えば手画像の輪郭線を走査するときに、１回目の走査で調べた画素に「１」というラベルを貼り、１周したら走査済み画素を背景として２回目の輪郭線走査を行い、調べた画素に「２」というラベルを貼る。同様の処理によりｎ回目の走査で調べた画素には「ｎ」というラベルを貼る。図９Ａ～９Ｃの点群は、このような処理により貼ったラベル番号を高さとして描画したものである。ただし、本発明における尾根線情報を求める方法については、上述の処理に限定されるものではない。

　これにより、図１０Ａ及び１０Ｂに示すように、手の形状やグー、チョキ、パー等の形状の作り方の個人差の影響を減らし、手指形状推定の精度を上げることができる。

　具体的には、本実施形態では、手指画像を、画像形状比率の算出時に決めた手指範囲のみ切り出し、縦６４［ｐｉｘｅｌ］、横６４［ｐｉｘｅｌ］となるように縮小する。この縮小画像から尾根線情報を抽出すると、手指画像は、図１０Ｂに示すような画像になる。

　尾根線を抽出する方法は、まず、手画像の最外の輪郭線をなぞる走査を行う。この時、走査の進行方向に向かって左右の画素を調べ、それぞれが背景と同じ画素値もしくは走査済みの画素だったら、尾根線抽出結果用に用意された６４×６４［ｐｉｘｅｌ］画像の同じ画素に点（尾根に対応）をプロットする。

　輪郭線を１周走査し終えたら、走査済みの画素を背景と見なし、１回り小さくなった手画像の輪郭線（一つ内側の輪郭線）の走査を行い、上記処理と同様の処理をする。そして、走査する画素がなくなったら処理を終了とする。このような抽出処理により得られた尾根線画像を縦８分割、横８分割し、各分割領域において高次自己局所相関関数を用いて２５次元の画像特徴量を取得する。

　ここで、図１１は、８×８分割した尾根線画像の各分割領域の尾根線情報に施す高次局所自己相関処理を説明するための図である。本実施形態では、図１１に示すように、尾根線画像を縦横それぞれ８ブロック（８ＢＬＯＣＫＳ）毎に分割し、分割した各ブロックに対して２５次元（図１１に示すＮｏ．１～Ｎｏ．２５）の相関関係を画像特徴量として割り当てる。これにより、尾根線画像１枚あたり８×８×２５次元の画像特徴量を得ることができる。

　ここで、上述した手画像の輪郭線をなぞる走査については、以下の方法による画素移動を行うことで効率的に輪郭線走査を実現することができる。図１２Ａ～１２Ｃは、画素の移動方法の一例を示す図である。

　例えば、３×３の画素マトリクスにおいて、進行方向（走査方向）が真上、真下、真横の場合には、図１２Ａに示すように、現在の画素（現在の探索画素）と、背景画素との関係に基づいて進行予定画素が決定され、決定した進行予定画素に画素を移動する。また、進行方向が斜めの場合にも同様に図１２Ｂに示すように、現在の画素と、背景画素との関係に基づいて進行予定画素が決定され、決定した進行予定画素に画素を移動する。

　また、進行方向（走査方向）が斜めの場合における画素の移動方法の例外として、さらに前回探索画素の位置を用いて画素を移動させることもできる。具体的には、図１２Ｃに示すように、前回探索画素と、現在の画素と、背景画素とに基づいて、進行予定画素が決定され、決定した進行予定画素に画素を移動する。これにより、より高精度に進行予定画素を決定することができる。なお、図１２Ｃに示す画素の移動方法は、例えば、他の斜めの進行方向の場合にも適用することができる。更に、図１２Ｃに示す移動方法は、上述した真上、真下、真横、斜めの各場合にも適用することができる。これにより、高精度に進行方向を決定することができると共に、画像全体を走査する必要がなく、輪郭線付近の走査のみでよいため、より迅速かつ効率的な処理を実現することができる。

　＜輪郭線走査から尾根線ベクトルを取得する処理手順：他の例＞
　次に、尾根線から画像特徴量を取得する他の例について説明する。具体的には、本実施形態における輪郭線走査から尾根線ベクトルを取得する処理手順についてフローチャートを用いて説明する。図１３は、本実施形態における輪郭線走査から尾根線ベクトルを取得する処理手順の一例を示すフローチャートである。

　図１３では、まず、画像解析部１６は、入力画像において、背景又は走査済み画素以外の画素を輪郭線走査し（Ｓ２１）、現在の画素が尾根線上の画素か否かを判断する（Ｓ２２）。ここで、現在の探索画素が尾根線上の画素である場合（Ｓ２２において、ＹＥＳ）、画像解析部１６は、該画素の周りにベクトルの終点があるか否かを判断する（Ｓ２３）。該画素の周りにベクトルの終点がある場合（Ｓ２３において、ＹＥＳ）、次に、画像解析部１６は、ベクトルの終点を現在の画素座標に更新した場合に、ベクトルの傾きが一定値（予め設定された閾値）以上変化するか否かを判断する（Ｓ２４）。

　Ｓ２４の処理において、ベクトルの傾きが一定値以上変化する場合（Ｓ２４において、ＹＥＳ）、画像解析部１６は、現在の画素を今までのベクトルの終点又は新しいベクトルの始点及び終点とする（Ｓ２５）。

　また、上述したＳ２３に処理において、現在の画素の周りにベクトルの終点がない場合（Ｓ２３において、ＮＯ）、画像解析部１６は、ベクトルの始点及び終点を現在の画素座標とする（Ｓ２６）。また、上述したＳ２４の処理において、ベクトルの傾きが一定値以上変化しない場合（Ｓ２４において、ＮＯ）、画像解析部１６は、ベクトル終点を現在の画素座標に更新する（Ｓ２７）。

　Ｓ２２の処理において、現在の画素が尾根線上の画素でない場合（Ｓ２２において、ＮＯ）、又はＳ２５，Ｓ２６，Ｓ２７のうち何れかの処理の終了後、画像解析部１６は、輪郭線走査が終了したか否かを判断する（Ｓ２８）。輪郭線走査が終了していない場合（Ｓ２８において、ＮＯ）、画像解析部１６は、探索（解析）する画素を次の画素へ移動させ（Ｓ２９）、その後、Ｓ２２に戻り、その後続の処理を行う。なお、この処理における次の画素への移動手法としては、例えば上述した図１２Ａ～１２Ｃに示す移動方法を用いることができるが、これに限定されるものではない。

　また、Ｓ２８の処理において、輪郭線走査が終了した場合（Ｓ２８において、ＹＥＳ）、画像解析部１６は、背景又は走査済み画素以外の画素がないか否かを判断し（Ｓ３０）、当該画素がある場合（Ｓ３０において、ＮＯ）、Ｓ２１に戻り、その後続の処理を行う。当該画素がない場合（Ｓ３０において、ＹＥＳ）、画像解析部１６は、処理を終了する。

　＜手指形状推定手法＞
　次に、本実施形態における手指形状推定手法について具体的に説明する。まず、カメラ等の撮像装置２１等から得られた画像から手指領域を求め、例えば上述したように画像形状比率、及び画像特徴量等をそれぞれ求める。次に、データベース探索を行うが、本実施形態では、２段階のデータベース探索手法を用いる。

　第１段階目の探索では、以下の式（４）～（６）に示すような閾値を用いて、例えば画像形状比率による絞り込みを行う。

　ここで、上述した式において、ｔｈ_ｔａｌｌは縦長度に関する閾値を示し、ｔｈ_{ｔｏｐｈｅａｖｙ}は上長度に関する閾値を示し、ｔｈ_{ｒｉｇｈｔｂｉａｓｅｄ}は右長度に関する閾値を示し、Ｒ_ｔａｌｌ［ｉ］はｉ番目のデータセットの縦長度を示し、Ｒ_{ｔｏｐｈｅａｖｙ}［ｉ］はｉ番目のデータセットの上長度を示し、Ｒ_{ｒｉｇｈｔｂｉａｓｅｄ}［ｉ］はｉ番目のデータセットの右長度を示し、Ｒ_{ｃｕｒｒｅｎｔ－ｔａｌｌ}は入力画像の縦長度を示し、Ｒ_{ｃｕｒｒｅｎｔ－ｔｏｐｈｅａｖｙ}は入力画像の上長度を示し、Ｒ_{ｃｕｒｒｅｎｔ－ｒｉｇｈｔｂｉａｓｅｄ}は入力画像の右長度を示す。

　次に、第２段階目の探索では、画像特徴量による類似度計算を行う。類似度計算には、例えば単純なユークリッド距離等を用い、例えば式（７），式（８）を用いて類似度が算出される。

　ここで、上述した式において、Ｅは類似度を示し、ｅ_ｋはｋ番目の分割領域における類似度を示し、ｘ．ｃｕｒｒｅｎｔ［ｊ］_ｋは入力画像のパターンｊの画像特徴量（第１の特徴量）を示し、ｘ．ｄａｔａｓｅｔ［ｉ］［ｊ］_ｋはｉ番目のデータセットのパターンｊの画像特徴量（第２の特徴量）を示す。なお、ｉはデータセット番号を示し、ｊはＨＬＡＣ（Ｈｉｇｈｅｒ　ｏｒｄｅｒ　Ｌｏｃａｌ　ＡｕｔｏＣｏｒｒｅｌａｔｉｏｎ；高次局所自己相関）パターン番号を示し、ｋは分割領域番号を示し、Ｄは分割領域数を示し、ＰはＨＬＡＣパターン数を示す。

　ただし、本実施形態では、２段階のデータベース探索手法が必須ではなく、例えば第１段階目の画像形状比率による絞り込みは省略してもよい。或いは、第１段階目で画像形状比率以外のパラメータによる絞り込みを用いても構わないし、更には、他のデータを用いて３段階以上の処理からなるデータベース探索手法を行い、手指形状推定を行うこともできる。

　＜ベクトル情報を用いた照合（マッチング）について＞
　ここで、上述したベクトル情報を用いて、上述した照合部１７等による照合処理を行う場合には、例えばベクトル特徴量や、ベクトル個数等のうち、少なくとも１つのデータから構成されるデータセットを必要数だけ蓄積したデータベースを予め用意するのが好ましい。

　また、照合処理の第１段階目の処理としては、データベースの絞り込みを行う。具体的には、例えば、カメラ等の撮像装置２１から取り込んだ手指画像から抽出された尾根線ベクトルの個数とデータベース内の全てのデータセットのベクトル個数とを比べて、両者の個数差が一定値以内のものを選択する。

　次に、第２段階目の処理として、第１段階目の処理で選択されたデータセット群の中から最も似たデータセットを選択する。具体的には、第１段階目の処理で絞り込まれたデータセット群からベクトル特徴量を用いて最も似たデータセットを選択する。ここで、第２段階目の処理における処理フローチャートについて図を用いて説明する。

　図１４は、照合処理における第２段階目の処理の手順の一例を示すフローチャートである。図１４において、まず、照合部１７は、第１段階目の処理により絞り込まれたデータセット群からｉ番目のデータセットを選ぶ（Ｓ４１）。次いで、照合部１７は、カメラ画像から得られたベクトルｊ番目の始点を参照する（Ｓ４２）。

　次に、照合部１７は、参照している始点座標と最も近い座標の始点をｉ番目のデータセット内のベクトル特徴量から探し（Ｓ４３）、参照している始点から延びるベクトルと、前ステップで選んだ始点から延びるベクトルとの間のなす角Ａｎｇｌｅ_ｉｊ、並びに、両ベクトル間の長さの差Ｌｅｎｇｔｈ_ｉｊを調べる（Ｓ４４）。

　ここで、照合部１７は、もう始点はないか否かを判断し（Ｓ４５）、始点がある場合（Ｓ４５において、ＮＯ）、変数ｊをインクリメント（ｊ＋＋）し（Ｓ４６）、Ｓ４２に戻り、照合部１７は、その後続の処理を行う。また、Ｓ４５の処理において、始点がない場合（Ｓ４５において、ＹＥＳ）、次に、照合部１７は、変数Ｍをカメラから得た手画像のベクトル始点総数として、以下の式（９），式（１０）の計算を行う（Ｓ４７）。

　次に、照合部１７は、ＳｕｍＡｎｇｌｅ_ｉ及びＳｕｍＬｅｎｇｔｈ_ｉをそれぞれ正規化したものの和を類似度Ｅ_ｉとする（Ｓ４８）。次に、照合部１７は、Ｅ_ｍｉｎを暫定最小類似度として、Ｅ_ｍｉｎ＞Ｅ_ｉであれば、Ｅ_ｍｉｎにＥ_ｉを代入し、暫定的にｉ番目のデータセットが最も似ているデータセットであるとする（Ｓ４９）。

　ここで、照合部１７は、もう調べるデータセットはないか否かを判断し（Ｓ５０）、調べるデータセットがある場合（Ｓ５０において、ＹＥＳ）、変数ｉをインクリメント（ｉ＋＋）し（Ｓ５１）、その後、照合部１７は、Ｓ４１に戻り、その後続の処理を行う。また、調べるデータセットがない場合（Ｓ５０において、ＹＥＳ）、照合部１７は、最終的に最も似ているデータセットの角度情報等を出力し（Ｓ５２）、処理終了する。なお、本実施形態における出力内容については、角度情報に限定されるものではなく、例えばデータセットに含まれる他の情報やデータセットの全情報を出力してもよい。

　＜評価実験＞
　ここで、例えばユーザの手指形状が登録されている手指形状推定装置において、設計者に軍手を装着させることによって疑似的に指の太いユーザを作り出し、個人差による推定精度の変化を評価する。ここで、図１５Ａ及び１５Ｂは、素手の状態と軍手を付けた状態とで同じ手指形状をした場合に得られる輪郭線情報及び尾根線情報の違いの一例を示す図である。図１５Ａは、素手の状態での輪郭線情報及び尾根線情報を示し、図１５Ｂは、軍手を付けた状態での輪郭線情報及び尾根線情報を示す。

　評価実験では、同じ入力データを用いて、従来の輪郭線情報を用いた手指形状推定システムでの推定結果と本手法の尾根線情報を用いたシステムでの推定結果とを比較することで評価を行った。また、評価実験では、右手を何も着用せずにカメラ（例えば、Ｖｉｅｗ　ＰＬＵＳ社製、Ｆｉｒｅｆｌｙ（登録商標）　ＭＶ広角レンズ付）が設置された空間に置き、左手にデータグローブを装着し、右手と左手とを同時に動かすことにより、入力画像及びその時の関節角度データを入力データとして作成した。

　また、評価実験では、一例として、前腕回旋角度を１８０度で固定し、握る動作、つまむ動作を中心に実験を行った。ここで、図１６Ａ～１６Ｃは、関節角度の比較結果を示す図である。図１６Ａは、前腕回旋角度１８０度時の拇指ＩＰ関節（ｉｎｔｅｒｐｈａｌａｎｇｅａｌ　ｊｏｉｎｔ；指節間関節）角度を比較したグラフを示し、図１６Ｂは、示指ＰＩＰ関節（ｐｒｏｘｉｍａｌ　ｉｎｔｅｒｐｈａｌａｎｇｅａｌ　ｊｏｉｎｔ；近位指節間関節）角度を比較したグラフを示し、図１６Ｃは、小指ＰＩＰ関節角度を比較したグラフを示す。また、図１６Ａ～図１６Ｃにおいて、横軸は、撮像された画像の時系列フレームから得られる時刻（ＴＩＭＥ［ＮＵＭＢＥＲ　ＯＦ　ＦＲＡＭＥ］）を示し、縦軸は、関節角度（ＪＯＩＮＴ　ＡＮＧＬＥ［ＤＥＧＲＥＥ］）を示す。また、図１７は、誤差平均、誤差標準偏差の一例を示す図である。

　図１６Ａ～１６Ｃの例では、実際の値（ＭＥＡＳＵＲＥＤ）と、輪郭線を用いて得られた値（ＥＳＴＩＭＡＴＥＤ　ＢＹ　ＯＵＴＬＩＮＥ）と、本実施形態（本手法）における尾根線を用いて得られた値（ＥＳＴＩＭＡＴＥＤ　ＢＹ　ＲＩＤＧＥ　ＬＩＮＥ）とを示している。また、図１７の例では、図１６Ａ～図１６Ｃに対応する拇指ＩＰ関節角度、示指ＰＩＰ関節角度、小指ＰＩＰ関節角度における誤差平均［度］、誤差標準偏差［度］を示している。

　図１７に示すように、データベースに手指形状を登録してない人がシステムを利用する場合において、従来手法のように輪郭線情報を利用した推定方法と、尾根線情報を利用した推定方法（本手法）とを比較すると、前腕回旋１８０［度］時の拇指ＩＰ関節角度の平均的な推定誤差の範囲は、０．３３±１４．９７［度］（従来手法）から－０．１０±１３．７８［度］（本手法）となる。また、示指ＰＩＰ関節角度の平均的な推定誤差の範囲は、０．９９±１７．２０［度］（従来手法）から－０．０４±１６．８９［度］（本手法）となり、小指ＰＩＰ関節角度の平均的な推定誤差の範囲は、５．５７±２０．３３［度］（従来手法）から７．８４±１５．４５［度］（本手法）となる。

　つまり、本手法のように、尾根線情報を利用することにより、個人差に対応したデータセットを追加することなく推定精度を上げることができる。したがって、本手法を適用することで、多くの人がより不自由なく手指形状推定システムを利用できるようになる。

　＜本発明の手指形状推定技術の適用例＞
　ここで、本発明の手指形状推定技術の適用例について、図を用いて説明する。図１８Ａ及び１８Ｂは、本発明の適用例を示す図である。本発明の手指形状推定技術は、例えば図１８Ａに示すように、遠隔ロボットの操作に適用することができる。

　この適用例では、遠隔地にあるロボット４０に対して、ユーザ（操作者）側の端末（手指形状推定装置１０）で、カメラ等の撮像装置２１によりユーザ４１の実際の手指４２の動きを撮影する。そして、撮影した画像（ここでは、映像）から、上述した本発明の手指形状推定処理を行うことにより、ユーザ４１の実際の手指４２の動きを高精度に推定し、その推定結果をロボット側に送信する。これにより、ユーザ４１の手指４２と同じ動きをロボット４０の手指４３に行わせ、ロボット４０を遠隔操作することができる。

　なお、図１８Ａに示すように、ロボットカメラ４４で撮影された映像等は、手指形状推定装置１０の画面上に表示することができる。そして、ユーザ４１は、画面に表示されているロボット４０の手指４３の動作を見ながら所定の動きをロボット４０に行わせることができる。また、図１８Ａの例では、例えば上述した図７Ｂに示すような把持動作のデータベースを用いて手指動作の推定を行ってもよい。

　また、図１８Ｂに示す例は、携帯端末５０等に具備されているカメラ機能を用いて本発明の手指形状推定技術を実現する例である。この場合、センサ類の装着なしに、或いは専用のコントローラなしに、ユーザ５１の手指５２の形状や動きを高速かつ高精度に推定することを可能にする。ここで、携帯端末５０は、上述した本実施形態における手指形状推定装置１０に相当する。

　したがって、この場合には、例えば、手指動作により駆動するデスクトップメタファー（デスクトップ環境）、携帯端末５０にモバイルプロジェクタ機能５３等を組み合わせた手指動作により駆動するクラウドコンピュータ或いは遠隔会議システム、手指動作による３次元造形情報のコンピュータ入力、身振り手振りによるバーチャルゲーム、コントローラなしの家電機器操作、専用の制御装置なしの遠隔ロボット制御等に本発明の手指形状推定技術を利用することができる。

　上述したように本発明によれば、画像中の手指の形状や動きを高速かつ高精度に推定することができる。具体的には、本発明は、センサ類の装着なしに日常動作と同じように手指や腕を動かすことで情報機器、家電製品、ロボット等の操作を可能にする。すなわち、例えばキーボードやマウスにより情報入力を行う形でなく、ディスプレイ上のアイコンをあたかも書類を開いたり、書類を丸めてゴミ箱に捨てたりするといった日常動作によりパソコンを操作できる新しいデスクトップマネージャー（デスクトップメタファー）を実現することができる。

　また、本発明によれば、粘土細工のような複雑な自由形状の３次元情報入力を、ＣＡＤ（Ｃｏｍｐｕｔｅｒ　Ａｉｄｅｄ　Ｄｅｓｉｇｎ）ソフトを使うのではなく、手指動作により入力して、自由形状の３次元物体を造形することができる。また、テレビやビデオ装置等の家電製品もリモコンボックスなしに手指動作により制御できるようになり、ロボットの遠隔操作も専用のコントローラでなく日常動作により行うことが可能となる。

　つまり、本発明によれば、照合用データセットを個人差に影響しない情報を用いて作成するため、特別に個人差対応用のデータセットを付加することなく、かつ、データセットの特徴量次元数が減少するため、データセットの内容を豊富にすることができ、高速かつ高精度に手指形状推定を行うことができる。なお、データセットの内容を豊富にするとは、例えば従来では、例えば指の屈折角度に対して４５度毎にデータセットを蓄積していたのを、５度毎や１０度毎の間隔で作成することを意味する。つまり、本発明により、各々の指関節が中途半端に曲がった状態を多段階で蓄積することができ、これにより高い分解能で、高精度に手指形状を推定することができる。

　以上本発明の手指形状推定技術の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。

２．第２の実施形態
　第２の実施形態では、手指画像内の爪領域を抽出するための爪領域抽出技術（爪領域抽出装置、爪領域抽出方法、及び、爪領域抽出プログラム）について、説明する。

　＜従来の爪領域抽出技術について＞
　従来、指の先端位置を特定する手法として、例えば、特開２００９－２６５８０９号公報等には、爪の存在情報を推定時の情報に付加し、推定精度を向上させる手法が開示されている。この文献では、予め爪領域画素の特徴量を集めたデータベースと、爪を含まない肌領域画素の特徴量を集めたデータベースとを用いて機械学習により識別器を構築し、その識別器を用いて爪を検出することで、指先等の動作を識別し、各動作に割り当てられた制御を実行している。

　しかしながら、上記文献に示すような技術では、データベース作成時に、手動で爪を切りだして解析を行う必要があり、個人別のデータベースを作成する場合には、多大な時間と労力とを個人毎にかけなければならなかった。その上、この技術は、識別器の利用による画素の領域判定しか行っていない。そのため、例えば指先等のように、爪領域と肌領域との画素の色が一般的に大きく異なる領域のみを対象とする場合には、判別できるが、例えば掌側等に存在する色が非常に爪に類似している肌領域画素が含まれる画像には対応できなかった。また、手は、人毎に色が異なるために個人差への対応が困難であった。

　第２の実施形態では、上述した課題を解決し、手指画像中の爪領域を高精度に抽出することが可能な爪領域抽出技術（爪領域抽出装置、爪領域抽出方法、及び、爪領域抽出プログラム）について説明する。

　＜第２の実施形態の概要説明＞
　第２の実施形態に係る爪領域抽出装置は、撮像装置により撮影された画像中に含まれる爪領域を抽出する爪領域抽出装置であり、前記撮像装置により撮影された画像を取得する画像取得部と、前記画像取得部により得られる画像を解析し、解析された結果から得られる所定の特徴量から爪領域を抽出する爪領域抽出部とを有し、前記爪領域抽出部は、前記画像から得られる色情報のみを用いて分離平面を生成し、生成された分離平面に基づいて爪領域候補を抽出し、予め設定された掌を含む画像を用いた画素判別により、前記爪領域候補に対して爪領域の再判定を行うことを特徴とする。

　また、第２の実施形態に係る爪領域抽出方法は、撮像装置により撮影された画像中に含まれる爪領域を抽出する爪領域抽出方法であり、前記撮像装置により撮影された画像を取得する画像取得ステップと、前記画像取得ステップにより得られる画像を解析し、解析された結果から得られる所定の特徴量から爪領域を抽出する爪領域抽出ステップとを有し、前記爪領域抽出ステップは、前記画像から得られる色情報のみを用いて分離平面を生成し、生成された分離平面に基づいて爪領域候補を抽出し、予め設定された掌を含む画像を用いた画素判別により、前記爪領域候補に対して爪領域の再判定を行うことを特徴とする。

　更に、第２の実施形態に係る爪領域抽出プログラムは、上記爪領域抽出方法の各処理ステップを、情報処理装置に実装して実行させるための爪領域抽出プログラムである。

　上述した第２の実施形態に係る爪領域抽出技術によれば、画像中の爪領域を高精度に抽出することができる。

　＜第２の実施形態に係る爪領域抽出技術について＞
　第２の実施形態に係る爪領域抽出技術では、色情報のみを用いた分離平面生成と、掌を含む画像に対しても爪領域の推定を可能とするための画素判別とを行うと共に画素判別後の再判定を行う。つまり、本実施形態では、分離平面を決定するための処理（アルゴリズム）を有することで、爪及び肌のそれぞれの解析が不要となるため、処理内容を軽減して処理速度を向上させることができる。また、本実施形態では、例えば従来手法のように、データベース等を用いた推定を行わないため、個人差の影響への対応が原理的に簡単となる。更に、本実施形態では、爪の色と類似した色を有する肌領域を除去する手法を備えているため、手指領域全体に対して高精度に爪領域を抽出することができる。

　以下に、本実施形態における爪領域抽出装置、爪領域抽出方法、及び爪領域抽出プログラムについて、図面を用いて説明する。

　＜爪領域抽出装置：機能構成例＞
　まず、本実施形態における爪領域抽出装置の機能構成例について図を用いて説明する。図１９は、本実施形態における爪領域抽出装置の機能構成の一例を示す図である。図１９に示す爪領域抽出装置１１０は、入力部１１１と、出力部１１２と、蓄積部１１３と、画像取得部１１４と、画像解析部１１５と、爪領域抽出部１１６と、手指形状推定部１１７と、送受信部１１８と、制御部１１９とを有するよう構成されている。

　入力部１１１は、ユーザ等からの画像取得指示、画像解析指示、爪領域抽出指示、手指形状推定指示、送受信指示等の各種指示の開始／終了等の入力を受け付ける。なお、入力部１１１は、例えば爪領域抽出装置１１０がＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等の汎用のコンピュータであればキーボードやマウス等のポインティングデバイスからなり、スマートフォンや携帯電話等の情報端末装置やゲーム機器であれば各操作ボタン群等からなる。また、入力部１１１は、音声等により上述した指示等の音声を入力する音声入力機能を有していてもよい。

　出力部１１２は、入力部１１１により入力された内容や、入力内容に基づいて実行された内容等の情報の出力を行う。具体的には、出力部１１２は、取得した画像や画像解析結果、爪領域抽出結果、手指形状推定結果等の爪領域抽出装置１１０における各構成の処理結果や処理経過等の画面表示や音声出力等を行う。なお、出力部１１２は、ディスプレイやスピーカ等からなる。更に、出力部１１２は、プリンタ等の印刷機能を有していてもよく、上述の各出力内容を、例えば紙等の各種印刷媒体等に印刷し、ユーザ等に提供することもできる。

　蓄積部１１３は、本実施形態において必要となる各種情報や、処理の実行時又は実行後の各種データなどを蓄積する。具体的には、蓄積部１１３は、予め蓄積されている画像や、画像取得部１１４で取得される撮影等により得られた画像（例えば、映像等のように時系列的な画像も含む）等を蓄積する。また、蓄積部１１３は、画像解析部１１５にて解析された解析結果、爪領域抽出部１１６における抽出結果、手指形状推定部１１７による推定結果等を蓄積する。また、蓄積部１１３は、必要に応じて蓄積されている各種データを読み出すことができる。

　画像取得部１１４は、例えば撮像装置１２０等により撮影された画像や映像等を取得する。なお、説明の便宜上、画像取得部１１４により取得される画像には、手指が含まれているものとするが、本実施形態においてはこれに限定されるものではない。

　ここで、本実施形態では、撮像装置１２０を爪領域抽出装置１１０の外部に設けたが、本実施形態においてはこれに限定されるものではなく、撮像装置１２０が、例えば爪領域抽出装置１１０内に内蔵されていてもよい。また、画像取得部１１４により取得される画像や映像は、撮像装置１２０により撮影される実際の手指の画像や映像等に限定されるものではなく、例えば模型の手指や写真、ポスター等を撮影した画像等であってもよい。また、画像取得部１１４は、送受信部１１８を介して、通信ネットワーク上に接続される外部装置やデータベース等に蓄積されている画像や映像等を取得することもできる。画像取得部１１４によって取得した画像等は、蓄積部１１３に蓄積させることができ、必要に応じて蓄積部１１３から読み出すことができる。

　画像解析部１１５は、画像取得部１１４にて取得した画像を解析する。具体的には、画像解析部１１５は、画像中における画素毎の特徴量等から、どの部分（位置、領域）に手指や爪等のオブジェクトの位置が映し出されているか、又は、映像中において手指や爪等のオブジェクトがどのように移動しているか等を解析する。つまり、画像解析部１１５は、撮影された手や爪等の画像の特徴量の数値化を行う。

　爪領域抽出部１１６は、画像解析部１１５により解析された結果に基づいて、その画像に含まれる爪領域の候補を抽出する。なお、抽出される爪領域は、例えば画像の輝度情報や閾値等に基づいて抽出することができる。また、爪領域抽出部１１６は、抽出した爪領域から各爪の重心座標又は中心座標を求め、それを位置情報として出力することができるが、本実施形態においてはこれに限定されるものではなく、例えば爪の存在情報、重心、及び爪毎領域面積等のうち、少なくとも１つを出力してもよい。爪領域抽出部１１６における具体的な爪領域の抽出手法については後述する。また、抽出された爪領域に関する情報は、蓄積部１１３に蓄積させることができ、必要に応じて蓄積部１１３から読み出すことができる。

　手指形状推定部１１７は、爪領域抽出部１１６により設定された爪領域の情報に基づいて手指の形状を推定する。具体的には、画像中に含まれる爪の位置情報、手指の輪郭形状（輪郭線情報）等を用い、予め爪の位置情報及び手指の輪郭形状に対応する手指形状が設定されたデータベースと入力画像とを照合することで、手指の形状を高精度に推定することができる。本実施形態に示すように爪の情報を用いることで、例えば手指形状が手の甲側であるか、掌側であるかといった判別を高精度に行うことができる。また、掌や手の甲がカメラ等に対してどれくらい回転しているかという情報を高精度に推定することもできる。なお、本実施形態においては、手指形状推定部１１７を設けていない構成であってもよい。

　また、送受信部１１８は、通信ネットワーク等を用いて接続可能な外部装置から所望する外部画像（例えば撮影画像や映像等）や、本実施形態における爪領域抽出処理を実現するための実行プログラム等を取得するためのインターフェースである。また、送受信部１１８は、爪領域抽出装置１１０内で得られた各種情報を外部装置に送信することができる。

　制御部１１９は、爪領域抽出装置１１０の各構成部全体の制御を行う。具体的には、制御部１１９は、例えばユーザ等による入力部１１１からの指示等に基づいて、画像の取得、画像解析、爪領域の抽出、手指形状の推定等の各処理における制御等を行う。

　撮像装置１２０は、デジタルカメラや高精度カメラ等からなり、ユーザの実際の手指や模型の手指等の画像や映像を取得する。なお、撮像装置１２０は、１台だけ設けられていてもよいし、異なる方向から同時に手指を撮影できるように複数台、設けられていてもよい。

　＜爪領域抽出装置１１０：ハードウェア構成＞
　ここで、上述した爪領域抽出装置１１０においては、各機能をコンピュータ（ハードウェア）に実行させることができるソフトウェアとしての実行プログラム（例えば、爪領域抽出プログラム）等を生成し、例えばＰＣ等の汎用のパーソナルコンピュータ、サーバ、スマートフォンや携帯電話等の情報端末装置、ゲーム機器等にその実行プログラムをインストールすることにより、本実施形態における爪領域抽出処理等を実現することができる。

　ここで、本実施形態における爪領域抽出処理が実現可能なコンピュータのハードウェア構成例について図を用いて説明する。図２０は、本実施形態における爪領域抽出処理が実現可能なハードウェア構成の一例を示す図である。

　図２０におけるコンピュータ本体には、入力装置１２１と、出力装置１２２と、ドライブ装置１２３と、補助記憶装置１２４と、メモリ装置１２５と、各種制御を行うＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１２６と、ネットワーク接続装置１２７とを有するよう構成されており、これらはシステムバスＢで相互に接続されている。

　入力装置１２１は、ユーザ等が操作するキーボード及びマウス等のポインティングデバイスを有しており、ユーザ等からのプログラムの実行等の各種操作信号を入力する。また、入力装置１２１は、例えばカメラ等の撮像装置１２０から撮影された画像を入力する画像入力ユニットを有していてもよい。

　出力装置１２２は、本実施形態における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイを有し、ＣＰＵ１２６が有する制御プログラムによりプログラムの実行経過や結果等を表示することができる。

　ここで、本実施形態においてコンピュータ本体にインストールされる実行プログラムは、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリやＣＤ－ＲＯＭ等の可搬型の記録媒体１２８等により提供される。プログラムを記録した記録媒体１２８は、ドライブ装置１２３にセット可能であり、記録媒体１２８に含まれる実行プログラムが、記録媒体１２８からドライブ装置１２３を介して補助記憶装置１２４にインストールされる。

　補助記憶装置１２４は、ハードディスク等のストレージ装置であり、本実施形態における実行プログラムやコンピュータに設けられた制御プログラム等を蓄積し、必要に応じてそれらの入出力を行うことができる。

　メモリ装置１２５は、ＣＰＵ１２６により補助記憶装置１２４から読み出された実行プログラム等を格納する。なお、メモリ装置１２５は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）やＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等からなる。

　ＣＰＵ１２６は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）等の制御プログラム、及びメモリ装置１２５に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、爪領域抽出処理における各処理を実現することができる。なお、プログラムの実行中に必要な各種情報等は、補助記憶装置１２４から取得することができ、また実行結果等を補助記憶装置１２４に格納することもできる。

　ネットワーク接続装置１２７は、通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本実施形態における実行プログラム自体を他の端末等に提供することができる。

　上述したようなハードウェア構成により、本実施形態における爪領域抽出処理を実行することができる。また、プログラムをインストールすることにより、汎用のパーソナルコンピュータ等で本実施形態における爪領域抽出処理を容易に実現することができる。

　次に、上述した爪領域抽出プログラムにおける爪領域抽出処理について具体的に説明する。

　＜爪領域抽出処理手順＞
　まず、本実施形態における爪領域抽出処理手順の概略について説明する。図２１は、本実施形態における爪領域抽出処理手順の一例を示すフローチャートである。なお、以下に説明する各種処理における各部の動作は、制御部１１９（ＣＰＵ１２６）により制御される。

　図２１に示す爪領域抽出処理では、まず、画像取得部１１４は、カメラ等の撮像装置１２０により撮影された画像を取得する（Ｓ１０１）。次いで、画像解析部１１５は、画像の解析を行い（Ｓ１０２）、画像中に含まれる手指や爪等のオブジェクトの位置情報等を取得する。

　次に、爪領域抽出部１１６は、Ｓ１０２の処理にて得られた情報に基づいて爪の領域を抽出する（Ｓ１０３）。次いで、手指形状推定部１１７は、抽出された爪の領域等に基づいて手指形状の推定を行う（Ｓ１０４）。そして、手指形状推定部１１７は、その推定結果を出力する（Ｓ１０５）。なお、本実施形態においては、これに限定されるものではなく、例えばＳ１０３の処理終了後、手指形状推定部１１７が、画像中における爪の領域のみを出力してもよい。

　次に、制御部１１９は、処理を終了するか否かを判断し（Ｓ１０６）、終了しない場合（Ｓ１０６において、ＮＯ）、Ｓ１０１に戻り、制御部１１９は、例えば連続する画像、つまり映像に対して上述の処理を行って時系列的に結果を出力したり、又は、他の画像を取得して、制御部１１９は、上述した処理を行う。

　また、Ｓ１０６の処理において、ユーザの指示等により処理を終了する場合（Ｓ１０６において、ＹＥＳ）、制御部１１９は、爪領域抽出処理を終了する。

　＜Ｓ１０３：爪領域抽出処理について＞
　次に、上述したＳ１０３における爪領域抽出処理の具体例について図等を用いて説明する。

　［画像中の手指を構成する画素の分布］
　まず最初に、ＲＧＢ色空間における手指画像の画素分布の特徴について説明する。図２２は、手指画像のＲＧＢ色空間における画素分布のモデルの一例を示す図である。図２２に示すように、肌領域画素（ＳＫＩＮ　ＡＲＥＡ　ＤＩＳＴＲＩＢＵＴＩＯＮ）は、薄い楕円体のように密集して分布しており、爪領域画素（ＮＡＩＬ　ＡＲＥＡ　ＤＩＳＴＲＩＢＵＴＩＯＮ）は、楕円体の上部に一部の空間を共有しながら層状に乗るような形で分布している。ここで、この共有部分（ＣＯＭＭＯＭ　ＡＲＥＡ）は、明度が低いほど増加する。

　したがって、基本的には、手指画像全体を明るくすることが爪領域画素分布を肌領域画素分布から分離するための重要な条件となる。しかし一方では、手の形状、並びに、カメラと手との間の位置関係により光の反射が異なるため、場所等により明度（輝度等）が低下し、共有部分が増加する場合もある。このような場合には、上述の条件だけでは対応できない。したがって、様々な手の形状から爪を精度よく検出するためには、この反射の違いによる明度の差を考慮する必要がある。

　［明度の差を考慮した本実施形態における爪領域抽出手法について］
　そこで、本実施形態では、以下の手法に基づいて爪領域の抽出を行う。図２３は、本実施形態における爪領域抽出処理の具体例を示すフローチャートである。また、手指画像の背景は黒色とするが、これに限定されるものではない。

　最初に、爪領域抽出部１１６は、入力画像の撮像ノイズを取り除くために、例えばメディアンフィルタ等を用いて前処理を行う（Ｓ１１１）。なお、前処理とは、例えばスムージング処理等を含むが、本実施形態においてはこれに限定されるものではない。また、前処理としてコントラスト調整や背景分離などの処理が含まれてもよい。なお、上述した前処理によるスムージング処理では、例えば撮像ノイズを除去するために、小さな枠組みである３×３等のメディアンフィルタを用いることによりノイズ除去を行う。また、撮像ノイズ除去を目的としているため、スムージング処理では、例えば非線形フィルタ（つまり、異常値に影響されないフィルタ）を用いるが、これに限定されるものではない。

　次に、爪領域抽出部１１６は、爪の色に似た画素を抽出し（Ｓ１１２）、２値化した画像の平滑化処理やラベリング処理を行うことにより、爪に似た色を持つ領域を爪領域候補として検出する（Ｓ１１３）。なお、上述した平滑化処理では、例えばバラバラに抽出された画素を結合させて１つの領域にするために、例えば７×７等のメディアンフィルタを用いるが、フィルタの領域は７×７に限定されるものではない。また、メディアンフィルタによる平滑化処理は、具体的には、まず、元の画像をＲチャンネル画像、Ｇチャンネル画像、Ｂチャンネル画像の３つの画像に分割し、次いで、それぞれの画像に対して平滑化を行い、そして、平滑化後の３つの画像を再び統合して１つのＲＧＢ画像に統合する。また、本実施形態では、画素の結合を目的としているため、平滑化手法としてメディアンフィルタを用いるが、本実施形態においてはこれに限定されるものではなく、例えば加重平均フィルタやガウシアンフィルタ等の別の平滑化手法を用いることができる。

　また、上述したラベリング処理では、例えばコンピュータに領域を認識させ、該領域の重心を取得するために、平滑化によって現れた領域に対し、その領域の大きさ順に番号付けを行う。また、領域の小さなもの（具体的には、例えば画素数２０以下の領域）は、ノイズとみなして除去を行う。その後、残った各領域の重心の位置を取得する。

　上述の処理により得られた領域は、手指画像全体から求めた領域であるため、上述したように撮像による光の反射の違いにより生じる影響等を受ける可能性がある。

　そこで、本実施形態では、爪領域抽出部１１６は、更に爪候補領域の重心周りにＲＯＩ（Ｒｅｇｉｏｎ　Ｏｆ　Ｉｎｔｅｒｅｓｔ；関心領域）を設定し（Ｓ１１４）、ＲＯＩ内で再処理を行う（Ｓ１１５）。なお、再処理とは、上述した爪領域抽出処理であり、例えば上述したＳ１１１～Ｓ１１３までを処理を示すが、本実施形態においてはこれに限定されるものではない。Ｓ１１５の再処理を行うことで光の反射の違いによる影響等を低減させることができる。

　その後、爪領域抽出部１１６は、得られた爪領域について、再度爪かどうかの判定を行うことにより最終的な爪領域を決定し（Ｓ１１６）、爪領域の重心位置を取得して出力する（Ｓ１１７）。このように、本実施形態では、明度の差を考慮して爪領域の抽出を行う。

　＜Ｓ１１２：爪に似た色を持つ画素を抽出する手法について＞
　次に、上述したＳ１１２の処理における爪に似た色を持つ画素を抽出する手法について説明する。図２４Ａ～２４Ｃは、主成分軸を基底とした座標変換の一例を示す図である。なお、図２４Ａは、皮膚（ＳＫＩＮ）及び爪（ＮＡＩＬ）の手指画像のＲＧＢ画素分布を示し、図２４Ｂは、皮膚及び爪の第１主軸（１ＳＴ　ＭＡＩＮ　ＡＸＩＳ）－第３主軸（３ＲＤ　ＭＡＩＮ　ＡＸＩＳ）平面の画素分布を示し、図２４Ｃは、皮膚及び爪の第２主軸（２ＮＤ　ＭＡＩＮ　ＡＸＩＳ）－第３主軸平面の画素分布を示している。また、図２５Ａ及び２５Ｂは、分離平面位置決定手法の一例を示す図である。ここで、一例として、第１主軸は肌色における明度の軸を意味し、第２主軸は暖色系の軸を意味し、第３主軸は寒色系の軸を意味しているが、本実施形態においてはこれに限定されるものではない。

　本実施形態では、まず背景を除いた手指画像の色情報に対して、分散共分散行列を固有値分解して得た主成分軸ベクトルを基底として座標変換を行う。このとき、図２４Ａのように、第３主軸に垂直となる方向に爪画素分布と肌画素分布の層が現れる。したがって、求める分離平面の方程式は、座標変換後の画素の座標をｘ＝（ｘ_１，ｘ_２，ｘ_３）^Ｔ（なお、Ｔは転置行列であることを示す）とすると以下に示す式（１１）のように１次元の非常に簡単な形に表すことができる。

　ここで、閾値Ｔｈｒｅａｄ＿ｌａｙｅｒは、システムの開始時にキャリブレーションとして爪の写らない掌のみの画像を入力画像として用いた場合の値である。掌のみの画像を用いる理由は、手の甲側と比較して掌の方が一般的に肌の色が白色に近いため、画素の明度が高く、爪の色に似る性質があり、結果として層の上部に画素が分布するためである。

　つまり、手の甲側のみ写る画像でのキャリブレーションを行ってしまうと分離閾値が低くなり、掌側の肌画素を多く抽出してしまうため適さない。そのため、本実施形態では、例えば掌のみの画像ｉの画素分布の密度の濃い部分のみを抜き出し、図２５Ａのように変数Ｔｈｒｅａｄ＿ｌａｙｅｒ_ｉを上部から下部へ移動させ、式（１１）の直線が密集画素領域と接する位置をＴｈｒｅａｄ＿ｌａｙｅｒ_ｉの値とする。そして、Ｔｈｒｅａｄ＿ｌａｙｅｒを以下に示す式（１２）と定める。

　ここで、上述した式（１２）において、ｎはキャリブレーションに用いた画像数であり、ｏｆｆ_ｔｈは層を切る位置を微調整するためのオフセット定数である。これらの手法を用いることで、適切な切断位置（分離平面の位置）を自動で定めることができる。

　つまり、上述の処理では、図２５Ａに示すように、まず掌のみ写る画像の画素情報を主成分軸基底変換する。その後、分離平面の位置を高い位置から下げ、密度の大きい領域に差し掛かったところを分離平面の第３主軸座標（３ＲＤ　ＭＡＩＮ　ＡＸＩＳ）とする。このキャリブレーションを複数枚（ｎ枚）の画像に対して行って算出された分離平面の位置の平均値を本実施形態で用いる分離平面の第３主軸座標とする。

　次に、図２５Ｂに示すように、手指画像を主成分軸基底変換し、上述した手法で求めた分離平面で爪の画素（ＮＡＩＬ　ＰＩＸＥＬＳ）と肌の画素（ＳＫＩＮ　ＰＩＸＥＬＳ）とを互いに分離し、例えば平滑化、ラベリング等の処理により、爪に似た色を持つ領域を求める。

　上述したように、本実施形態では、主成分分析で求まる３軸のうちの２軸で２次元平面を作成し、作成された２軸のうちの１軸で分離平面の高さを変える処理行う。具体的には、本実施形態では、爪領域抽出部１１６において、撮像装置１２０により予め撮影された掌のみが写る画像の画素情報を、主成分分析により、予め設定された第１から第３までの主軸のうちの２つの主軸を用いて主成分軸基底変換し、その２つの主軸のうちの１つの主軸に沿って分離平面の位置を高い位置から下げ、密度の大きい領域に差し掛かったところを分離平面とし、その分離平面を用いて爪領域を抽出する。

　図２６Ａ及び２６Ｂは、本実施形態において、抽出された爪領域部分を示す図である。本実施形態では、図２６Ａに示す元画像から、上述した解析等により図２６Ｂに示すような爪領域候補を抽出する。なお、図２６Ｂに示す白い領域が爪領域候補として抽出された部分である。本実施形態において、爪領域は、少なくとも１つ抽出するようにしてもよく、上述した条件に合わないような場合は、画像中に爪領域が存在しないものとして処理してもよい。

　＜密度差を利用した爪判定手法＞
　次に、爪領域候補の決定後、上述したＳ１１６の処理において爪を判定して爪領域を決定する手法について説明する。爪領域候補の決定時では、カメラの撮像方向による光の反射の違いが影響し、ごく小さい領域しか出なかった爪や、爪領域より大きい領域で誤抽出されてしまった肌が爪領域候補となっている可能性がある。そのため、例えば平滑化処理やクロージング処理等の単純な処理では、肌領域より先に爪領域が消えてしまい、誤抽出領域を除去できない場合が生じる。なお、領域が大きく抽出されてしまい、誤抽出されてしまう場所は、およそ位置が決まっている。

　ここで、図２７は、誤抽出確率の高い肌の分布位置の一例を示す図である。上述したような誤抽出が多いのは、例えば図２７に示す拇指球（ＴＨＥＮＡＲ），指腹（ＦＩＮＧＥＲ　ＰＵＬＰ），指側面（ＦＩＮＧＥＲ　ＳＩＤＥ）であり、分離平面の切断位置が低い場合に誤抽出確率が高くなるのが小指球（ＡＮＴＩＴＨＥＮＡＲ）、及び、ＭＰ関節（Ｍｅｔａｃａｒｐｏｐｈａｌａｎｇｅａｌ；中手指節間関節）付近の肌である。

　そこで、本実施形態では、上述した部位を除去するための処理を行う。まず、爪領域候補の重心周りに正方形状のＲＯＩ（関心領域）を設定し、ＲＯＩ毎に爪に似た色を持つ画素の再抽出を行う。ｉ番目のＲＯＩ内にある手指画素の数をｎ_ｉとしたとき、再抽出時に目標とする目標面積Ｓｑｕａｒｅ_ｉを、例えば以下に示す式（１３）と定める。

　式（１３）は、全てのＲＯＩ内の手指画素数と目標面積との比が定数ａで一定であることを示す。本実施形態では、この目標面積を基にしてＲＯＩ毎に分離平面を動かし、別々の閾値により再抽出を行う。この面積の再抽出は、例えば爪領域候補の周辺情報のみを利用して行うため、近い明度を持った画素でどれが爪色に似ている画素か判断でき、結果として撮像時の光の反射による抽出精度低下の影響を低減させることができる。

　ここで、図２８Ａ及び２８Ｂは、それぞれ爪領域を再抽出した場合及び誤抽出肌領域を再抽出した場合の実行結果の一例を示す図である。図２８Ａ及び２８Ｂにおいて、再抽出後の画素の様子は、図２８Ａに示す爪領域では重心周りに集まって密集して分布している。一方、図２８Ｂに示す誤抽出肌領域では、拡散して分布をしていることがわかる。そこで、本実施形態では、この密集の様子の差異を利用して爪領域を判定する。

　本実施形態では、密集画素数と密集でない画素数とをそれぞれ数え、その画素数の比の大きさを比較することで爪を判定する。例えば、ｉ番目のＲＯＩ内において画素再抽出後の２値画像をＯ_ｉとし、その画像に対してメディアンフィルタ等による平滑化処理を施して、密な領域だけを残した画像を密画像Ｃ_ｉと定義する。そして２値画像Ｏ_ｉと密画像Ｃ_ｉの排他的論理和を以下に示す式（１４）によって取り、その値を疎画像Ｓ_ｉとして定義する。

　このとき、密画像Ｃ_ｉ内の抽出画素のピクセル数をＮ_ｃ ^ｉ、疎画像Ｓ_ｉ内の抽出画素のピクセル数をＮ_ｓ ^ｉとした場合に、爪である条件を、例えば以下に示す式（１５）で規定し、式（１５）に基づいて爪であるか否かの判定を行う。

　つまり、本実施形態では、上述したように、各爪領域候補の重心からＲＯＩを設定し、ＲＯＩの領域面積が同じとなるように分離平面の位置をＲＯＩ毎に変化させて再抽出を行う。なお、本実施形態では、ＲＯＩ毎に画像を生成し、画素の重なりを防止する。また、ＲＯＩの形状は、正方形としてもよいし、円形としてもよいが、ＲＯＩの形状や大きさ等については特に限定されるものではない。

　＜評価結果について＞
　次に、上述した本実施形態に基づく爪領域抽出結果の評価実験、及び、その評価結果について、図を用いて説明する。図２９Ａ～２９Ｃは、本実施形態における評価結果について説明するための図である。なお、図２９Ａは、手の甲（ＢＡＣＫ）及び掌（ＰＡＬＭ）における爪領域候補から、実際に爪として判定される確率（ＤＥＴＥＣＴＩＯＮ　ＰＲＯＢＡＢＩＬＩＴＹ［％］）を各指（ＴＨＵＭＢ（親指），ＩＮＤＥＸ（人差し指）、ＭＩＤＤＬＥ（中指）、ＲＩＮＧ（薬指）、ＰＩＮＫＹ（小指））及び皮膚（ＳＫＩＮ）毎に求めた一例を示し、図２９Ｂは、手の甲及び掌における抽出した爪の重心と実重心とのユークリッド距離誤差（ＤＩＳＴＡＮＣＥ［ＰＩＸＥＬ］）を各指毎に求めた一例を示し、図２９Ｃは、手の甲側のみが写る画像の爪領域重心とＲＯＩの一例を示す。

　評価実験では、蛍光灯でカメラ上方から下方に照らし、ＬＥＤライト２台のうち一方で上方から下方に、及び、他方で下方から上方を照らし、背景が黒色になるような環境下でカメラから８０ｃｍ離れて撮影した手指の画像を使用する。カメラは、例えばＰｏｉｎｔ　Ｇｒａｙ　Ｒｅｓｅａｒｃｈ社製Ｄｒａｇｏｎｆｌｙ　Ｅｘｐｒｅｓｓ（６４０×４８０［ｐｉｘｅｌ］）を用いた。

　画像は、手の甲側のみが写る画像を１００枚、掌側を含めて写る画像を１００枚の計２００枚を使用する。また評価は、爪領域候補として検出された爪及び誤抽出した肌が爪判定手法により爪として判定される確率、そして正しく抽出された爪の重心と、実重心とのユークリッド距離誤差について指毎に評価を行った。

　評価実験は、各指の爪が爪領域候補として認識される確率が、各指に対して９５％以上となるようにオフセット定数ｏｆｆ_ｔｈを調節して行った。また、本実施形態では、一例としてＲＯＩの探索範囲を４０×４０［ｐｉｘｅｌ］とし、爪の判定条件の閾値Ｔｈｒｅａｄ_ｃｓを２．５としているが、本実施形態においてはこれに限定されるものではなく、これらのパラメータは、例えば画像中における手指の大きさ、角度、入力画像の総画素数、画像サイズ等に応じて、任意に設定することができる。

　まず、図２９Ａに、爪領域候補として検出された爪及び誤抽出した肌が、爪として認識される確率を示す。図２９Ａによれば、本実施形態における手法は、肌の誤抽出１０％以下となり、肌をほとんど誤検出しなかった。更に、手の甲側のみが写る画像の拇指の爪の検出結果を除き、９０％を超える精度で爪を検出できることが示された。なお、最終的に誤判定された肌部位は指腹及び指側面であった。指側面を誤抽出した主な原因は、誤抽出した位置が爪領域直近に位置していたため、ＲＯＩ領域内の多くが爪となっていたためであると考えられる。

　これは、爪判定処理（アルゴリズム）で再抽出した際に得られる画素の重心とＲＯＩ中心との誤差を見て、大きければ処理するといった処理を加えれば改善できる。また、指腹については、稀に中心に画素が集中する場合があることが判明した。

　次に、図２９Ｂに、抽出した重心と実重心とのユークリッド距離誤差を示す。図２９Ｂにより、手の甲側のみが写る画像における拇指以外の爪の重心のユークリッド距離誤差は、平均で４［ｐｉｘｅｌ］未満となり、画像の解像度から見てかなり小さい誤差で爪の重心を求めることができることがわかった。なお、各指において掌側を含んで写る画像よりも手の甲のみが写る画像で重心誤差が大きいのは、爪領域と、その領域に隣接する指側面の小さな領域が結合し、重心が爪の中心から外側方向へずれるためであると考えられる。

　最後に、拇指の手の甲側のみが写る画像が他と比較して著しく精度が減少した理由を考察する。手の甲側の画像で拇指を含む画像は図２９Ｃのように撮像されている。図２９Ｃによれば、拇指以外では重心が爪のほぼ中心となっているが、拇指では爪の端に重心があることが分かる。これは、解析を行った結果、拇指の爪の下部に極度に明度が低下する影ができてしまったため色が変化し、爪上部及び指側面の肌しか抽出されず、更にそれらが結合してしまったことが原因であることが判明した。

　また、評価結果としては、爪の端に重心、つまりＲＯＩの中心があるため、拇指付近の探索範囲は他の爪と比較して多く肌の画素を取り込むこととなる。更に、取り込む肌領域画素は色が爪に似ている指側面の画素である。これにより、拇指では、ＲＯＩに含まれる指側面画素により結果が大きく影響され、誤推定を生じさせたのではないかと考えられる。このように、ＲＯＩ内で影による局所的な明度差ができてしまう状況が影響し、判定精度が低下したことが原因であると考えられる。

　本実施形態では、爪輪郭内外及び肌において、爪に似た色を持つ画素の密集の状態が異なる性質に注目をし、密集差から爪を判別する爪領域検出システムを構築した。評価実験の結果としては、肌領域を１０％以下の低確率でしか誤判定せず、また爪に局所的に影ができない場合では９０％を超える高精度で爪のみを検出でき、爪の重心のずれも平均４［ｐｉｘｅｌ］以下で求めることができることが確認された。したがって、本実施形態を用いることにより、画像中の爪領域を高精度に抽出することができる。

　＜爪領域抽出技術の適用例＞
　ここで、本実施形態における爪領域抽出技術の適用例について、図を用いて説明する。図３０は、本実施形態の爪領域抽出技術の適用例を示す図である。図３０では、本実施形態における爪領域抽出装置の機能と、輪郭線を用いた既存の手指形状推定装置の機能とを具備した手指形状推定システム１３０が示されている。具体的には、手指形状推定システム１３０は、撮影装置であるカメラ１３１と、輪郭線情報取得処理系１３２と、爪情報取得処理系１３３と、データベース照合部１３４とを有している。ここで、爪情報取得処理系１３３とは、上述した爪領域抽出装置１１０に相当する。

　カメラ１３１から得られる手を含む画像は、輪郭線情報取得処理系１３２と爪情報取得処理系１３３とに出力される。輪郭線情報取得処理系１３２は、取得した画像から手指の輪郭線（輪郭形状）を取得し、該輪郭線の特徴量（輪郭線情報）を出力する。なお、輪郭線の取得例としては、例えば隣接画素間における輝度差情報等に基づいて、画像中から手指部分と背景部分とを分離し、手指部分の輪郭線を取得することができるが、本実施形態においては、これに限定されるものではない。

　爪情報取得処理系１３３は、カメラ１３１から取得した画像に対して上述した処理を行うことで、例えば爪の重心や輪郭等の爪情報を取得する。

　データベース照合部１３４は、図３０に示すように、輪郭線情報と爪情報とを用いて、多種類の手指形状についての輪郭線の特徴量及び爪の存在情報、重心、領域面積等と、その時の関節角度情報とを組み合わせて、それらのデータと予め蓄積部等に蓄積されているデータベース内のデータとを照合して、最も類似度の高い手指形状を、その手の推定形状として出力する。

　また、データベース照合部１３４は、入力データと、関節角度情報も予め組み合わせて蓄積されたデータベース内のデータとを照合することで、例えば手指の関節角度を特定し、その角度データ等を出力する。なお、データベース照合部１３４が出力する情報は、角度データに限定されるものではなく、例えば手の動作内容（例えば、把持動作の種類）等を出力してもよい。

　また、上述した輪郭線情報取得処理系１３２における処理やデータベース照合部１３４による処理は、例えば上述した爪領域抽出装置１１０の手指形状推定部１１７の処理内容に含まれていてもよい。

　一般に、手指形状の推定は、多関節構造であり、指が複雑に動作することから３次元モデルを立てると計算が煩雑になる、自己遮蔽に弱い等の問題がある。そのため、２次元の画像情報とデータベースのデータとを照合することによって３次元形状を高速で推定する等の方法が用いられる。しかしながら、その方法は、輪郭線情報を基にしているため、例えばカメラ正面に向かって指を曲げていると指の先端位置情報が失われ、精度が失われる可能性がある。

　そこで、本実施形態では、図３０に示す手指形状推定システム１３０のように、爪情報取得処理系１３３を用いることで、指の先端位置情報を得ることができ、推定精度を向上させることができる。なお、上述したような爪情報取得処理系は、例えば本出願人により出願された国際公開番号ＷＯ２００９／１４７９０４号に示されているような手指形状推定装置等に適用することができる。

　上述したように本実施形態によれば、画像中の爪領域を高精度に抽出することができる。具体的には、本実施形態は、付け爪等の装着物なしにカメラに写るように手を動かすだけで高精度かつリアルタイムで爪領域を抽出することができる。この技術が発展すると、指の先端位置を正確に求めることができるようになり、例えば手話動作等の複雑な手指形状を伴う動作をコンピュータに認識させる技術の認識精度向上や、形を特定しない手首回旋を含む様々な手指の形状を推定する際の推定精度向上が期待できる。

　また、爪の色は、肌と差異があるものの、正確に爪領域と肌領域を分離することは容易ではない。実際、従来手法では、予め爪領域画素と肌領域画素との画素分布を解析しなければ、分離の判定式を作ることもできなかった。更に、爪領域は、手指領域内でとても小さいために、爪と類似した色を抽出し、平滑化処理、ラベリング処理を行って領域を求めた際に、爪領域より爪に似た色を持つ肌領域の方が大きい領域となってしまう。このため、平滑化処理やクロージング処理等の単純なノイズ除去手法では肌領域を取り除けない事例が多いことが高精度な爪領域抽出を困難なものとしていた。しかしながら、本実施形態によれば、爪画素分布と肌画素分布とを分離する分離平面を、爪及び肌の分布を解析することなく定めることができ、取り除けなかった肌領域を除去することができる。

　また、本実施形態では、色情報のみを用いた分離平面生成と、掌を含む画像対応のための画素判別後の爪の再判定とを行う。従来技術では、画素がどちらの領域に属するかを判定する分離超平面を構成するための識別器を生成するために、爪領域画素の特徴量データベースと肌領域画素の特徴量データベースとを作る必要がある。この際に肌と爪を手動で切り分ける必要が生じるため、手動で爪と肌を切り分け、加工した学習用画像を生成しなければならず、精度を持たせるために多くの学習用画像を生成するには膨大な時間と労力を必要とした。

　それに対して本実施形態では、爪領域画素が肌領域画素に比べて非常に少ないという性質と、手指画像全体の画素情報を主成分軸基底で座標変換すると、第３主軸方向に爪領域画素及び肌領域画素がなす分布に層状の大きな偏りが生じ、線形式の分離平面で両者の画素分布を分離できるという性質とを生かす。そして、事前にキャリブレーションとして爪が写らない、掌のみの手指画像を主成分軸基底座標変換し、画素密度による判定で肌画素分布上面の第３主軸方向の座標値を得ることで、人間が手動で作業をしなくても自動で爪画素分布と肌画素分布とを切り分ける分離平面の方程式を導出可能とした。これにより、本実施形態では、時間と労力とを大幅に削減することができる。

　また、従来技術では、情報端末装置をタッチパネルのように操作する際に爪情報を用いることを前提としていたため、爪領域画素と色が似ている画素を持つ肌領域が少ない手の甲側のみを識別対象として考慮していた。そのため、従来技術では、識別器を用いた分離超平面により、画素が爪領域であるか、又は、肌領域であるかの種類判定しか行っていない。そのため、肌領域の１部に爪と似た色を持つ画素が集中する領域が存在する掌側では対応できない。それに対して本実施形態では、従来技術と分離平面を用いて画素を判定する点は同じであるが、判定後にその画素を含む領域（ＲＯＩ）毎に、本当にその領域が爪領域であるかどうかをもう一度判定することで、掌を含む画像に対応できるようにした。

　つまり、本実施形態は、事前に爪領域画素と肌領域画素とを手動で切り取る作業をすることなく用いることができるシステムであるため、本実施形態によれば、少し調整を行うだけで、すぐにシステムを用いることができる。また、掌を含む手指画像にも対応することができるため、様々な手指形状に対して正確に爪の位置を求めることができる。更に、本実施形態では、分離平面による判定と、領域抽出後の再判定とによる２段階判定方式を用いているため、誤抽出をする可能性が減少する。

　更に、本実施形態は、爪が常に画像内に写るようにカメラを配置するだけで、付け爪等の装着物なしに、爪領域の位置を得る、すなわち、指の先端位置を常に正確に知ることが可能となる。したがって、本実施形態によれば、例えば、手の動きをそのまま仮想３次元空間で動作させる３次元ジェスチャーインターフェースの動作を精巧なものとしたい場合や、タッチしないでも爪の領域の動きを検出することでタッチしたかのように端末を動かすことができるノンタッチ動作検出端末機、手話認識装置等に利用できると考えられる。

　更に、画像中に複数の手が存在する場合であっても、本実施形態の手法により爪領域を抽出することで、より高精度に手指形状を推定することができる。

　以上、爪領域抽出技術の好ましい実施例について詳述したが、本実施形態の爪領域抽出技術は係る特定の実施形態に限定されるものではなく、種々の変形、変更が可能である。

　また、図３０に示す例では、第２の実施形態に係る爪領域抽出装置と、既存の手指形状推定装置とを組み合わせた手指形状推定システム１３０について説明したが、第２の実施形態に係る爪領域抽出装置（図１９）と、上記第１の実施形態に係る手指形状推定装置（図１）とを組み合わせて手指形状推定システム（手指形状推定装置）を構築してもよい。

　この場合、例えば、第１の実施形態に係る手指形状推定装置（図１）と、第２の実施形態に係る爪領域抽出装置（図１９）とをそれぞれ別個の装置として組み合わせてもよい。また、例えば、図１に示す手指形状推定装置１０に、図１９に示す爪領域抽出装置１１０中の爪領域抽出部１１６を組み込んで、手指形状推定システム（手指形状推定装置）を構築してもよい。

　後者の構成においては、第１の実施形態に係る手指形状推定装置（図１）と、第２の実施形態に係る爪領域抽出装置（図１９）との間で共用できる構成部（例えば、入力部、出力部、蓄積部、画像取得部、画像解析部、送受信部、制御部等）は、両装置において共用してもよい。この場合、共用する各構成部の動作を、手指形状推定機能だけでなく、爪領域抽出機能にも対応できるように制御すればよい。このような構成では、上記第１の実施形態で得られる効果だけでなく、図３０で説明した上記各種効果と同様の効果も得られる。

　１０　手指形状推定装置
　１１，１１１　入力部
　１２，１１２　出力部
　１３，１１３　蓄積部
　１４，１１４　画像取得部
　１５　データベース構築部
　１６，１１５　画像解析部
　１７　照合部
　１８，１１７　手指形状推定部
　１９，１１８　送受信部
　２０，１１９　制御部
　２１，１２０　撮像装置
　３１，１２１　入力装置
　３２，１２２　出力装置
　３３，１２３　ドライブ装置
　３４，１２４　補助記憶装置
　３５，１２５　メモリ装置
　３６，１２６　ＣＰＵ
　３７，１２７　ネットワーク接続装置
　３８，１２８　記録媒体
　４０　ロボット
　４１，５１　ユーザ
　４２，４３，５２　手指
　４４　ロボットカメラ
　５０　携帯端末
　５３　モバイルプロジェクタ機能
　１１０　爪領域抽出装置
　１１６　爪領域抽出部
　１３０　手指形状推定システム
　１３１　カメラ
　１３２　輪郭線情報取得処理系
　１３３　爪情報取得処理系
　１３４　データベース照合部

Claims

　手指形状を含む画像を取得する画像取得部と、
　前記画像取得部により取得された画像を解析して、前記画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得する画像解析部と、
　前記画像解析部により得られた前記第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、前記第１の特徴量に対応する手指形状を推定する手指形状推定部とを備える
　手指形状推定装置。
　さらに、前記データベースを構築するデータベース構築部を備え、
　前記データベース構築部により構築されたデータベースには、前記所定の手指形状に対して、少なくとも前記所定の手指形状に対応する角度データ及び前記第２の特徴量が蓄積される
　請求項１に記載の手指形状推定装置。
　前記手指形状推定部は、前記データベースから前記手指形状における所定の形状パラメータによるデータセットの絞りこみを行い、絞り込まれたデータセット群に対して前記第１の特徴量を用いて類似度計算を行い、最も類似するデータセットを出力する
　請求項１又は２に記載の手指形状推定装置。
　前記画像解析部は、前記画像中に含まれる手指画像を前景とし、該手指画像以外の画像を背景として、前記前景画像における前記背景画像からの距離を高さと見なすことで前記画像を１つの山状の画像と見なし、該山状の画像から前記尾根線形状の情報を取得する
　請求項１～３のいずれか一項に記載の手指形状推定装置。
　前記画像解析部は、前記画像中に含まれる手指画像の輪郭線走査により得られる尾根線ベクトルの傾きに基づいて尾根線ベクトルの始点と終点を設定し、
　前記手指形状推定部は、前記画像解析部により設定された尾根線ベクトルの始点及び／又は終点の位置に基づいて前記手指形状を推定する
　請求項１～４のいずれか一項に記載の手指形状推定装置。
　さらに、前記画像取得部により取得された前記画像から得られる色情報のみを用いて分離平面を生成し、生成された分離平面に基づいて爪領域候補を抽出し、予め設定された掌を含む画像を用いた画素判別により、前記爪領域候補に対して爪領域の再判定を行う、爪領域抽出部を備える
　請求項１～５のいずれか一項に記載の手指形状推定装置。
　前記爪領域抽出部は、実際の爪の場合の画素と、爪と類似する色を持つ画素とが、爪領域周辺と肌領域とにおいて密集の度合いが異なる性質を利用して爪の判定を行う
　請求項６に記載の手指形状推定装置。
　前記爪領域抽出部は、予め用意された掌のみが写る画像の画素情報を、主成分分析により、予め設定された第１から第３までの主軸のうちの２つの主軸を用いて主成分軸基底変換し、前記２つの主軸のうちの１つの主軸に沿った分離平面の位置を高い位置から下げ、密度の大きい領域に差し掛かったところを前記分離平面とし、前記分離平面を用いて前記爪領域を抽出する
　請求項６又は７に記載の爪領域抽出装置。
　手指形状を含む画像を取得することと、
　前記取得された画像を解析して、前記画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得することと、
　前記第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、前記第１の特徴量に対応する手指形状を推定することとを含む
　手指形状推定方法。
　さらに、前記所定の手指形状に対して、少なくとも前記所定の手指形状に対応する角度データ及び前記第２の特徴量が蓄積された前記データベースを構築することを含む
　請求項９に記載の手指形状推定方法。
　前記手指形状を推定することは、
　前記データベースから前記手指形状における所定の形状パラメータによるデータセットの絞りこみを行うことと、絞り込まれたデータセット群に対して前記第１の特徴量を用いて類似度計算を行うことと、該類似度計算の結果に基づいて最も類似するデータセットを出力することと含む
　請求項９又は１０に記載の手指形状推定方法。
　前記第１の特徴量を取得することは、
　前記画像中に含まれる手指画像を前景とし、該手指画像以外の画像を背景として、前記前景画像における前記背景画像からの距離を高さと見なすことで前記画像を１つの山状の画像と見なし、該山状の画像から前記尾根線形状の情報を取得することを含む
　請求項９～１１のいずれか一項に記載の手指形状推定方法。
　前記第１の特徴量を取得することは、
　前記画像中に含まれる手指画像の輪郭線走査により得られる尾根線ベクトルの傾きに基づいて尾根線ベクトルの始点と終点とを設定することを含み、
　前記手指形状を推定することは、
　前記設定された尾根線ベクトルの始点及び／又は終点の位置に基づいて手指形状を推定することを含む
　請求項９～１２のいずれか一項に記載の手指形状推定方法。
　さらに、前記手指形状を推定することの前に、前記画像から得られる色情報のみを用いて分離平面を生成し、生成された分離平面に基づいて爪領域候補を抽出し、予め設定された掌を含む画像を用いた画素判別により、前記爪領域候補に対して爪領域の再判定を行うことにより爪領域を抽出することを含む
　請求項９～１３のいずれか一項に記載の手指形状推定方法。
　手指形状を含む画像を取得する処理と、
　前記取得された画像を解析して、前記画像中に含まれる手指の尾根線形状に対応する第１の特徴量を取得する処理と、
　前記第１の特徴量に基づいて、予め設定された所定の手指形状に対応する第２の特徴量が蓄積された照合用のデータベースを参照し、前記第１の特徴量に対応する手指形状を推定する処理とを情報処理装置に実装して実行させる手指形状推定プログラム。
　さらに、前記手指形状を推定する処理の前に、前記画像から得られる色情報のみを用いて分離平面を生成し、生成された分離平面に基づいて爪領域候補を抽出し、予め設定された掌を含む画像を用いた画素判別により、前記爪領域候補に対して爪領域の再判定を行うことにより爪領域を抽出する処理を情報処理装置に実装して実行させる
　請求項１５に記載の手指形状推定プログラム。