WO2011001761A1

WO2011001761A1 - 情報処理装置、情報処理方法、プログラム及び電子装置

Info

Publication number: WO2011001761A1
Application number: PCT/JP2010/058773
Authority: WO
Inventors: 信広西条
Original assignee: ソニー株式会社
Priority date: 2009-06-30
Filing date: 2010-05-24
Publication date: 2011-01-06
Also published as: WO2011001593A1; EP2384485A1; US8107706B2; KR20120031309A; US20110194774A1; EP2378759A1; CN102138148B; JP4548542B1; US20110216941A1; EP2378759A4; US20110142349A1; JP2014064047A; JPWO2011001761A1; KR20120039498A; CN102138148A; US8285054B2; TW201112168A; JP4831267B2

Abstract

　本発明は、ユーザの手の移動を容易に検出することができる情報処理装置、情報処理方法、プログラム及び電子装置に関する。　発光装置２３は、第１の波長の光、及び第２の波長の光をユーザに照射し、２値化部４２は、ユーザに照射された第１の波長の光の反射光を受光して得られる第１の画像、及びユーザに照射された第２の波長の光の反射光を受光して得られる第２の画像を取得し、２値化部４２乃至形状抽出部４６は、第１及び第２の画像に基づいて、ユーザの肌が表示されている肌表示領域を含む表示画像上の肌表示領域から、オブジェクトが表示されているオブジェクト領域を抽出し、形状抽出部４６は、オブジェクト領域を構成する画素の輝度値の変化に応じて、照射手段からオブジェクトまでの相対的な距離の変化を検出する。本発明は、例えばユーザを撮像した撮像画像から、ユーザの身体の部位の形状を抽出するコンピュータに適用できる。

Description

情報処理装置、情報処理方法、プログラム及び電子装置

　本発明は、情報処理装置、情報処理方法、プログラム及び電子装置に関し、特に、例えば、ユーザを撮像して得られる撮像画像から、ユーザの手の形状等を抽出する場合に好適な情報処理装置、情報処理方法、プログラム及び電子装置に関する。

　近年、パーソナルコンピュータ等に対してデータを入力する入力デバイスとして、マウス、ペンタブレット、及びタッチパッドの他、ユーザのジェスチャ（動作）やポスチャ（姿勢）によりデータを入力するデータ入力技術が研究されている。

　このデータ入力技術では、例えば、ユーザの手によるジェスチャやポスチャによりデータの入力を行うために、ユーザを撮像して得られる撮像画像から、ユーザの手の形状や動きを正確に抽出する必要がある。

　ユーザの手の形状を抽出するための抽出技術としては、画像のパターンマッチングを用いるパターンマッチング方法、ユーザの肌領域を抽出する肌領域抽出方法等が存在する。

　パターンマッチング方法では、例えば、様々な形状やサイズの手を撮像して得られる複数の形状画像を予め学習しておき、撮像画像と最も類似する形状画像（例えば、対応する画素の画素値どうしの差の総和が最小となる形状画像）に表示された手の形状を、ユーザの手の形状として抽出する。

　しかしながら、このパターンマッチング方法では、形状画像の撮像時とは異なる条件（例えば、撮像方向、照明の度合い、背景、及び撮像時の被写体の大きさ等）により、撮像画像が撮像された場合、ユーザの手の形状を正確に抽出することができないことが生じ得る。

　特に、手の形状を抽出する場合において、撮像画像内の手の形状と、形状画像内の手の形状とが大きく異なるときや、撮像画像内の手が顔等と重なった状態となっているとき等には、例えば顔の形状を抽出する場合等と比較して、正確に抽出することが困難である。

　また、リアルタイムに、手の形状を抽出することが求められる場合には、パターンマッチングに必要な計算量が膨大となってしまうため、支障をきたすことが多い。

　次に、肌領域抽出方法では、人間の肌の色を表す肌色情報を用いて、撮像画像内の、ユーザの肌を表す肌領域が抽出される。

　しかしながら、肌色情報を用いる肌領域抽出方法では、肌の色とそれに近い色との分離が難しい。また、人種によって肌の色は異なるため、すべての人種に対して肌領域を適切に抽出することができない。

　そこで、昨今、波長に対する肌の反射率変化が、人種に拘らず、同様であることを用いて、撮像画像内の肌領域を抽出する分光反射率特性を使った抽出技術が提案されている（例えば、非特許文献１を参照）。

鈴木康弘等著,電学論Ｃ（近赤外マルチバンドによる肌検出手法の提案）,日本,２００７年,１２７巻４号

　しかしながら、上述した従来の分光反射率特性を使った抽出技術では、例えば、撮像画像内に、肌領域として、被写体の顔と手とが存在する場合、顔と手との両方の形状を肌領域として抽出してしまい、手の形状のみを肌領域として抽出することが困難である。

　本発明は、このような状況に鑑みてなされたものであり、一連の処理に要する演算量の増加を抑えつつ、ユーザを撮像して得られる撮像画像から、ユーザの正確な手の形状等を高速に抽出できるようにするものである。また、本発明は、例えば、ユーザが表示されている表示画像上の、抽出したユーザの手等の形状に対応する領域を構成する画素の輝度値等の変化に基づいて、ユーザの手等の移動を容易に検出できるようにするものである。

　本発明の第１の側面における第１の情報処理装置は、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段とを含む情報処理装置である。

　前記表示画像上の前記オブジェクト領域を構成する画素のうち、輝度値が大きい上位ｎパーセントに含まれる画素により構成されている領域を、前記オブジェクトの一部分が表示されている前記部分表示領域として検出する部分表示領域検出手段をさらに設けるようにすることができる。

　前記距離変化検出手段では、前記表示画像上の前記オブジェクト領域のうちの前記部分表示領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記部分表示領域に表示されている、前記オブジェクトの一部分までの相対的な距離の変化を検出することができる。

　前記オブジェクト領域抽出手段では、前記表示画像上の前記肌表示領域を構成する画素の輝度値の分布に基づいて、前記肌表示領域上の前記オブジェクトの形状を表す形状領域を検出し、前記肌表示領域から、前記形状領域に対応する前記オブジェクト領域を抽出することができる。

　前記距離変化検出手段では、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値の平均値の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出することができる。

　前記第１の波長λ１、及び前記第２の波長λ２は次式の関係を満たす
　λ１＜λ２
　６３０nm≦λ１≦１０００nm
　９００nm≦λ２≦１１００nm
　ようにすることができる。

　本発明の第１の側面における第１の情報処理方法は、ユーザとの距離の変化を検出する情報処理装置の情報処理方法であって、前記情報処理装置は、照射手段と、取得手段と、オブジェクト領域抽出手段と、距離変化検出手段とを含み、前記照射手段が、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射し、前記取得手段が、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得し、前記オブジェクト領域抽出手段が、前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出し、前記距離変化検出手段が、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出するステップを含む情報処理方法である。

　本発明の第１の側面における第１のプログラムは、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段として機能させるためのプログラムである。

　本発明の第１の側面における第１の電子装置は、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出されたことに対応して、所定の処理を実行する実行手段とを含む電子装置である。

　本発明の第１の側面によれば、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像が取得され、取得された前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域が抽出され、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出される。

　本発明の第２の側面における第２の情報処理装置は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段とを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する情報処理装置である。

　前記差異値算出手段では、前記第１の画像の輝度値から、前記第２の画像の輝度値を差し引いて得られる差分を正規化して得られる前記差異値を算出することができる。

　前記差異値算出手段では、前記差異値として、前記第１の画像の輝度値と、前記第２の画像の輝度値との比を算出することができる。

　本発明の第２の側面における第２の情報処理方法は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置の情報処理方法であって、前記情報処理装置は、照射手段と、取得手段と、差異値算出手段と、肌領域抽出手段と、形状領域抽出手段とを含み、前記照射手段が、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射し、前記取得手段が、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得し、前記差異値算出手段が、前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出し、前記肌領域抽出手段が、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出し、前記形状領域抽出手段が、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出するステップを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する情報処理方法である。

　本発明の第２の側面における第２のプログラムは、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段として機能させ、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出するプログラムである。

　本発明の第２の側面における第２の電子装置は、ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する電子装置であって、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と、抽出された前記形状領域に応じた処理を実行する実行手段とを含み、前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する電子装置である。

　本発明の第２の側面によれば、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像が取得され、取得された前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値が算出され、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域が抽出され、前記肌領域上の前記オブジェクトの形状を表す形状領域が抽出される。

　本発明の第１の側面によれば、ユーザの手等の移動を容易に検出できる。また、本発明の第２の側面によれば、一連の処理に要する演算量の増加を抑えつつ、ユーザの正確な手の形状等を高速に抽出できる。

情報処理システムの構成例を示すブロック図である。情報処理装置の構成例を示すブロック図である。人間の肌の反射特性の一例を示す図である。第１及び第２の撮像画像の一例を示す図である。２値化部で生成される２値化肌画像の一例を示す図である。肌抽出部で抽出される肌画像の第１の例を示す図である。肌画像のヒストグラムの第１の例を示す図である。マスク画像生成部で生成されるマスク画像の一例を示す図である。形状抽出部により生成される抽出画像の一例を示す図である。形状抽出処理を説明するためのフローチャートである。肌抽出部で抽出される肌画像の第２の例を示す図である。肌画像のヒストグラムの第２の例を示す図である。肌抽出部で抽出される肌画像の第３の例を示す図である。肌画像のヒストグラムの第３の例を示す図である。座標検出処理を説明するためのフローチャートである。 FFT閾値決定処理に用いる第１の撮像画像を示す図である。 FFT閾値決定処理を説明するためのフローチャートである。カメラの相対感度特性を示す図である。 LEDの配置方法を示す図である。本発明を適用したモバイル機器の一例を示す図である。本発明を適用した他のモバイル機器の一例を示す図である。本発明を適用した他のモバイル機器を使用した場合についての一例を示す図である。本発明を適用したテレビジョン受像機の一例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、本実施の形態という）について説明する。なお、説明は以下の順序で行う。
１．　本実施の形態（ユーザの手の形状を抽出する例）
２．　変形例

＜１．本実施の形態＞
[情報処理システム１の構成例]
　図１は、本実施の形態である情報処理システム１の構成例を示している。

　この情報処理システム１は、ユーザの手を用いたジェスチャ（又はポスチャ）に応じて所定の処理を実行するものであり、情報処理装置２１、カメラ２２、及び発光装置２３により構成される。

　情報処理システム１に対して所定の処理を実行させるため、ユーザは、（カメラ２２のレンズ面の前で）自身の手の形状を変化させたり、手を動かしたりする。

　このとき、情報処理システム１では、ユーザの手の形状や手の動きを認識し、その認識結果に対応して所定の処理を実行する。

　なお、本実施の形態では、ユーザは、カメラ２２のレンズ面の前で手を動かしたり手の形状を変化させるものとし、ユーザは、自身の手を、顔や胸等よりもカメラ２２のレンズ面に近い位置に出してジェスチャ（又はポスチャ）を行うものとする。

　情報処理装置２１は、カメラ２２及び発光装置２３を制御する。また、情報処理装置２１は、カメラ２２の撮像により得られる撮像画像に基づいて、ユーザの手の形状や動きを認識し、その認識結果に対応して所定の処理を実行する。

　カメラ２２は、ユーザ等の被写体の撮像に用いるレンズを有しており、そのレンズの前面は、可視光を遮断する可視光カットフィルタ２２aにより覆われている。

　このため、日光、或いは蛍光灯の赤外成分を除けば、カメラ２２は、発光装置２３によって被写体に照射される不可視光の反射光のみを受光し、その結果得られる撮像画像を、情報処理装置２１に供給することになる。

　すなわち、例えば、カメラ２２は、発光装置２３によって被写体に照射される不可視光である第１の波長の光（例えば、870[nm]の近赤外線）の反射光のみを受光し、その結果得られる第１の撮像画像を、情報処理装置２１に供給する。

　また、カメラ２２は、発光装置２３によって被写体に照射される不可視光であって、第１の波長とは異なる第２の波長の光（例えば、950[nm]の近赤外線）の反射光のみを受光し、その結果得られる第２の撮像画像を、情報処理装置２１に供給する。

　なお、本実施の形態では、日光、或いは蛍光灯等の外光による赤外成分（例えば、870[nm]の近赤外線や950[nm]の近赤外線）の影響は、実質的に無視できる条件でカメラ２２による撮像が行なわれるものとする。

　一般的なカメラでは、可視光領域の方が赤外領域と比較して受光感度が高いため、可視光カットフィルタ２２aを設けることにより、可視光の影響を低減することができる。このため、可視光の影響を殆ど受けることなく、発光装置２３から被写体に照射した光の反射光を受光することができるので、分光反射率特性を利用した肌検出のロバスト性を向上させることが可能となる。

　また、以下において、カメラ２２のレンズの前面は、可視光カットフィルタ２２aにより覆われているものとして説明するが、例えば、可視光による影響が実質的に無視できる状況下では、カメラ２２のレンズの前面を、可視光カットフィルタ２２aにより覆わないように構成するようにしてもよい。

　発光装置２３は、第１の波長の光を発光するLED(light emitting diode)２３a₁及び２３a₂、並びに、第２の波長の光を発光するLED２３b₁及び２３b₂により構成される。

　なお、以下において、LED２３a₁及び２３a₂を区別する必要がない場合には、LED２３a₁及び２３a₂を単にLED２３aという。また、LED２３b₁及び２３b₂を区別する必要がない場合には、LED２３b₁及び２３b₂を単にLED２３bという。

　LED２３aとLED２３bとは、情報処理装置２１の制御にしたがって交互に発光する。

　また、第１の波長の光の反射光、及び第２の波長の光の反射光それぞれにおいて、カメラ２２により受光される反射光の強度（光量）が同じになるように、LED２３aとLED２３bの出力は調整されている。

　すなわち、第１の波長の光に対するカメラ２２の相対感度特性と、第２の波長の光に対するカメラ２２の相対感度特性とが同一である場合、第１及び第２の波長それぞれの光における反射率が同一である物体（例えば、鏡面等）に対して、第１の波長の光を照射したときに得られる輝度値と、第２の波長の光を照射したときに得られる輝度値とを同じ値にするために、カメラ２２により受光される反射光の強度（光量）が同じになるように調整される。

　ところで、図１８を参照して後述するように、カメラ２２の相対感度特性は、通常、可視光領域から離れる程に感度が小さくなる傾向があり、例えば、870[nm]における感度と比較して、950[nm]における感度が1/2以下となる。

　このため、一般的には、第１及び第２の波長それぞれの光における反射率が同一である物体に対して、第１の波長の光を照射した場合に得られる輝度値と、第２の波長の光を照射した場合に得られる輝度値とが同じになるように、LED２３aとLED２３bの出力は、例えば、カメラ２２の相対感度特性等に応じて調整されることとなる。

　さらに、LED２３aとLED２３bとは、図１に示すように、交互に碁盤の目状に配置されており、LED２３a及び２３bの前面には、LED２３a及び２３bにより発光される光を均一に拡散させる拡散板２３cが設けられている。これにより、被写体には、第１又は第２の波長の光がむらなく照射される。

　なお、LED２３a及び２３bのみにより、第１及び第２の波長の光がむらなく照射される場合には、LED２３a及び２３bの前面に、拡散板２３cを設けないようにしてもよい。

　また、発光装置２３は、LED２３aやLED２３bから発光される光が、少なくともユーザの手に確実に照射される位置に配置される。本実施の形態では、ユーザは、カメラ２２のレンズ面の前で手の形状を変化させることから、発光装置２３は、例えば、カメラ２２と近接された状態で配置される。

　本実施の形態では、発光装置２３は、カメラ２２と近接された状態で配置されているものとして説明するが、発光装置２３とカメラ２２との位置関係はこれに限定されない。すなわち、カメラ２２のレンズ面の前に位置するユーザの手を照射でき、その照射により得られる反射光をカメラ２２により確実に受光できる位置関係であれば、どのような位置関係であってもよい。

　具体的には、例えば、近接された発光装置２３とカメラ２２とを分離し、発光装置２３を、カメラ２２よりもユーザの手に近い位置に配置するようにすれば、発光装置２３とカメラ２２とを近接した状態で配置する場合と比較して、発光装置２３とユーザの手との距離を短くできる。

　この場合、発光装置２３とカメラ２２とを近接した状態で配置する場合と比較して、発光装置２３とユーザの手との距離が短くなるため、発光装置２３の消費電力を低減することが可能となる。

[情報処理装置２１の構成例]
　図２は、情報処理装置２１の構成例を示している。

　情報処理装置２１は、制御部４１、２値化部４２、肌抽出部４３、閾値決定部４４、マスク画像生成部４５、及び形状抽出部４６により構成される。

　制御部４１は、発光装置２３を制御し、LED２３aとLED２３bとを交互に発光させる。

　２値化部４２には、カメラ２２から、第１の撮像画像及び第２の撮像画像が供給される。２値化部４２は、カメラ２２から供給される第１及び第２の撮像画像に基づいて、第１の撮像画像から、ユーザの肌を表す肌領域と、肌領域以外の領域とを抽出（検出）する。

　なお、２値化部４２は、肌領域と、肌領域以外の領域とを抽出する対象として、第１の撮像画像を採用するようにしたが、その他、例えば、後述するように、抽出する対象として、第２の撮像画像等を採用できる。

　そして、２値化部４２は、抽出した肌領域を構成する画素の画素値と、肌領域以外の領域を構成する画素の画素値とがそれぞれ異なる値（例えば、０と１）に２値化された２値化肌画像を生成し、肌抽出部４３及び形状抽出部４６に供給する。

　肌抽出部４３及びマスク画像生成部４５には、カメラ２２から第１の撮像画像が供給される。

　肌抽出部４３は、２値化部４２から供給される２値化肌画像に基づいて、カメラ２２からの第１の撮像画像から、２値化肌画像内の肌領域に対応する領域（ユーザの肌部分が表示された領域）を抽出する。

　そして、肌抽出部４３は、抽出した領域を含む肌画像を生成し、閾値決定部４４に供給する。なお、肌抽出部４３は、抽出した領域を肌画像として、閾値決定部４４に供給するようにしてもよい。

　閾値決定部４４は、肌抽出部４３からの肌画像に基づいて、肌画像（を構成する画素の輝度値）のヒストグラムを作成する。そして、閾値決定部４４は、作成した肌画像のヒストグラムに基づいて、後述するマスク画像を生成するために用いられるマスク閾値を決定し、マスク画像生成部４５に供給する。

　なお、本実施の形態において、閾値決定部４４は、マスク閾値を決定するために、肌画像を構成する画素の輝度値の分布を表すものとして、例えば、肌画像のヒストグラムを用いるようにしているが、肌画像を構成する画素の輝度値の分布を表すものであれば、肌画像のヒストグラムに限定されず、どのような情報であってもよい。

　また、閾値決定部４４は、図７を参照して後述するように、肌画像のヒストグラムに基づいて、肌画像を構成する画素の輝度値の最大値や極小値を算出し、マスク閾値に決定するようにしているが、これに限定されない。

　すなわち、例えば、閾値決定部４４は、肌画像のヒストグラムに基づいて、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を算出し、算出した平均値、分散値、最小値、最大値等を用いて、マスク閾値を決定するようにしてもよい。

　マスク画像生成部４５は、閾値決定部４４からのマスク閾値に基づいて、カメラ２２から供給される第１の撮像画像からマスク画像を生成し、形状抽出部４６に供給する。

　なお、マスク画像とは、第１の撮像画像内の領域のうち、マスク閾値により特定される輝度値の範囲に含まれる輝度値の画素により構成されるマスク領域と、それ以外の領域である非マスク領域とに２値化された画像をいう。

　形状抽出部４６は、マスク画像生成部４５からのマスク画像に基づいて、２値化部４２からの２値化肌画像から、マスク画像内のマスク領域に対応する領域として、例えばユーザの手の形状を表す形状領域を抽出する。

　そして、形状抽出部４６は、抽出した形状領域に基づいて、手の形状を認識し、その認識結果に応じた処理を行い、その処理結果を後段に出力する。

　なお、２値化部４２は、第１の撮像画像から、肌領域と、肌領域以外の領域を抽出するようにしたが、第２の撮像画像から、肌領域と、肌領域以外の領域を抽出するようにしてもよい。この場合、肌抽出部４３及びマスク画像生成部４５には、第１の撮像画像に代えて、カメラ２２から、第２の撮像画像が供給される。

　そして、肌抽出部４３は、第２の撮像画像から肌画像を生成し、マスク画像生成部４５は、第２の撮像画像からマスク画像を生成することとなる。

　その他、例えば、肌抽出部４３は、第１の撮像画像と、第２の撮像画像とを、所定の比率で合成して得られる新たな合成画像（例えば、第１及び第２の撮像画像それぞれの、対応する画素の輝度値の平均を、輝度値として有する合成画像（１対１の比率で合成した合成画像）等）を対象として、肌領域と、肌領域以外の領域を抽出するようにしてもよい。

　すなわち、肌抽出部４３は、第１又は第２の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像であれば、肌領域と、肌領域以外の領域を抽出する対象の画像として採用することができる。

[２値化肌画像の生成]
　次に、図３乃至図５を参照して、２値化部４２が、２値化肌画像を生成する処理の詳細を説明する。

　なお、図３及び図４では、カメラ２２の撮像により得られる第１の撮像画像、及び第２の撮像画像について説明する。また、図５では、第１の撮像画像、及び第２の撮像画像に基づいて、２値化部４２により生成される２値化肌画像について説明する。

　図３は、波長の異なる照射光に対する人間の肌の反射特性を示している。

　なお、この反射特性は、人間の肌の色の違い（人種の違い）や状態（日焼け等）等に拘らず、一般性があるものである。

　図３において、横軸は、人間の肌に照射する光の波長を示しており、縦軸は、人間の肌に照射された光の反射率を示している。

　人間の肌に照射された光の反射率は、800[nm]付近をピークとして、900[nm]付近から急激に減少し、1000[nm]付近を極小値として再び上昇することが知られている。

　具体的には、例えば、図３に示されるように、人間の肌に対して、870[nm]の光を照射して得られる反射光の反射率は約63[%]であり、950[nm]の光を照射して得られる反射光の反射率は約50[%]である。

　これは、人間の肌について特有のものであり、人間の肌以外の物体（例えば、頭髪や衣服等）では、800乃至1000[nm]付近において、反射率の変化は緩やかとなっていることが多い。なお、図示は省略しているが、頭髪の例では、800乃至1000[nm]付近において、波長が長くなる程に反射率も緩やかに上昇する。そして、頭髪の例では、870[nm]の光を照射して得られる反射光の反射率は約6[%]であり、950[nm]の光を照射して得られる反射光の反射率は約8[%]である。

　次に、図４を参照して、カメラ２２の撮像により得られる第１及び第２の撮像画像を説明する。

　図４は、ユーザに照射される870[nm]の光の反射光を受光して得られる第１の撮像画像、及びユーザに照射される950[nm]の光の反射光を受光して得られる第２の撮像画像それぞれの一例を示している。

　図４のAには、ユーザの肌領域として、ユーザの顔６１及び手６２が表示されており、ユーザの肌領域以外の領域として、ユーザが着用しているシャツ６３、及び背景６４が表示された第１の撮像画像が示されている。

　また、図４のBには、ユーザの肌領域として、ユーザの顔８１及び手８２が表示されており、ユーザの肌領域以外の領域として、ユーザが着用しているシャツ８３、及び背景８４が表示された第２の撮像画像が示されている。

　ここで、図３において上述したように、ユーザの肌部分における反射特性では、波長が870[nm]の光の反射率は、波長が950[nm]の光の反射率よりも大きくなっている。

　したがって、870[nm]の光をユーザに照射する場合、カメラ２２のレンズには、ユーザの肌部分に照射された光の反射光として、950[nm]の光を照射する場合の反射光の明るさよりも明るい光が入射される。

　このため、第１の撮像画像内の、ユーザの肌領域（顔６１及び手６２）を構成する画素の輝度値は、それぞれ、第２の撮像画像内の、ユーザの肌領域（顔８１及び手８２）を構成する画素の輝度値よりも大きな値となる。

　したがって、第１の撮像画像内の、ユーザの肌領域を構成する画素の輝度値から、第２の撮像画像内の、対応するユーザの肌領域を構成する画素の輝度値それぞれを差し引いて得られる差分は、正の値となる。

　これに対して、ユーザの肌部分以外の部分における反射特性では、波長が870[nm]の光の反射率は、波長が950[nm]の光の反射率と変わらないか、それよりも小さくなっていることが多い。

　したがって、870[nm]の光をユーザに照射する場合、カメラ２２のレンズには、ユーザの肌部分以外の部分に照射された光の反射光として、950[nm]の光を照射する場合の反射光の明るさと同じ明るさの光か、それよりも暗い光が入射される。

　このため、第１の撮像画像内の、ユーザの肌領域以外の領域（シャツ６３及び背景６４）を構成する画素の輝度値は、それぞれ、第２の撮像画像内の、ユーザの肌領域以外の領域（シャツ８３及び背景８４）を構成する画素の輝度値と同じ値か、その値よりも小さい値となる。

　したがって、第１の撮像画像内の、ユーザの肌部分以外の部分を構成する画素の輝度値から、第２の撮像画像内の、対応するユーザの肌部分の部分を構成する画素の輝度値それぞれを差し引いて得られる差分は、値０以下の値（正でない値）となる。

　このため、２値化部４２は、第１の撮像画像と第２の撮像画像との、対応する画素の輝度値どうしの差分を算出し、算出した差分に基づいて、ユーザの肌領域と、ユーザの肌領域以外の領域とを抽出する。そして、２値化部４２は、抽出したユーザの肌領域を値１とし、抽出したユーザの肌領域以外の領域を値０とした２値化肌画像を生成する。

　すなわち、例えば、２値化部４２は、算出した差分（第１の撮像画像を構成する画素の輝度値から、対応する第２の撮像画像を構成する画素の輝度値を減じて得られる差分）が正である場合、対応する画素をユーザの肌領域を構成する画素として抽出し、算出した差分が正でない場合、対応する画素をユーザの肌領域以外の領域を構成する画素として抽出する。

　そして、２値化部４２は、ユーザの肌領域を構成する画素として抽出した画素の画素値を１に設定し、ユーザの肌領域以外の領域を構成する画素として抽出した画素の画素値を０に設定することにより、２値化肌画像を生成し、肌抽出部４３及び形状抽出部４６に供給する。

　なお、ユーザの肌部分以外の部分における反射率によっては、肌部分以外の部分において算出された差分が、肌部分において算出された差分よりは小さいものの、正の値となることが生じ得る。したがって、差分が正であっても、所定の閾値未満である場合には、ユーザの肌部分以外の部分であるとして、画素値０を設定するように構成することが望ましい。

　すなわち、２値化部４２は、算出した差分が、予め決められた所定の閾値以上であるか否かを判定し、所定の閾値以上である場合、対応する画素をユーザの肌領域を構成する画素として抽出し、所定の閾値以上ではない場合、対応する画素をユーザの肌領域以外の領域を構成する画素として抽出するようにして、２値化肌画像を生成することが望ましい。

　ここで、第１の撮像画像を構成する画素の輝度値L1と、その画素に対応する、第２の撮像画像を構成する画素の輝度値L2との差分L1-L2は、被写体における、第１の波長の光の反射率と第２の波長の光の反射率との差異に対応するものとなるので、肌領域における差分L1-L2は、理想的には、一定値C1(L1-L2=63[%]-50[%]=13)となる。

　しかしながら、実際には、肌領域における輝度値L1及びL2は、発光装置２３から被写体までの距離、及びカメラ２２の撮像条件等に起因して変化し得るので、肌領域における差分L1-L2は、一定値C1にはならないことが生じ得る。

　この場合、２値化部４２は、差分L1-L2毎に異なる閾値を用いなければならず、非常に煩雑な処理となってしまう。

　そこで、２値化部４２は、差分L1-L2を正規化するようにして、差分L1-L2を、第１の波長の光の反射率と第２の波長の光の反射率との差異に対応した一定値C2にすることにより、複数の差分L1-L2において同一の閾値を用いるようにすることができる。

　このように、例えば、２値化部４２は、差分L1-L2を、輝度値L1又はL2の一方で正規化（除算）すれば、正規化後の差分(L1-L2)/L1又は(L1-L2)/L2に対して、予め用意されている同一の閾値を用いることができるので、差分L1-L2毎に異なる閾値を用意する必要がない。なお、ここでは輝度値L1又はL2の一方で正規化した例を示したが、差分を輝度値L1又はL2に関連した輝度値関連値で正規化すれば良く、例えば(L1+L2)/2や(L1+L2)で正規化しても良い。

　よって、２値化部４２が、閾値を予め保持しておくために内蔵しているメモリ（図示せず）の容量を少なくすることができる。また、２値化部４２は、差分L1-L2に拘わらず、同一の閾値を用いるようにすれば、差分L1-L2毎に、閾値を変更する手間を省くことができるので、２値化肌画像を生成するための演算量を抑制して、より迅速に２値化肌画像を生成することが可能となる。

　なお、別の方法として、２値化部４２は、差分L1-L2ではなく、比L1/L2に基づいて、肌領域と非肌領域とを抽出するように構成することができる。これは、発光装置２３から被写体までの距離、及びカメラ２２の撮像条件等に起因して、肌領域における輝度値L1及びL2が変化したとしても、肌領域における比L1/L2(=63[%]/50[%])は一定値C3となることを利用したものである。

　なお、比L1/L2を用いる場合には、比L1/L2と比較される閾値として、例えば、一定値C3-α（α>0）が採用され、２値化部４２は、比L1/L2が閾値以上である場合、肌領域として抽出し、比L1/L2が閾値未満である場合、非肌領域として抽出することとなる。

　また、２値化部４２は、第１の撮像画像と第２の撮像画像との、対応する画素の輝度値どうしの差分絶対値を算出し、算出した差分絶対値が所定の閾値以上であるか否かに基づいて、ユーザの肌部分（肌領域）と、それ以外の部分（肌領域以外の領域）とを抽出して、２値化肌画像を生成するようにしてもよい。

　これは、反射特性により、ユーザの肌部分に対応する差分絶対値は比較的大きな値となり、ユーザの肌部分以外の部分に対応する差分絶対値は比較的小さな値となることを利用している。

　また、差分絶対値を用いる場合であっても、輝度値L1又はL2等により正規化することにより、いずれの差分絶対値においても、同一の閾値を用いることができるようになる。

　なお、差分絶対値を用いる方法では、肌と頭髪のように、第１及び第２の波長付近での反射率の増減が逆のものを誤検出するおそれがあるので、輝度値も加味して肌領域を抽出することが望ましい。すなわち、例えば、差分絶対値を用いて抽出された肌領域のうち、輝度値L1(又は輝度値L2)の高い部分のみを、最終的な肌領域として抽出するとよい。

　次に、図５は、２値化部４２により生成される２値化肌画像の一例を示している。

　図５に示す２値化肌画像において、黒色で示す部分は、画素値１で表される肌領域を示している。この肌領域は、ユーザの顔の肌部分を示す顔領域１０１、及びユーザの手の肌部分を示す手領域１０２により構成されている。

　なお、図面の都合上、図５に示す顔領域１０１には、顔の肌部分の他、眉毛や目、髪の毛等も記載しているが、実際には、顔領域１０１は、顔の肌部分のみにより構成される。

　さらに、図５に示す２値化肌画像において、白色で示す部分は、画素値０で表される、肌領域以外の領域を示している。

　２値化部４２は、生成した２値化肌画像を、肌抽出部４３及び形状抽出部４６に供給する。

　肌抽出部４３は、２値化部４２からの２値化肌画像に基づいて、カメラ２２から供給される第１の撮像画像から、２値化肌画像内の顔領域１０１及び手領域１０２に対応する領域（顔６１と手６２とが表示された領域）を抽出する。そして、肌抽出部４３は、抽出した領域を含む肌画像を生成する。

[肌画像の生成]
　次に、図６を参照して、肌抽出部４３が、２値化部４２からの２値化肌画像に基づいて、第１の撮像画像から肌画像を生成する処理を説明する。

　図６は、肌抽出部４３により抽出される肌画像の一例を示している。図６に示す肌画像には、ユーザの顔６１及び手６２が表示されている。

　なお、図面の都合上、図６に示す肌画像には、ユーザの顔６１として、顔の肌部分の他、眉毛や目、髪の毛等も記載しているが、実際には、図６に示す顔６１は、顔の肌部分のみを表している。

　肌抽出部４３は、２値化部４２からの２値化肌画像と、カメラ２２からの第１の撮像画像との対応する画素の輝度値どうしを、それぞれ乗算する。

　そして、肌抽出部４３は、第１の撮像画像を構成する画素のうち、その乗算結果が０でない画素により構成される領域（顔６１と手６２とが表示された領域）を抽出し、抽出した領域を含む肌画像を生成する。

　これにより、第１の撮像画像内の領域のうち、２値化肌画像の顔領域１０１に対応する領域に含まれる顔６１、及び２値化肌画像の手領域１０２に対応する領域に含まれる手６２については、そのまま抽出され、２値化肌画像の肌領域以外の領域に対応する領域（図６において白色で示す）については、例えば、その輝度値が値２５５とされて、第１の撮像画像から、図６に示すような肌画像が生成される。

　肌抽出部４３は、生成した肌画像を、閾値決定部４４に供給する。

　閾値決定部４４は、肌抽出部４３からの肌画像に基づいて、マスク画像を生成するために用いられるマスク閾値を決定する。

[マスク閾値の決定]
　次に、図７を参照して、閾値決定部４４がマスク閾値を決定する処理の詳細を説明する。

　図７は、肌画像のヒストグラムの一例を示している。

　図７において、横軸は、肌画像を構成する画素の輝度値を示している。また、縦軸は、横軸の輝度値に対応する画素の画素数を示している。

　なお、図７のヒストグラムにおいて、本来ならば、図６の肌画像において、白色部分で表された領域を構成する画素の輝度値２５５についての画素数も表示されるが、輝度値２５５についての画素数は、マスク閾値を決定するために用いられないため、図示を省略している。

　閾値決定部４４は、肌抽出部４３からの肌画像を構成する画素の輝度値について、図７に示されたようなヒストグラムを作成する。

　図７のヒストグラムでは、輝度値０から輝度値５４までの間と、輝度値５５から輝度値１１０までの間に、多くの画素数が偏って表示されている。

　ところで、上述したように、カメラ２２から近い位置に手が存在し、カメラ２２から遠い位置に顔や胸等が存在することを前提としている。

　また、例えば、発光装置２３のLED２３a及びLED２３bは、カメラ２２に近接した状態で発光するため、カメラ２２（発光装置２３）から近い位置に存在するユーザの部位（いまの場合、手）ほど輝度値が大きくなり、カメラ２２から遠い位置に存在するユーザの部位（いまの場合、顔等）ほど輝度値が小さくなる。

　したがって、カメラ２２から近い位置に存在する手の肌部分を構成する画素の輝度値は、カメラ２２から遠い位置に存在する顔の肌部分を構成する画素の輝度値よりも大きな値となる。

　このため、輝度値０から輝度値５４までの輝度値は、顔６１（の領域）を構成する画素の輝度値であり、輝度値５５から輝度値１１０までの輝度値は、手６２を構成する画素の輝度値である。

　閾値決定部４４は、画素数が極小となるときの輝度値（この例では輝度値５５）を下限閾値Th_Lに決定するとともに、最大の輝度値（この例では輝度値１１０）を上限閾値Th_Hに決定する。

　なお、下限閾値Th_Lは、例えば、次のようにして求めても良い。すなわち、例えば、閾値決定部４４は、図７に示されたようなヒストグラムを表わす関数y=f(x)(yは画素数を表し、xは輝度値を表す)を生成する。そして、閾値決定部４４は、生成した関数f(x)を１回微分して１次導関数f'(x)を生成し、１次導関数f'(x)が負の値から正の値に変化するときであって、関数f'(x)=0となるときのx（例えば、x=５５）、つまり、関数f(x)が極小となるときのxを、下限閾値Th_Lに決定する。

　さらに、上限閾値Th_Hを、最大の輝度値に決定したが、その他、例えば、１次導関数f'(x)が負の値から値０となるときのxの値（例えば、x=１１０）を、上限閾値Th_Hに決定するようにしてもよい。

　ところで、上述したように、閾値決定部４４は、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を用いて、マスク閾値を決定することもできる。

　すなわち、例えば、閾値決定部４４は、肌画像を構成する画素の輝度値についての平均値を、下限閾値Th_Lに決定するようにしてもよいし、肌画像を構成する画素の輝度値についての最大値の1/2を下限閾値Th_Lに決定するようにしてもよい。また、例えば、閾値決定部４４は、肌画像を構成する画素の輝度値についての最小値と最大値との平均を、下限閾値Th_Lに決定するようにしてもよい。

　さらに、閾値決定部４４は、例えば分散値毎に、下限閾値Th_Lを決定するための閾値決定用関数を予め用意しておき、肌画像を構成する画素の輝度値についての分散値に対応する閾値決定用関数により、下限閾値Th_Lを決定するようにしてもよい。なお、閾値決定用関数は、例えば、肌画像を構成する画素の輝度値についての最小値や最大値等を変数として有する関数等を採用することができる。

　この場合、関数f(x)を生成し、生成した関数f(x)から１次導関数f'(x)をさらに生成するようにし、その１次導関数f'(x)に基づいて下限閾値Th_Lを決定する場合と比較して、下限閾値Th_Lに決定される値を容易に算出することができるので、より迅速に下限閾値Th_Lを決定することが可能となる。

　なお、閾値決定部４４は、例えば、肌画像を構成する画素の輝度値についての最大値を、上限閾値Th_Hに決定するようにしているが、下限閾値Th_Lの場合と同様にして、肌画像を構成する画素の輝度値についての平均値、分散値、最小値、最大値等を用いて、上限閾値Th_Hを決定することができる。

　すなわち、例えば、図６の肌画像において、顔６１及び手６２以外に他の肌部分が表示されているために、図７のヒストグラムにおいて、値１１０よりも大きな輝度値が存在することにより、輝度値５５と同様に、輝度値１１０が極小となっている場合等には、上限閾値Th_Hを、下限閾値Th_Lと同様にして決定できる。

　閾値決定部４４は、決定した下限閾値Th_L及び上限閾値Th_Hを、マスク閾値として、マスク画像生成部４５に供給する。

　マスク画像生成部４５は、閾値決定部４４からのマスク閾値（下限閾値Th_L及び上限閾値Th_H）に基づいて、カメラ２２からの第１の撮像画像から、マスク領域と非マスク領域とを検出し、検出したマスク領域と非マスク領域とが、それぞれ異なる値に２値化されたマスク画像を生成する。

　すなわち、例えば、マスク画像生成部４５は、発光装置２３から近い位置に存在するために、輝度値が大きくなっているユーザの部位（いまの場合、手）に対応する領域として、下限閾値Th_L以上であって上限閾値Th_H以下の輝度値を有する画素により構成されるマスク領域を検出する。

　また、例えば、マスク画像生成部４５は、発光装置２３から遠い位置に存在するために、輝度値が小さくなっているユーザの部位（いまの場合、顔等）に対応する領域として、下限閾値Th_L以上であって上限閾値Th_H以下の範囲に含まれない輝度値を有する画素により構成される非マスク領域を検出する。

　そして、マスク画像生成部４５は、検出したマスク領域と非マスク領域とが、それぞれ異なる値に２値化されたマスク画像を生成する。

[マスク画像の生成]
　次に、図８を参照して、マスク画像生成部４５が、閾値決定部４４からのマスク閾値に基づいて、マスク画像を生成する処理の詳細を説明する。

　図８はマスク画像の一例を示している。図８に示すマスク画像において、黒色で示されるマスク領域１２１は、対応する第１の撮像画像内の領域において、輝度値が下限閾値Th_L以上であって、上限閾値Th_H以下である領域を示している。

　また、図８に示すマスク画像において、白色で示される非マスク領域は、対応する第１の撮像画像内の領域において、下限閾値Th_L未満であるか、又は、上限閾値Th_Hよりも大きいである領域を示している。

　マスク画像生成部４５は、カメラ２２からの第１の撮像画像を構成する画素の輝度値が、下限閾値Th_L以上であって、上限閾値Th_H以下である場合には、その輝度値の画素をマスク領域に含まれる画素として検出し、その輝度値を画素値１に変換する。

　また、マスク画像生成部４５は、カメラ２２からの第１の撮像画像を構成する画素の輝度値が、下限閾値Th_L未満であるか、又は、上限閾値Th_Hよりも大きいである場合には、その輝度値の画素を非マスク領域に含まれる画素として検出し、その輝度値を画素値０に変換する。

　なお、変換後の画素値は、輝度値とは異なる値であって、０又は１のいずれかとされる値を表す。

　これにより、マスク画像生成部４５は、値１を有する画素により構成されるマスク領域１２１（黒色で示す）と、値０を有する画素により構成される非マスク領域（白色で示す）とにより構成されるマスク画像を生成し、形状抽出部４６に供給する。

　ここで、閾値決定部４４において、下限閾値Th_L及び上限閾値Th_Hを決定するようにしたが、例えば、マスク閾値として、下限閾値Th_L又は上限閾値Th_Hの一方を決定するようにしてもよい。

　すなわち、例えば、カメラ２２からマスク画像生成部４５に供給される第１の撮像画像を構成する画素の輝度値の最大値が、人間の肌に対応する輝度値（例えば、図７の輝度値１１０）である場合には、閾値決定部４４は、マスク閾値として、下限閾値Th_L（例えば、輝度値５５）のみを決定するようにしてもよい。

　この場合、マスク画像生成部４５は、カメラ２２からの第１の撮像画像を構成する画素の輝度値が、下限閾値Th_L以上である場合には、その輝度値の画素をマスク領域に含まれる画素として検出し、その輝度値を画素値１に変換するものとなる。また、マスク画像生成部４５は、カメラ２２からの第１の撮像画像を構成する画素の輝度値が、下限閾値Th_L未満である場合には、その輝度値の画素を非マスク領域に含まれる画素として検出し、その輝度値を画素値０に変換するものとなる。

　なお、閾値決定部４４が、マスク閾値として、上限閾値Th_Hのみを決定する場合には、例えば、手６２の形状に代えて、顔６１の形状を抽出するとき等が考えられる。このとき、例えば、閾値決定部４４は、図７に示される輝度値５５を、マスク閾値としての上限閾値Th_Hに決定することとなる。

　形状抽出部４６は、マスク画像生成部４５からのマスク画像に基づいて、２値化部４２からの２値化肌画像内の顔領域１０１及び手領域１０２から、マスク画像内のマスク領域１２１に対応する領域として、例えばユーザの手の形状を表す形状領域を抽出する。

　すなわち、例えば、形状抽出部４６は、マスク画像生成部４５からのマスク画像を構成するマスク領域１２１及び非マスク領域に基づいて、発光装置２３から近い位置に存在するために、輝度値が大きくなっているユーザの部位（いまの場合、手６２）（マスク領域１２１に対応するユーザの部位）と、発光装置２３から遠い位置に存在するために、輝度値が小さくなっているユーザの部位（いまの場合、顔６１）（非マスク領域に対応するユーザの部位）との、発光装置２３からの相対的な距離の違いを区別する。

　そして、形状抽出部４６は、区別した発光装置２３からの相対的な距離の違いから、例えば、発光装置２３から近い位置に存在するために、輝度値が大きくなっているユーザの部位（いまの場合、手６２）を区別して、形状領域（いまの場合、手の形状を表す領域）を抽出する。

[手の形状の抽出]
　次に、図９を参照して、形状抽出部４６が、２値化肌画像から、ユーザの手の形状等を抽出する処理の詳細を説明する。

　図９は、形状抽出部４６により抽出される形状領域を含む抽出画像の表示例を示している。

　図９に示す抽出画像において、形状領域１４１は、ユーザの手の形状を表している。

　形状抽出部４６は、マスク画像生成部４５からのマスク画像を構成する画素の値と、対応する、２値化部４２からの２値化肌画像を構成する画素の値とを、それぞれ乗算する。

　そして、形状抽出部４６は、その乗算結果が０でない２値化肌画像内の領域、すなわち、２値化肌画像内の顔領域１０１及び手領域１０２（図５）のうち、マスク画像内のマスク領域１２１（図８）と重なる部分を、形状領域１４１として抽出する。

　また、形状抽出部４６は、抽出した形状領域１４１に基づいて、ユーザの手の形状を認識し、その認識結果に応じた処理を行う。

　なお、図８に示されたマスク画像内のマスク領域１２１には、ユーザの手の他、ユーザが着用しているシャツが含まれている。

　しかしながら、２値化肌画像内の顔領域１０１及び手領域１０２には、ユーザが着用しているシャツは含まれないため、形状抽出部４６では、シャツの形状を表す領域を抽出することなく、手の形状のみを表す形状領域１４１を正確に抽出することができる。

[形状抽出処理の動作説明]
　次に、情報処理システム１が、ユーザの手の形状等を抽出する形状抽出処理の詳細を説明する。

　図１０は、形状抽出処理を説明するためのフローチャートである。なお、この形状抽出処理は、情報処理システム１の電源がオンされたときから繰り返し実行される。

　以下、ユーザが、カメラ２２の前に存在するときに行われた形状抽出処理について説明する。

　ステップＳ１において、制御部４１は、発光装置２３のLED２３aを制御し、第１の波長の光の発光を開始させる。なお、制御部４１は、LED２３bが発光している場合には、LED２３bの発光を停止した上で、LED２３aの発光を開始させる。

　ステップＳ２において、カメラ２２は、第１の波長の光が照射されているユーザを撮像し、その結果得られる第１の撮像画像を、情報処理装置２１に供給する。

　ステップＳ３において、制御部４１は、発光装置２３のLED２３aを制御し、第１の波長の光の発光を停止させ、発光装置２３のLED２３bを制御し、第２の波長の光の発光を開始させる。

　ステップＳ４において、カメラ２２は、第２の波長の光が照射されているユーザを撮像し、その結果得られる第２の撮像画像を、情報処理装置２１に供給する。

　ステップＳ５において、２値化部４２は、カメラ２２から供給される第１の撮像画像と第２の撮像画像との対応する画素の輝度値どうしの差分に基づいて、図５に示したような２値化肌画像を生成し、肌抽出部４３及び形状抽出部４６に供給する。

　ステップＳ６において、肌抽出部４３は、２値化部４２から供給される２値化肌画像に基づいて、カメラ２２からの第１の撮像画像から、２値化肌画像内の肌領域に対応する領域（ユーザの肌部分が表示された領域）を抽出する。

　そして、肌抽出部４３は、抽出した領域を含む肌画像を生成し、閾値決定部４４に供給する。

　ステップＳ７において、閾値決定部４４は、肌抽出部４３からの肌画像を構成する画素の輝度値に基づいて、図７に示したような肌画像のヒストグラムを作成する。

　ステップＳ８において、閾値決定部４４は、作成した肌画像のヒストグラムに基づいて、画素数が極小となるときの輝度値を下限閾値Th_Lに決定するとともに、最大の輝度値を上限閾値Th_Hに決定する。

　そして、閾値決定部４４は、決定した下限閾値Th_L及び上限閾値Th_Hを、マスク閾値として、マスク画像生成部４５に供給する。

　ステップＳ９において、マスク画像生成部４５は、閾値決定部４４からのマスク閾値（下限閾値Th_L及び上限閾値Th_H）に基づいて、カメラ２２からの第１の撮像画像を２値化して、図８に示したようなマスク画像を生成し、形状抽出部４６に供給する。

　ステップＳ１０において、形状抽出部４６は、マスク画像生成部４５からのマスク画像に基づいて、２値化部４２からの２値化肌画像から、マスク画像内のマスク領域に対応する領域として、例えばユーザの手の形状を表す抽出領域を抽出する。

　そして、形状抽出部４６は、抽出した抽出領域により手の形状を認識し、その認識結果に応じた処理を行い、その処理結果を後段に出力する。

　以上で形状抽出処理は終了される。

　以上説明したように、形状抽出処理では、マスク閾値に基づいて、１台のカメラ２２により撮像された第１の撮像画像からマスク画像を生成し、生成したマスク画像に基づいて、２値化肌画像から、ユーザの手の形状を抽出するようにした。

　したがって、例えば、複数のカメラにより撮像された複数の撮像画像に基づいて、カメラとユーザの手等との距離を表す距離画像を生成し、その距離画像をマスク画像として用いて、ユーザの手の形状を抽出する場合と比較して、マスク画像を生成するために要する計算量を少なくすることができるとともに、より少ない部品数で、ユーザの手の形状等を抽出することが可能となる。

　また、形状抽出処理では、カメラ２２からユーザの顔までの距離と、カメラ２２から手までの距離の違いに基づいて、肌部分として、顔の肌部分が含まれずに、手の肌部分のみが含まれるマスク領域１２１と、非マスク領域からなるマスク画像を生成するようにした。

　このため、２値化肌画像において、抽出すべき手を含む手領域１０２と、手以外の肌部分である顔を含む顔領域１０１が重なっている場合でも、マスク領域１２１には、肌部分として、顔の肌部分は含まれずに手の肌部分のみが含まれるため、２値化肌画像から、手領域１０２のみを抽出することができる。

　よって、正確に、ユーザの手の形状を抽出することが可能となる。

　さらに、形状抽出処理では、LED２３a及びLED２３bから、人間には見ることができない不可視な近赤外線（の光）を発光させるようにした。

　したがって、ユーザは、LED２３a及びLED２３bから発光される光を視認することができないため、LED２３a及びLED２３bから発光される光が眩しいことにより、ユーザに不愉快な思いをさせることがない。

　また、情報処理システム１の発光装置２３において、LED２３a及びLED２３bの前面に拡散板２３cを設けるようにした。

　このため、LED２３a及び２３bにより発光される不可視光が均一に拡散されるため、光量によるむらのない均一な光が被写体に照射される。

　これにより、被写体に照射される不可視光の反射光が、光量によるむらのない均一な光としてカメラ２２により受光されるため、カメラ２２において、光量によるむらのない第１及び第２の撮像画像を得ることができる。

　したがって、情報処理システム１では、手の形状等を抽出するために、光量によるむらのない第１及び第２の撮像画像を用いるため、例えば、光量によるむらのある第１及び第２の撮像画像を用いる場合と比較して、より正確に手の形状等を抽出することが可能となる。

　なお、情報処理システム１では、ユーザが手の形状を変化させる毎に、変化後の手の形状を認識することができるように、例えば、形状抽出処理を開始したときから80[ms]程度で手の形状を抽出できるように構成することが望ましい。

　より好適には、例えば、形状抽出処理を開始したときから80[ms]以内に手の形状を抽出するように構成することが望ましい。これは、手の形状を抽出するための処理時間が80[ms]以内であれば、ユーザが操作をしたときにストレスを殆ど感じないことが、予め行なった実験等によりわかっていることによる。

　本願発明では、上述したように、例えば、差分L1-L2を算出して正規化したものを、閾値と比較するという非常に単純な処理で手の形状を抽出するようにしているため、比較的安価で低速なCPU（Central Processing Unit）を用いた場合でも、80[ms]以内の処理時間を容易に実現できる。

　これに対して、従来のパターンマッチング方法を用いて肌を検出する場合には、予め学習された複数の形状画像を、それぞれ、撮像画像上の複数の領域と比較するという非常に複雑な処理を行なう必要があるため、高価で高速なCPUを用いたとしても、処理時間を80[ms]以内に収めることは困難となっている。

　このように、本願発明によれば、比較的安価で低速なCPUを用いた場合でも、80[ms]以内の処理時間を容易に実現できるので、製造コストを抑えることができるとともに、ユーザにストレスを感じさせないで、手の形状を抽出する処理等を迅速に行なうことが可能となる。

　以上説明した本実施の形態では、例えば、肌領域として顔６１と手６２とが重なっている場合であっても、手６２の形状を正確に抽出できることを説明した。しかし、例えば、ユーザが半袖のシャツ等を着用している場合、ユーザの顔６１と手６２の他、腕等が重なっている場合も考えられる。

　すなわち、例えば、肌抽出部４３により、図１１に示されるような、顔６１及び手６２の他、腕６３が表示された肌画像が抽出された場合には、閾値決定部４４は、図１２に示されるようなヒストグラムを生成する。

　次に、図１２は、図１１に示されるような肌画像に基づいて生成されるヒストグラムの一例を示している。

　図１１に示される肌画像に表示された顔６１、手６２及び腕６３において、発光装置２３から手６２までの距離が１番目に近く（短く）なっており、発光装置２３から腕６３までの距離が２番目に近くなっており、発光装置２３から顔６１までの距離が３番目に近くなっている。

　したがって、図１１に示される肌画像のヒストグラムは、図１２の最も上側に示される（実線で示される）ように、輝度値０から輝度値７５まで画素が、ユーザの顔６１に対応する画素であり、輝度値７６から輝度値１５０まで画素が、ユーザの腕６３に対応する画素であり、輝度値１５１から輝度値２５０の画素が、ユーザの手６２に対応する画素となっている。

　例えば、閾値決定部４４は、図１２に示されるヒストグラム（実線で示される）を表わす関数y=g(x)に基づいて、下限閾値Th_Lを決定する。

　ところで、図１２に示されるヒストグラムでは、顔６１と手６２との間に腕６３があるため、腕６３に対応する輝度値７６乃至１５０におけるヒストグラムが平坦となる。このため、図７に示されるヒストグラムのように、顔６１と手６２とを区別するような明確な極小値（図７でいう輝度値５５）が存在しない。このため、図７を参照して説明した場合と同様にして、下限閾値Th_Lを決定することができない。

　そこで、閾値決定部４４は、生成するヒストグラムに基づいて、そのヒストグラムの形状を判別し、判別したヒストグラムの形状に応じて、異なる方法（例えば、図７で説明した方法や、図１２を参照して説明する方法等）で下限閾値Th_L等を決定するようにしている。

　以下、閾値決定部４４が、図１２に示されるヒストグラムに基づいて、例えば下限閾値Th_L等を決定する場合について説明する。

　ここで、本発明者が行なった実験によれば、顔６１に対応する輝度値と、腕６３に対応する輝度値との境界を表す輝度値（いまの場合、値７５付近の輝度値）、及び腕６３に対応する輝度値と、手６２に対応する輝度値との境界を表す輝度値（いまの場合、値１５０付近の輝度値）は、関数g(x)の変極点、すなわち１次導関数g'(x)が極大値又は極小値となるときのxとなっていることがわかっている。

　したがって、例えば、閾値決定部４４は、生成した関数g(x)を１回微分して１次導関数g'(x)を生成する。閾値決定部４４は、１次導関数g'(x)が極大値又は極小値であるときのx=x0、すなわち、関数g'(x)が正から負、又は負から正に変化するときのx=x0を算出する。

　また、閾値決定部４４は、例えば、関数g(x)が極大値となるときの２つのx1及びx2(x1<x2)を算出する（例えば、x1=53,x2=181）。そして、閾値決定部４４は、１次導関数g'(x)が極大値又は極小値であるときのx=x0のうち、x=x2よりも小さなx=x0であって、x=x2に最も近い値（例えば、x2-x0が最も小さくなるときのx0）（いまの場合、輝度値１５０）を、下限閾値Th_Lに決定する。

　さらに、例えば、閾値決定部４４は、例えば、上限閾値Th_Hを、図１２に示されるヒストグラムにおける輝度値の最大値（いまの場合、輝度値２５０）に決定する。

　このように決定した下限閾値Th_L及び上限閾値Th_Hは、手６２の形状を抽出する際に用いるマスク画像を生成するために用いられることとなる。

　なお、閾値決定部４４は、１次導関数g'(x)が極大値又は極小値であるときのx=x0のうち、x=x1よりも大きなx=x0であって、x=x1に最も近い値（例えば、x0-x1が最も小さくなるときのx0）（いまの場合、輝度値７５）を、下限閾値Th_Lに決定し、上限閾値Th_Hを、図１２に示されるヒストグラムにおける輝度値の最大値（いまの場合、輝度値２５０）に決定するようにしてもよい。

　このように決定した下限閾値Th_L及び上限閾値Th_Hは、手６２及び腕６３により形成される形状を抽出する際に用いるマスク画像を生成するために用いられることとなる。

　なお、例えば、閾値決定部４４は、腕６３の形状を抽出する際に用いるマスク画像を生成するための下限閾値Th_L及び上限閾値Th_Hを決定する場合には、下限閾値Th_Lを輝度値７５に、上限閾値Th_Hを輝度値１５０にそれぞれ決定することとなる。

　図１１及び図１２を参照して説明したようにして、下限閾値Th_L及び上限閾値Th_Hを決定するようにすれば、例えば、顔６１、手６２及び腕６３それぞれの一部分が重なっていたとしても、例えば、手６２の形状等を正確に抽出することができる。

　ところで、閾値決定部４４は、１次導関数g'(x)が極大値又は極小値であるときのx=x0を算出する場合、１次導関数g'(x)を微分して、２次導関数g''(x)を算出し、２次導関数g''(x)=0となるときの点xを、x=x0として算出するようにできる。これは、２次導関数g''(x)=0となるときの点xは、１次導関数g'(x)が極大値又は極小値であるときのx=x0、すなわち関数g(x)の変極点と一致することによる。

　この場合、閾値決定部４４は、２次導関数g''(x)=0となるときの変極点x=x0を算出するようにしたので、１次導関数g'(x)に基づいてx=x0を算出する場合と比較して、より容易にx=x0を算出できるようになる。

　また、例えば、肌抽出部４３が、抽出した肌画像を、形状抽出部４６に供給するようにすれば、形状抽出部４６は、肌抽出部４３からの肌画像から、抽出した形状領域に対応する対応領域を検出し、検出した対応領域を構成する画素の輝度値の分布を表すものとして、例えば、対応領域のヒストグラムに基づいて、対応領域に表示されているもののうち、発光装置２３に最も近い位置に存在するものに対応する領域のみを抽出することができる。

　すなわち、例えば、肌抽出部４３が、図１３に示されるような肌画像を抽出した場合には、形状抽出部４６は、手６２の領域のうち、人差し指の指先に対応する領域のみを抽出することができる。なお、図１３では、手６２の人差し指の指先が、発光装置２３に最も近い位置に存在している。

　次に、図１４は、対応領域のヒストグラムの一例を示している。

　なお、図１４の最も上側に示されるヒストグラム（実線で示す）では、例えば手６２が表示されている対応領域を構成する画素の輝度値のみについてのヒストグラムを示している。それ以外は、図１２と同様である。

　例えば、肌抽出部４３は、２値化部４２からの２値化肌画像、及びカメラ２２からの第１の撮像画像に基づいて、図１３に示されたような肌画像を生成し、閾値決定部４４の他、形状抽出部４６に供給する。そして、形状抽出部４６は、肌抽出部４３からの肌画像から、抽出した形状領域に対応する対応領域を検出し、検出した対応領域を構成する画素の輝度値に基づいて、図１４に示されるようなヒストグラムを生成する。形状抽出部４６は、生成したヒストグラムを構成する輝度値のうち、輝度値が高くなっている範囲を、人差し指の指先を表す先端領域として、肌抽出部４３からの肌画像（の対応領域）から抽出することができる。

　いまの場合、ユーザの肌の各部位のうち、発光装置２３と人指し指の指先との距離が最も近いものとなっている。このため、図１４に示されるヒストグラムでは、人差し指の指先に対応する輝度値が最も高いものとなっている。

　なお、人指し指の指先部分の面積は、比較的小さいものとなっている。したがって、図１４のヒストグラムにおいて対応する部分は、図１２の腕６３に対応する部分と同様に、極値を有さずに平坦なものとなっている。

　例えば、形状抽出部４６は、ヒストグラムを構成する複数の輝度値のうち、輝度値が大きい上位ｎ[%]（例えば、n=10）の輝度値それぞれに対応する画素により構成される領域を、ユーザの人差し指の指先（先端）が表示されている先端領域として、肌抽出部４３からの肌画像から抽出する。なお、n[%]は、予め行なわれる実験等により、抽出する部位等に応じて決定されているものとする。

　そして、形状抽出部４６は、抽出した先端領域（の形状等）に応じて、対応する処理を行なう。

　ところで、発光装置２３からユーザの人差し指の指先までの相対的な距離d1と、例えば、発光装置２３からユーザの人差し指の付け根部分までの相対的な距離d2との比d2/d1は、発光装置２３とユーザの手との距離が近い程に大きくなる。

　すなわち、発光装置２３とユーザの手との距離が近い程、距離d1と距離d2との差は相対的に大きなものとなる。このため、発光装置２３とユーザの手との距離が比較的近い場合には、発光装置２３とユーザの手との距離が遠い場合と比較して、例えば、ユーザの人差し指の指先における輝度値と、ユーザの人差し指の付け根部分における輝度値とは大きく異なる、つまり、距離による輝度値の変化が大きいものとなる。

　このように、距離による輝度値の変化が大きくなる程に、図１３に示されるように、人差し指の指先部分における画素は少ないものの、その画素の輝度値が、人差し指の付け根部分における画素の輝度値等と比較して十分に大きいものとなる（例えば、上位n[%]に入る輝度値となる）ヒストグラムが得られるので、比較的正確に、ユーザの人差し指の指先部分を抽出できる。

　なお、上述の説明では、形状抽出部４６は、肌抽出部４３からの肌画像から、抽出した形状領域に対応する対応領域を検出するようにしたが、対応領域を検出する画像の対象は、これに限定されない。

　すなわち、例えば、形状抽出部４６には、カメラ２２から第１の撮像画像が供給されるようにしておき、その第１の撮像画像を対象として、対応領域を検出するようにしてもよいし、その他、例えば、第２の撮像画像を対象とするようにしてよい。つまり、形状抽出部４６は、第１又は第２の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像であれば、どのような画像を対象としてもよい。

　また、上述の説明では、肌抽出部４３が、抽出した肌画像を、形状抽出部４６に供給するようにしたが、形状抽出部４６が、抽出した形状領域を、肌抽出部４３に供給するようにして、肌抽出部４３が、抽出した肌画像から、形状抽出部４６からの形状領域に対応する対応領域を検出するようにして、対応領域に表示されているもののうち、発光装置２３に最も近い位置に存在するものに対応する領域のみを抽出するようにしてもよい。

　さらに、例えば、閾値決定部４４において、肌抽出部４３からの肌画像に基づいて生成したヒストグラムが、図１４に示されるように、人差し指の指先に対応する輝度値が明確に現れている（例えば、図１４に示されるように、人差し指の指先に対応するヒストグラムの輝度値が平坦となっている）場合には、上位n[%]の輝度値に対応する領域を、マスク領域とするためのマスク閾値を決定できる。

　具体的には、例えば、閾値決定部４４は、生成したヒストグラムが、図１４に示されるようなヒストグラム（特に、輝度値が高い部分）となっている場合には、上位n[%]に含まれる複数の輝度値のうち、最小の輝度値を、下限閾値Th_Lに決定し、ヒストグラムを構成する複数の輝度値のうちの最大値を、上限閾値Th_Hに決定する。この場合、形状抽出部４６では、２値化部４２からの２値化肌画像から、ユーザの肌領域のうち、発光装置２３の最も近くに存在する人差し指の指先部分の形状が抽出されることとなる。

　次に、情報処理システム１は、例えば、発光装置２３に近い程にユーザの肌領域の輝度値が大きくなり、発光装置２３から遠い程に輝度値が小さくなることを利用して、ユーザの手の発光装置方向の動き等を認識するようにして、対応する処理を行なうことができる。
　例えばユーザの手の左右上下の動き（動きに応じて変化する手の位置(x,y)）に連動させて、表示装置上のポインタをxy方向に移動させて、画面上の複数のコンテンツ等の中からポインタが移動された先の１つのコンテンツを選択した後、ユーザの手の前後方向すなわち発光装置２３方向(z方向）の動きに連動させて、いわゆるマウスのクリック操作すなわち決定操作を行なうことができる。しかし手をz方向に動かした場合、xy方向にも動いてしまい、所望のコンテンツを選択できないという問題が生じるが、例えば以下の方法で解決が可能である。

　すなわち、例えば、形状抽出部４６が、カメラ２２の撮像により得られた第１の撮像画像から、抽出した形状領域（例えば、手の形状を表す領域）に対応する対応領域（例えば、手が表示されている領域）を抽出する。そして、形状抽出部４６は、抽出した対応領域を構成する画素の輝度値に基づいて、手の位置を検出する。なお、形状抽出部４６は、対応領域を抽出する対象として、第１の撮像画像の他、第２の撮像画像を採用できる。すなわち、形状抽出部４６は、第１又は第２の撮像画像上に表示されている被写体と同一の被写体が同一の位置に表示された表示画像（第１及び第２の撮像画像を含む）を対象として、対応領域を抽出することができる。

　次に、図１５を参照して、形状抽出部４６が行なう座標検出処理について説明する。

　ステップＳ２１において、情報処理装置２１の制御部４１乃至形状抽出部４６、カメラ２２、及び発光装置２３は、図１０を参照して説明した形状抽出処理を行う。これにより、形状抽出部４６は、マスク画像生成部４５からのマスク画像に基づいて、２値化部４２からの２値化肌画像から、形状領域を抽出する。

　ステップＳ２２において、形状抽出部４６は、抽出した形状領域に基づいて、座標（x,y）_tを検出する。具体的には、例えば、形状抽出部４６は、抽出した形状領域の重心（x,y）を、座標（x,y）_tとして算出する。

　ステップＳ２３において、形状抽出部４６は、カメラ２２からの第１の撮像画像上の全領域のうち、抽出した形状領域に対応する対応領域（例えば、手が表示された領域）を検出する。なお、形状抽出部４６には、カメラ２２から、第１の撮像画像が供給されるものとする。

　形状抽出部４６は、検出した対応領域を構成する画素の輝度値に基づいて、その対応領域を構成する画素の輝度値の平均値（平均輝度値）Y_tを算出する。

　ステップＳ２４において、形状抽出部４６は、算出した座標（x,y）_t及び平均輝度値Y_tを、算出したt番目の順序に対応付けて、内蔵するメモリに記憶させる。

　ステップＳ２５において、形状抽出部４６は、内蔵するメモリに記憶されている平均輝度値Y₁乃至Y_t-1のうち、前回のステップＳ２４で記憶した平均輝度値Y_t-1を読み出す。なお、内蔵するメモリにまだ平均輝度値Y_t-1、つまり、Y₁が記憶されていない場合、形状抽出部４６は、ステップＳ２５をスキップして処理をステップＳ２６に進める。

　ステップＳ２５において、形状抽出部４６は、算出した平均輝度値Y_tの大小、すなわち、例えば、算出した平均輝度値Y_tから、内蔵するメモリにより読み出した平均輝度値Y_t-1を差し引いて得られる差分Y_t-Y_t-1の絶対値が所定の閾値未満であるか否かに基づいて、発光装置２３から被写体までの相対的な距離が大きく変化したか否かを判定する。

　なお、形状抽出部４６は、差分Y_t-Y_t-1が正であるか否かに基づいて、発光装置２３から被写体までの相対的な距離が近くなるように変化したか、遠くなるように変化したかについて判定するようにすることもできる。

　ステップＳ２５において、形状抽出部４６は、発光装置２３から被写体までの相対的な距離が大きく変化していないと判定した場合、処理をステップＳ２６に進める。ステップＳ２６では、形状抽出部４６は、算出した座標(x,y)_tに基づいて、図示せぬ表示装置の表示を制御する。具体的には、例えば、形状抽出部４６は、表示装置の画面上に表示されたポインタを、算出した座標(x,y)_tに対応する位置に移動させる。

　ステップＳ２６の処理の終了後、処理はステップＳ２１に戻り、それ以降同様の処理が行われる。

　また、ステップＳ２５において、形状抽出部４６は、発光装置２３から被写体までの相対的な距離が大きく変化したと判定した場合、処理をステップＳ２７に進める。

　ステップＳ２７において、形状抽出部４６は、内蔵するメモリに記憶されている座標（x,y）_t-kとして、例えば、座標（x,y）_t-5に対応する、図示せぬ表示装置の画面上の位置において、いわゆるクリック動作が行なわれたものとして、そのクリック動作に基づく処理を行ない、処理はステップＳ２１に戻り、それ以降同様の処理が行なわれる。

　なお、この座標検出処理は、情報処理システム１の電源がオフされたとき等に終了される。

　以上説明したように、座標検出処理では、形状抽出部４６が、平均輝度値Y_tに基づいて、発光装置２３から被写体までの相対的な距離が大きく変化したか否かを判定するようにしたので、ユーザによるクリック動作等のジェスチャについても認識することが可能となる。

　また、座標検出処理では、ユーザによるクリック動作が行われたと判定した場合、ステップＳ２７において、形状抽出部４６は、例えば座標（x,y）_t-5に対応する、図示せぬ表示装置の画面上の位置において、クリック動作が行なわれたものとして、クリック動作に基づく処理を行なうようにした。

　したがって、例えば、カメラ２２に対して、ユーザが、クリック動作により自身の手等を近づけた場合、座標（x,y）_tのうち、x又はyの少なくとも一方が変化してしまったときであっても、変化前のx及びyに基づくクリック動作が行なわれたものとして扱われるため、形状抽出部４６により算出された座標（x,y）_tをそのまま用いる場合と比較して、ユーザによるクリック動作をより正確に認識することが可能となる。

　なお、座標検出処理では、形状領域として、手の形状を表す領域の他、手と腕とにより形成される形状を表す領域を採用するようにして、上述した処理を行なうようにしてもよい。

　また、座標検出処理では、形状抽出部４６が、形状領域として抽出された手の形状のうち、人差し指の指先（先端）部分のみを、図１３及び図１４を参照して説明したように抽出し、抽出した指先部分が表示された領域を構成する画素の輝度値についての平均輝度値Y_tに基づいて、発光装置２３と指先部分との相対的な距離が大きく変化したか否かを判定するようにしてもよい。

　さらに、座標検出処理では、平均輝度値Y_tを用いるようにしたので、形状抽出部４６により抽出される、形状領域に対応する領域（例えば、手６２が表示されている領域）がどのように変化しても、必ず平均輝度値Y_tを算出することができる。

　このため、例えば、発光装置２３が存在する方向に対する、例えば手６２の動き（例えば、クリック動作等）を正確に抽出することが可能となる。

　なお、ステップＳ２３では、形状抽出部４６は、抽出した対応領域を構成する画素の輝度値に基づいて、その対応領域を構成する画素の輝度値の平均輝度値Y_tを算出するようにしたが、その他、例えば、平均輝度値Y_tに代えて、その対応領域を構成する画素の輝度値の最大値や最小値、分散値等を用いるように構成してもよい。

　また、例えば、ステップＳ２５において、形状抽出部４６は、差分Y_t-Y_t-1の絶対値が所定の閾値未満であるか否かに基づいて、発光装置２３から被写体までの相対的な距離が大きく変化したか否かを判定するようにしたが、その他、例えば、発光装置２３から所定の距離において得られる平均輝度値Y_sを予め用意しておき、算出された平均輝度値Y_tと、予め用意された平均輝度値Y_sとを比較することにより、発光装置２３から所定の距離の位置を基準位置として、その基準位置からどれだけ離れたかによって、発光装置２３からの相対的な距離の変化を検出するようにしてもよい。

＜２．変形例＞
　上述した形状抽出処理では、形状抽出処理が行われる毎に、ステップＳ６乃至ステップＳ８の処理により、肌画像を抽出し、抽出した肌画像のヒストグラムに基づいて、マスク閾値（下限閾値Th_L及び上限閾値Th_H）を決定するようにしたが、これに限定されない。

　すなわち、例えば、形状抽出処理では、形状抽出処理が行われた場合に、以前のステップＳ６乃至ステップＳ８において決定したマスク閾値をそのまま用いるようにしてもよい。

　この場合、ステップＳ６乃至ステップＳ８による処理を省略することができるため、形状抽出処理による手の形状等の抽出を迅速に行うことが可能となる。

　また、形状抽出処理を行う前に、ステップＳ６乃至ステップＳ８による処理と同様の処理を行うことにより、予めマスク閾値を決定するようにしておいても、形状抽出処理において、ステップＳ６乃至ステップＳ８による処理を省略することが可能となる。

　なお、形状抽出処理を行う前に、予めマスク閾値を決定する処理として、その他、例えば、ユーザの手領域の一部を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定することが可能である。

[マスク閾値の決定方法]
　次に、図１６を参照して、閾値決定部４４が、ユーザの手領域を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定するFFT（fast fourier transform、高速フーリエ変換）閾値決定処理を説明する。

　図１６は、870[nm]の光が照射されているユーザを撮像して得られる第１の撮像画像の一例を示している。

　なお、FFT閾値決定処理を行う場合、閾値決定部４４には、手を振っているユーザをカメラ２２により撮像して得られる、複数の第１の撮像画像が、カメラ２２から供給される。

　閾値決定部４４は、複数の第１の撮像画像に対して、FFT処理を行い、一定の周波数で動いている、第１の撮像画像内の手領域の一部を検出する。

　そして、閾値決定部４４は、検出した手領域の一部である矩形領域１６１を構成する画素の輝度値の平均値ave_Lを算出する。

　また、閾値決定部４４は、平均値ave_Lから調整値aを差し引いて得られる値ave_L-aを、下限閾値Th_Lに決定し、平均値ave_Lから調整値bを加算して得られる値ave_L+bを、上限閾値Th_Hに決定する。

　なお、調整値a及びｂは、平均値ave_Lを調整して、下限閾値Th_L及び上限閾値Th_Hを決定するために用いられる値である。

　この調整値a及びｂは、LED２３aや２３bから発光される光の強度（光量）、カメラ２２からユーザまでの距離、及びカメラ２２に用いられるCCD(charge coupled device image sensor)による光の感度に応じて算出される変数であるが、実際には、実験的に算出されることが多い。

[FFT閾値決定処理による動作説明]
　次に、閾値決定部４４が、ユーザの手領域を構成する画素の輝度値の平均値に基づいて、マスク閾値を決定するFFT閾値決定処理を説明する。

　図１７は、FFT閾値決定処理を説明するためのフローチャートである。このFFT閾値決定処理は、例えば、情報処理システムの電源をオンしたときであって、形状抽出処理が行われる前に開始される。

　ステップＳ３１において、制御部４１は、発光装置２３のLED２３aを制御し、第１の波長の光の発光を開始させる。

　ステップＳ３２において、制御部４１は、情報処理装置２１に設けられた図示せぬディスプレイやスピーカ等を制御して、ユーザに手を振る動作の開始を指示する。

　ステップＳ３３において、カメラ２２は、手を振る動作を行っているユーザを撮像し、その結果得られる複数の第１の撮像画像を、情報処理装置２１の閾値決定部４４に供給する。

　ステップＳ３４において、閾値決定部４４は、複数の第１の撮像画像に対して、FFT処理を行い、一定の周波数で動いている、第１の撮像画像内の手領域を検出する。

　ステップＳ３５において、閾値決定部４４は、検出した手領域の一部である矩形領域１６１を構成する画素の輝度値の平均値ave_Lを算出する。

　ステップＳ３６、閾値決定部４４は、平均値ave_Lから調整値aを差し引いて得られる値ave_L-aを、下限閾値Th_Lに決定し、平均値ave_Lから調整値bを加算して得られる値ave_L+bを、上限閾値Th_Hに決定する。

　以上でFFT閾値決定処理は終了される。FFT閾値決定処理では、上述したように、形状抽出処理が行われる前に、マスク閾値を決定するようにしたので、形状抽出処理において、ステップＳ６乃至ステップＳ８の処理を省略でき、より迅速に手の形状等を抽出することが可能となる。

　なお、FFT閾値決定処理では、複数の第１の撮像画像に対して、FFT処理を行うことにより、第１の撮像画像内の手領域を検出し、その手領域内の画素を構成する輝度値の平均値に基づいてマスク閾値（下限閾値Th_L及び上限閾値Th_H）を決定するようにしたが、これに限定されない。

　すなわち、例えば、FFT閾値決定処理では、手を振っているユーザをカメラ２２により撮像して得られる、複数の第２の撮像画像に対して、FFT処理を行うことにより、第２の撮像画像内の手領域を検出し、その手領域内の画素を構成する輝度値の平均値に基づいてマスク閾値を決定するようにしてもよい。

　本実施の形態において、２値化部４２は、第１の撮像画像から、ユーザの肌領域、及びユーザの肌領域以外の領域を抽出し、抽出した肌領域、及び肌領域以外の領域により構成される２値化肌画像を、肌抽出部４３及び形状抽出部４６に供給するようにしたが、これに限定されない。

　すなわち、例えば、２値化部４２は、第１の撮像画像から、ユーザの肌領域を抽出し、少なくとも、抽出した肌領域を含む２値化肌画像を、肌抽出部４３及び形状抽出部４６に供給するようにしてもよい。

　この場合、肌抽出部４３は、カメラ２２からの第１の撮像画像から、２値化部４２からの２値化肌画像に含まれる肌領域に対応する領域を抽出する。また、形状抽出部４６は、２値化部４２からの２値化肌画像に含まれる肌領域から、形状領域を抽出する。

　本実施の形態において、マスク画像生成部４５は、例えば第１の撮像画像から、マスク領域及び非マスク領域を検出し、検出したマスク領域及び非マスク領域により構成されるマスク画像を生成するようにしたが、これに限定されない。

　すなわち、例えば、マスク画像生成部４５は、２値化肌画像から形状領域を抽出するための抽出用領域として、マスク領域のみを検出し、少なくとも、検出したマスク領域を含むマスク画像を生成するようにしてもよい。この場合、形状抽出部４６では、２値化部４２からの２値化肌画像内の肌領域のうち、マスク画像内のマスク領域に対応する領域が、形状領域として抽出される。

　また、例えば、マスク画像生成部４５は、抽出用領域として、非マスク領域のみを検出し、少なくとも、検出した非マスク領域を含むマスク画像を生成するようにしてもよい。この場合、形状抽出部４６では、２値化部４２からの２値化肌画像内の肌領域のうち、マスク画像内の非マスク領域以外の領域に対応する領域が、形状領域として抽出される。

[カメラ２２、LED２３a、及びLED２３bの性能]
　次に、図１８及び図１９を参照して、本出願人が、実際に形状抽出処理及びFFT閾値決定処理を行ったときの、情報処理システム１を構成するカメラ２２や発光装置２３の性能を説明する。

　本出願人は、カメラ２２として、ソニー株式会社により製造されたビデオカメラを用いた。そのカメラ２２は、型番がXC-EI50であり、撮像素子として、1/2IT方式のCCDを用いている。

　また、有効画素数は横×縦が768×494画素であり、レンズマウントとしてCマウント、走査方式として、525本のラインをインタレースにより走査する方式を採用している。

　さらに、感度はF11(400[lx])であり、最低被写体深度は0.1[lx]である。また、カメラ２２の撮像により得られる撮像画像のS/N（signal to noise）比は60[dB]である。

　さらに、カメラ２２において、カメラ２２に予め設けられたシャッタボタン（ノーマルシャッタ）によるシャッタ速度は、1/100乃至1/10000[sec]であり、カメラ２２の外部に接続されたレリーズスイッチ（外部トリガシャッタ）によるシャッタ速度は、1/4乃至1/10000[sec]である。

　また、カメラ２２の外形寸法は、幅×高さ×奥行きが29×29×32[mm]であり、カメラ２２の重量は約50[g]である。さらに、カメラ２２の耐振動性は、70[G]である。

　また、カメラ２２は、400[nm]の可視光領域から、1000[nm]の近赤外領域までの帯域の範囲内の感度を有する。

　図１８は、カメラ２２の相対感度特性の一例を示している。

　なお、図１８において、横軸は、カメラ２２のレンズに入射される波長を示しており、縦軸は、波長に対応する相対感度を示している。

　また、本出願人は、発光装置２３として、図１９に示されるように、８個のLED２３a、及び８個のLED２３bを、互いに碁盤の目状に配置したものを用いた。

　本出願人により実際に用いられたLED２３aとしては、870[nm]の光を発光するものを用いるとともに、LED２３bとしては、950[nm]の光を発光するものを用いた。

　さらに、LED２３a及びLED２３bとして、直流順電流（絶対最大定格）が100[mA]であって、順電圧が1.6[V]であるものを用いた。

　本出願人は、上述した性能のカメラ２２や、図１９に示されたように配置されたLED２３a及びLED２３bを用いて、形状抽出処理やFFT閾値決定処理を実際に行い、上述した顕著な作用効果を確認することができた。

　本実施の形態では、マスク画像生成部４５は、閾値決定部４４からのマスク閾値に基づいて、カメラ２２からの第１の撮像画像から、マスク画像を生成するようにしたが、マスク画像の生成方法はこれに限定されない。

　すなわち、例えば、マスク画像生成部４５は、それぞれ異なる方向を撮像する複数のカメラにより得られる撮像画像に基づいて、カメラからユーザまでの距離を表す距離画像を生成するステレオ処理を行い、その結果得られる距離画像をマスク画像として採用することが可能である。

　この場合、形状抽出部４６は、マスク画像生成部４５から供給される距離画像内の、カメラから手までの距離を表す領域と、２値化部４２から供給される２値化肌画像内の顔領域１０１及び手領域１０２とが重なり合う部分を、ユーザの手の形状を表す形状領域１４１として抽出する。

　また、マスク画像として、距離画像を生成する方法としては、ステレオ処理の他、赤外線等を照射したときから、ユーザに反射して戻ってくるまでの時間に基づいてユーザまでの距離を算出するレーザレンジファインダ等を用いて、ユーザの距離画像を生成することが可能である。

　さらに、本実施の形態では、LED２３aにより発光される第１の波長を870[nm]とし、LED２３bにより発光される第２の波長を950[nm]としたが、波長の組合せはこれに限定されない。

　すなわち、波長の組合せとしては、第１の波長における反射率と、第２の波長における反射率との差分絶対値が、ユーザの肌以外のものについて得られる反射率の差分絶対値と比較して、充分に大きくなる組合せであれば、どのような組合せでもよい。具体的には、図３から明らかなように、例えば、870[nm]と950[nm]との組合せの他、800[nm]と950[nm]との組合せ、870[nm]と1000[nm]との組合せ、800[nm]と1000[nm]との組合せ等が可能である。

　なお、第１の波長λ１と第２の波長λ２との組合せは、例えば、以下に示す関係式を満たす組合せとすることが望ましい。
　λ１＜λ２
　６３０[nm]≦λ１≦１０００[nm]
　９００[nm]≦λ２≦１１００[nm]

　なお、LED２３aから発光される光として、可視光を用いる場合には、可視光カットフィルタ２２aに代えて、LED２３aから発光される可視光のみを通過させて、カメラ２２のレンズに入射させるフィルタが用いられる。これは、LED２３bについても同様のことがいえる。

　また、本実施の形態において、形状抽出処理では、LED２３a及びLED２３bを、それぞれ個別に発光させるようにしたが、LED２３a及びLED２３bを同時に発光させることにより、第１の撮像画像、及び第２の撮像画像を取得するように構成することが可能である。

　すなわち、例えば、カメラ２２に代えて、カメラ２２と同様の機能を有する２台のカメラを近接させた状態で設けるようにし、２台のカメラのうち、一方のカメラの前面には、第１の波長の光のみを通過させるフィルタを設けるとともに、他方のカメラの前面には、第２の波長の光のみを通過させるフィルタを設けるように構成する。

　この場合、LED２３a及びLED２３bを同時に発光させたとしても、一方のカメラには、第１の波長の光のみが入射されることから、一方のカメラにおいて、第１の撮像画像を得ることが可能となる。また、他方のカメラには、第２の波長の光のみが入射されることから、他方のカメラにおいて、第２の撮像画像を得ることが可能となる。

　本実施の形態において、LED２３aの個数及びLED２３bの個数は、それぞれ、２個であるとして説明したが、それらの個数は、これに限定されない。

　すなわち、LED２３aの個数及びLED２３bの個数は、ユーザ等の被写体に対して、肌検出に必要なパワー（強度）の光を一様に照射できるように、適宜決定される。

　また、本実施の形態において、情報処理装置２１に所定の処理を実行させるために、ユーザの身体の部位を表すオブジェクトとして、手（の形状）を変化させるようにしたが、オブジェクトは手の他、例えばユーザの足等を採用することが可能である。

　さらに、本実施の形態では、画素の輝度値に基づいて、上限閾値Th_H及び下限閾値Th_Lを決定したり、いわゆるクリック動作を検出するようにしたが、例えば、輝度値に代えて、画素のRGB(Red,Green,Blue)値のうちのR値、G値、又はB値のいずれか１つを用いるようにしてもよい。

　すなわち、輝度値に比例する値であれば、輝度値に代えて、どのような値を用いるようにしてもよい。

　本発明は、情報処理システム１の他、図２０に示されるように、カメラ２２と同様の機能を有するカメラ部２６１、LED２３aと同様の機能を有するLED部２６２、LED２３bと同様の機能を有するLED部２６３、及び構図決定用の画像（いわゆるスルー画）等を表示する表示部２６４により構成されているモバイル機器２４１（例えば、デジタルカメラや携帯電話機等）に適用することができる。

　モバイル機器２４１を用いる場合、LED部２６３及び２６４と、ユーザの手６２との相対的な距離が比較的近い状態で、ポスチャやジェスチャが行われることとなる。図１４を参照して上述したように、LED部２６３及び２６４と、ユーザの手６２との相対的な距離が近い程、距離による輝度値の変化が大きいものとなるので、モバイル機器２４１を用いる場合には、例えば、ユーザの人差し指の指先部分を、比較的正確に抽出できる。
　このような構成とすることにより、所謂タッチパネルのようにユーザの指が表示部に接触する必要がなく、表示部の近傍での指の動きでモバイル機器を操作できるので、表示部に指紋等の汚れが付くこともない。
　またここでは人差し指の指先部分を抽出する例を挙げたが、人差し指と親指の先端がLED部２６３及び２６４に共に近い場合に両者を同時に抽出して、操作に用いることも可能である。

　また、図２１に示されるように、表示部２６４が設けられた面とは反対の面に、カメラ部２６１、LED部２６２及び２６３が設けられているモバイル機器２４１'を用いる場合、ユーザは、図２２に示されるようにして、ポスチャやジェスチャを行なうこととなる。
　モバイル機器をこのような構成にすることにより、表示部がユーザの手や指で隠れることがなくなり、操作しやすくなる。特にモバイル機器では表示部が小さいので、表示部に表示された複数のコンテンツ等から、１つを選択する場合、指が表示部上にあると選択したいコンテンツが指で隠れてしまう。これに対して、本願発明では、ユーザから見て表示部と操作する指が重ならないようにするので、操作性を向上することができる。またこのような構成とすることにより、日光等の外光の影響も軽減することもできる。
　またこのようなモバイル機器では、通常のカメラが内蔵される場合が多い。このカメラとは別に肌検出用のカメラを設けても良いし、カメラは通常のカメラと共通として、肌検出を行なうモードの場合のみ、可視光カットフィルタを有効となる位置に移動させるようにしても良い。

　図２２に示される場合、モバイル機器２４１'のカメラ部２６１では、ユーザ２８１の手６２の他、ユーザ２８１以外の人物３０１の肌も撮像されることとなるが、上述した方法を用いることにより、人物３０１の肌部分と、ユーザ２８１の手６２とを区別して、手６２を正確に抽出することができる。

　また、本発明は、図２３に示されるように、ディスプレイ３２１aの上側に、情報処理システム１と同様の機能を有する認識処理部３４１が内蔵されているテレビジョン受像機３２１に適用することができる。

　この場合、ユーザ２８１は、テレビジョン受像機３２１のディスプレイ３２１aの前で、手６２等の形状を変化させたり、手６２等を移動させる動作を行なうことにより、テレビジョン受像機３２１のチャンネルや音量等を変更させる処理を、テレビジョン受像機３２１に実行させることができる。
　またこの場合、手６２をパーソナルコンピュータのマウスのように用いて操作することもできる。すなわちテレビジョン受像機の画面に表示された複数のコンテンツ等の選択肢の中から、マウスを移動させるように手を上下左右に動かして特定のものを選択し、更にマウスをクリックするように、手を前後（ユーザから見てテレビジョン受像機の方向）に動かすことで、決定の操作をすることができる。これらの操作は直感的にも理解しやすいものである。
　決定する際の手の前後の動きは、ユーザの肌の部位である手の輝度値の変化に基づいて検出することができる。
　すなわち、ユーザに第１の波長の光を照射したときの反射光を受光して得られる第１の画像と、第１の波長とは異なる第２の波長の光を照射したときの反射光を受光して得られる第２の画像に基づいて、ユーザの顔や手等の肌領域を抽出し、抽出した肌領域から肌領域を構成する画素の輝度値の分布に基づいてユーザの手を抽出する。更にユーザの手の領域の輝度の変化に基づいて、照射手段（発光装置２３）から手までの相対的な距離の変化を検出し、検出した相対的な距離の変化すなわち手の前後方向の動きに基づいて、決定の操作を実行する。
　これらの操作はパーソナルコンピュータに同様の機能を内蔵した場合にも適用できることは言うまでもない。

　ところで、上述した一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、いわゆる組み込み型のコンピュータ、又は、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、記録媒体からインストールされる。

[コンピュータの構成例]
　次に、図２４は、上述した一連の処理をプログラムにより実行するパーソナルコンピュータの構成例を示している。

　CPU３６１は、ROM（Read Only Memory）３６２、又は記憶部３６８に記憶されているプログラムに従って各種の処理を実行する。RAM（Random Access Memory）３６３には、CPU３６１が実行するプログラムやデータ等が適宜記憶される。これらのCPU３６１、ROM３６２、及びRAM３６３は、バス３６４により相互に接続されている。

　CPU３６１にはまた、バス３６４を介して入出力インタフェース３６５が接続されている。入出力インタフェース３６５には、キーボード、マウス、マイクロホン等よりなる入力部３６６、ディスプレイ、スピーカ等よりなる出力部３６７が接続されている。CPU３６１は、入力部３６６から入力される指令に対応して各種の処理を実行する。そして、CPU３６１は、処理の結果を出力部３６７に出力する。

　入出力インタフェース３６５に接続されている記憶部３６８は、例えばハードディスクからなり、CPU３６１が実行するプログラムや各種のデータを記憶する。通信部３６９は、インターネットやローカルエリアネットワーク等のネットワークを介して外部の装置と通信する。

　また、通信部３６９を介してプログラムを取得し、記憶部３６８に記憶してもよい。

　入出力インタフェース３６５に接続されているドライブ３７０は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等のリムーバブルメディア３７１が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータ等を取得する。取得されたプログラムやデータは、必要に応じて記憶部３６８に転送され、記憶される。

　コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを記録（記憶）する記録媒体は、図２４に示すように、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ（Mini-Disc）を含む）、もしくは半導体メモリ等よりなるパッケージメディアであるリムーバブルメディア３７１、又は、プログラムが一時的もしくは永続的に格納されるROM３６２や、記憶部３６８を構成するハードディスク等により構成される。記録媒体へのプログラムの記録は、必要に応じてルータ、モデム等のインタフェースである通信部３６９を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の通信媒体を利用して行われる。

　なお、本明細書において、上述した一連の処理を記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

　また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

　なお、本発明の実施の形態は、上述した本実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

　１　情報処理システム，　２１　情報処理装置，　２２　カメラ，　２３　発光装置，　４１　制御部，　４２　２値化部，　４３　肌抽出部，　４４　閾値決定部，　４５　マスク画像生成部，　４６　形状抽出部

Claims

　第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
　前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
　を含む情報処理装置。
　前記表示画像上の前記オブジェクト領域を構成する画素のうち、輝度値が大きい上位ｎパーセントに含まれる画素により構成されている領域を、前記オブジェクトの一部分が表示されている前記部分表示領域として検出する部分表示領域検出手段を
　さらに含む請求項１に記載の情報処理装置。
　前記距離変化検出手段は、前記表示画像上の前記オブジェクト領域のうちの前記部分表示領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記部分表示領域に表示されている、前記オブジェクトの一部分までの相対的な距離の変化を検出する
　請求項２に記載の情報処理装置。
　前記オブジェクト領域抽出手段は、
　　前記表示画像上の前記肌表示領域を構成する画素の輝度値の分布に基づいて、前記肌表示領域上の前記オブジェクトの形状を表す形状領域を検出し、
　　前記肌表示領域から、前記形状領域に対応する前記オブジェクト領域を抽出する
　請求項１に記載の情報処理装置。
　前記距離変化検出手段は、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値の平均値の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する
　請求項１に記載の情報処理装置。
　前記第１の波長λ１、及び前記第２の波長λ２は次式の関係を満たす
　λ１＜λ２
　６３０nm≦λ１≦１０００nm
　９００nm≦λ２≦１１００nm
　請求項１に記載の情報処理装置。
　ユーザとの距離の変化を検出する情報処理装置の情報処理方法において、
　前記情報処理装置は、
　　照射手段と、
　　取得手段と、
　　オブジェクト領域抽出手段と、
　　距離変化検出手段と
　を含み、
　前記照射手段が、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射し、
　前記取得手段が、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得し、
　前記オブジェクト領域抽出手段が、前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出し、
　前記距離変化検出手段が、前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する
　ステップを含む情報処理方法。
　第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
　前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
　して機能させるためのプログラム。
　第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１及び第２の画像に基づいて、前記ユーザの肌が表示されている肌表示領域を含む表示画像上の前記肌表示領域から、前記ユーザの身体の所定の肌の部位を表すオブジェクトが表示されているオブジェクト領域を抽出するオブジェクト領域抽出手段と、
　前記表示画像上の前記オブジェクト領域を構成する画素の輝度値、又は前記輝度値に基づき算出される値の一方の変化に応じて、前記照射手段から前記オブジェクトまでの相対的な距離の変化を検出する距離変化検出手段と
　前記照射手段から前記オブジェクトまでの相対的な距離の変化が検出されたことに対応して、所定の処理を実行する実行手段と
　を含む電子装置。
　ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置において、
　第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
　前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
　前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と
　を含み、
　前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
　情報処理装置。
　前記差異値算出手段は、前記第１の画像の輝度値から、前記第２の画像の輝度値を差し引いて得られる差分を正規化して得られる前記差異値を算出する
　請求項１０に記載の情報処理装置。
　前記差異値算出手段は、前記差異値として、前記第１の画像の輝度値と、前記第２の画像の輝度値との比を算出する
　請求項１０に記載の情報処理装置。
　ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置の情報処理方法において、
　前記情報処理装置は、
　　照射手段と、
　　取得手段と、
　　差異値算出手段と、
　　肌領域抽出手段と、
　　形状領域抽出手段と
　を含み、
　前記照射手段が、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射し、
　前記取得手段が、前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得し、
　前記差異値算出手段が、前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出し、
　前記肌領域抽出手段が、前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出し、
　前記形状領域抽出手段が、前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する
　ステップを含み、
　前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
　情報処理方法。
　ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する情報処理装置であって、第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段を含む情報処理装置を制御するコンピュータを、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
　前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
　前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と
　して機能させ、
　前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
　プログラム。
　ユーザの身体の所定の肌の部位を表すオブジェクトの形状を、前記ユーザを撮像して得られる撮像画像から抽出する電子装置において、
　第１の波長の光、及び前記第１の波長とは異なる第２の波長の光を前記ユーザに照射する照射手段と、
　前記ユーザに照射された前記第１の波長の光の反射光を受光して得られる第１の画像、及び前記ユーザに照射された前記第２の波長の光の反射光を受光して得られる第２の画像を取得する取得手段と、
　前記第１又は第２の画像を構成する画素毎に、前記第１の波長の光と前記第２の波長の光との反射率の差異を表す差異値を算出する差異値算出手段と、
　前記第１又は第２の画像を構成する画素毎に算出された前記差異値が所定の閾値以上であるか否かに基づいて、前記ユーザの肌を表す肌領域を抽出する肌領域抽出手段と、
　前記肌領域上の前記オブジェクトの形状を表す形状領域を抽出する形状領域抽出手段と、
　抽出された前記形状領域に応じた処理を実行する実行手段と
　を含み、
　前記形状領域抽出手段は、前記オブジェクトと、前記肌領域上の前記形状領域以外の領域に対応する前記ユーザの部位とが表示された表示画像上の前記肌領域に対応する領域を構成する画素の輝度値の分布に基づいて、前記形状領域を抽出する
　電子装置。