WO2005093656A1

WO2005093656A1 - 特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム

Info

Publication number: WO2005093656A1
Application number: PCT/JP2004/004040
Authority: WO
Inventors: Shoji Tanaka
Original assignee: Mitsubishi Denki Kabushiki Kaisha
Priority date: 2004-03-24
Filing date: 2004-03-24
Publication date: 2005-10-06
Also published as: CN1860501A

Abstract

　入力画像の明るさに影響されず、かつ計算能力の低い小規模ハードウェアによっても、短時間に姿勢を検出する。特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で２値化し、更に大きさが設定範囲内である部品を特定して２値画像を得るマッチング画像生成部３と、この特定して得られた２値画像と、所定のテンプレートとを照合して姿勢を検出するパターン・マッチング部４、とを備えた。

Description

明細書特定部分姿勢推定装置、特定部分姿勢推定方法及び特定部分姿勢推定プログラム技術分野

この発明は、携帯電話や電子手帳などの認識能力の低い八一ドウエアにより得られる画像によっても、またそのような装置に装備される簡易な画像処理回路によっても'容易に短時間に姿勢が推定可能な姿勢推定装置に関するものである。背景技術

例えば自動車等の運転監視をする場合、または部屋の入室や人物の特定等の認証において、人の顔をその姿勢も含めて抽出し、画像処理して監視、または認証に用いることが行なわれている。こうした監視または認証においては、後の画像処理に先立って、まず姿勢の検出が必要になる、あるいは姿勢検出が大切な事となる。

このような場合に従来は、例えば特許文献（特開平 7— 2 0 0 7 7 4 号公報）に示された図 1 4にその構成を示す姿勢抽出用の画像処理装置がある。図において画像処理装置 2 1は、入力画像から肌色を抽出する肌色抽出手段 2 2、その結果から目や口の候補となる領域を抽出するための 2値化手段 2 3と、 2値化手段の結果から目および口の領域を検出し、動画像からそれらを追跡する目 · 口領域検出 ·追跡手段 2 4で構成されている。

次に動作について説明する。

まず、動画像中から顔領域を特定するために、 3次元カラーヒストグラムなど用いて肌色抽出手段 2 2で肌色画素を検出し、 2値化手段 2 3 では肌色画素とそれ以外の画素で 2値化する。次に目 · 口領域検出 ·追跡手段 2 4で肌色領域内の穴領域を抽出し、目および口の候補領域とする。抽出した候補領域から、例えば顔領域に対する目の位置、口の位置のヒューリスティックスに基づき目および口位置を検出する。最後に検出した目および口位置から頭部の姿勢情報を抽出する。従来の姿勢抽出装置は上記のように構成されており、対象を撮影した画像を、肌色抽出し、更に領域検出，追跡して、最終的に姿勢検出するので、先ずビデオカメラで撮影される画像が撮影場所が変わると照明も含めて一定でなく、また良質な画質が得られるとは限らず、肌色の良好な検出が困難であるという課題がある。更に領域検出も含めて処理量が多く、大規模な回路を必要とするので、携帯電話に搭載する小規模の八一ドウエアでは、処理に時間がかかるという課題がある。

この発明は上記のような課題を解決するためになされたもので、ビデォカメラ等による入力画像の画質に影響されず、かつ計算能力の低い小規模のハードウェアによっても、短時間に姿勢を抽出する。

発明の開示

この発明に係る特定部分姿勢推定装置は、特定部分を推定した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化し、更に大きさが設定範囲内である部品を特定して 2値画像を得るマツチング画像生成部と、

この特定して得られた 2値画像と、所定のテンプレートとを照合して姿勢を検出するパターン 'マッチング部、とを備えた。また、マッチング画像生成部は、入力の画像をグレースケール画像に変換し、該グレ一スケール画像の輝度を、対象画素を座標中心として所定範囲内のある画素の輝度の平均値、または中央値をしきい値として 2 値化するようにしたことを特徴とする。また、パターン ·マッチング部は、予め複数の特定入力画像によりマツチング画像生成して、該生成した 2値化画像をテンプレー卜の要素としたことを特徴とする。また、パターン ·マッチング部は、テンプレートの各要素との照合を画素の論理積で得るようにしたことを特徴とする。また、パターン ·マッチング部は、マッチング画像生成部で得られる 2値画像から特定の値を持つ画素を求め、それらの画素の画像中における分布の状態から検出対象である特定部分の傾きを推定するようにしたことを特徴とする。この発明に係る特定部分姿勢推定方法は、特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化すること、

上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、設定範囲内の画像部品としてラベル付けすること、

上記削除後にラベル付けられた部品群からなる 2値化画像と、所定のテンプレートにある画像の輝度を照合すること、とを備えたことを特徴とする。また、 2値化は、先ず入力画像をグレースケール画像に変換し、該変換したグレースケール画像の輝度を、対象画素を座標中心として所定範囲内にある画素の輝度平均値と、画像中央値との内の 1つを 2値化しきい値として選んで、 2値化すること、としたことを特徴とする。また、照合は、 2値化画像とテンプレートの画像の、座標値で対応する各画素の輝度論理積で照合値を得ること、としたことを特徴とする。この発明に係る特定部分姿勢推定プログラムは、計算機が読取って実行可能であって、特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化すること、

上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、設定範囲内の画像部品としてラベル付けすることと、

上記削除後にラベル付けられた部品群からなる 2値化画像と、所定のテンプレートにある画像の輝度を照合すること、とを備えたプログラムであることを特徴とする。図面の簡単な説明

図 1は、この発明の実施の形態 1における特定部分姿勢推定装置の構成を示す図である。

図 2は、実施の形態 1における特定部分姿勢推定装置の動作を示すフロー図である。

図 3は、実施の形態 1におけるマッチング画像生成部が行なう 2値化動作を示すフロ一図である。

図 4は、実施の形態 1における 2値画像生成部のハードウェア内部構成を示す図である。図 5は、実施の形態 1における設定しきい値を得る範囲を説明する図である。

図 6は、実施の形態 1における設定しきい値の得方を説明する図である。

図 7は、実施の形態 1におけるマッチング画像生成部が行う 2値化動作を説明するための図である。

図 8は、実施の形態 1におけるマッチング部が行うマッチング動作のフロー図である。

図 9は、実施の形態 1におけるパターンマツチング部が行うマツチング動作を説明するための図である。

図 1 0は、実施の形態 1における他の特定部分姿勢推定装置の構成を示す図である。

図 1 1は、実施の形態 1における他のパターン ·マッチング部が行なうテンプレート作成動作を説明するための図である。

図 1 2は、実施の形態 2における特定部分姿勢推定装置の構成を示す図である。

図 1 3は、実施の形態 2におけるパターン 'マッチング部が行なう画素分布による姿勢抽出を説明するための図である。

図 1 4は、従来の画像処理装置による姿勢抽出のための構成を示す図である。発明を実施するための最良の形態実施の形態 1 .

図 1はこの発明の本実施の形態における特定部分姿勢推定装置の構成を示す図である。図において、特定部分姿勢推定装置 1は、ビデオカメラ等で撮影した映像信号をキヤプチヤするための映像キヤプチャ部 2、キヤプチャした映像に対してフィルタリング処理を施し、後述する姿勢パターンと照合するための画像を生成するためのマツチング画像生成部 3、マッチング画像生成部 3で生成した画像と、予め記憶した姿勢パターンと照合し、頭部等の部分姿勢を求めるパターン ·マッチング部 4で構成される。また内部は、映像キヤプチャ部 2でキヤプチヤしたカラー画像をグレースケール画像に変換するための色空間変換部 5、変換したグレースケール画像を 2値画像に変換するための 2値画像生成部 6、 2値画像生成部 6 で 2値化した画像から隣接画素を統合することにより領域を求め、目や口となり得る候補領域のみを抽出する部品候補抽出部 7、マッチング画像生成部 3で生成したマッチング画像と予め記憶した姿勢パターン画像と照合するためのマッチング部 8、マッチング部 8で用いるパターンを記憶するためのマッチング ·パターン D B 9で構成される。

次に図 2から図 9を用いて本発明の特定部分姿勢推定装置の動作を説明する。

図 2はその動作を説明するためのフローチヤ一トである。また図 3は、 2値画像生成部 6の動作を説明するためのフローチャートである。また図 4は、他の要素も同様であるが、 2値画像生成部 6のハードウェア内部構成を示す図であり、更に図 5と図 6は、マッチング画像生成部 3 で行う処理の流れを説明するための図である。図 7は、パターンマッチング部 4で行う照合処理を説明するための図である。図 8は、パターンマッチング部 4で行う照合処理の動作を示すフローチャートである。図 9は、パターンマッチング部 4の動作を説明するための図である。

2値画像生成部 6は、図 4に示すように、プロセッサ 6 1とメモリ 6

2と入出力ィン夕フェース 6 4と、図 3に示される動作を行わせる 2値化プログラム 63とで構成される。プロセッサ 6 1は、先ず入出力インタフエース 64を経由して得られるキヤプチャ画像をグレースケール化したダレ一スケール画像をメモリ 62に読み込む。そして読み込んだグレースケール画像に対して、 2値化プログラム 63に書かれたステップにより、後で説明するように図 2の S 1— 3で、輝度に応じて 2値化する。

まず、映像キヤプチャ部 2でビデオ信号をキヤプチヤし（ステップ S 1— 1) 、キヤプチヤしたカラー画像を色空間変換部 5によりグレースケ一ル画像に変換する（ステップ S 1— 2) 。

カラー画像からグレースケール画像への変換は、例えば次の（式 1 ) を用いて行う。

G (x,y) = 0.213 * R(x,y) + 0.7151 *G (x, y) + 0.0721 *B(x, y) (式 1)

ここで、 G (x, y) は座標値（x， y) における輝度値、 R、 G、 B (x, y) は座標値（x, y) におけるカラー画像の画素値である。カラー画像からグレースケール画像に変換する際の係数値は、上記以外の値を用いてもよい。

または、色空間変換部 5におけるカラー ·グレースケール変換を、次の（式 2) を用いて RGB値を正規化した後に、上記の（式 1) を用いて変換しても良い。

r(x,y) = R(x,y)/(R(x,y)IG(x,y)+B(x,y))

g(x,y) = G(x,y)/(R(x,y)+G(x,y)+B(x,y)) (式 2)

b(x,y) = B(x,y)/(R(x,y)+G(x,y)+B(x,y))

次に、 2値画像生成手段 6においてグレースケール画像を輝度に応じて 2値化する（ステップ S 1— 3) 。このとき、図 3に示す処理を行うことにより、入力された画像に適応して 2値画像を生成する。このときの 2値化基準となるしきい値は、図 5に示す所定範囲のウインドウ座標 3 1を設定し、その座標範囲内にある全画素、図 5の場合は 2 5画素の輝度平均値、あるいは中央値を求め、この値をしきい値とする。図 6に示す処理を行って、そして対象となる画素 3 2の輝度をしきい値と比較する。

こうして、入力画像を走査して、全ての画素に対して、ステップ S 2 _ 1からステップ S 2— 8の処理を繰り返し行うことにより画像を 2値化する。

即ち、これから判定を行おうとする画素の画素の明るさレベル値が、予め設定した閾値よりも低い画素はその画素値を 1に設定する（ステツプ S 2— 2、ステップ S 2— 7 ) 。もし、対象の画素の画素の明るさレベルが閾値よりも大きい場合、注目画素を中心とした K x K (上記のように図 5の場合は Κ = 5としている）の大きさのブロックを設定する（ステップ S 2 - 3 ) 。次に、設定したブロック内の輝度の平均値を求める（ステップ S 2— 4 ) 。そして、注目画素の画素値が次の（式 3 ) の条件を満たすかどうかを判定する（ステップ S 2— 5 ) 。

画素の明るさレベル >平均値一 C (式 3 )

ここで、 Cは予め設定する規定値である。

もし、（式 3 ) の条件を満たすのであれば画素値を 0に設定し（ステップ S 2— 6 ) 、そうでなければ画素値を 1に設定する（ステップ S 2 - 7 ) 。

以上のように、周囲の画素の状態に応じて 2値化処理を行うため、例えばビデオ力メラの画質劣化によりコントラストが低い画像に対しても所定座標範囲を絞り込むので、適応的にその範囲内の、例えば平均値より 2値化処理を行うことが可能となる。

ステップ S 2— 4において平均値を求めたが、例えばブロック内の画素値を並べ替えた時の中央値を求め、以下（式 4 ) の条件を用いてもよい。

画素値 >中央値一 C (式 4 )

また、ヒストグラム平均化法などのコントラスト強調処理を施した後に固定閾値を用いて 2値化するようにしてもよい。

以上の処理により、映像キヤプチャ部 2によりキヤプチヤしたカラー画像をグレースケールに変換すると、図 7の 1 0になり、その画像を 2 値化すると図 7の 1 1のようになる。

次に、部品候補抽出部 7において、 2値画像 1 1に対して同一 2値画素が上下左右斜に 4連結あるいは 8連結しているかをみて、関連し、かつ意味のある隣接画素を統合して領域を求めてこれを個々の領域として図 7の 1 l _ a、 1 1—b等のようにラベリングする（S 1— 4 ) 。更に個々の領域 1 1一 a等に領域の外接矩形の大きさが予め設定した範囲内に収まる領域のみを抽出する (ステップ S 1 - 5 ) 。即ち図 7の領域 l l _ aに対しては、推定対象外の大きさの領域であるとしてこれを除外する。

ここで、携帯電話や電子手帳における T V電話機能を利用することを考えた場合、ユーザは自分の顔を画角に収まりかつ大きく撮影するため、予め目の大きさあるいは口の大きさがどの程度になるかを予測することが可能である。よって前述の閾値処理は有効である。

こうしてステップ S 1 - 5で抽出した結果は図 7の 1 2のようになる以上で求めたマッチング画像 1 3を用いてパターンマッチング部 4では、頭部姿勢を推定する（ステップ S 1— 6 ) 。

図 8のパターンマッチング部 4が行うフローチャートに従って動作を説明する。このパターンマッチング部 4のハードウエア構成も図 4の構成と同様であるが、 2値化プログラム 6 3の代わりに図 8の動作を行わせるマッチング ·プログラムがある。

ここで、マッチングパターン D B 9には図 9の 1 4に示すテンプレートが格納されているとする。前述の通り、携帯電話や電子手帳で T V電話機能などを利用する際に人物の顔を撮影する場合、予め画角が想定できることから、顔の向きに応じた目及び口領域の状態が予め予測できる。マッチングパターン D B 9では、想定した頭部姿勢における目及び口領域の 2値のマスク画像を格納している。

S 3— 1で、入出力インタフェース経由でメモリに 2値化した図 9のマッチング画像 1 3の Pを読み込む。また S 3— 2でマッチングパターン D B 9のテンプレート 1 4から基準となる 1番目のマスク画像 T 1を読み込む。そして S 3— 3で、キヤプチャ画像 Pとマスク画像 T 1の読み込んだ y = 0ないし B， x = 0ないし Aの領域において、 P ( x , y ) の 2値化値と、 T l ( X , y ) の 2値化値とを、各座標値（x， y ) で論理演算する。そして座標（0， 0 ) から（A， B ) までその論理積を加算する。 S— 4でテンプレート 1 4に未だ試していないマスク画像が無くなるまでステップ S 3— 2と S 3— 3を繰返す。 S 3— 4で、全てのマスク画像における論理積加算が済むと、 S 3— 5においてステツプ 3— 4で最大加算値を示すマスク画像、この例では画像 1 5を選択する。

即ち、マッチング画像 1 3とテンプレートの各マスク画像との論理積を計算し、その結果得られる画像の画素 1 (マッチングした画像）の数を計算して加算し、最も数が多いものを選択することで、照合結果 1 5 を得ることができる。このように、 2値化によりパターン ·マッチングの検出がアナログ比較ではなくともよく、非常に簡単に行える。

以上のように、マッチングパターン D Bに格納したパターンの数だけの姿勢情報しか推定できないが、非常に処理が単純であることから、計算能力の低いハードウエアにおいても十分実時間で処理が可能である。図 1の構成においては、マッチングパターン D Bに規定のパターンを格納するようにしたが、最初にビデオ力メラから取得した画像を用いて、ユーザ個人のテンプレート画像を生成してもよい。

図 1 0は、マッチング ·パターンを映像キヤプチャ部 2の出力から作成する場合の特定部分姿勢抽出構成図である。図において、撮影した画像から、姿勢パターンのテンプレート画像を生成するためのマッチングパターン生成部 1 6を設けている。

次に動作を図 1 1を用いて説明する。図 1 1は、映像キヤプチャ部 2 により通常姿勢で撮影した画像を 2値化後、その画像を基にテンプレー卜画像を生成した結果を示した図である。

ここでは、映像キヤプチャ部 2で最初にキヤプチヤする画像を通常の姿勢（カメラに対して正面を向いた姿勢）と見なす、あるいは、ユーザに通常の姿勢で撮影を依頼し、通常姿勢の画像を取得する。

以上のようにして取得した画像をマッチング画像生成部 3により 2値化した画像 1 7をマッチングテンプレート生成部 1 6においてァフィン変換を用いて例えば、首を左右にかしげた画像、首を左右に振った画像、上下に振った画像を生成する。

ァフィン変換は、次式で示す行列で表現できる。

(式 _{5 )}

(式 5 ) で示したァフィン変換行列を、それぞれの姿勢に対応して用意し、 2値画像 1 7の画素値が 1の座標を次の（式 6 ) で変換し、変換後の座標に画素値 1をそれ以外を画素値 0とすることで図 1 1の 1 8に示す各姿勢に応じた画像を生成することができる。

なお、（式 6 ) では、元の座標を X , Yとし、変換後の座標を x， y としている。また、 2値画像 1 7は平面としている。

以上のようにマッチングパターン 1 8を生成後は、図 1の構成と同様の処理を行って姿勢を推定することが可能である。

なお、手間はかかるが、ユーザに例えば図 1 1の 1 8に示される各種の姿勢をとつてもらって、それを 2値化するようにしてもよい。そうすれば、ァフィン変換なしでテンプレートを生成できる。

以上のように短時間もしくは実時間頭部姿勢推定装置を構成することにより、ユーザの顔の特徴に適合したテンプレートを生成するため、マッチング精度が向上できる効果がある。

なお、以降の実施の形態においても、特定部分として頭部または顔の姿勢の推定について説明したが、特定部分としてはこれに限定されず、手、腕、足あるいは上半身等、他の部分であってもよい。実施の形態 2 .

以上の実施の形態 1では、マッチングパターンとマツチング画像とを照合することにより頭部姿勢を推定していたが、マッチング画像の画素値 1の画素の分布から頭部姿勢を推定するようにマッチング手段を変更した場合の形態を説明する。

図 1 2は本実施の形態における特定部分姿勢推定装置の構成を示した図である。図において、マッチング画像の画素分布を求め、その分布の状態により頭部姿勢を推定するための画素分布計測部 1 9を設けている次に動作を図 1 3を用いて説明する。図 1 3は、画素分布に応じて頭部姿勢を推定するためのマップを示したものである。

マッチング画像の画素値 1の画素が、マップ 2 0のどの領域に多く分布するか、各領域に入る画素数をカウントし、そのカウント数が多い領域に対応する頭部姿勢を推定結果とする。

このように、画素分布を用いれば、さらに処理を簡略化することが可能となり、従って、計算能力の低いハードウェアによっても、処理がさらに短縮できる効果がある。

上記実施の形態では、特定部分姿勢推定装置は八一ドウエアで構成されるとして説明したが、図 4で示すように実際にはプログラムを用意してプロセッサでこのプログラムを実行させる構成にできる。または図 2 、図 3、図 8のフローを表すステップで構成する方法としてもよい。産業上の利用可能性

以上のようにこの発明によれば、入力画像を所定範囲内の平均画像に基づいて 2値化して部品を特定するマッチング画像生成部と、この得られた 2値画像と所定のテンプレー卜とを照合して姿勢を検出するパターン ·マッチング部とを備えたので、規模を抑えて容易に部分姿勢を推定できる効果がある。

Claims

請求の範囲

1 . 特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化し、更に大きさが設定範囲内である部品を特定して 2値画像を得るマッチング画像生成部と、上記特定して得られた 2値画像と、所定のテンプレートと照合して姿勢を検出するパターン ·マッチング部、とを備えたことを特徴とする特定部分姿勢推定装置。

2 . マッチング画像生成部は、入力の画像をグレースケール画像に変換し、該グレースケール画像の輝度を、対象画素を座標中心として所定範囲内のある画素の輝度の平均値、または中央値をしきい値として 2値化するようにしたことを特徴とする請求項 1記載の特定部分姿勢推定装置。

3 . パターン ·マッチング部は、予め複数の特定入力画像によりマッチング画像生成して、該生成した 2値化画像をテンプレー卜の要素としたことを特徴とする請求項 1記載の特定部分姿勢推定装置。

4 . パターン 'マッチング部は、テンプレートの各要素との照合を画素の論理積で得るようにしたことを特徴とする請求項 1記載の特定部分姿勢推定装置。

5 . パターン 'マッチング部は、マッチング画像生成部で得られる 2値画像から特定の値を持つ画素を求め、それらの画素の画像中における分布の状態から検出対象である特定部分の傾きを推定するようにしたことを特徴とする請求項 1記載の特定部分姿勢推定装置。

6 . 特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化し、

上記 2値化して得られた 2値化画像から設定範囲外部分を削除して、設定範囲内の画像部品としてラベル付けし、

上記削除後にラベル付けられた部品群からなる 2値化画像と、所定のテンプレートにある画像の輝度を照合することを特徴とする特定部分姿勢推定方法。

7 . 2値化は、先ず入力画像をダレ一スケール画像に変換し

、該変換したグレースケール画像の輝度を、対象画素を座標中心として所定範囲内にある画素の輝度平均値と、画像中央値との内の 1つを 2値化しきい値として選んで、 2値化すること、としたことを特徴とする請求項 6記載の特定部分姿勢推定方法。

8 . 照合は、 2値化画像とテンプレートの画像の、座標値で対応する各画素の輝度論理積で照合値を得ること、としたことを特徴とする請求項 6記載の特定部分姿勢推定方法。

9 . 計算機が読取って実行可能であって、特定部分を抽出した入力画像の各画素を所定座標範囲内の画像値に基づいた設定しきい値で 2値化し、

上記削除後にラベル付けられた部品群からなる 2値化画像と、所定のテンプレートにある画像の輝度を照合するプログラムであることを特徴とする特定部分姿勢推定プログラム。