WO2007102537A1

WO2007102537A1 - 姿勢推定装置および方法

Info

Publication number: WO2007102537A1
Application number: PCT/JP2007/054422
Authority: WO
Inventors: Atsushi Nakazawa; Hidenori Tanaka; Haruo Takemura
Original assignee: Osaka University
Priority date: 2006-03-07
Filing date: 2007-03-07
Publication date: 2007-09-13

Abstract

　被検体のボリュームから３次元の細線化図形を抽出する。次に、細線化図形を、複数の要素に分割し、各要素をノードで表し、２つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶する。得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近いモデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定する。

Description

明細書

姿勢推定装置および方法

技術分野

[0001] 本発明は、映像データからの姿勢の推定に関する。

背景技術

[0002] モーションキヤプチヤシステムは、人体の位置をカメラ等で計測することで、人体の姿勢や動作を計測する装置である。人間の動作を実時間で計測するモーションキヤプチヤシステムは、人間型ロボットの遠隔操縦、コンピュータグラフィックスやゲーム（3 Dアニメーション）、医療分野などでの人間の行動原理やスポーツ動作の解析などの多くの分野で広く導入され、利用されていて、社会的ニーズが大きい。

[0003] モーションキヤプチヤシステムには、人体の表面に取り付けるマーカー等を必要とするものがある。マーカーには、光学式システムや磁気的システムが用いられている。しかし、人体の表面にマーカー等を付けるため、人体に対して大きな負担がかかり、人間の自然な動作を制限するという問題があった。また、専用のスーツの装着が必要なものもあるが、装着に手間がかかるという問題があった。

[0004] 一方、マーカー等を用いないで、複数のカメラから得られるシノレエツトにて得られた情報から人体の姿勢を復元するシステムも提案されている。しかし、 2次元画像を用レ、る手法では、自己遮蔽に弱いという問題があった。また、 3次元画像を用いる手法では、ボリュームと 3次元モデルとのマッチングを行う。ここで、人体は関節数が多く計算コストが高いという問題があり、また、姿勢推定において前フレームの結果が後フレームに大きく影響し不安定であるという問題がある。たとえば、 Chi-Wei Chuらのシステムでは、 4つのカメラからの画像を元に人体の姿勢を復元する。ここで、ボリュームを Isomap空間に投影し、体の各部の中心軸を取得して、関節モデルを生成している。 Isomap空間中ではボリューム内の任意の 2点について、元のユークリッド空間での測地線距離が距離として表される。よって元の点群データで屈曲した腕や脚が直線状となる。この性質を利用して Isomap空間中で月同体と他の部位を分割して体の各部位を求め、それらを元の空間に再投影することでボリュームデータの中心軸を得、関節モデルへと変換する。しかし、ボリュームデータの Isomap空間への変換に時間がか力るという問題や、点群の測地線距離を利用しているため、両手が触れて輪ができるような姿勢などに対応できないという問題があった。

非特許文献 1： Chi-Wei Chu, Odest Chadwicke Jenkins, Maja J Mataric, arkerless Kinematic Model and Motion Capture from Volume Sequences" (Proc. of CVPR 200 3， vol. 2, pp.475-482, 2003)

発明の開示

発明が解決しょうとする課題

[0005] 従来は、特殊なマーカや計測装置の装着が不要なビジョンベースの人体姿勢推定

(モーションキヤプチャ）手法において、人体部位同士の接合等によるトポロジ変化に対応できる手法はほとんど提案されていなかった。

本発明の目的は、マーカーを用いずに安定かつ高速に姿勢を推定することである課題を解決するための手段

[0006] 本発明に係る姿勢推定装置は、関節を有する被検体 (たとえば人体）のボリューム力 3次元の細線化図形を抽出する細線化手段と、抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジ力なる属性付きグラフデータを記憶するグラフ化手段と、被検体の複数の姿勢につレ、てのモデルグラフを記録したデータベースを記憶する記憶手段と、得られたグラフデータについて、前記データベースを参照してグラフマッチングを行って、最も近いモデルグラフを基に前記細線化図形の各要素の部位を判定して姿勢を推定する推定手段とからなる。

[0007] たとえば、前記グラフ化手段において、前記細線化図形を、その細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とする。枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含む。

[0008] 好ましくは、さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶する関節決定手段を備える。

[0009] 本発明に係る姿勢推定方法では、 (a)関節を有する被検体のボリュームから 3次元の細線化図形を抽出し、（b)抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶し、（c)得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近いモデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定する。

[0010] この姿勢推定方法にぉレ、て、たとえば、前記細線化図形を、その細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とする。ここで、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含む。

[0011] この姿勢推定方法において、好ましくは、さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶する。

[0012] 本発明に係る姿勢推定プログラムは、画像処理装置に、 (a)関節を有する被検体のボリュームから 3次元の細線化図形を抽出するステップと、（b)抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶するステップと、（じ)得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近レ、モデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定するステップとを実行させるための姿勢推定プロダラムである。

発明の効果

[0013] 人体などの姿勢が安定かつ高速に推定できる。

図面の簡単な説明 [0014] [図 1]モーションキヤプチヤシステムのブロック図

[図 2]モーションキヤプチャプログラムの流れ図

[図 3]ボリュームから右側のスケルトンが得られる過程を示す図

[図 4]スケルトン中の特徴点と枝を示す図

[図 5]モデルグラフを求めた種々の姿勢の図

[図 6]グラフデータの 1例を表す図

[図 7]モデルグラフデータベースを用いた部位判定を示す図

[図 8]スケルトンから得られた折線近似の図

[図 9]291フレームでの曲率の合計のグラフ図

[図 10]定数 (kl，k2)の変化とグラフマッチングの成功率のグラフ

[図 11]入力画像、部位判定結果およびモデルグラフの図

[図 12]入力画像と部位判定結果の図

[図 13]種々の入力画像についての姿勢推定結果を示す図

符号の説明

[0015] 10 カメラ、 12 データ処理装置、 14 CPU, 22 大容量記憶装置、

24 モーションキヤプチャプログラム、 26 データベース、 28 映像データ、 30 ボリューム、 32 スケルトン、 34 グラフデータ、 36 人体姿勢データ

発明を実施するための最良の形態

[0016] 以下、添付の図面を参照して発明の実施の形態を説明する。

本発明では、複数のカメラからシルエットにて得られた情報（多視点画像）から 3次元のボリューム（体積）をもとめ、ボリュームから、細線化された線図形 (スケルトン）を求める。次に、細線化画像 (スケルトン)をグラフ化し、グラフマッチングにより部位を判別して姿勢を推定する。さらに、スケルトンの中の各枝について関節位置を発見して、より精細に人体姿勢を推定する。その内容について以下に詳細に説明する。なお、この姿勢復元の被検体は、一般的に関節を備える物体であるが、以下では人体姿勢の推定のみについて説明する。

[0017] 図 1は、本発明の 1実施形態のモーションキヤプチヤシステムを示す。複数台のカメラ 10からの映像データがデータ処理装置 12に入力される。データ処理装置 12は、たとえば通常の構成のコンピュータである。データ処理装置 12は、 CPU14を備え、 CPU14は、カメラ 10との入出力インタフェース 16、キーボードなどの入力装置 18、表示装置 20および大容量記憶装置であるハードディスクドライブ 22に接続される。ハードディスクドライブ 22内のハードディスクは、モーションキヤプチャプログラム 24、データベース 26、映像データ 28、ボリュームデータ 30、スケルトンデータ 32、属性付きグラフデータ 34、人体姿勢データ 36を記憶する領域を含む。

[0018] 図 2は、 CPU14により実行されるモーションキヤプチャプログラム 24における処理の流れを示す。このプログラム 24を実行することにより、カメラ映像データより得られたボリュームを、細線化手法を用いてグラフ構造化し、多数の関節を持つ人体を少数のデータで構成されるモデルで表現する。ここで、あら力め用意した様々なトポロジを持つ人体形状の特徴のモデルグラフデータベースを用いて安定的に姿勢推定を行う。まず、複数のカメラから人物の動きを撮影し視体積交差法によってボリュームデータを求める。ここで、 Chuらの手法と同様に、得られたボリュームデータから直接多関節構造を導出するアプローチを取る力計算コストの力かる Isomap空間への変換を行わず、人体ボリュームデータの細線化処理によってトポロジを保持したままスケルトンを得る.次に、スケルトンの構造を属性付きグラフで表現する。 Chuらの手法では不可能であった人体の様々なトポロジ変化に対応するために事例ベースの手法を導入する。あら力じめ、人のとりうる様々な姿勢をグラフで表現し、モデルグラフデータべース (MGDB)として用意しておく。そして、スケルトンの構造を表す属性付きグラフとデータベースとのマッチングを行って、構造の最も近レ、モデルグラフデータベース内の候補を選び出すことで、入力データのトポロジおよび体部位の判定を行う。そして、この判定結果と各部位における曲率から人体の関節位置を推定する。これにより、安定かつ高速に復元処理が行え、計算コストも削減できる。

[0019] まず、人体の映像データ 28を、人を取り囲むように設置された複数 (たとえば 8台）のカメラ 10から入力する（S10)。カメラ 10としては通常の可視光力メラを使用するので、計測が簡易に行える。対象人物は通常の服装でよぐ人体へのマーカーなどの取り付けや特殊なスーツの着用は不必要である。 [0020] 次に、取得した映像データ 28から、視体積交差法、ステレオ法、ボタセルカラリング法などを用いて、対象人物全体のボリューム（体積）のデータ 30を求める（S12)。ここで、各カメラは、平面パターンを用いてレンズの非線形歪みを構成し、次に、既知の大きさのキャリブレーションボックスを用いてカメラパラメータを求めておく（加藤博一， M. Billlinghurst,浅野浩一，橘啓八郎， "マーカー追跡に基づく拡張現実感システムとそのキャリブレーション"，日本バーチャルリアリティ学会論文誌， vol.4, no.4, pp.607- 616 Dec. 1999 ;井口征士，佐藤宏介，三次元画像計測（昭晃堂，東京， 1990))。そして、入力画像から色相を考慮した背景差分を用いることで、対象の領域を抜き出し、カメラパラメータを用いて対象の三次元ボリュームデータを得る。ボリュームは、 3次元空間内のたとえば lcm X lcm X lcmのボタセルの集合であり、人体を約 10万個のボタセルで表現する。ボリュームデータ 30とは、各ボタセルがボリュームを構成するか否かを表すデータである。ボリュームデータ 30を得るまでの処理は従来の手法を用いている。

[0021] 次に、ボリュームデータ 30を基に、以下に説明するように、人体の姿勢を復元する。ボリュームデータは対象人物の形状を表現しているが、太さや丸みを帯びた形状そのままでは部位の方向や構造を明確に把握することは難しい。姿勢を解析する上で、この体積を持ったデータを線図形に変換することができれば、方向 '長さ'接続関係などが明らかになり、構造の解析が容易になる。そこで、まず、 3次元の細線化法を用いて、ボリュームを細線化して、人体形状をスケルトンに変換し、スケルトンデータ 30 として記憶する（S14)。細線化の結果得られるスケルトン (骨格）とは、 3次元で細線化された図形である。この細線化処理では、ボリュームを、その中心を通る最小の太さ 1の線図形へ変換して、ボリュームの中心軸として抽出する。スケルトンは、交差点、空洞等の特殊な場所を除いて太さカ^であり、端点以外には消去可能な画素を含まない。また、原図形のトポロジを保存し、その中心を通る。得られたスケルトンは、抽出された中心軸にあるボタセルの集合である。（ただし、図面では、見やすくするために、スケルトンを実際より太く示している。）スケノレトンデータ 32とは、各ボタセルがスケルトンを構成するか否かを表すデータである。こうして、細線化によって得られたボクセル列の接続性を評価するとスケルトンの構造が得られる。 [0022] 細線化の手法は、たとえば斎藤らの細線化手法（電子情報通信学会論文誌 (D-II) Vol. J79-D-II, No.10， 1996)を用いる。図 3は、左側のボリューム力ら細線化により右側のスケルトンが得られる過程を示している。こうして、ボリュームは、スケルトンに還元される。斉藤らの手法では、ボリュームデータ中のボタセルを消去したときにトポロジが変化しなレ、（消去可能な)ものを判定し (鳥脇純一郎、 3次元ディジタル画像処理、昭晃堂、東京、 2002)、消去可能でかつ端点でないものを順に消去していくことで線図形を得る。消去の順番にユークリッド距離や近傍のボタセルの個数を考慮することでボリュームの向きによらず中心を通る、不必要な細かな枝（ヒゲ）の少ない線図形を抽出できる。なお、細線化手法を用いる前処理として、ノイズ除去のためのメディアンフィルタを適応する。

[0023] 次に、スケルトンのどの部分 (枝）が体のどの部位に相当するかを判定する。太さ 1 の線図形であるスケルトンは、 2次元画像の線図形と同様の特徴点を考えることができる。すなわちスケルトン中の画素は図 4のように交差点（cross points)、端点（end po ints)、接続点（connection points)の 3種に分類される。端点は人体部位の末端部分を表す。交差点は、胴体につながつている腕/足/頭の付け根を表すものと、体が他の部位と接触したためにできるものが考えられる。また、交差点と端点に区切られた互いに隣り合う接続点の集合 (枝）が各部位の位置と向きを表す。

[0024] スケルトンは様々なトポロジを持ちうる。図 5の A、 Dのように、スケルトンの一つ一つの枝が四肢が頭や胴と離れており両腕の付け根が一つの交差点で表される場合は、各枝は腕/足/頭/胴体に 1対 1で対応する。またその接続関係から、どれが胴を表すかは明らかである。し力一般的な姿勢を考えると、体の一部が触れ合うことで他のトポロジを持つスケルトンが得られることがある。このような場合、それぞれの枝は人体部位の一部または全部、もしくは複数の部位に対応することになる（図 5の C,E, F)。また、人物が類似する同じ姿勢をとつていても、細線化の際に異なる交差点の位置関係が得られる場合がある（図 5の A, B)。さらに、スケルトンには元のデータから起因するノイズゃヒゲなど、本来の人体姿勢とは無関係な構造が得られる場合もある。このように、人体のスケルトンデータは各種の要因により、様々なトポロジに変化する。そのため、ヒューリスティックな方法で枝と部位の対応を求めるのは困難である。 [0025] 上述の様々なトポロジを持ちうるスケルトンの構造を属性付きグラフ 34で表現する（ S 16)。スケルトンのグラフ表現は、その各枝をグラフのノードとして表現し枝の接続関係をエッジと表すことで行われる。ここで、スケルトンを、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリユームの 3次元部分の情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶する。より具体的に説明すると、スケルトンを、 3本以上の曲線の交差点で複数の枝に分割し、各枝をノードとする。ノードの属性は、細線化の前の元のボリュームの対応部分の体積と枝の長さをスケルトン全体での合計値で正規化した値を含む。ここで枝に属するボリュームの体積は、細線化の際に得られる元のボリュームでのユークリッド距離を元に計算される。そして、同じ交差点で 2つの枝が隣り合うことをエッジ（辺）で表わす。得られたノードとエッジとからなるグラフデータ 34は、人体の各部の向きや曲がりに依存しない単純なデータとなり、無向データである。図 6は、 1つの例として、ノード（ボリューム部分の大きさで体積を表す）と、 2つのノードの間を接続するエッジを示している。スケルトンのノードは、たとえば、頭、 2本の手、胴体、 2本の足からなる力 S、これは姿勢により変化する。たとえば両手をつないだ状態では、つながった手のノードが見出される。また、細線化によるノイズが含まれること力 Sある。図 6の左側のスケルトンでは、交差点は 3箇所にあり、右側のグラフ構造では、各ノードが円（体積と長さの数字を含む）で示され、エッジが線で表されている。

[0026] 次に、グラフマッチングを用いて腕/足/頭/胴体等の人体部位とスケルトンの対応を把握する方法について述べる。すでに説明したように、人の姿勢はさまざまな幾何形状、トポロジー形状になりうるため、人のとりうるさまざまな姿勢についてのグラフデータを記録したモデルグラフデータベース 26をあらかじめ準備しておく。このため、たとえば、両手をつないだ状態、寝そべった状態などのさまざまな姿勢を実際に撮影して、それぞれ、得られたボリュームからスケルトンを求め、要素情報を求めて、属性付きのモデルグラフデータとしてモデルグラフデータベース 26に記録しておく。ここで人体部位情報として用いるラベルは腕や足などの他に、前述した複数の部位が併合されて 1つの枝として表されているものも含む。前に説明した図 5は、さまざまなモデル姿勢の例を示している。（なお、人体とは異なる物体を対象とする場合は、このモデルグラフデータベースの内容をそれに対応して変更すればよい。 )

[0027] 実際に複数の人体姿勢を撮影して得られたグラフデータ 34を、このモデルグラフデータベース 26内のモデルグラフと比較し、グラフマッチングにより、最も近いモデルグラフを得る（S18)。モデルグラフデータベースを用いたグラフマッチングによるトポロジ判定について以下にさらに説明する。

[0028] 入力画像力得られたスケルトンはグラフ化され、モデルグラフデータベース内のモデルグラフ群と比較される。最も類似すると判断されたモデルグラフから入カスケルトンのトポロジを判別でき、さらにこの際にノード同士の対応が得られる。またモデルグラフの各枝には人体の部位情報も保存されているため、グラフマッチングによる枝同士の対応結果から入力スケルトンの枝の人体部位が判定できる（図 7)。こうすることで、人体のトポロジが変化した場合もボリュームデータと人体部位との対応が得られる上に、スケルトンをグラフに変換して扱うことで情報量や計算量が削減できる。グラフは人体の位置や接触関係の変わらない姿勢の変化に対して不変な表現であるため、必要なモデルグラフ個数は人物のとりうる姿勢と比べて非常に少なぐトポロジの個数の数倍程度で十分であると考えられる。

[0029] グラフマッチングにおいては、グラフは画像処理のノイズによるトポロジ変化や人体形状の個人差等による属性値の違いなどが考えられるため、エラー訂正を考慮したマッチングが行われる必要がある。そのため、 Edit-Distance (編集距離）（R. Ambaue n, S. Fischer and H. Bunks, 'Graph edit distance with node splitting and merging, a nd its application to diatom identification," Proc. of International Workshop on GbR PR, pp.95-106, June-July 2003)に基づくグラフマッチング手法を用いる。これは、比較する 2つのグラフを一致させるための編集操作列（削除、追カロ、属性変更）のうち、コストが最小であるものを、マッチングの評価値として使用する手法である。グラフマツチング問題は NP完全である力グラフのノード数が小さいことと、モデルグラフデータベースを部分グラフ群に分割し比較する Messmerらの手法（B.T. Messmer and H. Bu nke, A New Algorithm for Error-1 olerant subgraph Isomorphism Detection, IEEE Trans, on PAMI, vol.20, pp.493-504, May 1998)を用いることで、比較的高速に処理が行える。各編集操作には、操作の種類、対象ノードの属性値の差等によりコストを定義する必要があり、ここでは以下の式で与える。

cost、del— node(n = n.vol

cost(del— edge(e)) = 0.1

cost(sub_node(nl,n2》 = kl |nl.vol - n2.vol| + k2 nl.len - n2.1en| cost(sub_edge(el,e2)) = 0

なお、ノード nに対して n.volは体積の属性値を、 n.lenは長さの属性値を表す。エッジは属性を持たせていないので、属性変更のコストを 0、削除のコストを k0と定数にした。ノードの属性変更に力かるコストは、それぞれのノードに対応する部位同士の非類似性を表す。ここでは体積と長さ両方の差を考慮し、その線形和でコストを表現する。 kl,k2は係数である。また、ノードの体積属性が大きいものほどボリュームデータ内で大きな構造をもつものから作られたノードであると考えられるため、ノードの削除には体積に比例するコストを与える。

[0030] ここで、モデルグラフデータベースの中に十分な種類のモデルグラフが用意されていれば、撮影から得られたグラフとのマッチングの際にノードやエッジの削除無しにマッチするモデルグラフが得られる。このとき、 Edit-Distanceに影響するコスト関数はノード属性値の変更 cost(sub_node(nl，n2))のみとなり、考慮すべき定数は kl，k2の 2つの係数の比のみとなる。

[0031] 以上に説明したグラフマッチングにより、データベース 26内のグラフデータには、人の部位情報が属性データとして予め記録されているため、この比較により、得られたスケルトン 32からも人の部位情報 (たとえば、頭、手、胴体、足など）が判別できる。得られた部位情報を含むグラフ構造化データは、人体姿勢データ 36として記憶しておく。様々な姿勢に対応できるモデルと部位情報を用いて、種々の人体姿勢を高速にかつ安定に復元できる。また、このデータ処理では少数のデータを扱うので、計算コストが削減できる。

[0032] 好ましくは、次に、スケルトンの各枝から人の部位を認識し、さらに、この部位情報を用いて、スケルトンを複数の直線近似などの適当な方法で分割する。ここで、スケルトン曲線との SSD (差の平方の和)を基準にスケルトンの各部位を複数の直線で近似する。このスケルトンの折れ線近似により関節を発見する（S20)。図 8は、左側のスケノレトンから右側の折線近似が得られたことを示す。たとえば、手、足などにおいて、関節の数、関節間の長さ、可動範囲などが定まっているので、好ましくは、関節位置の存在確率モデルを用いて推定する。分割された直線から、最終的な関節データ（関節の位置と角度）を得て、人体姿勢データ 36に含まれる属性データとして記憶する。

[0033] 関節位置の推定について、以下にさらに詳しく説明する。人体部位の対応情報に基づき、スケルトンの各枝力関節位置を推定する。ここで人体の骨格を考慮すると、スケルトンの中で曲率の高い部分は関節である可能性が高い。また、時刻ごとに関節の曲がり方に変化があっても、関節の個数やリンクの長さは一貫性を持っている、これらを踏まえて以下のような手順で推定を行う。

(1)各フレームのスケルトンについて、枝の各位置での曲率を求める。なお、あらかじめすべての枝の長さ（含まれる点の数）を 100に正規化する。

(2)各位置においての（1)で求めた曲率を全フレームで積算する。

(3)積算された曲率の極大となる位置を求める。

(4)各フレームのスケルトンで（3)で求めた点の位置を関節位置とする。

全フレームの曲率を足し合わせることで、曲がっていた関節のすべての情報が得られる。この曲率の極大値をもとに全フレームで一貫した関節の構造を得ることができる。

[0034] 図 9に、例として 291フレームの動画から得られたスケルトンについて、両腕、両足の各位置での曲率を積算したものを示す。なお、腕や足の先端の点が位置 1、胴体への付け根が位置 100となるように各枝の向きと長さは正規化されている。スケルトンに含まれる点列はボタセルの座標を元にしているため、前処理としてガウシアンフィルタでの平滑化を行った。腕からは手首、肘、肩、足からは足首、膝、腿の部分が極大点として検出されることがわかる。

[0035] 得られた人体姿勢を表示装置 20に表示する（S22)。得られたグラフから推定される細線化図形 (人体姿勢）は、表示装置 20の画面に、推定された部位毎に色分けして表示する。たとえば、頭に対応する部分 (枝）を青、手に対応する部分を水色のように色分けする。判別不能な部分は、たとえば白色で表示する。

[0036] 本発明では、上述のように、人体姿勢が、最終的なスケルトンとして得られる。これは、通常の平服による人の姿勢推定装置 (モーションキヤプチヤシステム）、コンビュータアニメーションなどへの応用、ロボットへの動き入力の応用、リハビリテーション、福祉分野などにぉレ、て適用できる。

[0037] 本発明の手法の有用性を検証するため、 3人の人物（第 1、第 2および第 3の被験者)を撮影した動画の各フレームに対し本手法を適用し姿勢を推定する実験を行つた。入力データから関節への近似処理を行い、推定の安定性、様々なトポロジへの対応能力および処理速度を評価した。

[0038] 実験環境について説明すると、カメラスタジオは一辺 5メートノレ四方で青い床とカーテンに覆われており、天井には 8方向力スタジオの中央に向けてカメラが設置されている。画像解像度は 1024 X 768ピクセルで、 8台に同期信号を送ることで最大 30fps で同期した動画の撮影を行うことができる。すべてのカメラの共通視野は、直径約 2メ一トル、高さ 2メートルの領域となっており、被験者である身長 '体重の異なる 3人の男女がこの領域内で運動する。各々のカメラの画像は 1対 1に接続されたパーソナルコンピュータで取得され、 2cmの解像度でボリューム復元が行われる。

[0039] モデルグラフデータベースを作成するために、第 1の被験者に様々な姿勢をとらせることで得たグラフの中から 13種類のトポロジを選び、同トポロジで属性値の異なるものも考慮して合計 23のグラフを用意した。これらには、手動で対応部位情報を付加した。

[0040] グラフマッチングに用いる係数 (kl,k2)の値を決定するため、第 1の被験者の 1シーケンス (644フレーム)のボリュームデータを使用した。このうち 311フレーム分のグラフを選び、グラフマッチングを行った。（kl，k2)の値を様々に変化させ、正解率を求めた結果、 (kl，k2) = (1.0, 0.8)のときに最大の 81.4%の正解率となった（図 10)。

[0041] 次に、 3人の被験者の動作を撮影した映像から得られたボリュームデータのシーケンスに対し、前もって得られたモデルグラフデータベースとマッチングの定数 (kl,k2) を用いて姿勢推定を行った。

[0042] 図 11と図 12は、入力画像からスケルトンの部位判定までの結果を示す。図 1 1は、

4つの入力画像について、各行ごとに左から、入力画像の 1つ、部位判定されたスケノレトン、マッチしたモデルグラフを示し、図 12は他の被験者の複数の入力画像について、各入力画像とそのスケルトンの部位判定結果とを示す。

[0043] 図 11のように接触によりトポロジが変化した場合でも、対応するモデルがマッチし、部位の判定が行えることがわかる。すなわち、様々なトポロジに対して対応できる。また、図 12の部位判定結果では、グラフマッチングの正解率に関して第 2の被験者のシーケンスでは 80.7%、第 3の被験者のシーケンスでは 84.5%の正解率が得られた。

[0044] 図 13は、第 1の被験者の 291フレームのスケルトンを用いて関節位置の推定を行つた結果を示す。手首、肘、肩及び足首、膝、腿の関節位置が正しく推定されていることがわかる。なお、全フレームで曲率を積算した結果は図 9に示した通りである。

[0045] なお、それぞれの処理に要した時間は 1フレームあたりボリュームデータの復元に 5.

75秒、細線化に 0.62秒、スケルトンの解析とグラフ化に 0.097秒、グラフマッチングにば 059秒、関節位置の推定に 0.04秒であった。

[0046] 実験の結果、従来の手法では困難だった人体形状のトポロジの様々に変化する状況に対して、本手法では多くのフレームにおいて部位の判定に成功することが確認できた。また、各フレームでスケルトンの抽出処理が独立しているため、追跡の失敗等によってそれ以降のフレームに影響が及ぶ状況が起こらず、さらに全フレームの情報を集めることでより安定した関節位置の推定が行えることも確認できた。今後の課題としては、部位の判定性能の向上や、関節位置推定手法の改善などがあげられる

[0047] 以上に説明したように、上述の手法では、従来は不可能だった以下の点を実現できる。

(1)初期値問題と処理の安定性

ボリュームデータをボトムアップ的に処理するため初期値が不要であり、安定的に推定が行える。

(2)処理の高速化

ボリュームデータを直接細線化しグラフ化するため、多関節モデルのマッチングや I somapを使う手法に比べ、処理が高速である。

(3)姿勢のトポロジ変化への対応

手と手の接合や手と胴体の接合など、姿勢のとりうる様々なトポロジをあらかじめ事例として保持し、入力データとグラフマッチング手法により比較することで、被検体の様々な構造変化に対応可能である。

すなわち、原理的に、マーカー非装着の従来法に比べても、計算コストが低ぐ追跡の安定性が高くかつ高速に姿勢を復元できる。一般性が高い。また、人体姿勢復元の場合、ボリュームは、通常の服装の対象人物について得られたものでよいため、マーカーやスーツを着用する従来法に比べ、より簡易でありかつ人への負担がなぐ人の姿勢を復元できる。

Claims

請求の範囲

[1] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出する細線化手段と、

抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶するグラフィ匕手段と、

被検体の複数の姿勢についてのモデルグラフを記録したデータベースを記憶する記憶手段と、

得られたグラフデータについて、前記データベースを参照してグラフマッチングを行つて、最も近いモデルグラフを基に前記細線化図形の各要素の部位を判定して姿勢を推定する推定手段と

からなる姿勢推定装置。

[2] 前記グラフ化手段において、前記細線化図形を、その細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とし、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含むことを特徴とする、請求項 1に記載された姿勢推定装置。

[3] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶する関節決定手段を備えることを特徴とする、請求項 1または 2に記載された姿勢推定装置。

[4] さらに、前記細線化図形を表示する表示装置を備えることを特徴とする、請求項 1

〜3のいずれかに記載された姿勢推定装置。

[5] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出し、

抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶し、

得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近レ、モデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定する

姿勢推定方法。

[6] 前記グラフデータの記憶において、前記細線化図形を、その細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とし、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含むことを特徴とする、請求項 5に記載された姿勢推定方法。

[7] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶することを特徴とする、請求項 5または 6に記載された姿勢推定方法。

[8] 関節を有する被検体のボリュームから 3次元の細線化図形を抽出するステップと、抽出した細線化図形を、複数の要素に分割し、各要素をノードで表し、 2つの要素が隣り合うことをエッジで表し、各要素に対応するボリュームについての情報を当該ノードの属性として、ノードとエッジからなる属性付きグラフデータを記憶するステップと得られたグラフデータについて、被検体の複数の姿勢についてのモデルグラフを記録したデータベースを参照してグラフマッチングを行って、最も近レ、モデルグラフを基にスケルトンの各要素の部位を判定して姿勢を推定するステップと

を画像処理装置に実行させるための姿勢推定プログラム。

[9] 属性付きグラフデータを記憶する前記ステップにおいて、前記細線化図形を、その細線化図形に含まれる交差点で複数の枝に分割して前記複数の枝を前記複数の要素とし、枝を表すノードの属性は、当該枝への細線化の前の元のボリュームの対応部分の体積と枝の長さを含むことを特徴とする、請求項 8に記載された姿勢推定プログラム。

[10] さらに、細線化図形の各要素について、複数の直線で近似して当該要素に含まれる関節の位置と角度を決定して、グラフデータにおけるノードの属性として記憶するステツプを含むことを特徴とする、請求項 8または 9に記載された姿勢推定プログラム。