WO2010073432A1

WO2010073432A1 - 画像処理装置および画像処理方法

Info

Publication number: WO2010073432A1
Application number: PCT/JP2009/004442
Authority: WO
Inventors: 池上渉一
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2008-12-24
Filing date: 2009-09-08
Publication date: 2010-07-01
Also published as: US20160171296A1; EP2372653A1; EP2372653A4; EP2372653B1; US20110279475A1; US10216987B2

Abstract

　まず撮像した動画像データをフレームごとに読み出し、追跡対象の有無により追跡開始の判定を行う（Ｓ２０、Ｓ２２）。追跡開始が判定されたら当該画像フレームのエッジ画像を生成する（Ｓ２４）。一方、追跡対象の形状を表すＢスプライン曲線の制御点列を、あらかじめ準備した複数の基準形状を表すＢスプライン曲線の制御点列の線形和で表現する際に各制御点列にかかる係数のセットの空間にパーティクルを分布させる（Ｓ２６）。さらに形状空間ベクトルの空間においてもパーティクルを分布させ（Ｓ２８）、各パーティクルの尤度観測、確率密度分布を取得する（Ｓ３０）。確率密度分布によって各パラメータに重み付け平均して得られる曲線を追跡結果として生成する（Ｓ３２）。

Description

画像処理装置および画像処理方法

　本発明は情報処理技術に関し、特に入力画像中の対象物の位置や形状、およびそれらの変化を解析する画像処理装置およびそこで実行される画像処理方法に関する。

　視覚追跡はコンピュータビジョン、特にセキュリティ分野における視覚監視やＡＶ分野における記録映像の解析・分類、編集、またはマンマシンインターフェース、さらには人間同士のインターフェース、すなわちテレビ会議やテレビ電話など、多岐に渡る応用が見込まれる。そのため、追跡精度および処理効率の向上等を目的に、多くの研究がなされている。中でも、カルマンフィルタで扱うことのできない非ガウス性雑音が加算された信号の時系列解析手法として注目されているパーティクルフィルタを視覚追跡に応用する研究が多くなされており、特にCondensation(Conditional Density Propagation)アルゴリズムが有名である（例えば非特許文献１から非特許文献３参照）。

　このCondensationアルゴリズムにおいて、追跡対象物はＢスプライン曲線等で構成される任意形状の輪郭線で定義される。例えば人の頭部であればＢスプラインでΩ形の曲線を定義することで追跡を行うことができる。これは、振り向いたり屈んだりといった人の動作に対してその頭部の形状は基本的に変化しないため、Ω形の曲線を並進、伸縮、回転させることのみで頭部形状の表現が可能であることによる（例えば特許文献１参照）。

　一方、画像処理技術の著しい進歩により、撮影した画像などに様々な視覚的演出を加える加工処理を施した画像は、日常生活においても様々な場面で見られるようになってきた。例えば画像中の背景を別の画像に置き換えたり、別の画像を合成したり、といった加工処理において、画像中の対象物の輪郭は非常に大きな意味をもつ。輪郭線を抽出する技術として、対象物の輪郭線のモデルを閉曲線で表現し、あらかじめ定義したエネルギー関数が最小となるように当該閉曲線を変形していくことにより対象物の輪郭を推定する動的輪郭モデル（スネークス）も提案されている（特許文献２または３参照）。あるいは、背景差分を利用した対象物領域の取得手法も提案されている（特許文献４または５参照）。

Contour tracking by stochastic propagation of conditional density, Michael Isard and Andrew Blake, Proc. European Conf. on Computer Vision, vol. 1, pp.343-356, Cambridge UK (1996) CONDENSATION - conditional density propagation for visual tracking, Michael Isard and Andrew Blake, Int. J. Computer Vision, 29, 1, 5-28 (1998) ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998

特開２００７－３２８７４７号公報特開平９－１３８４７１号公報特開平８－３２９２５４号公報特許３９３０５０４号公報特開２００７－３４７３３号公報

　上述のように、人の頭部、ボール、自動車など、形状変化がほとんどない対象を追跡する場合、Condensationアルゴリズムは計算負荷、精度などの面で非常に有効な手法である。一方で、対象物の形状が変化し、特定の形状を並進、伸縮、回転させたのみで対象物を表現できない場合には精度のよい追跡が困難となる。このため少ない計算量で、対象物の形状、位置の変化を認識することのできる技術が望まれていた。

　また画像に視覚的演出を加える加工処理技術では、基本的に人手による作業によって、対象物の輪郭切り出しが行われていたが、動画のフレームの一枚一枚を切り出していくには大変な作業コストが生じる。一方、動的輪郭モデルでは、対象物ごとに輪郭モデルの初期設定が必要であったり、最終結果が初期設定に影響される、といった問題がある。さらに計算量が多いため、上述の視覚追跡技術など、動画における対象物の輪郭を逐次求める場合に、対象物の形状の変化に追従できないなどの問題もある。また背景差分を利用した場合、背景を固定にする必要があるなど撮影環境が限定的であり適用範囲が狭い。

　本発明はこのような課題に鑑みてなされたものであり、その目的は、計算負荷を増大させることなく対象物の形状、位置の変化を認識することができる画像処理技術を提供することにある。さらに、所望の動画中で動きを有する対象物に対しても、コストを増大させることなく、様々な視覚的演出を可能とする画像処理技術を提供することにある。

　本発明のある態様は画像処理装置に関する。この画像処理装置は、複数の基準形状の輪郭線を定義する複数のパラメータを記憶する基準形状記憶部と、基準形状記憶部が記憶した複数のパラメータの線形和における各パラメータの係数のセットを定めることにより、画像内の対象物の輪郭線形状を線形和で表現して出力する対象物形状決定部と、を備えたことを特徴とする。

　この画像処理装置は、対象物を撮像した第１の画像フレームおよび第２の画像フレームを含む動画像ストリームデータを取得する画像取得部をさらに備え、対象物形状決定部は、係数のセットで定義される係数セット空間に、第１の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき、パーティクルフィルタに用いるパーティクルを生成および消滅させ、所定の遷移モデルに基づき遷移させる形状予測部と、第２の画像フレームにおける対象物の輪郭線と、パーティクルが定める候補輪郭とをマッチングして、各パーティクルの尤度を観測する観測部と、観測部が観測した尤度に基づき第２の画像フレームにおける対象物の、係数セット空間における推定存在確率分布を算出し、当該推定存在確率分布に基づき各パーティクルの係数のセットに重み付けを行うことにより、第２の画像フレームにおける対象物の輪郭線形状を推定する輪郭線取得部と、を備えてもよい。

　ここで「第１の画像フレーム」と「第２の画像フレーム」は、画像ストリームにおいて隣接する画像フレームでもよいし、離れて位置する画像フレームでもよい。時間軸の順方向へ追跡していく一般的な対象物追跡においては、「第１の画像フレーム」は「第２の画像フレーム」より時間的に前の画像フレームであるが、本実施の形態はこれに限らない。「候補輪郭」は対象物の一部または全体の輪郭線である。「尤度」は候補輪郭がどの程度対象物と近い態様となっているかを表す度合いであり、例えば追跡候補を２次元図形とした場合は、対象物との重なり具合、対象物との距離などを数値で示したものなどである。

　「パーティクル」とは、過去の情報と現在の観測情報とから現在の状態を推定する手法のひとつであるパーティクルフィルタにおいて導入されるものであり、観測を行うパラメータのサンプリング頻度を、パラメータ空間に存在するパーティクルの数で表現する。

　本発明の別の態様は画像処理方法に関する。この画像処理方法は、複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定めるステップと、定められた係数のセットを用いて、画像内の対象物の輪郭線を線形和で表現して出力するステップと、を含むことを特徴とする。

　本発明のさらに別の態様は画像処理装置に関する。この画像処理装置は、動画像を構成する画像フレームから対象物の輪郭線を取得する輪郭線取得部と、輪郭線取得部が取得した対象物の輪郭線に基づき、対象物の所定の部位の位置を特定する対象部位特定部と、画像フレームのうち、対象部位特定部が特定した所定の部位の位置に基づき決定される領域に、所定の加工処理を施した加工画像を生成する加工処理部と、加工処理部が生成した加工画像を画像フレームとする動画像のデータを出力する出力部と、を備えたことを特徴とする。

　本発明のさらに別の態様は画像処理方法に関する。この画像処理方法は、メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得するステップと、輪郭線に基づき、対象物または対象物の所定の部位の領域を特定するステップと、画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納するステップと、を含むことを特徴とする。

　なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを記録した記録媒体などの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、対象物の位置や形状の変化に係る情報を少ない計算量で取得することができる。また、画像中、動きを有する対象物に対しても、容易に様々な視覚的演出を行うことができる。

人物を追跡対象とした場合の視覚追跡手法を説明するための図である。パーティクルフィルタを用いた確率密度推定の手法を説明する図である。本実施の形態における係数セットの値と遷移モデルについて説明するための図である。本実施の形態における係数セットの値と遷移モデルについて説明するための図である。本実施の形態における視覚追跡システムの構成例を示す図である。本実施の形態における追跡装置の構成を詳細に示す図である。本実施の形態における追跡処理の手順を示すフローチャートである。本実施の形態における追跡処理によって取得した輪郭線を利用して画像加工処理を行う画像処理装置の構成を示す図である。本実施の形態の部位特定部が対象物の傾きを特定する際の手法の例を説明するための図である。本実施の形態の画像処理装置が行う画像加工の処理手順を示すフローチャートである。本実施の形態の画像処理装置によって洋服の試着を仮想空間で行う態様を実現したとき、表示装置に表示される画面例を示す図である。本実施の形態の画像処理装置によってサッカーの試合中の選手の情報を表示する画面例を示す図である。

　初めに、本実施の形態の特徴および効果を明らかにするために、パーティクルフィルタによる視覚追跡について概説する。図１は人物を追跡対象とした場合の視覚追跡手法を説明するための図である。人物画像１５０は実写した映像やコンピュータグラフィックスなどにより生成された動画像の画像ストリームを構成する画像フレームのひとつであり、追跡対象である人物１５２が写っている。

　この人物１５２の動きを追跡するために、人物１５２の頭部輪郭の形状を近似するΩ形の曲線１５４を既知の表現で記述する。一方、人物１５２を含む人物画像１５０にはエッジ抽出処理を施し、エッジ画像を取得しておく。そして曲線１５４を規定するパラメータを変化させることにより当該曲線１５４を並進、伸縮、回転させて、その近傍にあるエッジを探索することにより、人物１５２の頭部輪郭と最もマッチすると推定されるパラメータの値を特定する。以上の処理をフレームごとに繰り返すことにより人物１５２の追跡が進捗する。ここでエッジとは一般的には画像の濃度や色に急な変化を有する箇所のことである。

　規定するパラメータの値を様々にした曲線１５４と人物１５２の頭部輪郭とのマッチングを行うために、パーティクルフィルタによる確率分布予測技術を導入する。すなわち、ひとつ前のフレームにおけるパラメータ空間上の対象物の確率分布に応じて曲線１５４のサンプリング数を増減させ、追跡候補の絞り込みを行う。これにより存在確率の高い部分に対しては重点的に探索を行うことができ、精度のよいマッチングが効率的に行える。

　対象物の輪郭に着目した追跡に対するパーティクルフィルタの適用手法は、例えば非特許文献３（ICondensation: Unifying low-level and high-level tracking in a stochastic framework, Michael Isard and Andrew Blake, Proc 5th European Conf. Computer Vision, 1998）に詳述されている。ここでは本実施の形態に係る点に着目して説明する。

　まずΩ形の曲線１５４を、Ｂスプライン曲線で記述する。Ｂスプライン曲線はｎ個の制御点（Ｑ０，・・・，Ｑｎ）とｎ個のノット（ｓ０，・・・，ｓｎ）とから定義される。そして基本となる曲線形状、この場合はΩ形の曲線となるように、それらのパラメータをあらかじめ設定しておく。このときの設定によって得られる曲線を以後、テンプレートＱtと呼ぶ。なお、図１で示した人物画像１５０における人物１５２の追跡を行う場合は、テンプレートＱtはΩ形であるが、その形状は追跡対象によって変化させる。すなわち追跡対象がボールであれば円形、手のひらであれば手の形状などとなる。

　次にテンプレートの状態を変化させるための変換パラメータとして、形状空間ベクトルｘを準備する。形状空間ベクトルｘは以下のような６つのパラメータで構成される。

　ここで（shift_ｘ，shift_ｙ）は（ｘ，ｙ）方向への並進量、（extend_ｘ，extend_ｙ）は倍率、θは回転角である。そして形状空間ベクトルｘをテンプレートＱtに作用させるための作用行列Ｗを用いると、変形後の曲線、すなわち候補曲線Ｑは以下のように記述できる。

　式２を用いれば、形状空間ベクトルｘを構成する６つのパラメータを適宜変化させることにより、テンプレートを並進、伸縮、回転させることができ、組み合わせによって候補曲線Ｑを種々変化させることができる。

　そして、制御点、およびノットの間隔といったテンプレートＱtのパラメータや、形状空間ベクトルｘを構成する６つのパラメータを変化させることによって表現される複数の候補曲線について、各ノットの近傍にある人物１５２のエッジを探索する。その後、エッジとの距離などから各候補曲線の尤度を求めることにより、形状空間ベクトルｘを構成する６つのパラメータで定義される６次元空間における確率密度分布を推定する。

　図２はパーティクルフィルタを用いた確率密度分布推定の手法を説明する図である。同図では理解を簡単にするために、形状空間ベクトルｘを構成する６つのパラメータのうち、あるパラメータｘ１の変化を横軸に表しているが、実際には６次元空間において同様の処理が行われる。ここで確率密度分布を推定したい画像フレームが時刻ｔの画像フレームであるとする。

　まず、時刻ｔの画像フレームのひとつ前のフレームである時刻ｔ－１の画像フレームにおいて推定された、パラメータｘ１軸上の確率密度分布を用いて（Ｓ１０）、時刻ｔにおけるパーティクルを生成する（Ｓ１２）。それまでにフィルタリングを行い、すでにパーティクルが存在する場合は、その分裂、および消滅を決定する。Ｓ１０において表した確率密度分布は、パラメータ空間上の座標に対応して離散的に求められたものであり、円が大きいほど確率密度が高いことを表している。

　パーティクルはサンプリングするパラメータｘ１の値とサンプリング密度とを実体化したものであり、例えば時刻ｔ－１において確率密度が高かったパラメータｘ１の領域は、パーティクル密度を高くすることで重点的にサンプリングを行い、確率密度の低かった範囲はパーティクルを少なくすることでサンプリングをあまり行わない。これにより、例えば人物１５２のエッジ近傍において候補曲線を多く発生させて、効率よくマッチングを行う。

　次に所定の運動モデルを用いて、パーティクルをパラメータ空間上で遷移させる（Ｓ１４）。所定の運動モデルとは例えば、ガウシアン型運動モデル、自己回帰予測型運動モデルなどである。前者は、時刻ｔにおける確率密度は時刻ｔ－１における各確率密度の周囲にガウス分布している、とするモデルである。後者は、サンプルデータから取得した２次以上の自己回帰予測モデルを仮定する手法で、例えば人物１５２がある速度で等速運動をしているといったことを過去のパラメータの変化から推定する。図２の例では、自己回帰予測型運動モデルによりパラメータｘ１の正方向への動きが推定され、各パーティクルをそのように遷移させている。

　次に、各パーティクルで決定される候補曲線の近傍にある人物１５２のエッジを、時刻ｔのエッジ画像を用いて探索することにより、各候補曲線の尤度を求め、時刻ｔにおける確率密度分布を推定する（Ｓ１６）。前述のとおり、このときの確率密度分布はＳ１６に示すように、真の確率密度分布４００を離散的に表したものになる。以降、これを繰り返すことにより、各時刻における確率密度分布がパラメータ空間において表される。例えば確率密度分布が単峰性であった場合、すなわち追跡対象が唯一であった場合は、得られた確率密度を用いて各パラメータの値に対し重み付けした和を最終的なパラメータとすることにより、追跡対象の輪郭と推定される曲線が得られることになる。

　Ｓ１６において推定される時刻ｔにおける確率密度分布p(x_t ⁱ)は以下のように計算される。

　ここでｉはパーティクルに一意に与えられた番号、p(x_t ⁱ|x_t ⁱ, u_t-1)は所定の運動モデル、p(y_t|x_t ⁱ)は尤度である。

　これまで述べた手法は、最初に設定したテンプレートの形状がある程度維持されるという前提のもとで追跡を行うため、人間の頭部のようにそれ自体の形状変化が少ない場合には、少ない計算量で精度の良い追跡が行えるという点において大変有効である。一方で、並進、伸縮、回転のみでは表現できない対象物の形状変化に対応しきれないという問題がある。そこで本実施の形態では、追跡対象の形状を規定するパラメータセットを、あらかじめ用意した複数のパラメータセットの線形和で表現し、その係数を調整することにより追跡対象の形状変化をも推定する。これにより対象物の形状変化に対応した追跡を可能にする。

　以下、線形和で表現するパラメータセットとして、Ｂスプライン曲線を規定する制御点列を採用した場合について説明する。まずＮ個の制御点列Ｑ_０，Ｑ_１，・・・，Ｑ_Ｎを準備する。各制御点列は上述のとおりｎ個の制御点で構成され、それぞれが、異なる形状のＢスプライン曲線を定義する。そして対象物の推定形状を表すＢスプライン曲線を定義する制御点列Ｑsumを、次のように当該Ｎ個の制御点列の線形和とする。

　ここで係数α_０，α_１，・・・，α_Ｎは準備した制御点列に対する重み付けであり、当該係数α_０，α_１，・・・，α_Ｎのセット（以後、係数セットαとも呼ぶ）を変化させることにより対象物の形状を表現する。そして形状空間ベクトルｘに加え、係数セットαによって各パーティクルを定義し、そのうえで各パーティクルの尤度を観測して係数セットαの空間における確率密度分布を式３と同様に算出する。

　ある対象物の形状を、あらかじめ準備した複数の形状を規定するパラメータの線形和で表すことにより、当該準備した形状（以後、基準形状と呼ぶ）の中間的な形状を表現することができる。そのため、対象物のあらゆる形状の画像データを全て準備してマッチングを行うなどの手法に比べ計算量が少なくてすむ。本実施の形態ではさらに、このシンプルな表現手法を利用して、係数セットαの遷移確率を設定することにより、少ない計算量で効率的に探索を行い精度を向上させる。基本的には形状空間ベクトルｘと同様に、係数セットαの空間で各パーティクルを当該空間における確率密度分布に応じて生成、消滅させ、所定のモデルに従い遷移させることによりサンプリングを行う。そして、当該パーティクルを、形状空間ベクトルｘの空間における確率密度分布に応じてさらに生成、消滅させて遷移させることにより、候補の輪郭線を定め、それぞれの尤度を観測する。

　図３、４は係数セットαの値と遷移モデルについて説明するための図である。同図はじゃんけんをする手を追跡対象とした例を示しており、「ぐー」、「ちょき」、「ぱー」の３種類の基準形状のＢスプライン曲線を準備している。これらの基準形状を定義する制御点列を、それぞれ式４のＱ_０、Ｑ_１、Ｑ_２とすると、追跡対象の形状が「ぐー」であるときは係数セットα（α_０，α_１，α_２）＝(1.0, 0.0, 0.0)である。同様に「ちょき」であるときはα＝(0.0, 1.0, 0.0)、「ぱー」であるときはα＝(0.0, 0.0, 1.0)である。このように、現在時刻において「ぐー」、「ちょき」、「ぱー」の基準形状のいずれかにある場合、次の時刻でその他の２つの基準形状、すなわち「ぐー」であれば「ちょき」または「ぱー」に向かう確率Ｐをそれぞれ０．５とする。

　ここで、係数セットαが上述の基準形状を表す数列からわずかにずれていても、実際には基準形状とみなせる場合が考えられるため、あらかじめ基準形状とみなせる係数セットαの範囲を設定しておく。例えば係数セットαが定義する空間において、(1.0, 0.0, 0.0)から所定のユークリッド距離内にあるαが定める形状は全て「ぐー」であると見なすように設定する。図３において現在時刻の形状が黒丸１０２であり、係数セットαが(0.9, 0.1, 0.0)であったとする。この状態を「ぐー」である、とみなす設定がなされている場合は、その状態から「ちょき」、「ぱー」に遷移する確率Ｐをそれぞれ０．５とする。

　または「ちょき」への遷移がやや多いとみなし、(1.0, 0.0, 0.0)と(0.9, 0.1, 0.0)のユークリッド距離に基づいて「ちょき」への遷移確率を「ぱー」への遷移確率より大きくするように重み付けを行う。そして当該遷移確率に則りパーティクルを分配したうえ、現在の状態である黒丸１０２の係数セットαを中心としたガウス分布１０４と、「ぐー」の範囲内にあり、かつ「ぱー」へ向かう所定の係数セットαを中心としたガウス分布１０６でパーティクルを分布させる。

　図４において現在時刻における状態が黒丸１０８であり、係数セットαが、上述の「ぐー」と見なせる範囲および「ちょき」と見なせる範囲の外である(0.4, 0.6, 0.0)であったとする。この場合は「ぐー」と「ちょき」のいずれかへ遷移する途中であると判断し、現在の状態である黒丸１０８の係数セットαを中心としたガウス分布１１０にパーティクルを分布させる。なお図３、図４のガウス分布１０４、１０６、１１０は、実際には係数セットα（α_０，α_１，α_２）によって定義される３次元空間における分布となる。このとき、例えば遷移の到達点とみなされる基準形状（図４の例では「ぐー」と「ちょき」）を表す係数セットαを結ぶ線分方向の分布の標準偏差を大きくとるようにしてもよい。このようにすると、遷移確率の高い形状に多くのパーティクルを配置できることになり、サンプリングの効率および追跡精度が向上する。

　なおパーティクルの分布は上述したものに限らず、全ての方向に同じ標準偏差を有するガウス分布でもよいし、ガウス分布以外のモデルを導入してもよい。例えば現時刻までの複数フレームにおける係数セットαの動きを取得して回帰予測モデルを導入してもよい。この場合、例えば「ぐー」から「ちょき」への遷移が等速に進んでいることが過去のフレームから判断できる場合は、さらに「ちょき」の形状へ進む方向に多くのパーティクルを分布させる。

　なおある基準形状から別の基準形状へ遷移する確率Ｐは、上述のとおり基準形状が「ぐー」、「ちょき」、「ぱー」の３種類であればＰ＝０．５であったが、その値は基準形状の数などにより変化する。ここである基準形状から遷移することの出来る基準形状の数をＮとすると、各基準形状への遷移確率Ｐはそれぞれ１／Ｎとなる。対象物によっては遷移確率を等しくせず、偏りをもたせてもよいし、それまでの事象により動的に決定してもよい。

　また式４では、追跡対象の形状を表すＢスプライン曲線のパラメータとして制御点列の線形和を利用したが、同じＢスプライン曲線を定義するパラメータであるノットの線形和を利用してもよい。ただし処理上、制御点からノットへの展開が一回で済むため、制御点を利用する方がより効率がよい。

　図５は本実施の形態における視覚追跡システムの構成例を示している。視覚追跡システム１０は、追跡対象１８を撮像する撮像装置１２、追跡処理を行う追跡装置１４、撮像装置１２が撮像した画像のデータや追跡結果のデータを出力する表示装置１６を含む。追跡対象１８は人、物、それらの一部など、視覚追跡システム１０の使用目的によって異なっていてよい。

　追跡装置１４と、撮像装置１２あるいは表示装置１６との接続は、有線、無線を問わず、また種々のネットワークを介していてもよい。あるいは撮像装置１２、追跡装置１４、表示装置１６のうちいずれか２つ、または全てが組み合わされて一体的に装備されていてもよい。また使用環境によっては、撮像装置１２と表示装置１６は同時に追跡装置１４に接続されていなくてもよい。

　撮像装置１２は追跡対象１８を含む画像、または追跡対象１８の有無に関わらずある場所の画像のデータを、所定のフレームレートで取得する。取得された画像データは追跡装置１４に入力され、追跡対象１８の追跡処理がなされる。処理結果は出力データとして追跡装置１４の制御のもと、表示装置１６へ出力される。追跡装置１４は別の機能を実行するコンピュータを兼ねていてもよく、追跡処理の結果得られたデータ、すなわち追跡対象１８の位置情報や形状情報などを利用して様々な機能を実現してよい。

　図６は本実施の形態における追跡装置１４の構成を詳細に示している。追跡装置１４は、撮像装置１２から入力される入力画像データを取得する画像取得部２０、当該入力画像データなど追跡処理に必要なデータを記憶する画像記憶部２４、入力画像データからエッジ画像などを生成する画像処理部２２、追跡対象の領域を検出する追跡対象領域検出部２６、追跡の開始および終了を判定する追跡開始終了判定部２８、パーティクルフィルタを用いて追跡処理を行う追跡処理部３０、最終的な追跡結果のデータを記憶する結果記憶部３６、追跡結果の表示装置１６への出力を制御する出力制御部４０を含む。

　図６において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、画像処理を行うプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

　画像処理部２２は追跡対象の輪郭を抽出する。具体的には、画像記憶部２４が記憶した入力画像データの画像フレームごとにエッジ抽出処理を施し、エッジ画像を生成する。ここではキャニーエッジフィルタや、ソーベルフィルタなど一般的なエッジ抽出アルゴリズムを用いることができる。また画像処理部２２は、背景差分を利用した前景抽出器（図示せず）を実装していてもよく、エッジ抽出処理の前処理として入力画像から追跡対象を含む前景を抽出することにより、追跡対象のエッジを効率的に抽出するようにしてもよい。

　追跡対象領域検出部２６は、画像記憶部２２が記憶した入力画像データの画像フレームごとに画像分析を行って追跡対象の領域を検出する。例えば背景差分を利用した前景抽出器（図示せず）を実装し、画像フレームから抽出した前景の形状から追跡対象の有無を判断したうえその領域を検出する。その際、追跡対象が人間の頭部であれば、顔検出技術をさらに適用してもよい。あるいは色検出器により背景色と異なる色や特定の色を有する領域を追跡対象として検出してもよい。または、あらかじめ設定した対象物の形状とのパターンマッチングによって追跡対象の領域を検出してもよい。

　そのほか視覚追跡システム１０に、撮像装置１２の他に撮影対象の空間の熱分布を測定する温度センサや、追跡対象の接触領域を２次元的に取得する圧電センサを設け、熱分布や圧力分布によって追跡対象の領域を検出してもよい。温度センサや圧電センサによる対象物の検知は既存の技術を適用できる。

　追跡開始終了判定部２８は、追跡対象領域検出部２６による追跡対象領域の検出結果に基づき、追跡を開始するか終了するかを判定する。なおここでの「終了」はオクルージョンなどによる追跡の一時停止を含んでもよい。追跡は、追跡対象が撮像装置の視野角内に現れた場合や、物陰などから現れた場合などに開始し、追跡対象が撮像装置の視野角内から去った場合や物陰などに入った場合などに終了する。判定結果は追跡処理部３０に通知することにより追跡処理部３０の追跡処理を開始、終了させる。

　追跡処理部３０は、サンプリング部４２、観測部４８、および結果取得部５０を含む。サンプリング部４２は、係数セットαの空間でサンプリングを行う形状予測部４４と、形状空間ベクトルｘの空間でサンプリングを行う形状空間ベクトル予測部４６を含む。形状予測部４４は、一つ前の時刻ｔ－１における画像フレームに対して推定された、係数セットαの空間での確率密度分布に基づきパーティクルの生成および消滅の処理を行う。そして上述のじゃんけんの例のように、各パーティクルが表す形状に応じた所定の規則でパーティクルを分布させる。

　形状空間ベクトル予測部４６は、一つ前の時刻ｔ－１における画像フレームに対して推定された、形状空間ベクトルｘの空間での確率密度分布に基づきパーティクルの生成および消滅の処理を行う。そして全パーティクルに対し所定の運動モデルを適用して、パーティクルを当該空間上で遷移させる。形状予測部４４および形状空間ベクトル予測部４６の処理により、時刻ｔの画像フレームにおける複数の候補曲線が、形状の変化および並進、伸縮、回転を考慮したうえで決定できる。サンプリング部４２は、追跡開始終了判定部２８から追跡開始を示す信号を受けたら処理を開始し、追跡終了を示す信号を受けたら処理を終了する。

　観測部４８はサンプリング部が生成・消滅、遷移させた各パーティクルが定める候補曲線の尤度を観測する。尤度は上述のように、画像処理部２２が生成したエッジ画像上で各候補曲線の近傍にあるエッジを探索し、当該エッジまでの距離を候補曲線ごとに見積もることによって決定する。結果取得部５０は、観測部４８が観測した尤度に基づき式３で示すような確率密度分布を係数セットαの空間および形状空間ベクトルｘの空間のそれぞれにおいて算出し、それにより重み付け平均したパラメータによって得られる曲線のデータなどの追跡結果を導出し、結果記憶部３６に格納する。また次の時刻ｔ＋１における追跡処理に使用するため、サンプリング部４２にそのデータを返す。結果記憶部３６に格納するデータは、重み付け平均した各パラメータの値でもよいし、それにより定まる曲線のみで構成される画像や、曲線と入力画像とを合成してできた画像のデータなどのいずれでもよい。

　追跡対象が複数存在する場合、結果取得部５０はさらに、それぞれに用意したテンプレートを用いて、追跡対象ごとに追跡を行い、それらの追跡結果を合成することによりひとつの追跡結果としてもよい。また複数の追跡対象が重なるような場合を追跡結果によって検出し、後ろに隠れる追跡対象については所定のタイミングで追跡処理対象からはずすなどの措置を講じる。これにより追跡対象が別の追跡対象の背後に回ったことによって観測尤度が一時的に低下しても、不適当な追跡結果を出力するのを避けることができる。

　画像処理部２２、追跡処理部３０における上述の処理を、各フレームに対して行うことにより、結果記憶部３６には例えば追跡結果を含む動画像のデータが記憶される。この場合、出力制御部４０の制御のもと、当該動画像のデータを表示装置１６に出力することにより、輪郭線が追跡対象の動きと同様に動く様を表示することができる。なお上述のとおり、追跡結果は動画として表示する以外に、追跡の目的に応じて別の演算モジュールに出力するなどの処理を適宜行ってよい。

　次にこれまで述べた構成による追跡装置１４の動作について説明する。まず撮像装置１２は、ユーザの指示入力などに応じ撮影対象を所定のフレームレートで撮影する。撮影された画像は入力画像データとして追跡装置１４の画像取得部２０へ入力され、画像記憶部２４に格納される。また、画像記憶部２４には、複数の基準形状、上述の例では「ぐー」、「ちょき」、「ぱー」を定義する３種類の制御点列が格納されている。このような状態において以下に述べる追跡処理が行われる。

　図７は本実施の形態における追跡処理の手順を示すフローチャートである。まず追跡対象領域検出部２６は、画像記憶部２４に格納された入力画像データをフレームごとに読み出し、追跡対象となり得る物が存在する領域を検出する。追跡開始終了判定部２８はその結果に基づき追跡を開始するかどうかの判定を行う（Ｓ２０、Ｓ２２）。例えば、画像フレームから抽出した前景として、手のひらと推定できる所定のサイズ、形を有する対象が出現した場合には、追跡を開始する判定を行う。判定基準となる前景のサイズや形はあらかじめ論理的または実験的に定めておく。

　追跡開始と判定されるまでＳ２０とＳ２２のＮを繰り返し、追跡開始と判定されたら（Ｓ２２のＹ）、追跡処理部３０が追跡処理を開始する。ここで、追跡開始を判定された画像フレームに対応する時刻をｔ＝０とし、以後の画像フレームは時刻ｔ＝１，２，３，・・・にそれぞれ対応するとする。まず、サンプリング部４２が画像処理部２２に対し、エッジ画像生成処理を要求することにより、画像処理部２２はｔ＝０画像フレームのエッジ画像を生成する（Ｓ２４）。このときサンプリング部４２は、後続フレームのエッジ画像生成処理要求も行い、画像処理部２２は順次処理を行ってよい。

　そしてサンプリング部４２の形状予測部４４は、まず係数セットαの空間の所定領域に均等にパーティクルを配置してサンプリングを行う（Ｓ２６）。追跡対象領域検出部２６がテンプレートマッチングなどによって、追跡対象が基準形状のいずれかにあることを検出している場合は、当該基準形状を定義する係数セットの所定範囲内にパーティクルを局所的に分布させるようにしてもよい。次に形状空間ベクトル予測部４６は、パラメータ空間の所定領域に均等にパーティクルを配置してサンプリングを行う（Ｓ２８）。すると観測部４８は、各パーティクルが定める候補曲線とエッジ画像とをマッチングすることにより尤度を観測し、結果取得部５０が式３を係数セットαおよび形状空間ベクトルｘの両空間に適用し確率密度分布の初期値p（ｔ＝０）を算出する（Ｓ３０）。

　結果取得部３４はさらに、時刻ｔ＝０における追跡対象の形状および位置として、確率密度分布p（ｔ＝０）によって各パラメータを重み付け平均して得られる曲線を最終的に決定し、元の入力画像フレームと合成するなど、所望の追跡結果データを生成して結果記憶部に保存する（Ｓ３２）。

　一方、画像処理部２２は、画像記憶部２４より時刻ｔ＝１の画像フレームを読み出しエッジ画像を生成する（Ｓ３４のＮ、Ｓ２４）。サンプリング部４２は、生成した確率密度分布の初期値p（ｔ＝０）に対応した数のパーティクルを係数セットαの空間上に発生させ、係数セットαの値に応じて分布させる（Ｓ２６）。さらに形状空間ベクトルｘの空間上にも発生させ、所定の運動モデルに基づきパーティクルをそれぞれ遷移させる（Ｓ２８）。発生させるパーティクルの数は、追跡装置１４が有する演算リソースの量や、求められる結果出力速度などに基づき、処理の負荷を考慮して制御する。分布させる規則や運動モデルは、追跡対象の種類に応じてガウシアン型運動モデル、自己回帰予測型運動モデルなどから追跡精度が高く得られるものをあらかじめ決定しておく。

　すると観測部３０は、遷移後のパーティクルが定める各候補曲線の尤度を観測し、その結果に基づき時刻ｔ＝１の確率密度分布p（ｔ＝１）を求める。（Ｓ３０）。尤度の観測は、画像処理部２２がＳ２４において生成した時刻ｔ＝１のエッジ画像を用いて、各候補曲線近傍にある輪郭線を探索することにより行われる。複数の追跡対象が存在する場合は、上記の処理を全ての追跡対象について行う。そして結果取得部３４は、時刻ｔ＝１における追跡対象の形状および位置として、確率密度分布p（ｔ＝１）によって各パラメータを重み付け平均して得られる曲線を最終的に決定し、元の入力画像フレームと合成するなど、所望の追跡結果データを生成して結果記憶部に保存する（Ｓ３２）。

　追跡開始終了判定部２８は、追跡処理を続行するか終了するかの判定を行う（Ｓ３４）。例えば手のひらと推定できる所定のサイズ、形を有する対象が前景として現れない状態が所定時間継続した場合に追跡終了の判定を行う。あるいは、実空間上において、ある追跡対象が別の追跡対象の背後に回った場合など、オクルージョンの状態が所定時間継続した場合に追跡終了の判定を行う。さらに、追跡対象が撮像装置１２の画角から外れた状態が所定時間継続した状況も、オクルージョンと同様の手法で検出し、追跡終了の判定を行う。

　Ｓ３４において追跡処理を終了しないと判定した場合は（Ｓ３４のＮ）、時刻ｔ＝２の画像フレームからエッジ画像を生成するとともに、Ｓ３２で得られた時刻ｔ＝１のときの確率密度分布p（ｔ＝１）を用いてパーティクルの操作を行い、時刻ｔ＝２のフレームに対する尤度観測、確率密度分布算出、追跡結果データ生成を行う（Ｓ２４～Ｓ３２）。以降、Ｓ３４で追跡開始終了判定部２８が追跡終了の判定（Ｓ３４のＹ）を行うまでＳ２４からＳ３２までの処理を、各フレームに対して繰り返す。これにより、例えばじゃんけんをする手のひらと同じ形状および動きで、追跡結果たる輪郭線が時間に対して変化していくような動画のデータが結果記憶部３６に格納される。出力制御部４０が当該データを、表示装置１６や別の機能を提供するモジュールなどに出力することにより、ユーザは所望の形態で追跡結果を利用することができる。

　なおこれまでの説明では主に、手のひらの基準形状をＢスプライン曲線で表す手法について述べたが、追跡対象は手のひらに限らず、人体全体、動物、物など形状が変化する物で同様に行うことができる。また、追跡対象の形状を表す曲線、直線の表現手法、および形状を定義するパラメータは、Ｂスプライン曲線や制御点などに限定されない。

　以上述べたように、本実施の形態では、追跡対象の形状変化に対応できる視覚追跡が可能となる。形状変化に対応できるということはすなわち、物の形状認識が可能である、ということを意味する。計算の過程において、一つ前の画像フレームの形状を定義する係数セットαから、遷移モデルによって次の画像フレームの形状を定義する係数セットαの分布を予測する。つまり、現在時刻の画像フレームにおける対象物の形状認識のみならず、その後の画像フレームにおける対象物の形状を予測していることになる。

　この特徴を利用すれば、カメラの前のユーザの動きを、各種処理による遅延時間を最小限にリアルタイムで検知することが可能になり、応答性に優れたユーザインターフェースを提供することができる。例えば自分の体の動きに合わせて画面上に描画された仮想の人間を動かしたり、遠隔操作型のロボットハンドを操作したりする場合に、情報入力から結果出力までの時間を削減することができる。

　上述の説明では、出力制御部４０が、追跡処理の結果得られた追跡対象の輪郭線を入力画像と合成することにより、輪郭線が追跡対象の動きと同様に動く動画像を生成する、という例を述べた。本実施の形態では上述のように、形状変化の有無に関わらず追跡対象の輪郭線を精度よくトレースすることができる。この特徴を利用すると、輪郭線の表示のみならず、画像内の対象物の領域、もしくは対象物以外の領域に、様々な視覚的効果を与えることができる。以下にその例を説明する。

　例えば手の輪郭線を追跡処理により取得した場合、親指から小指までの指の位置や各指の爪の位置がおよそ特定できる。ここで「位置」とは特徴点のような点の位置でもよいし、有限領域を有する面の位置でもよい。そしてユーザの手の画像を撮像して表示装置に表示する構成において、爪の位置にネイルアートを施した爪の画像を合成したり、所望の指の根本に指輪の画像を合成すれば、ネイルアートの試し塗りや指輪の試着を仮想的に行うことができる。

　追跡装置１４は、手の動きや形状の変化に対応して輪郭線を導出することができるため、手が所定の位置、所定の状態にある必要はない。手の向き、大きさ、奥行き方向の位置などに応じて爪の向き、大きさなどが変化しても、用意した画像をそれに応じて変形させることにより、実際の手にフィットしたネイルアートや指輪を合成させることができ、リアリティが増す。さらに輪郭線の動きによって手の傾きが推定できるため、正面、側面などカメラに対する傾きによっても合成する画像を変化させれば、陰影や光の反射具合なども確認することができる。

　図８は、追跡処理によって取得した輪郭線を利用して画像加工処理を行う画像処理装置の構成を示している。画像処理装置７０は、対象物の輪郭線を取得する追跡装置１４、ユーザからの指示入力を受け付ける入力部７２、対象物の所定の部位の位置を特定する部位特定部７４、所定の部位の位置情報に基づき所定の画像処理を施す加工処理部７６、画像処理を施した結果を出力する出力部７８、画像処理に用いるデータを記憶する加工データ記憶部８０を含む。

　追跡装置１４は図６に示した追跡装置１４と同様の構成とすることができる。なお頭部など着目する部位によっては形状変化を伴わない場合もあるため、その場合は形状予測部４４の処理などを適宜省略してよい。逆に、手のように、多様な形状変化が予測できる場合は、それらの形状に対応した追跡処理が行えるようにしておく。この場合でも、上述のように基準形状を定義するパラメータの線形和で対象物の形状を定義することにより、少数の基準形状の準備のみであらゆる形状を表現することができる。手の場合、例えば基準形状として、五指のいずれか１本を立てて残りの４本は握っている状態の５つの形状を準備することにより、立っている指の本数が１本から５本までの手を表現することができる。

　また、処理対象の画像は追跡装置１４の画像記憶部２４に格納されているものを使用するものとするが、別に設けた撮像装置から画像処理装置７０へ入力した画像データをリアルタイムで追跡したうえで画像処理を施す態様でもよい。入力部７２は、ユーザが画像処理装置７０に対し、処理の開始、終了の指示、加工処理の内容の選択を行うためのインターフェースである。入力部７２は、キーボード、マウス、トラックボール、ボタン、タッチパネルなど一般的な入力装置でよく、入力する際の選択肢などを表示する表示装置との組み合わせでもよい。

　部位特定部７４は、追跡装置１４から追跡結果である対象物の輪郭線を表す曲線のデータを取得し、爪や指など対象部位の位置を特定する。対象部位は、ユーザが選択し、入力部７２に入力することにより決定してもよいし、あらかじめ設定しておいてもよい。いずれにしても、追跡装置１４から得られる輪郭線と、当該対象部位との位置関係に係る情報を加工データ記憶部８０に記憶させておく。前述のネイルアートの例では、手の輪郭のうち指先を示す点および指先の太さなどから爪の領域を導出する規則をあらかじめ設定しておくことにより爪の位置を特定する。さらに部位特定部７４は、輪郭線から対象物の傾き、あるいは対象部位の傾きを特定する。

　図９は部位特定部７４が対象物の傾きを特定する手法の例を説明するための図である。同図において、状態８２は対象物８６を正面から見たとき、状態８４は、状態８２から回転軸８８を中心に角度θだけ回転したときである。回転軸８８と垂直方向の対象物の幅をＷとすると、図に示すように、状態８２では見かけ上の幅もＷとなる。一方、状態８４では対象物の幅はＷｃｏｓθに見える。従って、例えば対象物の正面画像をキャリブレーション用画像として最初に撮影しておけば、図９の関係を利用して、見かけ上の幅から回転角を求めることができる。対象部位の傾きも同様である。どちらの方向に傾いているかは、親指の位置など輪郭線から取得できる情報などを適宜利用する。本実施の形態では輪郭線の動きを逐次トレースしているため、所定フレーム分の対象物の動きを取得すれば、回転軸は容易に求めることができる。また、そのような対象物の動きから回転角の時間変化を求め、直後のフレームの傾きを推定するようにしてもよい。

　図８に戻り加工処理部７６は、部位特定部７４が特定した対象部位に対し所定の加工処理を施す。加工処理の内容は、ユーザが選択し、入力部７２に入力することにより決定してもよいし、あらかじめ設定しておいてもよい。あるいはその組み合わせでもよい。例えば表示装置にネイルアートの色や模様などの選択肢を表示し、ユーザの選択入力を受け付ける。そして選択されたネイルアートの画像を加工データ記憶部８０から読み出し、ユーザの手を撮像した入力画像の爪の部分に重ねて表示する。このため加工データ記憶部８０には、ネイルなど合成する画像のテクスチャデータや形状データなどの３Ｄグラフィックスデータなど、加工に必要な画像データを格納しておく。

　また部位特定部７４は対象部位の傾きも特定するため、加工処理部７６は当該傾きに応じて、合成する画像も変化させる。このとき、合成する画像の傾きを変化させるのみならず、動きに応じた陰影や光の反射の変化を表現する。また、対象部位が重なるなどして合成する画像同士が重なる場合は、部位および輪郭線の時間変化に基づき後ろ側の部位を特定し、後ろ側に対応する合成画像の隠れている部分を消去する。これらの処理は、３Ｄグラフィックスの分野におけるシェーディング、隠面消去など、一般的に用いられている手法を適宜利用することができる。さらに本実施の形態で得られる輪郭線は、対象物の任意の形状に対応することができるため、画面上対象部位が見えないときは、特に画像処理を施さない。例えば、手が「チョキ」の形をして甲が正面にある状態であれば、人差し指および中指の爪にのみネイルの画像を重ねる。

　出力部７８は、加工処理部７６が行った加工処理の結果、得られる画像を表示したり動画データとして記憶したりする。したがって出力部７８は、表示装置、ハードディスクドライブなどの記憶装置で構成する。表示装置とする場合は、入力部７２の表示装置と同一でよい。

　次に、上記の構成による画像処理装置７０の動作を説明する。図１０は画像処理装置７０が行う画像加工の処理手順を示すフローチャートである。まずユーザは、入力部７２に対し加工処理の開始指示や処理内容の選択に係る入力を行う（Ｓ４０）。処理開始の指示入力の後、表示装置に表示したネイルから好みの物を選択するなど、多段階の入力態様としてもよい。また、別のネイルを選択し直すなど処理内容の変更は、後の処理の間でも随時受け付けてよい。

　すると追跡装置１４は、時刻ｔにおける対象物の画像を取得し（Ｓ４２）、追跡処理を行うことにより対象物の輪郭線を取得する（Ｓ４４）。対象物の画像は上述のように、ユーザが自らの手などの対象物を所定の場所に乗せ、それを撮像したものをリアルタイムで取得してもよいし、あらかじめ撮像しておいた動画像の画像フレームを画像記憶部２４から読み出してもよい。

　次に部位特定部７４は、追跡装置１４から取得した輪郭線のデータから、加工処理の内容に応じた部位の位置と傾きを上述のとおり特定する（Ｓ４６）。そして対象物の画像とともに特定した情報を加工処理部７６に送信する。加工処理部７６は、Ｓ４０においてユーザが選択した内容の加工処理を、対象部位の情報に基づき施すことにより加工画像を生成する（Ｓ４８）。出力部７８は生成された加工画像を表示するなどの出力処理を行う（Ｓ５０）。ユーザから処理終了の指示入力が入力部７２に対してなされない間は（Ｓ５２のＮ）、時刻ｔをインクリメントして（Ｓ５４）、Ｓ４２からＳ５０までの処理を各画像フレームに対して行う。そしてユーザから終了を指示する入力がなされたら、処理を終了する（Ｓ５２のＹ）。

　このような動作により、陰影や反射光の変化、オクルージョンなども考慮し、対象物の動きに追随した画像の加工が可能となる。これまでの説明では対象物を手とし、ネイルアートの試し塗りを仮想空間で行う態様を主たる例としてきたが、本実施の形態はその他、多くの応用例を実現することが可能である。以下、画像処理装置７０によって実現できる応用例を説明する。

　図１１は画像処理装置７０によって洋服の試着を仮想空間で行う態様を実現したとき、出力部７８の表示装置に表示される画面例を示している。仮想試着画面９０は、試着画像表示領域９２および洋服画像表示領域９４を含む。この態様においてまずユーザは、全身が視野角に入るように撮像装置の前に立つ。撮像装置が取得したユーザの全身を含む画像は、表示装置に表示した仮想試着画面９０の試着画像表示領域９２に表示する。撮像装置を表示装置と同じ向きに配置しておけば、ユーザは自分の全身を正面から捉えた画像を見ることができる。

　洋服画像表示領域９４には、試着対象として選択できる洋服の画像を一覧表示する。例えば、ネットワークを介して洋服の受注を行う服飾店やオークションの出品者が自らの商品を画像として準備する。画像処理装置７０は、ユーザからの指示入力に従い当該画像をネットワークを介して取得して洋服画像表示領域９４に表示する。そして入力部７２を、ユーザの手元で仮想試着画面９０内に表示したポインタ９６を操作できるコントローラとすると、ユーザは当該コントローラを操作して、洋服画像表示領域９４から試着したい洋服をポインタ９６で選択することができる。

　すると図１０に示した処理手順により、試着画像表示領域９２に表示されたユーザの体に、洋服画像表示領域９４から選択された洋服を合成した画像を生成することができる。当該画像を試着画像表示領域９２に表示すると、ユーザは、選択した洋服を試着した自分の姿を見ることができる。この態様において追跡装置１４は、Ω型のテンプレートを用いてユーザの頭部の輪郭を追跡する。頭部の場合は上述のとおりΩ型のテンプレートの並進、伸縮、回転で追跡可能であるため、形状予測部４４の処理は省略してよい。

　すると部位特定部７４は、追跡装置１４が出力したΩ型の頭部輪郭のうち、肩のラインの位置や大きさを特定する。そして加工処理部７６は、選択された洋服の画像の肩のラインが、特定したユーザの肩のラインに重なるように、洋服の画像をユーザの画像に重ねる。この処理を各時刻の画像フレームに対して繰り返すことにより、ユーザの動きに追随して合成した洋服の画像を動かすことができ、まさにユーザ自身が洋服を試着して動いているように見せることができる。

　ユーザは撮像装置に対して正面を向いていなくてもよく、横を向いたり回転したりしても、図９に示したような原理で部位特定部７４がユーザの体の向きを検出し、それに合わせて洋服の画像も回転させる。そのためには、洋服を所定の複数の角度から撮影した画像を加工データ記憶部８０に格納しておく。それ以外の角度については３Ｄグラフィックスの既知の手法で補間する。ユーザの体が右、左のどちら側に向いたかは、上述のとおり前の画像フレームからの動きによって推定してもよいし、既存の顔検出技術を導入し、顔の向きから判断するようにしてもよい。

　なお図１１の例は、ユーザが撮像装置に対してほぼ後ろを向いた状態を示している。撮像装置と表示装置を同じ方向に設置した場合、この瞬間において当該ユーザは表示装置の仮想試着画面９０を見ることができない。そこで加工処理部７６は、ユーザが後ろを向いた状態を検出し、そのときに生成した加工画像は、例えば数秒単位の所定時間、表示を遅延させるように制御してもよい。ユーザが後ろを向いた状態は、ユーザの輪郭線の肩のラインの幅の時間変化や、顔検出処理において顔が検出されなかったことなどに基づき検出する。こうすることによりユーザは、洋服を試着した自分の後ろ姿を確認することができる。

　加工処理部７６はさらに、ユーザが回転していることを肩のラインの幅の時間変化などから検出したら、当該回転の速度に応じて試着中の服が形状変化する様を表現してもよい。例えば試着中のスカートの裾を広がらせたり、ブラウスをふくらませたりする。回転速度と形状変化の度合いを対応づけたテーブルを、服地の硬さや洋服の形状などに応じて用意しておけば、一般的な３Ｄグラフィックスの技術で回転速度に応じた形状変化をつけることができる。このようにすることで、より現実に近い間隔で服の様子を確認することができる。

　画像処理装置７０によって実現できる別の応用例としてモザイク処理がある。例えばあらかじめ撮影された人物のビデオ画像に対し、人物の頭部のみにモザイク処理を施すことができる。この場合も追跡装置１４は、Ω型のテンプレートを用いて人物の頭部の追跡処理を行い、輪郭線を取得する。部位特定部７４は例えば、Ω型の輪郭線および端点を結んだ線分で囲まれた領域を頭部の領域として特定する。加工処理部７６は、特定した領域に対しモザイク処理を施す。これを各時刻の画像フレームに対して繰り返すことにより、人物の動きに追随してモザイク処理を施した動画像を生成することができる。

　追跡装置１４は、人物の顔の向きに関わらず頭部の輪郭を常に取得する。そのため、顔検出などでは特定しにくい、人物が横を向いたり俯いたりしたときや後ろを向いたときなどでも頭部の領域が特定できる。すると、後頭部などでも人物が特定されてしまうような状況において顔検出ができなかったばかりにモザイクが取れてしまったり、モザイクが取れないように人物周辺の領域も含めた余計な場所に定常的にモザイクを施したりする状況を回避することができる。これにより、人物の周囲の状況など画像が有する必要な情報は保持したまま、人物の姿に係る情報を安全に隠蔽することができる。

　画像処理装置７０によって実現できるさらに別の応用例として、画像上の対象物の情報表示がある。図１２はその一例として、サッカーの試合中の選手の情報を表示する画面を示している。同図の選手情報表示画面１２０は例えば試合の中継映像であり、選手１２２、１２６、１３０の３人が撮像装置の視野角内にいる。そして、選手１２２、１２６の頭上には、選手を指す矢印と、名前、背番号、今日のシュート回数など各選手の情報を表示した領域とからなる情報タグ１２４、１２８の画像を付加する加工が施されている。同図に示すように、情報タグ１２４、１２８の大きさは、選手の撮像装置からの距離に応じて変化させる。

　この場合、追跡装置１４はΩ型のテンプレートを用いて試合中の映像における選手の頭部の追跡処理を行い、輪郭線を取得する。部位特定部７４はΩ型の輪郭線の頂点を頭頂部として特定するとともに、輪郭線の大きさを取得する。加工処理部７６は、あらかじめ設定しておいた、輪郭線の大きさと情報タグの大きさとの対応関係に基づき、情報タグの大きさを決定する。そして、あらかじめ準備した各選手の情報を加工データ記憶部８０から読み出して情報タグの画像を生成し、各選手の頭頂部に矢印の先が向くようにして試合中の映像に重ねて表示する。

　ここで情報タグは、他の選手の姿に被せないように表示することが望ましい。そのため部位特定部７４は、視野角内の選手の頭部の輪郭線の情報に基づき、他の選手が存在しない領域も特定し、加工処理部７６は当該領域に情報タグを表示するようにしてもよい。この処理を、各時刻の画像フレームに対して繰り返すことにより、選手の動きに追随する情報タグを表示させた試合の映像を生成することができる。

　情報タグの大きさを撮像装置から選手までの距離に応じて変化させることにより、情報タグにも距離感を演出することができるうえ、多人数が視野角内に存在しても情報タグが煩雑にならず、どの選手の情報タグかを把握し易くなる。追跡装置１４が複数の選手の重なり合いを検出したら、加工処理部７６は情報タグも同様に重ね合わせ、背後の選手の情報タグは手前の選手の情報タグにより一部隠蔽されるように表示してもよい。

　また情報タグの大きさには、表示させる上限、下限のいずれかまたは両方を設定してもよい。図１２の例では、最も遠くにいる選手１３０については、情報タグの大きさが下限未満になるとして情報タグを表示していない。情報タグの大きさに下限、上限を設定することにより、文字が判別できないような小さな情報タグや、画像中、大きな領域を覆ってしまうような大きな情報タグを表示することがなくなり、常に見やすい画像となる。

　このように情報タグを表示することにより、サッカーやマラソンのように広い領域で多くの人数によって行われるスポーツなどでは、選手の特定がし易くなり、さらに各選手の情報を、試合の状況や選手の動きなどを見ながら容易に把握することができる。情報タグは、ユーザの入力部７２に対する指示入力により、表示／非表示を切り替えられるようにしてもよい。また情報タグは、スポーツ映像のみならず、ドラマの登場人物や俳優の情報表示、動画像内の商品の情報表示などに利用することもできる。さらに実写のみならず、コンピュータグラフィックスで描画した仮想空間内の人や物の情報表示を行ってもよい。

　以上述べた本実施の形態によれば、追跡対象の形状を、あらかじめ用意した複数の基準形状を表すＢスプライン曲線を定義する制御点列の線形和で表現する。そして各制御点列にかかる係数で構成される係数セットを、パーティクルを定義するパラメータに含める。これにより、一のテンプレート形状の並進、伸縮、回転にのみ対応可能であったCondensationアルゴリズムを、追跡対象の形状そのものが変化する環境において適用することができる。

　また、基準形状の中間的な形状は全て係数セットの調整により表現することができるため、対象物のとり得る形状を全て準備するのに比べ、使用するメモリ領域を大幅に削減できるとともに、計算に用いるパラメータの数を少なくすることができる。また係数セットは形状空間ベクトルと同様に扱うことができるため、従来のアルゴリズムをそのまま利用することができ、計算量を増大させることがなく、パーティクルフィルタを用いた追跡処理の利点を維持することができる。

　さらに係数セットの空間における遷移モデルを導入することにより、直後の形状を予測し、当該形状を定義する係数セットの近傍にパーティクルを分布させる。これにより、パーティクルの数を増大させずに、効率的かつ精度よく追跡処理を遂行することができる。一般的には、形状認識と追跡処理は別個の処理とされるが、パーティクルという概念でそれらを結びつけることができ、簡素なアルゴリズムで同時処理が可能となる。

　また形状の遷移モデルを設定しパーティクルをそれに基づき分布させるということは、対象物の形状予測を行っていることに等しい。これにより、じゃんけんでユーザが出す手の先読みなども可能となるほか、ユーザの動きに対して応答性のよいインターフェースを実現することができ、通常の情報処理装置のユーザインターフェースのほか、遠隔操作により動作するロボットや医療器具などにも応用することができる。

　さらに、形状変化、並進、伸縮、回転の少なくともいずれかを行う対象物の輪郭線を精度よく取得し、その情報を利用して画像の加工処理を施すことにより、様々な機能を提供することができる。具体的には、ネイルアートの試し塗り、指輪や洋服の試着、モザイク処理、情報タグの付加などを行うことができる。従来、画像中の対象物の輪郭を切り出す際は、人が画像フレームを一枚一枚確認して切り出していくという作業が必要であり、特に動画の場合は、その作業コストが甚大であった。本実施の形態では動画であっても輪郭線を正確かつ容易に取得できる。また、ブルースクリーンやグリーンスクリーンなどを用いたクロマキー合成や顔検出技術などのように、入力画像に特殊な条件を必要としない。

　これにより、従来の手法に比べて少ない計算量で、輪郭線取得に加え、対象物の動きに応じた加工処理を手軽に施すことができる。対象物の傾きや重なり具合も検出できるため、加工する領域や合成する画像の形状を変化させたり、シェーディング、隠面消去などのグラフィックス処理をさらに施すことができ、仮想空間をよりリアルに表現できる。また、対象物が存在する領域、存在しない領域を、対象物の動きに応じて特定できるため、対象物のみに加工処理を施したり、対象物のない領域を選んで加工処理を施したり、といったことが可能になり、デザイン性や情報開示の観点から、ユーザのニーズに対応した加工画像を臨機応変に生成できる。

　以上、本発明を実施の形態をもとに説明した。上記実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

　例えば本実施の形態では、主に追跡対象の輪郭線を推定するために、あらかじめ準備した基準形状を定義するパラメータの線形和で対象物の輪郭線を表現した。一方、この表現手法は、追跡対象の輪郭線の推定に限らず、対象物を描画する際の表現手法として広く適用することができる。例えば、三次元コンピュータグラフィックス上で使用されるポリゴンデータの生成などに用いてもよい。このような場合でも、表現可能な全ての形状のパラメータセットを準備しておく場合と比べて、格段に使用するメモリ量を少なくすることができる。

　１０　視覚追跡システム、　１２　撮像装置、　１４　追跡装置、　１６　表示装置、　２０　画像取得部、　２２　画像処理部、　２４　画像記憶部、　２６　追跡対象領域検出部、　２８　追跡開始終了判定部、　３０　追跡処理部、　３０　観測部、　３６　結果記憶部、　４０　出力制御部、　４２　サンプリング部、　４４　形状予測部、　４６　形状空間ベクトル予測部、　４８　観測部、　５０　結果取得部、　７０　画像処理装置、　７２　入力部、　７４　部位特定部、　７６　加工処理部、　７８　出力部、　８０　加工データ記憶部、　９０　仮想試着画面、　９２　試着画像表示領域、　９４　洋服画像表示領域、　１２０　選手情報表示画面。

　以上のように本発明はコンピュータ、ゲーム機、画像表示装置などの情報処理装置に利用可能である。

Claims

　複数の基準形状の輪郭線を定義する複数のパラメータを記憶する基準形状記憶部と、
　前記基準形状記憶部が記憶した複数のパラメータの線形和における各パラメータの係数のセットを定めることにより、画像内の対象物の輪郭線形状を前記線形和で表現して出力する対象物形状決定部と、
　を備えたことを特徴とする画像処理装置。
　対象物を撮像した第１の画像フレームおよび第２の画像フレームを含む動画像ストリームデータを取得する画像取得部をさらに備え、
　前記対象物形状決定部は、
　前記係数のセットで定義される係数セット空間に、前記第１の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき、パーティクルフィルタに用いるパーティクルを生成および消滅させ、所定の遷移モデルに基づき遷移させる形状予測部と、
　前記第２の画像フレームにおける対象物の輪郭線と、前記パーティクルが定める候補輪郭とをマッチングして、各パーティクルの尤度を観測する観測部と、
　前記観測部が観測した尤度に基づき前記第２の画像フレームにおける対象物の、前記係数セット空間における推定存在確率分布を算出し、当該推定存在確率分布に基づき各パーティクルの前記係数のセットに重み付けを行うことにより、前記第２の画像フレームにおける対象物の輪郭線形状を推定する輪郭線取得部と、
　を備えたことを特徴とする請求項１に記載の画像処理装置。
　前記輪郭線を定義するパラメータは、輪郭線をＢスプライン曲線で表した際の制御点列であることを特徴とする請求項１または２に記載の画像処理装置。
　前記輪郭線を定義するパラメータは、輪郭線をＢスプライン曲線で表した際のノット列であることを特徴とする請求項１または２に記載の画像処理装置。
　前記形状予測部が遷移させたパーティクルを、各パーティクルによって定まる輪郭線の並進量、倍率、回転角を定める形状空間ベクトルで定義される形状空間ベクトル空間に、前記第１の画像フレームにおける対象物の当該空間における推定存在確率分布に基づき生成および消滅させ、所定の遷移モデルに基づき遷移させる形状空間ベクトル予測部をさらに備え、
　前記観測部は、前記形状空間ベクトル予測部が遷移させたパーティクルの尤度を観測し、
　前記輪郭線取得部は、前記観測部が観測した尤度に基づき前記第２の画像フレームにおける対象物の、前記形状空間ベクトルの空間における推定存在確率分布をさらに算出し、当該推定存在確率分布に基づき各パーティクルの前記形状空間ベクトルに重み付けを行うことにより、前記第２の画像フレームにおける対象物の輪郭線の並進量、倍率、回転角をさらに推定することを特徴とする請求項２に記載の画像処理装置。
　前記形状予測部は、前記第１の画像フレームにおける対象物の推定存在確率分布に基づき生成および消滅させたパーティクルを、前記係数セット空間における遷移前の座標を中心としたガウス分布をなすように遷移させることを特徴とする請求項２に記載の画像処理装置。
　前記形状予測部は、前記係数セット空間におけるパーティクルの遷移前の座標に基づき、当該パーティクルで定義される形状が第一の基準形状と第二の基準形状の間の形状であることを検出した際、前記係数セット空間において前記第一の基準形状を表す座標と前記第二の基準形状を表す座標とを結ぶ線の方向の標準偏差が、他の方向の標準偏差より大きいガウス分布をなすように、パーティクルを遷移させることを特徴とする請求項６に記載の画像処理装置。
　前記形状予測部は、前記係数セット空間におけるパーティクルの遷移前の座標に基づき、当該パーティクルで定義される形状が基準形状と見なされる状態にあることを検出した際、当該基準形状から遷移することのできる各基準形状へ遷移する確率が等しいとして、パーティクルを分配することを特徴とする請求項２に記載の画像処理装置。
　複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定めるステップと、
　定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力するステップと、
　を含むことを特徴とする画像処理方法。
　対象物を撮像した第１の画像フレームおよび第２の画像フレームを含む動画像ストリームデータを取得しメモリに保存するステップをさらに含み、
　前記出力するステップは
　前記係数のセットで定義される係数セット空間における、前記第１の画像フレームにおける対象物の推定存在確率分布に基づき、前記第２の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第２の画像フレームにおける対象物の輪郭線と比較することにより、前記第２の画像フレームにおける対象物の推定存在確率分布を取得するステップと、
　前記推定存在確率分布に基づき前記第２の画像フレームにおける対象物の輪郭線を推定しメモリに保存するステップと、
　を含むことを特徴とする請求項９に記載の画像処理方法。
　複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定める機能と、
　定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラム。
　対象物を撮像した第１の画像フレームおよび第２の画像フレームを含む動画像ストリームデータを取得しメモリに保存する機能をさらにコンピュータに実現させ、
　前記係数のセットで定義される係数セット空間における、前記第１の画像フレームにおける対象物の推定存在確率分布に基づき、前記第２の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第２の画像フレームにおける対象物の輪郭線と比較することにより、前記第２の画像フレームにおける対象物の推定存在確率分布を取得する機能と、
　前記推定存在確率分布に基づき前記第２の画像フレームにおける対象物の輪郭線を推定しメモリに保存する機能と、
　をコンピュータに実現させることを特徴とする請求項１１に記載のコンピュータプログラム。
　複数の基準形状の輪郭線を定義する複数のパラメータを記憶装置から読み出し、当該パラメータの線形和における各パラメータの係数のセットを定める機能と、
　定められた前記係数のセットを用いて、画像内の対象物の輪郭線を前記線形和で表現して出力する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体。
　　対象物を撮像した第１の画像フレームおよび第２の画像フレームを含む動画像ストリームデータを取得しメモリに保存する機能をさらにコンピュータに実現させ、
　前記係数のセットで定義される係数セット空間における、前記第１の画像フレームにおける対象物の推定存在確率分布に基づき、前記第２の画像フレームにおける対象物の輪郭線を予測し、メモリから読み出した前記第２の画像フレームにおける対象物の輪郭線と比較することにより、前記第２の画像フレームにおける対象物の推定存在確率分布を取得する機能と、
　前記推定存在確率分布に基づき前記第２の画像フレームにおける対象物の輪郭線を推定しメモリに保存する機能と、
　をコンピュータに実現させることを特徴とする請求項１３に記載のコンピュータプログラムを記録した記録媒体。
　動画像を構成する画像フレームから対象物の輪郭線を取得する輪郭線取得部と、
　前記輪郭線取得部が取得した対象物の輪郭線に基づき、対象物の所定の部位の位置を特定する対象部位特定部と、
　前記画像フレームのうち、前記対象部位特定部が特定した所定の部位の位置に基づき決定される領域に、所定の加工処理を施した加工画像を生成する加工処理部と、
　前記加工処理部が生成した加工画像を画像フレームとする動画像のデータを出力する出力部と、
　を備えたことを特徴とする画像処理装置。
　前記対象部位特定部は、前記所定の部位の傾きの時間変化を、前記輪郭線の時間変化から取得し、
　前記加工処理部は、前記所定の部位の傾きの時間変化に応じて加工処理の結果も時間変化するように加工画像を生成することを特徴とする請求項１５に記載の画像処理装置。
　洋服の３Ｄグラフィックス画像のデータを記憶する記憶部をさらに備え、
　前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
　前記対象部位特定部は、前記輪郭線の肩の線を特定し、
　前記加工処理部は、前記肩の線に、ユーザが選択した洋服の肩の線を合致させるように、当該人間の身体に前記洋服の画像を合成することを特徴とする請求項１５に記載の画像処理装置。
　ネイルアートを施した爪の３Ｄグラフィックス画像のデータを記憶する記憶部をさらに備え、
　前記輪郭線取得部は、対象物である人の手の輪郭線を取得し、
　前記対象部位特定部は、前記輪郭線の指の先端の位置から爪の領域を特定し、
　前記加工処理部は、前記爪の領域に、ユーザが選択したネイルアートを施した爪の画像が合致するように、当該爪の画像を合成することを特徴とする請求項１５に記載の画像処理装置。
　前記輪郭線取得部は、前記手の輪郭線を定義するＢスプライン曲線のパラメータを、あらかじめ定めた複数の基準形状の輪郭線を定義するパラメータの線形和で表現したときの係数のセットをマッチングにより調整することにより、前記輪郭線を表すＢスプライン曲線を取得することを特徴とする請求項１８に記載の画像処理装置。
　前記輪郭線取得部は、前記Ｂスプライン曲線のパラメータを、五指のいずれか一本が立った状態の５つの基準形状のＢスプライン曲線のパラメータの線形和で表現することを特徴とする請求項１９に記載の画像処理装置。
　前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
　前記対象部位特定部は、前記Ω型およびその端点を結ぶ線分で囲まれた領域を頭部領域として特定し、
　前記加工処理部は、前記頭部領域にモザイク処理を施すことを特徴とする請求項１５に記載の画像処理装置。
　前記加工処理部は、前記対象部位特定部が特定した所定の部位の位置に基づき決定された、対象物の輪郭より外側の領域に、当該対象物に係る情報を表示した画像を合成することを特徴とする請求項１５に記載の画像処理装置。
　前記輪郭線取得部は、対象物である人間の頭部の輪郭線をΩ型のテンプレートで表し、画像フレームのエッジ画像とマッチングすることによって当該人間の頭部の輪郭線をΩ型で取得し、
　前記対象部位特定部は、前記頭部の輪郭線上の所定のポイントの位置をおよび頭部の見かけ上の大きさを特定し、
　前記加工処理部は、前記所定のポイントを指す線と内部に前記情報を表示した図形とからなる情報タグの画像を、頭部の見かけ上の大きさに応じたサイズで合成することを特徴とする請求項２２に記載の画像処理装置。
　前記加工処理部は、前記情報タグのサイズに対してあらかじめ設定された下限および上限を超えたサイズの情報タグを合成しないことを特徴とする請求項２３に記載の画像処理装置。
　前記対象部位特定部は、第１の部位の少なくとも一部が第２の部位の背後に隠れたことを対象物の輪郭線の時間変化より検出し、
　前記加工処理部は、加工処理として前記第１の部位と前記第２の部位のそれぞれに対応した画像を合成する際、前記第１の部位に対応した画像の少なくとも一部が第２の部位によって隠れるように隠面消去処理を行うことを特徴とする請求項１５に記載の画像処理装置。
　メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得するステップと、
　前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定するステップと、
　前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納するステップと、
　を含むことを特徴とする画像処理方法。
　メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得する機能と、
　前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定する機能と、
　前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラム。
　メモリに保存された動画像を構成する画像フレームを読み出し、対象物の輪郭線を取得する機能と、
　前記輪郭線に基づき、対象物または対象物の所定の部位の領域を特定する機能と、
　前記画像フレームのうち、特定した領域から決定される領域に所定の加工処理を施した加工画像を生成し、メモリに格納する機能と、
　をコンピュータに実現させることを特徴とするコンピュータプログラムを記録した記録媒体。