WO2013125239A1

WO2013125239A1 - 画像処理装置、撮像装置及び画像処理プログラム

Info

Publication number: WO2013125239A1
Application number: PCT/JP2013/001018
Authority: WO
Inventors: 斎藤　郁哉; 中島　伸一; 靖博益戸
Original assignee: 株式会社ニコン
Priority date: 2012-02-23
Filing date: 2013-02-22
Publication date: 2013-08-29

Abstract

　本発明の画像処理装置は、動画像を構成する複数のフレーム画像に含まれる画素を空間方向及び時間方向からなる三次元空間上にそれぞれノードとして配置し、空間方向又は時間方向の少なくとも１方向で隣接する２つの画素間の差分値を隣接するノード間の重みとして設定した３次元のグラフを生成するグラフ生成手段と、３次元のグラフにおいて空間方向又は時間方向の少なくとも１方向で隣接するノード間の重みのうち、最小となるノード間の重みと評価用パラメータとを用いて、重みが最小となるノード間を連結するか否かを評価する処理を繰り返し実行することで、３次元のグラフにおける最小全域木を求める最小全域木生成手段と、空間方向に対して設定される第１のパラメータと、第１のパラメータと異なる値からなり時間方向に対して設定される第２のパラメータとを有し、第１のパラメータ又は第２のパラメータのいずれか一方を、評価用パラメータとして設定するパラメータ設定手段と、を備えたことを特徴とする。

Description

画像処理装置、撮像装置及び画像処理プログラム

　本発明は、画像処理装置、撮像装置及び画像処理プログラムに関する。

　取得される静止画像から被写体や背景などの各領域を分割する技術が種々提案されている。この領域分割の方法としては、各画素の画素値から隣接する画素間のエッジを評価し、隣接する画素を統合するか否かを繰り返し行う方法や、輝度や色成分などの性質が近似する画素の領域（小領域）間のエッジを評価し、隣接する小領域を統合するか否かを繰り返し行う方法などが挙げられる（特許文献１参照）。

特開２００８－０５９０８１号公報

　ここで、静止画像ではなく動画像に対して領域分割を行う場合、動画像を構成する各フレーム画像のそれぞれで領域分割を行って、時間的に前後するフレーム画像間で対応付けることができれば、オブジェクトの動き情報を考慮でき、シーン認識の精度の向上に繋がる。しかしながら、動いているオブジェクトが他のオブジェクトに一時的に隠れるような動画像の場合、動いているオブジェクトの一部が他のオブジェクトに隠れることで、複数の領域に分割されてしまうことがある。また、動画像のフレーム画像毎に領域分割する場合、フレーム画像毎に分割される領域が異なる場合もあることから、オブジェクトの動き情報を正確に取得することができないという問題もある。

　本発明は、動画像に対する領域分割を適切に行うことできるようにした画像処理装置、撮像装置及び画像処理プログラムを提供することを目的とする。

　上述した課題を解決するために、本発明の画像処理装置は、動画像を構成する複数のフレーム画像に含まれる画素を空間方向及び時間方向からなる三次元空間上にそれぞれノードとして配置し、前記空間方向又は前記時間方向の少なくとも１方向で隣接する２つの画素間の差分値を隣接するノード間の重みとして設定した３次元のグラフを生成するグラフ生成手段と、前記３次元のグラフにおいて前記空間方向又は前記時間方向の少なくとも１方向で隣接する前記ノード間の重みのうち、最小となる前記ノード間の重みと評価用パラメータとを用いて、前記重みが最小となる前記ノード間を連結するか否かを評価する処理を繰り返し実行することで、前記３次元のグラフにおける最小全域木を求める最小全域木生成手段と、前記空間方向に対して設定される第１のパラメータと、前記第１のパラメータと異なる値からなり前記時間方向に対して設定される第２のパラメータとを有し、前記第１のパラメータ又は前記第２のパラメータのいずれか一方を、前記評価用パラメータとして設定するパラメータ設定手段と、を備えたことを特徴とする。

　また、本発明の撮像装置は、被写体光の光束を調整する絞りを備えた撮像光学系と、前記撮像光学系により取り込まれた被写体光を受光することで、画像を取得する撮像素子と、上述した画像処理装置と、を備えたことを特徴とする。

　また、本発明の画像処理装置は、時系列に撮像された複数の画像の各画像について、隣接する２つの画素間の差分値に基づいて複数の領域に分割する分割手段と、前記複数の画像のうち、時間的に前後する２つの画像において対応する位置に配置される画素間の差分値に基づいて、それぞれの画素が含まれる領域が同一の領域であるか否かを評価する評価手段と、を備えたことを特徴とする。

　また、本発明の画像処理プログラムは、動画像を構成する複数のフレーム画像に含まれる画素を空間方向及び時間方向からなる三次元空間上にそれぞれノードとして配置し、前記空間方向又は前記時間方向の少なくとも１方向で隣接する２つの画素の差分を隣接するノード間の重みとして設定した３次元のグラフを生成するグラフ生成ステップと、前記３次元のグラフにおいて前記空間方向又は前記時間方向の少なくとも１方向で隣接する前記ノード間の重みのうち、最小となる前記ノード間の重みと評価用パラメータとを用いて、前記重みが最小となる前記ノード間を連結するか否かを評価する処理を繰り返し実行することで、前記３次元のグラフにおける最小全域木を求める最小全域木生成ステップと、前記空間方向に対して設定される第１のパラメータと、前記第１のパラメータと異なる値からなり前記時間方向に対して設定される第２のパラメータとのいずれか一方を、前記評価用パラメータとして設定するパラメータ設定ステップと、をコンピュータに実行させることが可能なものである。

　また、本発明の画像処理プログラムは、時系列に撮像された複数の画像の各画像について、隣接する２つの画素間の差分値に基づいて複数の領域に分割する分割ステップと、前記複数の画像のうち、時間的に前後する２つの画像において対応する位置に配置される画素間の差分値に基づいて、それぞれの画素が含まれる領域が同一の領域であるか否かを評価する評価ステップと、をコンピュータに実行させることが可能なものである。

本実施形態の画像処理装置の構成を示す図である。静止画像に基づいて生成される重み付きグラフの一例である。動画像に基づいて生成される重み付きグラフの一例である。画像処理装置における処理の流れを示すフローチャートである。図５（ａ）は人物を被写体とした静止画像の一例、図５（ｂ）は図５（ａ）における各画素の輝度値の一例を示す図である。図５（ｂ）の各画素の輝度値を用いた重み付きグラフの一例を示す図である。図６の重み付きグラフを用いた最小全域木の一例を示す図である。動画像の構成の一例を示す図である。本発明の画像処理装置を備えた撮像装置の一例を示す図である。

　図１は、本発明を用いた画像処理装置の構成を示す機能ブロック図である。画像処理装置１０は、色空間変換部１１、解像度変換部１２、グラフ生成部１３、最小全域木生成部１４、パラメータ設定部１５及び領域分割部１６を備えている。色空間変換部１１は、入力される画像データの色空間をＲＧＢ色空間からＹＣｂＣｒ色空間に変換する。解像度変換部１２は、ＹＣｂＣｒ色空間に変換された画像データの解像度を変換する。この解像度変換部１２による解像度変換処理により、画像データの解像度が例えば６４０×４８０画素に変換される。なお、解像度変換処理が行われた画像データの解像度を６４０×４８０画素としているが、これに限定される必要はなく、適宜設定してよい。

　グラフ生成部１３は、解像度変換処理が施された画像データを用いて、画像データに基づく画像の各画素をノード（頂点）、隣接する画素間をエッジ（辺）とした重み付きグラフを生成する。グラフ生成部１３は、画素間のエッジの重みとして隣接する画素の画素値の差分を算出する。なお、画素の画素値としては、例えば輝度値、Ｒ，Ｇ，Ｂの各階調値などが挙げられる。以下、画素の画素値として輝度値を例に挙げて説明する。

　グラフ生成部１３は、入力された画像データが静止画像データである場合、２次元の重み付きグラフを生成する。図２は、静止画像データに基づいて生成された重み付きグラフの一例である。図２中、Ｎ（１，１）～Ｎ（６，５）はノード、記号ｅはエッジを示している。なお、図２中Ｘ方向及びＹ方向が空間方向となる。

　一方、入力された画像データが動画像データである場合、グラフ生成部１３は、入力された動画像データに基づく動画像の各フレーム画像を、時間方向に並べた複数の静止画像とみなす。グラフ生成部１３は、複数の静止画像としてみなした各フレーム画像の各画素をノードとし、フレーム画像内の隣接する画素間、及び時間的に前後する２つのフレーム画像において同一位置（座標）にある画素間をエッジとした３次元の重み付きグラフを生成する。図３は、動画像データに基づいて生成された重み付きグラフの一例である。この図３において、Ｘ方向及びＹ方向は空間方向、Ｚ方向は時間方向である。

　この図３において、Ｎ（１，１，１）～Ｎ（６，５，１）はフレーム画像ＦＲ１から得られるノード、Ｎ（１，１，２）～Ｎ（６，５，２）はフレーム画像ＦＲ２から得られるノード、Ｎ（１，１，３）～Ｎ（６，５、３）は、フレーム画像ＦＲ３から得られるノードである。また、図３において、各ノード間のエッジは記号ｅで示している。なお、図３中の煩雑さを解消するために、ノードの一部に対する記号や、エッジに対する記号を省略している。

　最小全域木生成部１４は、グラフ生成部１３によって生成された重み付きグラフを用いて最小全域木を生成する。この最小全域木を生成する手法として、例えば“Efficient Graph-Based Image Segmentation” P.Felzenszwalb, D.Huttenlocher(2004)，International Journal of Computer Vision,59 167-181の手法が挙げられる。この手法は、例えばクラスカル法を用いて実行される。上述した手法は、重み付きグラフＧ（Ｖ，Ｅ）の各エッジの重みｗ（ｅ）のうち、最小となる重みｗ（ｅ）を１つ選択し、エッジが結ぶ２つのノードのそれぞれが含まれるコンポーネントを結合するか否かを判定する。この判定は、後述するセグメンテーションの基準Ｄ（Ｃ_１，Ｃ_２）の評価を行うことで実行される。この判定をエッジの重みｗ（ｅ）の低い順に、全てのエッジの重みｗ（ｅ）に対して繰り返し実行する。この処理の後に、コンポーネントにおける最小全域木が閉路となるエッジがあるか否かが判定される。上述したエッジが結ぶ２つのノードのそれぞれが含まれるコンポーネントを結合するか否かの判定を行うことで、一定サイズ以下の微小なコンポーネントが他のコンポーネントに結合される。なお、重み付きグラフの最小全域木を求める手法としてクラスカル法を用いているが、これに限定される必要はなく、プリム法など、他の手法を用いることも可能である。

　以下、セグメンテーションの基準Ｄ（Ｃ_１，Ｃ_２）の評価について説明する。ｖ∈Ｖは各画素に対応する重み付きグラフのノードであり、ｅ∈Ｅは隣接する画素間に対して定義したノード間のエッジである。コンポーネントとして領域Ｃを考慮した場合、領域Ｃ内の相違性をＩｎｔ（Ｃ）とすると、Ｉｎｔ（Ｃ）は［数１］で定義される。

　ＭＳＴ（Ｃ，Ｅ）は領域Ｃ内の最小全域木におけるエッジを示す。

　次に、２つの領域Ｃ_１、Ｃ_２間の相違性をＤｉｆ（Ｃ_１，Ｃ_２）とすると、Ｄｉｆ（Ｃ_１，Ｃ_２）は、［数２］で定義される。

　２つの領域Ｃ_１、Ｃ_２間におけるセグメンテーションの基準Ｄ（Ｃ_１，Ｃ_２）は、以下の［数３］、［数４］で定義される。

　ここで、τ（Ｃ）は係数であり、係数τ（Ｃ）は、パラメータ設定部１５により設定される値である。この係数τ（Ｃ）は、コンポーネントの面積が小さいほど大きい値となる。つまり、領域Ｃが小さいほど、ＭＩｎｔ（Ｃ_１，Ｃ_２）の値が大きくなる。その結果、セグメンテーションの基準Ｄが「ｆａｌｓｅ」となり、２つの領域が結合されやすくなる。また、係数τ（Ｃ）は、コンポーネントの面積が小さいほど小さい値となる。その結果、セグメンテーションの基準Ｄが「ｔｒｕｅ」となり、２つの領域が結合しにくくなる。

　パラメータ設定部１５は、上述したセグメンテーションの基準Ｄの評価にて使用される係数τ（Ｃ）を設定する。パラメータ設定部１５は、例えばコンポーネントの面積に応じた係数τ（Ｃ）の値が記載されたテーブルデータを保持している。なお、パラメータ設定部１５に保持されるテーブルデータは、空間方向のテーブルデータと、時間方向のテーブルデータとからなる。

　例えば選択されたエッジの重みｗ（ｅ）におけるエッジの方向が空間方向であれば、パラメータ設定部１５は、空間方向のテーブルデータを読み出す。そして、パラメータ設定部１５は、読み出した空間方向のテーブルデータからコンポーネントの面積に基づいた係数τ_ｓ（Ｃ）を選択する。そして、選択した係数τ_ｓ（Ｃ）を係数τ（Ｃ）として設定する。また、選択されたエッジの重みｗ（ｅ）におけるエッジの方向が時間方向であれば、パラメータ設定部１５は、時間方向のテーブルデータを読み出す。そして、パラメータ設定部１５は、読み出した時間方向のテーブルデータからコンポーネントの面積に基づいた係数τ_ｔ（Ｃ）を選択する。そして、選択した係数τ_ｔ（Ｃ）を係数τ（Ｃ）として設定する。

　ここで、コンポーネントの面積が同一となる場合、時間方向のテーブルデータに基づく係数τ_ｔ（Ｃ）の値は、空間方向のテーブルデータに基づくτ_ｓ（Ｃ）よりも大きな値となる。このように空間方向のテーブルデータの値と時間方向のテーブルデータの値とを設定しておくことで、時間的に前後するフレーム画像間のオブジェクトの関連性を高めることができる。

　なお、パラメータ設定部１５においては、空間方向のテーブルデータと、時間方向のテーブルデータとを保持している構成としているが、これに限定される必要はなく、係数τ（Ｃ）を、コンポーネントの面積と、空間方向に対して設定される係数Ｓ１及び時間方向に対して設定される係数Ｓ２のいずれか一方の値とから算出することも可能である。

　領域分割部１６は、最小全域木生成部１４により生成された最小全域木を用いて、入力された画像データに基づく画像に含まれるオブジェクトの領域を、オブジェクト毎に分割する。

　次に、画像処理装置における処理の流れを図４のフローチャートに基づいて説明する。

　ステップＳ１０１は、色空間変換処理である。色空間変換部１１は、入力された画像データをＲＧＢ色空間で示される画像データからＹＣｂＣｒ色空間で示される画像データに変換する。

　ステップＳ１０２は、解像度変換処理である。解像度変換部１２は、ＹＣｂＣｒ色空間の画像データに対して解像度変換処理を施す。これにより、入力される画像データの解像度が例えば６４０×４８０画素に変換される。

　ステップＳ１０３は、重み付きグラフを生成する処理である。グラフ生成部１３は、解像度変換された画像データを用いて、各画素をノード、各画素間をエッジとした重み付きグラフを生成する。この際に、グラフ生成部１３は、各画素の画素値の差分をエッジの重みｗ（ｅ）として算出する。

　ステップＳ１０４は、エッジの重みｗ（ｅ）の最小値を選択する処理である。最小全域木生成部１４は、生成された重み付きグラフを参照して、選択対象として設定される各エッジの重みｗ（ｅ）の最小値を選択する。ここで、１回目の処理においては、全てのエッジの重みｗ（ｅ）が選択対象となる。また、２回目以降の処理では、先に実行されたステップＳ１０４の処理において選択されたエッジの重みｗ（ｅ）と、後述するステップＳ１１０により選択対象外として設定されたエッジの重みｗ（ｅ）とを除いた、残りのエッジの重みｗ（ｅ）が選択対象となる。

　ステップＳ１０５は、係数τ（Ｃ）を設定する処理である。ステップＳ１０４によって選択されたエッジの重みｗ（ｅ）におけるエッジの方向が空間方向である場合、パラメータ設定部１５は、空間方向のテーブルデータを読み出す。そして、パラメータ設定部１５は、対象となるコンポーネントの面積に基づいた係数τ_ｓ（Ｃ）を選択する。そして、パラメータ設定部１５は、選択された係数τ_ｓ（Ｃ）を、セグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）の評価時に用いる係数τ（Ｃ）として設定する。

　同様にして、選択されたエッジの重みｗ（ｅ）におけるエッジの方向が時間方向である場合、パラメータ設定部１５は、時間方向のテーブルデータを読み出す。そして、パラメータ設定部１５は、対象となるコンポーネントの面積に基づいた係数τ_ｔ（Ｃ）を選択する。そして、パラメータ設定部１５は、選択された係数τ_ｔ（Ｃ）を、セグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）の評価時に用いる係数τ（Ｃ）として設定する。

　ステップＳ１０６は、セグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）を評価する処理である。最小全域木生成部１４は、［数３］及び［数４］を用いてセグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）を評価する。この際に、パラメータ設定部１５により設定された係数τ（Ｃ）が使用される。

　ステップＳ１０７は、評価が「ｆａｌｓｅ」となるか否かを判定する処理である。ステップＳ１０６において、セグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）の評価が「ｆａｌｓｅ」であるとき、最小全域木生成部１４はステップＳ１０７の判定処理の結果をＹｅｓとする。この場合、ステップＳ１０８に進む。一方、セグメンテーション基準Ｄ（Ｃ_ｉ，Ｃ_ｊ）の評価が「ｔｒｕｅ」であるとき、最小全域木生成部１４はステップＳ１０７の判定処理の結果をＮｏとする。この場合、ステップＳ１０９に進む。

　ステップＳ１０８は、コンポーネントを結合する処理である。ステップＳ１０６のセグメンテーション基準の評価により「ｆａｌｓｅ」と判定されている。最小全域木生成部１４は、選択されたエッジの重みｗ（ｅ）が算出されたノード間のエッジを連結する。これにより、コンポーネントＣ_ｉ及びコンポーネントＣ_ｊが一つのコンポーネントとして結合される。

　ステップＳ１０９は、コンポーネントに含まれるノード間において連結されていないエッジのうち、その連結時にコンポーネントにおける最小全域木が閉路となるエッジがあるか否かを判定する処理である。最小全域木が閉路となるエッジがある場合には、最小全域木生成部１４は、ステップＳ１０９の判定処理の結果をＹｅｓとする。この場合、ステップＳ１１０に進む。一方、最小全域木が閉路となるエッジがない場合には、最小全域木生成部１４は、ステップＳ１０９の判定処理の結果をＮｏとする。この場合、ステップＳ１１１に進む。

　ステップＳ１１０は、選択対象外のエッジを設定する処理である。最小全域木生成部１４は、コンポーネントに含まれるノード間において連結されていないエッジのうち、コンポーネントにおける最小全域木が閉路となるエッジを、ステップＳ１０５の最小の重みｗ（ｅ）を選択する際の対象となるエッジから外す処理を行う。これにより、選択対象外のエッジが設定される。

　ステップＳ１１１は、全てのエッジの重みｗ（ｅ）を選択したか否かを判定する処理である。最小全域木生成部１４は、選択対象となるエッジの重みｗ（ｅ）がないか否かを判定する。選択対象となるエッジの重みｗ（ｅ）がない場合には、最小全域木生成部１４は、ステップＳ１１１の判定処理の結果をＹｅｓとする。この場合、ステップＳ１１２に進む。

　一方、選択対象となるエッジの重みｗ（ｅ）がある場合には、最小全域木生成部１４は、ステップＳ１１１の判定処理の結果をＮｏとして、ステップＳ１０５に戻る。つまり、ステップＳ１１１の判定処理により選択対象となるエッジの重みｗ（ｅ）が全て選択されていないと判定された場合には、選択対象となるエッジの重みｗ（ｅ）が全て選択されたと判定されるまで、ステップＳ１０５～ステップＳ１１０の処理が繰り返し実行される。

　ステップＳ１１２は、領域分割処理である。画像処理装置１０に入力される画像データが静止画像データの場合には、領域分割部１６は、生成された最小全域木のデータを用いて、静止画像データに対する領域分割処理を実行する。

　一方、画像データが動画像データの場合には、領域分割部１６は、生成された最小全域木のデータに対して、時間方向の平滑化処理を行う。この時間方向の平滑化処理により、フレーム画像単位で領域分割することで生じる、異なるオブジェクトの画素が他のオブジェクトの画素と認識されることを抑止することができる。そして、平滑化処理した最小全域木に基づいて、動画像に対する領域分割処理を実行する。これにより、入力される画像データに対する領域分割処理が終了する。

　以下、静止画像データが画像処理装置１０に入力される場合について説明する。図５（ａ）及び図５（ｂ）は、人物Ａを撮影することにより得られた静止画像ＳＩ、及び静止画像ＳＩの各画素に対する輝度値を示す。この静止画像ＳＩにおける各画素の輝度値を用いて生成される重み付きグラフが図６である。この重み付きグラフを用いて、上述した最小全域木を求める処理が実行される。図６においては、ノードの値と、エッジの重み値とを記載し、各ノードの位置を示す記号を省略している。ここで、図６に示す各ノードの位置を示す記号については、画素数が同一の場合を示す図２を参照して説明する。

　上述したように、最小全域木を求める場合には、最小となるエッジの重みが選択される。図６においては、ノードＮ（３，３）とノードＮ（３，４）との間のエッジの重みｗ（ｅ）が「０」となる。つまり、最小全域木生成部１４は、ノードＮ（３，３）及びノードＮ（３，４）をそれぞれコンポーネントとして設定する。そして、最小全域木生成部１４は、セグメンテーション基準Ｄを評価する。セグメンテーション基準Ｄの評価が「ｆａｌｓｅ」であれば、最小全域木生成部１４は、コンポーネントとして設定されたノードＮ（３，３）とノードＮ（３，４）とを結合する。最小全域木生成部１４は、結合されたノードＮ（３，３）とノードＮ（３，４）とを新たなコンポーネントとして設定する。

　その後、最小となるエッジの重みノードＮ（３，３）は、「２」となる。最小全域木生成部１４は、ノードＮ（３，２）とノードＮ（４，２）とをそれぞれコンポーネントとして設定する。領域分割部１６は、セグメンテーション基準Ｄを評価する。この場合も、評価が「ｆａｌｓｅ」となるので、最小全域木生成部１４は、コンポーネントとして設定されたノードＮ（３，２）とノードＮ（４，２）とを結合する。最小全域木生成部１４は、ノードＮ（４，５）とノードＮ（５，５）とに対しても、同一の処理を実行する。

　このようにして、最小となるエッジの重みｗ（ｅ）から順に、セグメンテーション基準Ｄを評価する。そして、セグメンテーション基準Ｄの評価が「ｆａｌｓｅ」である場合にのみ、最小全域木生成部１４はコンポーネントを結合する。この際に、コンポーネントにおける最小全域木が閉路となるエッジがあれば、最小全域木生成部１４は、そのエッジをエッジの重みｗ（ｅ）の選択する際の対象から外す。これら処理を全てのエッジの重みｗ（ｅ）に対して繰り返し実行することで、２次元の重み付きグラフに基づく最小全域木が生成される（図７参照）。この最小全域木に基づいて、領域分割部１６は、静止画像に対する領域分割処理を実行する。

　一方、画像処理装置１０に入力される画像データが動画像データとなる場合、グラフ生成部１３は、動画像データに基づく動画像を構成する複数のフレーム画像をそれぞれ静止画像としてみなす。その上で、グラフ生成部１３は、複数の静止画像としてみなした各フレーム画像の各画素をノードとし、フレーム画像内の隣接する画素間、及び時間的に隣り合う２つのフレーム画像において同一位置（座標）にある画素間をエッジとした３次元の重み付きグラフを生成する。領域分割部１６は、生成された３次元の重み付きグラフを用いて最小全域木を求める。

　その後、パラメータ設定部１５は、選択されたエッジの重みｗ（ｅ）におけるエッジの方向に基づいてセグメンテーションの基準Ｄの評価にて使用される係数τ（Ｃ）を設定する。例えば選択されたエッジの重みｗ（ｅ）におけるエッジの方向が空間方向であれば、パラメータ設定部１５は、空間方向のテーブルデータを用いて係数τ_ｓ（Ｃ）を選択し、選択した係数τ_ｓ（Ｃ）をセグメンテーションの基準Ｄの評価にて使用する係数τ（Ｃ）として設定する。一方、選択されたエッジの重みｗ（ｅ）におけるエッジの方向が時間方向であれば、パラメータ設定部１５は、時間方向のテーブルデータを用いて係数τ_ｔ（Ｃ）を選択し、選択した係数τ_ｔ（Ｃ）をセグメンテーションの基準Ｄの評価にて使用する係数τ（Ｃ）として設定する。そして、最小全域木生成部１４は、設定された係数τ（Ｃ）を用いて、セグメンテーション基準Ｄの評価を実行する。この処理を繰り返し行うことで、２次元の重み付きグラフの場合と同様に、３次元の重みグラフに基づく最小全域木が生成される。

　なお、動画像データを用いて最小全域木を求める場合、時間的に前後するフレーム画像において同一座標に位置する画素間の輝度値の差分と、フレーム画像内で隣接する画素間の輝度値の差分とが同一の値となる場合がある。このような場合には、上述したステップＳ１０４の処理において、空間方向におけるエッジの重みｗ（ｅ）よりも、時間方向におけるエッジの重みｗ（ｅ）を優先的に選択すればよい。このようなエッジの重みｗ（ｅ）の選択により、フレーム画像間の関連性をより明確にすることができる。

　このように、入力される画像データが動画像データとなる場合であっても、動画像データに基づく動画像を構成する複数のフレーム画像を、複数の静止画像と見なして３次元の重み付きグラフを生成し、さらに３次元の最小全域木を生成している。例えば、動画像の各フレーム画像のそれぞれに対して、２次元の最小全域木を生成した場合には、類似する特徴量となるオブジェクトが近接している場合には適切な領域分割を行うことができない。しかしながら、本実施形態に示した３次元の最小全域木を生成することで、フレーム画像に含まれる被写体をフレーム画像間の関連性を特定することができるので、動画像に含まれるオブジェクトの領域を適切に分割することが可能となる。

　図８は、動画像の各フレーム画像の構成について示している。この動画像は、人物Ｂが歩いている様子を撮像したときに得られる動画像である。この動画像においては、歩いている人物Ｂが、人物Ｂよりも撮像位置側にあるポールＣの背後に入り込むフレーム画像が存在する（例えばフレーム画像ＦＲ_１、ＦＲ_ｎ－１など）。このようなフレーム画像が含まれる動画像に対して、フレーム画像単位で最小全域木を求めると、人物Ｂと、人物Ｂの足の一部とが他のオブジェクトとして分割されてしまうという問題がある。しかしながら、３次元の最小全域木を求めた上で領域分割処理を行うことで、同一の被写体の領域であることが認識できるので、適切な領域分割処理を実行することが可能となる。また、この３次元の最小全域木を生成することで、動画像内のオブジェクトの位置、形状、時間的な変化などを認識することが可能となるので、例えば動画像をカットする、他の動画像とつなげるなどの編集処理を容易に行うことが可能となる。

　本実施形態では、動画像データに対して生成される３次元の重み付きグラフから最小全域木を求めた後、領域分割処理を行っている。しかしながら、取得される動画像データは、録画時間（再生時間）が長い動画像データとなる場合がある。このような場合には、動画像を構成する複数のフレーム画像を複数のフレーム画像群に分割しておき、これらフレーム画像群毎に重み付きグラフの生成処理や領域分割処理を行うことも可能である。図８は、動画像を構成するフレーム画像を、３つのフレーム画像群Ｇｒ_１、Ｇｒ_２、Ｇｒ_３に分割した場合について記載している。この場合、予め分割するフレーム画像の数や、動画像を撮像してからの経過時間などに対して予め閾値を設定しておく。そして、設定された閾値に基づいて動画像を複数のフレーム画像群に分割すればよい。

　なお、設定された閾値に基づいて動画像を複数のフレーム画像群に分割する場合には、フレーム画像群毎に最小全域木の生成処理や領域分割処理を実行することになるので、フレーム画像群間の関連性がわからなくなる場合がある。このような問題を解決するために、時間的に隣り合うフレーム画像群のそれぞれで、重複するフレーム画像が含まれるように、動画像を分割する。なお、図８においては、フレーム画像群Ｇｒ_１とフレーム画像群Ｇｒ_２とにおいて、フレーム画像ＦＲ_ｍ－１，ＦＲ_ｍ，ＦＲ_ｍ＋１の３つのフレーム画像が重複されるように分割している。また、フレーム画像群Ｇｒ_２とフレーム画像群Ｇｒ_３とにおいて、フレーム画像ＦＲ_ｎ－１，ＦＲ_ｎ，ＦＲ_ｎ＋１（ｎ＞ｍ）の３つのフレーム画像を重複するように分割している。

　本実施形態では、係数τ（Ｃ）の設定時に、空間方向の場合に用いるテーブルデータと、時間方向の場合に用いるテーブルデータとのいずれか一方のテーブルデータを選択している。また、各テーブルデータは、コンポーネントの面積に応じた値（固定値）としている。ここで、時間方向のテーブルデータは、１つのテーブルデータであってもよいし、複数のテーブルデータであってもよい。

　ここで、時間方向におけるテーブルデータは、動画像を取得する際に設定されるフレームレートに応じて複数保持しておくことができる。例えば、動画像を取得する際に設定されるフレームレートが低い場合、動画像においては、時間的に前後するフレーム画像間のオブジェクトの位置の変化量が大きくなる。このような場合には、時間的に前後するフレーム画像のそれぞれにおけるオブジェクトの関連性が図れなくなる。一方、動画像を取得する際に設定されるフレームレートが高い場合、取得される動画像においては、時間的に前後するフレーム画像間のオブジェクトの位置の変化量が小さい。このような場合には、時間的に前後するフレーム画像のそれぞれにおけるオブジェクトの関連性が図りやすくなる。これら理由により、フレームレートが低い場合に選択されるテーブルデータにて設定される係数τ_ｔ（Ｃ）の値を、フレームレートが高い場合に選択されるテーブルデータにて設定される係数τ_ｔ（Ｃ）の値よりも大きくなるように、各テーブルデータの値を設定しておく。そして、パラメータ設定部１５は、複数の時間方向のテーブルデータのうち、動画像を取得する際に設定されるフレームレートに対応した時間方向のテーブルデータを選択すればよい。

　さらに、動画像の取得時に、絞り値が変化している場合もある。このような絞り値の変化に対応できるように、時間方向のテーブルデータを複数設けることも可能である。この場合、絞り値の変化量の絶対値が大きいときに用いられるテーブルデータの各値が、絞り値の変化量の絶対値が小さいときに用いられるテーブルデータの各値よりも大きくなるように各テーブルデータを設定しておけばよい。また、絞り値の変化だけでなく、フレーム画像のそれぞれに発生するランダムノイズの大きさに基づいて使用する時間方向のテーブルデータを選択させる構成であってもよい。

　本実施形態では、動画像における被写体の輝度の変化については触れていないが、例えば動画像を撮像する場合、被写体の輝度や撮像環境下の輝度の変化が生じる場合がある。このような動画像においては、同一のオブジェクトであっても、時間方向におけるノード間を連結できずに、他のオブジェクトとして領域分割されてしまう場合も考えられる。このような場合には、先に得られる複数のフレーム画像における画素の類似性や、後から得られる複数のフレーム画像における画素の類似性などを考慮して、係数τ（Ｃ）を設定することも可能である。

　本実施形態では、重み付きグラフを生成する場合、フレーム画像内で隣り合う画素間、及び時間的に前後するフレーム画像における同一位置（座標）の画素間の輝度値の差分を、エッジの重みとして算出しているが、これに限定される必要はない。例えば、フレーム画像内において隣接する画素のうち、斜め方向の画素間の輝度差の差分（図２に示すノードＮ（４，２）とノードＮ（５，３）との差分、図３に示すノードＮ（１，１，１）とノードＮ（２，２，１）との差分など）や、フレーム画像における特定の画素と、該フレーム画像と時間的に前後するフレーム画像において特定の画素の近傍となる画素と同一座標の画素との差分（図３に示すノードＮ（２，１，１）とノードＮ（１，１，２）との差分など）を求め、これら差分を重みとした重み付きグラフを生成することも可能である。

　本実施形態では、画像処理装置１０に入力される画像データに関しては、特に限定していないが、画素補間処理、ホワイトバランス処理、階調変換処理、輪郭強調処理などの画像処理が施された画像データであることが好ましい。しかしながら、上述した画像処理のうち、画素補間処理、ホワイトバランス処理を施した画像データや、上述した画像処理を施していない、（ＲＡＷ画像データ）であってもよい。

　本実施形態では、重み付きグラフを用いて最小全域木を生成した後、生成された最小全域木に基づいて、動画像に対する領域分割を行う画像処理装置としているが、これに限定される必要はなく、最小全域木を生成したときに領域分割処理を必ずしも実行する必要はない。この場合、生成される最小全域木のデータを画像データの付帯情報として付帯しておき、画像データに対してトリミング処理などを行う際に読み出すようにしてもよい。

　本実施形態では、画像処理装置１０の例を取り上げているが、これに限定される必要はなく、本発明の画像処理装置を備えた撮像装置であってもよい。図９は、本発明の画像処理装置を備えた撮像装置の機能ブロック図である。撮像装置５０は、撮像光学系５１、撮像素子５２、Ａ／Ｄ変換部５３、タイミングジェネレータ（ＴＧ）５４、バッファメモリ５５、画像処理装置５６、表示制御回路５７、表示装置５８、接続用Ｉ／Ｆ５９、ＣＰＵ６０、内蔵メモリ６１、レリーズボタン６２、設定操作部６３などを備えている。なお、Ａ／Ｄ変換部５３、バッファメモリ５５、画像処理装置５６、表示制御回路５７、接続用Ｉ／Ｆ５９、ＣＰＵ６０及び内蔵メモリ６１は、バス６４により電気的に接続される。

　この撮像装置５０に設けられる画像処理装置５６は、画素補間処理、ホワイトバランス処理、階調変換処理、輪郭強調処理などの画像処理を行う。そして、画像処理装置５６は、図１に示す色空間変換部１１、解像度変換部１２、グラフ生成部１３、最小全域木生成部１４、パラメータ設定部１５及び領域分割部１６の機能を備えている。この場合、領域分割処理が実施される画像は、撮像素子５２から出力される画像であってもよいし、記録用Ｉ／Ｆ５９に接続された記憶媒体６５に記憶された画像であってもよい。さらに、画像としては、レリーズボタン６２の操作に基づいて実行される撮像処理により得られる静止画像、動画像の他、撮影が行われていないときに取り込まれる画像（スルー画像）が挙げられる。このため、画像処理装置５６による最小全域木を生成する処理や領域分割処理は、撮像により得られる静止画像や動画像の他、スルー画像に対しても実行することが可能である。

　この場合、撮像により得られた画像データを用いて生成される最小全域木のデータや、領域分割処理に基づくデータは、画像データの付帯情報として記憶される。なお、最小全域木のデータや、領域分割処理に基づくデータを画像データの付帯情報として記憶するか否かは、設定操作部６３の操作により選択可能としてもよい。

　本実施形態では、画像処理装置１０を例に取り上げて説明しているが、図１に示す画像処理装置１０の色空間変換部１１、解像度変換部１２、グラフ生成部１３、最小全域木生成部１４、パラメータ設定部１５及び領域分割部１６の機能や、図４に示すフローチャートの処理をコンピュータにて実行させることが可能な画像処理プログラムであってもよい。なお、この画像プログラムは、例えばメモリカード、光学ディスク、磁気ディスクなどコンピュータにて読み取ることが可能な記憶媒体に記憶されていることが好ましい。

Claims

　動画像を構成する複数のフレーム画像に含まれる画素を空間方向及び時間方向からなる三次元空間上にそれぞれノードとして配置し、前記空間方向又は前記時間方向の少なくとも１方向で隣接する２つの画素間の差分値を隣接するノード間の重みとして設定した３次元のグラフを生成するグラフ生成手段と、
　前記３次元のグラフにおいて前記空間方向又は前記時間方向の少なくとも１方向で隣接する前記ノード間の重みのうち、最小となる前記ノード間の重みと評価用パラメータとを用いて、前記重みが最小となる前記ノード間を連結するか否かを評価する処理を繰り返し実行することで、前記３次元のグラフにおける最小全域木を求める最小全域木生成手段と、
　前記空間方向に対して設定される第１のパラメータと、前記第１のパラメータと異なる値からなり前記時間方向に対して設定される第２のパラメータとを有し、前記第１のパラメータ又は前記第２のパラメータのいずれか一方を、前記評価用パラメータとして設定するパラメータ設定手段と、
　を備えたことを特徴とする画像処理装置。
　請求項１に記載の画像処理装置において、
　前記パラメータ設定手段は、前記重みが最小となる前記ノード間の方向に基づいて、前記第１のパラメータ又は前記第２のパラメータとのいずれか一方のパラメータを選択することを特徴とする画像処理装置。
　請求項１又は請求項２に記載の画像処理装置において、
　前記最小全域木生成手段は、
　前記パラメータ設定手段により設定された前記評価用パラメータ及び前記ノードが含まれる前記コンポーネントの面積を用いて算出される値と、前記コンポーネントに含まれるノード間の重みの最大値とを加算することで、前記隣接する２つのノードのそれぞれが含まれるコンポーネントにおける評価値をコンポーネント毎に算出する算出手段と、
　前記２つのコンポーネントにおける評価値の最小値と、選択された前記ノード間の重みの値とを比較して、前記隣接するノード間を連結するか否かを評価する評価手段と、
　備えていることを特徴とする画像処理装置。
　請求項３に記載の画像処理装置において、
　前記最小全域木生成手段は、前記コンポーネントに含まれる複数のノード間のうち、連結されていないノード間を連結した場合に前記コンポーネントにおける最小全域木が閉路になるか否かを判定し、前記コンポーネントが閉路になると判定されるノード間の重みを、最小となる前記ノード間の重みを選択する際の選択対象から外すことを特徴とする画像処理装置。
　請求項１から請求項４のいずれか１項に記載の画像処理装置において、
　前記パラメータ設定手段は、前記動画像を取得したときのフレームレートに基づいて、前記第２のパラメータの値を調整することを特徴とする画像処理装置。
　請求項１から請求項５のいずれか１項に記載の画像処理装置において、
　前記パラメータ設定手段は、前記動画像を構成するフレーム画像を取得したときの絞り値に基づいて、前記第２のパラメータの値を調整することを特徴とする画像処理装置。
　請求項１に記載の画像処理装置において、
　前記グラフ生成手段は、前記動画像を構成する複数のフレーム画像を、前記フレーム画像の数に基づいて複数のフレーム画像群に分割した後、分割されたフレーム画像群毎に前記３次元のグラフを生成し、
　前記最小全域木生成手段は、分割されたフレーム画像群毎の前記３次元のグラフを用いて、フレーム画像群毎の最小全域木を生成することを特徴とする画像処理装置。
　請求項７に記載の画像処理装置において、
　前記グラフ生成手段は、分割される複数のフレーム画像群のうち、時間的に前後するフレーム画像群のそれぞれにおいて、少なくとも１つのフレーム画像が時間的に前後するフレーム画像群と重複するように、前記動画像を構成する複数のフレーム画像を分割することを特徴とする画像処理装置。
　請求項１に記載の画像処理装置において、
　前記グラフ生成手段は、入力された画像が静止画像となる場合に、前記静止画像に含まれる各画素を前記空間方向からなる２次元空間上にノードとして配置した２次元のグラフを生成し、
　前記最小全域木生成手段は、生成された前記２次元のグラフにおける複数のノード間の重みのうち、最小となる前記ノード間の重みを選択した後、選択された前記ノード間の重みと前記第１のパラメータとを用いて、選択された前記ノード間を連結するか否かを評価する処理を繰り返し実行することで、前記２次元のグラフにおける最小全域木を求めることを特徴とする画像処理装置。
　請求項１から請求項９のいずれか１項に記載の画像処理装置において、
　前記最小全域木生成手段により生成された最小全域木を用いて、入力された画像に対する領域分割処理を実行する領域分割手段を、さらに備えていることを特徴とする画像処理装置。
　被写体光の光束を調整する絞りを備えた撮像光学系と、
　前記撮像光学系により取り込まれた被写体光を受光することで、画像を取得する撮像素子と、
　請求項１から請求項１０のいずれか１項に記載の画像処理装置と、
　を備えたことを特徴とする撮像装置。
　時系列に撮像された複数の画像の各画像について、隣接する２つの画素間の差分値に基づいて複数の領域に分割する分割手段と、
　前記複数の画像のうち、時間的に前後する２つの画像において対応する位置に配置される画素間の差分値に基づいて、それぞれの画素が含まれる領域が同一の領域であるか否かを評価する評価手段と、
　を備えたことを特徴とする画像処理装置。
　動画像を構成する複数のフレーム画像に含まれる画素を空間方向及び時間方向からなる三次元空間上にそれぞれノードとして配置し、前記空間方向又は前記時間方向の少なくとも１方向で隣接する２つの画素の差分を隣接するノード間の重みとして設定した３次元のグラフを生成するグラフ生成ステップと、
　前記３次元のグラフにおいて前記空間方向又は前記時間方向の少なくとも１方向で隣接する前記ノード間の重みのうち、最小となる前記ノード間の重みと評価用パラメータとを用いて、前記重みが最小となる前記ノード間を連結するか否かを評価する処理を繰り返し実行することで、前記３次元のグラフにおける最小全域木を求める最小全域木生成ステップと、
　前記空間方向に対して設定される第１のパラメータと、前記第１のパラメータと異なる値からなり前記時間方向に対して設定される第２のパラメータとのいずれか一方を、前記評価用パラメータとして設定するパラメータ設定ステップと、
　をコンピュータに実行させることが可能な画像処理プログラム。
　時系列に撮像された複数の画像の各画像について、隣接する２つの画素間の差分値に基づいて複数の領域に分割する分割ステップと、
　前記複数の画像のうち、時間的に前後する２つの画像において対応する位置に配置される画素間の差分値に基づいて、それぞれの画素が含まれる領域が同一の領域であるか否かを評価する評価ステップと、
　をコンピュータに実行させることが可能な画像処理プログラム。