この発明は、ビデオカメラ等の撮像装置で撮像している対象エリアのフレーム画像を処理し、撮像されている人物の挙動を解析する挙動解析装置に関する。
従来、駅、ショッピングセンタ、繁華街等の不特定多数の人が集まる場所では、設置した監視カメラ(以下、単にカメラと言う。)の撮像画像を処理し、特異な行動をとった不審者等の人物(以下、単に不審者と言う。)の検出を行っている。具体的には、カメラで撮像しているフレーム画像を処理し、撮像されている人物の挙動を解析し、その挙動が特異であるかどうかを判断している。また、不正行為等にかかる特異な挙動をとった人物を検知すると、その旨を警備員等に通報することも行っている。
例えば、特許文献1には、視点の異なる複数の撮像装置(所謂、ステレオカメラ)を用い、各撮像装置で撮像した対象物の画像を処理し、その対象物の代表点の三次元位置を検出し、三次元画像を生成する構成が記載されている。そして、生成した対象物の三次元画像から、当該対象物の動作および姿勢を判断することによって、当該対象物の挙動を解析している。
しかしながら、上述の特許文献1は、撮像した対象物の三次元画像を生成するために、ステレオカメラおよび、このステレオカメラで撮像した画像を処理して三次元画像を生成する画像処理部を必要とする。したがって、特許文献1は、システムの大型化や、コストアップという問題があった。
この発明の目的は、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、且つ、システムの大型化やコストアップが十分に抑えられる挙動解析装置を提供することにある。
この発明の挙動解析装置は、上述の課題を解決し、その目的を達するために、以下のように構成している。
オブジェクト抽出手段は、撮像装置が撮像している撮像エリアのフレーム画像を処理し、撮像されているオブジェクトを抽出する。ここで抽出するオブジェクトは、人や物である。位置検出手段は、オブジェク抽出手段が抽出したオブジェクト毎に、撮像エリア内の位置を検出する。さらに、姿勢推定手段が、オブジェク抽出手段が抽出したオブジェクト毎に、その姿勢を推定する。そして、挙動判断手段が、オブジェク抽出手段が抽出したオブジェクト毎に、位置検出手段が検出した撮像エリア内の位置と、姿勢推定手段が推定した姿勢とに基づいて、当該オブジェクトの挙動を判断する。
姿勢推定手段は、例えば、オブジェクト抽出手段が抽出したオブジェクトの高さと、幅とに基づいて、その姿勢を推定すればよい。具体的には、オブジェクト抽出手段が抽出したオブジェクトを囲む矩形領域を設定し、この矩形領域の高さと幅との比(所謂、アスペクト比)に基づいて姿勢を推定すればよい。
また、姿勢推定手段は、設定したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さの変化も加えて、当該オブジェクトの姿勢を推定してもよい。この場合、オブジェクトが人であれば、上辺の高さが下方に変化したときにはしゃがんだと推定でき、下辺の高さが上方に変化したときには、ジャンプしたと推定できる。
また、姿勢推定手段は、オブジェク抽出手段が抽出したオブジェクトの形状と、姿勢モデル記憶手段がオブジェクトの姿勢別に記憶する形状モデルとの類似度を算出し、ここで算出した類似度に基づいて姿勢を推定してもよい。この場合、算出した類似度が最大であった形状モデルに対応する姿勢を、そのオブジェクトの姿勢として推定すればよい。
また、オブジェクト抽出手段が、複数の撮像装置が異なるアングルで撮像している撮像エリアのフレーム画像毎に、撮像されているオブジェクトを抽出し、同定手段が、抽出されたオブジェクトを、複数の撮像装置のフレーム画像間で同定する構成としてもよい。この場合、姿勢推定手段は、オブジェクト抽出手段が抽出し、同定手段が同定したオブジェクトの姿勢を、複数の撮像装置が撮像しているフレーム画像毎に推定した姿勢の組合せによって判断すればよい。
また、ロケーション情報記憶手段が、撮像エリアを複数の領域に分割した領域毎に、対応するフレーム画像上での領域と、を対応付けて設定したロケーション情報を記憶する構成としてもよい。この場合、挙動判断手段が、ロケーション情報から得られるオブジェクトが位置する場所の環境を加えて、当該オブジェクトの挙動を判断すればよい。これにより、撮像されている人物等のオブジェクトの挙動を監視装置が撮像している場所に応じて推定できる。
さらに、オブジェクトマップ作成手段が、オブジェク抽出手段が抽出したオブジェクトについて、位置検出手段が検出した位置と、姿勢推定手段が推定した姿勢とを時系列に登録したオブジェクトマップを作成する構成としてもよい。この場合、挙動判断手段は、オブジェクトマップ作成手段が作成したオブジェクトマップから得られる、時間経過にともなうオブジェクトの位置、および推定した姿勢の変化から当該オブジェクトの挙動を判断すればよい。これにより、オブジェクトの挙動が、そのオブジェクトの動きに基づいて推定できる。
なお、ここで言うオブジェクトは、人だけでなく、荷物等も含んでいる。
この発明によれば、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、システムの大型化やコストアップが十分に抑えられる。
挙動解析装置の主要部の構成を示すブロック図である。
オブジェクトマップを示す図である。
ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。
ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。
挙動解析装置の動作を示すフローチャートである。
オブジェクトの種類を判定するフローチャートである。
自動改札機における不正通行の検出を示す図である。
自動改札機における不正通行の検出を示す図である。
自動改札機における不正通行の検出を示す図である。
別の挙動解析装置の主要部の構成を示すブロック図である。
シルエット画像の例を示す図である。
オブジェクトマップを示す図である。
別の挙動解析装置の主要部の構成を示すブロック図である。
オブジェクトマップを示す図である。
挙動判断テーブルを示す図である。
以下、この発明の実施形態である挙動解析装置の実施形態について説明する。
図1は、この発明の実施形態にかかる挙動解析装置の主要部の構成を示すブロック図である。この実施形態にかかる挙動解析装置1は、監視カメラとして設置したビデオカメラ2で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や物)を抽出する。ビデオカメラ2は、1秒間に数十フレーム(例えば、30フレーム)程度のフレーム画像を画像入力部12に入力する。ビデオカメラ2は、例えば、駅の改札口や駅ホーム等の監視対象エリアを撮像する。また、挙動解析装置1は、抽出したオブジェクトが人であれば、その人の挙動を判断する。さらに、挙動解析装置1は、抽出したオブジェクトが物であれば、その物を放置した人を探索する機能も有している。
この挙動解析装置1は、制御部11と、画像入力部12と、画像処理部13と、記憶部14と、タイマ15と、通信部16と、を備えている。制御部11は、挙動解析装置1本体の動作を制御する。
画像入力部12には、接続しているビデオカメラ2が撮像しているフレーム画像が入力される。
画像処理部13は、オブジェクト抽出機能13a、および姿勢推定機能13bを有している。オブジェクト抽出機能13aは、ビデオカメラ2から入力されたフレーム画像を処理し、撮像されている人や物等をオブジェクトとして抽出する。また、オブジェクト抽出機能13aは、抽出したオブジェクトにIDを付与するとともに、その位置(フレーム画像上の位置)を検出する。このIDは、オブジェクトを識別できるユニークな値である。また、画像処理部13は、時間的に連続するビデオカメラ2の複数のフレーム画像を処理し、オブジェクトマップを作成することにより、ビデオカメラ2の撮像エリア内に位置しているオブジェクト(IDが付与されている人や物)を追跡する。このオブジェクトマップについては後述する。
画像処理部13は、時空間MRF(Markov Random Field)モデルを利用して、撮像されているオブジェクトの抽出や追跡を行う。時空間MRFモデルは、公知のように、時空間画像の時間軸方向の相関関係に着目し、MRFモデルを時空間モデルとして拡張したものである。この時空間MRFモデルは、処理対象であるフレーム画像に対して数ピクセル×数ピクセル(例えば、8ピクセル×8ピクセル)のブロックで領域分割を行い、時間的に連続するフレーム画像間でのブロック毎の動きベクトルを参照した時間軸方向の相関を定義するモデルである。
また、姿勢推定機能13bは、オブジェクト抽出機能13aが抽出したオブジェクトの姿勢を推定する。具体的には、姿勢推定機能13bは、オブジェクト抽出機能13aが抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。また、この矩形領域は、抽出したオブジェクトに外接するように設定する。姿勢推定機能13bは、ここで設定した矩形の高さと幅の比、すなわちアスペクト比、に基づき、そのオブジェクトの姿勢を推定する。
例えば、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
β/α<06であれば、立ち状態
0.6<β/α<1.5であれば、しゃがみ込み、または飛び跳ね状態
1.5<β/αであれば、横たわり状態、
であると推定する。
なお、ここでは、抽出したオブジェクトに対して矩形領域を設定するとしたが、矩形領域を設定せずに、そのオブジェクトの高さαと、幅βと、を検出し、姿勢を推定してもよい。
また、挙動解析装置1は、フレーム画像上における位置が予め定めた時間(数十秒程度)変化しないオブジェクトを荷物(放置物)と判断する。この時間は、監視対象エリアに応じて設定すればよい。挙動解析装置1は、オブジェクトマップを参照することにより、オブジェクト毎に、時間経過にともなう位置の変化を得ることができる。
図2は、オブジェクトマップを示す図である。オブジェクトマップは、図2に示すように、画像処理部13で抽出したオブジェクト毎に作成する。図2は、抽出したオブジェクトである物体A(図2(A)参照)、および物体B(図2(B)参照)について作成されたオブジェクトマップの例である。物体Aは人であり、物体Bは物である。図2に示すように、オブジェクトマップは、物体の種類(人、または物)、姿勢(人のみ)、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを時系列に登録したものである。上述したように、画像処理部13が、このオブジェクトマップを作成する。記憶部14が、このオブジェクトマップを記憶する。
図2に示すオブジェクトマップの場所情報は、その場所の環境を示す情報である。例えば、不特定多数の人の通行路であるフロア、自動改札機を設置している改札機エリア、ベンチを設置しているベンチエリアを示す。また、場所情報は、ビデオカメラ2の撮像エリアを図3に示すように分割し、分割した領域毎に設定している。図3(A)は、ビデオカメラ2による改札口周辺の撮像画像を示している。また、図3(B)は、図3(A)に示す撮像領域に対する場所情報の設定例を示す図である。図4(A)は、ビデオカメラ2による駅ホームの撮像画像を示している。また、図4(B)は、図4(A)に示す撮像領域に対する場所情報の設定例を示す図である。
記憶部14は、挙動解析装置1の動作時に用いる設定パラメータや、動作時に発生した処理データ(上述したオブジェクトマップを含む。)等を記憶する。タイマ15は、現在時刻を計時する。通信部16は、図示していない上位装置等との間における通信を制御する。
この挙動解析装置1は、1つのオブジェクト(単独オブジェクト)の挙動の解析が行えるだけでなく、複数オブジェクト間で関連する挙動の解析も行える。単独オブジェクトの挙動の解析により、自動改札機の不正通行(強行突破)、駅ホームや改札口周辺における徘徊、座り込み、倒れ込み、滞留、酔客等の検知が行える。また、複数オブジェクトの挙動の解析により、自動改札機の不正通行(共連れ)、不審物の置き去り、持ち去り、口論、つきまとい、キャッチセールス、通り魔等の検知が行える。
以下、この実施形態にかかる挙動解析装置1の動作について説明する。
図5は、この挙動解析装置の動作を示すフローチャートである。挙動解析装置1は、画像処理部13において、画像入力部12に入力されたビデオカメラ2で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や、物)を抽出する(S1)。S1では、例えば、背景との差分画像を生成し、この差分画像から撮像されている物体を抽出する。
画像処理部13は、前回処理したフレーム画像で抽出した人物と、S1で抽出した人物と、を対応付ける(S2)。画像処理部13は、時空間MRFモデルを用い、人物を、8ピクセル×8ピクセルのブロックを単位とする人物領域として抽出する。S2では、前回処理したフレーム画像で抽出した人物と、S1で抽出した人物と、を対応付けることにより、今回抽出した人物の移動方向や移動量を得ることができ、抽出した人物の追跡が行える。
また、今回の処理で抽出した人物であって、前回の処理で抽出されていなかった人物(すなわち、今回初めて抽出した人物)については、仮IDを付与する(S3、S4)。この仮IDが付与される人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ2の撮像エリア内に入ってきた人物である。
なお、前回の処理で抽出されていたが、今回の処理で抽出されなかった人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ2の撮像エリア外に出た人物である。
画像処理部13は、今回抽出した人物毎に、その人物を囲む矩形領域を設定する(S5)。画像処理部13は、今回抽出した人物毎に、S5で設定した矩形領域の高さ、および幅を検出し、アスペクト比(縦横比)を算出し、その人物(人のみ)の姿勢を推定する(S6)。S6では、上述したように、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
β/α<06であれば、立ち状態
0.6<β/α<1.5であれば、しゃがみ込み、または飛び跳ね状態
1.5<β/αであれば、横たわり状態、
であると推定する。
また、S6では、今回抽出した人物毎に、設定した矩形領域の上辺の高さ、および下辺の高さを検出する。
画像処理部13は、今回処理したフレーム画像から抽出したオブジェクト毎に、オブジェクトマップに登録するレコードを生成する(S7)。S7では、図2に示したように、オブジェクトの種類(人、または物)、姿勢(人のみ)、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを生成する。
なお、抽出したオブジェクトが人、または物であるかの判定は、位置が変化することなく一定時間経過したときに、物であるとする。言い換えれば、一定時間経過する前に、位置が変化している物体(移動している物体)であれば人と判定する。人、または物の判定にかかる詳細については、後述する。
挙動解析装置1は、S7で生成したレコードをオブジェクトマップに登録する(S8)。挙動解析装置1は、このオブジェクトマップを記憶部14に記憶する。
挙動解析装置1は、上述したS1〜S8にかかる処理を繰り返すことにより、ビデオカメラ2の撮像エリア内に位置する人や、物にかかるオブジェクトマップ(図2参照)を作成し、記憶部14に記憶する。
次に、上述した処理で作成したオブジェクトマップに基づき、オブジェクトの種類(人、または物)を判定する手法について説明する。
制御部11は、上述したオブジェクトマップに基づき、この判定を行う。この判定は、人、または物のどちらであるか判定していないオブジェクトについてのみ行い、すでに同判定を行っているオブジェクトについては、この判定を繰り返し行わない。図6は、このオブジェクトの種類を判定するフローチャートである。
制御部11は、種類を判定していないオブジェクトをオブジェクトマップから抽出する(S11)。制御部11は、S11で抽出したオブジェクト毎に、過去10フレームの撮像画像の処理で位置が変化していないかどうかを判定する(S12)。制御部11は、位置が変化しているオブジェクトを人であると判定する。一方、過去10フレームの撮像画像の処理で位置が変化していないオブジェクトであれば、そのオブジェクトが過去50フレーム前のフレーム画像に存在しているかどうかを判定する(S13)。このS13は、オブジェクトが、一時的に他のオブジェクトの影になってビデオカメラ2に撮像されなかった設置物であるかどうかを判定している。制御部11は、S13で過去50フレーム前のフレーム画像にも存在していないオブジェクトであれば、そのオブジェクトを物(放置物)であると判定する(S14)。
なお、制御部11は、S12で過去10フレームの撮像画像の処理で位置が変化していると判定した場合、そのオブジェクトを人であると判定する(S15)。また、制御部11は、S13で過去50フレーム前のフレーム画像に存在しているオブジェクトであると判定した場合、このオブジェクトを設置物であると判定する(S16)。
このように、挙動解析装置1は、ビデオカメラ2の撮像エリア内に位置するオブジェクトの種類を判定する。
また、挙動解析装置1は、上述した処理で作成したオブジェクトマップを用いることで、S14で放置物と判定したオブジェクトを放置した人の探索が行える。具体的には、その放置物が検出される直前に、その場所に位置していた人をオブジェクトマップから検索する。これにより、この放置物を放置した人が特定できる。同様に、オブジェクトマップを用いることで、喧嘩や口論等に関わった人の探索が行える。
また、上述したように、オブジェクトマップにはオブジェクトが位置している場所を示す場所情報が対応づけられている。オブジェクトのアスペクト比を用いることで、当該オブジェクト(人)の挙動を精度良く判定できる。例えば、オブジェクトである人が位置している場所の場所情報がフロアであり、姿勢が横たわり状態である場合、酔客等の倒れ込みであると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢がしゃがみ込み状態である場合、ベンチに座っていると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢が横たわり状態である場合、ベンチに横たわっていると判断できる。また、オブジェクトである人が位置している場所の場所情報がごみ箱エリアであり、姿勢が立ち状態であれば、ゴミ箱をあさっていると判断できる。
なお、酔客であるかどうかの判断は、その人の移動速度から判断すればよい。一般に酔客は、移動速度が遅い。移動速度は、オブジェクトマップから得られる。
また、上述したように、オブジェクトマップには、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さが登録されているので、その人が飛び上がったのか、しゃがんだのか判断できる。すなわち下辺の高さが床面よりも上方に位置していれば飛び上がったと判断でき、下辺の高さが床面に位置していればしゃがんだと判断できる。
また、図7に示すように、自動改札機のゲートをしゃがんで不正に通行した場合、その不正通行者を囲む矩形の上辺が一時的(図7(B)参照)に下がる。図7(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図7(B)は、自動改札機の通路を通行しているとき(しゃがんでいる状態)のフレーム画像を示している。図7(C)は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的にしゃがんだことを検出したとき、自動改札機の不正通行者であると判断できる。
また、図8に示すように、自動改札機のゲートを飛び越えて不正に通行した場合、その不正通行者を囲む矩形の下辺が一時的(図8(B)参照)に上がる。図8(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図8(B)は、自動改札機の通路を通行しているとき(ゲートを飛び越えている状態)のフレーム画像を示している。図8(C)は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的に飛び跳ねたことを検出したとき、自動改札機の不正通行者であると判断できる。
なお、オブジェクト(通行者)を囲む矩形のアスペクト比を用いて状態を判断しているので、立ち状態である通行者を、しゃがんだ、または飛び跳ねたとする誤判断が抑えられる。
さらに、自動改札機から得られる通行者の人数を用いて、共連れにかかる不正通行の検出も行える。例えば、図9(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図9(B)は、自動改札機の通路を通行しているときのフレーム画像を示している。図9(C)は、自動改札機の通路から退出したときのフレーム画像を示している。図9(A)、(C)に示すように、自動改札機の入口、または出口で2人の人を検出していた場合に、自動改札機から得られた改札通路の通行者の人数が1人であれば、共連れであると判断できる。
このように、この実施形態にかかる挙動解析装置1は、抽出したオブジェクトの高さと、幅の比であるアスペクト比に基づいて、そのオブジェクトの挙動を判断する。すなわち、この挙動解析装置1は、オブジェクトの三次元情報を用いないので、システムの大型化やコストアップが十分に抑えられる。
次に、この発明の別の実施形態について説明する。この別の実施形態にかかる挙動解析装置1も図10に示す構成である。図10に示すように、この例の挙動解析装置1は、姿勢モデル記憶部21を備えている点で、上記例の挙動解析装置と異なる。また、後述するように、S6にかかる姿勢を推定する処理が異なる。
姿勢モデル記憶部21は、オブジェクトの姿勢毎に特徴量のモデルベクトルを記憶している。このモデルベクトルは、姿勢毎に、ビデオカメラ2で撮像したオブジェクトの画像を処理し得たものである。具体的には、姿勢毎に、ビデオカメラ2でオブジェクトを撮像し、その撮像画像に撮像されているオブジェクトを抽出する。抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。ここで設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像(2値化画像)を生成する(図11参照)。図11(A)、(B)は、ベンチに座っている人のシルエット画像であり、図11(C)はフロアに座っている人のシルエット画像である。図11(A)は、背筋を延ばした状態の人であり、図11(B)、(C)は、背中を丸めて、頭を下げている状態の人である。このシルエット画像における、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づいて作成した特徴量ベクトルを、該当する姿勢のモデルベクトルXとして、姿勢モデル記憶部21に記憶している。モデルベクトルXは、以下のようにして作成する。
作成に用いるシルエット画像の大きさの違いによる影響を抑えるため、シルエット画像を垂直方向にn分割(図11では、n=8)、水平方向にm分割(図11では、m=8)した大きさに正規化し、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)を作成する。モデルベクトルXは、作成した垂直方向のヒストグラム、および水平方向のヒストグラムに基づく、n+m(図11では、8+8=16)次元ベクトル(x1、x2、・・・xn、y1、y2、・・・ym)である。
また、この挙動解析装置1は、図12に示すオブジェクトマップを作成する。上記の例と異なる点は、抽出したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さを登録していない点である。
次に、この挙動解析装置1におけるオブジェクトの姿勢を推定する処理(上述のS6にかかる処理)について説明する。
上述したように、画像処理部13のオブジェクト抽出機能13aが、S5で、今回抽出した人物毎に、その人物を囲む矩形領域を設定する。姿勢推定機能13bは、今回抽出したオブジェクト毎に、S5で設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像を生成する。オブジェクト抽出機能13aは、ここで生成したシルエット画像における、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づいて、このオブジェクトの特徴量ベクトルYを得る。このオブジェクトの特徴量ベクトルYも、上述したモデルベクトルXと同様に、シルエット画像を垂直方向にn分割、水平方向にm分割した大きさに正規化し作成した垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づく、n+m(図11では、8+8=16)次元ベクトル(x1、x2、・・・xn、y1、y2、・・・ym)である。
姿勢推定機能13bは、オブジェクト毎に、そのオブジェクトについて取得した特徴量ベクトルYと、姿勢モデル記憶部21が記憶している各姿勢のモデルベクトルXとの距離(類似度)を算出する。そして、ここで算出した類似度が、最小で、且つ、予め定めた閾値未満であるモデルベクトルXに対応する姿勢を、このオブジェクトの姿勢と推定する。一方、算出した類似度が、最小であっても、予め定めた閾値未満でなければ、オブジェクトの姿勢を不明とする。
なお、この挙動解析装置1は、S6以外の処理については上記の例と同じである。
このように、この例にかかる挙動解析装置1は、シルエット画像からオブジェクト(人)の姿勢を推定するので、例えばベンチに座っている人が、背筋を延ばして座っているのか、背中を丸め、頭を下げてうずくまっているのか等の違いについても判別できる。
また、挙動解析装置1は、図13に示すように、ビデオカメラ2(2X、2Y)、画像入力部12(12X、12Y)、画像処理部13(13X、13Y)を2系統設けた構成としてもよい。
この例にかかる挙動解析装置1は、監視カメラとして設置した2台のビデオカメラ2(2X、2Y)で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や物)を抽出する。ビデオカメラ2X、2Yは、上述した例のものと同じである。2台のビデオカメラ2X、2Yは、同じ監視対象エリアを撮像する。監視対象エリアに対する、ビデオカメラ2Xのアングル(撮像方向)と、ビデオカメラ2Yのアングル(撮像方向)とは、略90°異なる。
画像入力部12Xには、接続しているビデオカメラ2Xが撮像しているフレーム画像が入力される。画像入力部12Yは、接続しているビデオカメラ2Yが撮像しているフレーム画像が入力される。
画像処理部13Xは、画像入力部12Xに入力されたビデオカメラ2Xの撮像画像を処理する。画像処理部13Yは、画像入力部12Yに入力されたビデオカメラ2Yの撮像画像を処理する。この画像処理部13(13X、13Y)も、オブジェクト抽出機能13a、および姿勢推定機能13bを有している。画像処理部13(13X、13Y)は、上述したシルエット画像から、撮像されているオブジェクトの姿勢を推定する処理を行う。
より具体的には、画像処理部13Xは、ビデオカメラ2Xが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。また画像処理部13Yは、ビデオカメラ2Yが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。言い換えれば、監視対象エリア内に位置するオブジェクトは、ビデオカメラ2Xが撮像した撮像画像によって姿勢が推定されるとともに、ビデオカメラ2Yが撮像した撮像画像によっても姿勢が推定される。
この例では、生成されるオブジェクトマップは、S7で画像処理部13Xが生成したレコードと、画像処理部13Yが生成したレコードと、を統合したレコードを登録したものである。このレコードの統合にかかる処理は、制御部11が行う。
制御部11は、画像処理部13Xが抽出したオブジェクトと、画像処理部13Yが抽出したオブジェクトを対応づける(同定する)同定処理を行う。
ここで、画像処理部13Xが抽出したオブジェクトと、画像処理部13Yが抽出したオブジェクトを同定する同定処理について説明する。
挙動解析装置1は、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系と、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系と、の相対的な位置関係を示す座標変換情報を記憶部14に記憶している。この座標変換情報は、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系と、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系と、を共通の座標系に射影変換する情報である。ここでは、この座標変換情報として、以下に示す、第1の座標変換パラメータと、第2の座標変換パラメータと、を記憶部14に記憶している。第1の座標変換パラメータは、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換するパラメータである。第2の座標変換パラメータは、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換するパラメータである。
なお、座標変換情報は、第1の座標変換パラメータ、または第2の座標変換パラメータのどちらか一方のみであってもよい。
ここで、第1の座標変換パラメータ、および第2の座標変換パラメータについて説明しておく。この第1の座標変換パラメータ、および第2の座標変換パラメータは、ビデオカメラ2X、2Yの設置時に、実際に撮像したフレーム画像を用いて算出した値である。
まず、ビデオカメラ2X、2Yの設置完了時に、テープ等を用いて、監視対象エリア内の床面に4点をマーキングする。そして、ビデオカメラ2Xで撮像したフレーム画像を処理し、このフレーム画像上におけるマーキングした4点の座標位置(x,y)を検出する。同様に、ビデオカメラ2Yで撮像したフレーム画像上におけるマーキングした4点の座標位置(X,Y)を検出する。そして、マーキングした点毎に、その座標位置を、
X=(a1x+b1y+c1)/(a0x+b0y+1)
Y=(a2x+b2y+c2)/(a0x+b0y+1)
に代入し、8元連立方程式を得る。この8元連立方程式の解である、a0,b0,a1,b1,c1,a2,b2,c2の8個の定数が、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換する第1の座標変換パラメータである。
同様に、マーキングした点毎に、その座標位置を、
x=(A1X+B1Y+C1)/(A0X+B0Y+1)
y=(A2X+B2Y+C2)/(A0X+B0Y+1)
に代入し、8元連立方程式を得る。この8元連立方程式の解である、A0,B0,A1,B1,C1,A2,B2,C2の8個の定数が、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換する第2の座標変換パラメータである。
ビデオカメラ2X、2Yが撮像したフレーム画像上におけるオブジェクトの同定は、一方のビデオカメラ2Xに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。また、他方のビデオカメラ2Yに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。これらは、画像処理部13X,13YがS7で作成したレコードから取得できる。そして、オブジェクトを、1対1で対応付ける組み合せパターンを作成する。ここで作成される組み合せのパターン数は、例えば、オブジェクトが2つであれば2通りであり、また3つであれば6通りである。
また、挙動解析装置1は、一方のビデオカメラ2Xに撮像されているオブジェクト毎に、第1の座標変換パラメータを用いて、そのオブジェクトの座標位置を他方のビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換する。挙動解析装置1は、オブジェクトの組み合せパターン毎に、他方のビデオカメラ2Yが撮像したフレーム画像の2次元座標系での、対応するオブジェクト間の距離の総和である第1の距離エネルギーを算出する。
また、挙動解析装置1は、他方のビデオカメラ2Yに撮像されているオブジェクト毎に、第2の座標変換パラメータを用いて、そのオブジェクトの座標位置を一方のビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換する。挙動解析装置1は、オブジェクトの組み合せパターン毎に、一方のビデオカメラ2Xが撮像したフレーム画像の2次元座標系での、対応するオブジェクト間の距離の総和である第2の距離エネルギーを算出する。
そして、挙動解析装置1は、受け渡しエリアに位置するオブジェクトの組合せの中で、第1の距離エネルギーと、第2の距離エネルギーとの和が最小である組み合せパターンを、撮像されているオブジェクトの適正な対応付けと判断し、同定する。
この統合したレコードを、オブジェクトマップに登録する。このオブジェクトマップには、図14に示すように、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢がともに登録される。
また、この挙動解析装置1は、オブジェクトの挙動を、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢を用いて判断する。例えば、図15に示す、挙動判断テーブルを記憶部14に記憶している。この挙動判断テーブルは、改札機エリア(図15(A)参照)、ベンチエリア(図15(B)参照)、フロア(図15(C)参照)等の場所毎に記憶している。挙動判断テーブルは、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトを、オブジェクトの挙動に対応づけるテーブルである。例えば、改札機エリアであれば、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢がともに、立ち状態であれば適性利用者と判断する。一方、画像処理部13Xが推定したオブジェクトの姿勢、または画像処理部13Yが推定したオブジェクトの姿勢の少なくとも一方が、立ち状態でなければ、不正利用者(異常行動)と判断する。
また、監視対象エリアに対する、ビデオカメラ2Xのアングルと、ビデオカメラ2Yのアングルとを、略90°異ならせているので、オブジェクトが人である場合、少なくとも一方のビデオカメラ2で、このオブジェクトを横方向から撮像することができ、その姿勢の推定精度を向上させることができる。また、オブジェクトがオクルージョンによって、一方のビデオカメラ2で撮像されなくても、他方のビデオカメラ2で撮像される可能性が高く、オブジェクトの抽出精度の向上が図れる。
なお、上記の例では、ビデオカメラ2(2X、2Y)、画像入力部12(12X、12Y)、画像処理部13(13X、13Y)を2系統設けた構成を示したが、3系統以上設けた構成としてもよい。
また、上記の説明では、挙動解析装置1を自動改札機や駅ホームにおけるオブジェクトの挙動を判断する場合を例示したが、その他の場所にも適用可能である。
1…挙動解析装置
2(2X、2Y)…ビデオカメラ
11…制御部
12(12X、12Y)…画像入力部
13(13X、13Y)…画像処理部
13a…オブジェクト抽出機能
13b…姿勢推定機能
14…記憶部
15…タイマ
16…通信部
21…姿勢モデル記憶部
この発明は、ビデオカメラ等の撮像装置で撮像している対象エリアのフレーム画像を処理し、撮像されている人物の挙動を解析する挙動解析装置に関する。
従来、駅、ショッピングセンタ、繁華街等の不特定多数の人が集まる場所では、設置した監視カメラ(以下、単にカメラと言う。)の撮像画像を処理し、特異な行動をとった不審者等の人物(以下、単に不審者と言う。)の検出を行っている。具体的には、カメラで撮像しているフレーム画像を処理し、撮像されている人物の挙動を解析し、その挙動が特異であるかどうかを判断している。また、不正行為等にかかる特異な挙動をとった人物を検知すると、その旨を警備員等に通報することも行っている。
例えば、特許文献1には、視点の異なる複数の撮像装置(所謂、ステレオカメラ)を用い、各撮像装置で撮像した対象物の画像を処理し、その対象物の代表点の三次元位置を検出し、三次元画像を生成する構成が記載されている。そして、生成した対象物の三次元画像から、当該対象物の動作および姿勢を判断することによって、当該対象物の挙動を解析している。
しかしながら、上述の特許文献1は、撮像した対象物の三次元画像を生成するために、ステレオカメラおよび、このステレオカメラで撮像した画像を処理して三次元画像を生成する画像処理部を必要とする。したがって、特許文献1は、システムの大型化や、コストアップという問題があった。
この発明の目的は、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、且つ、システムの大型化やコストアップが十分に抑えられる挙動解析装置を提供することにある。
この発明の挙動解析装置は、上述の課題を解決し、その目的を達するために、以下のように構成している。
オブジェクト抽出手段は、撮像装置が撮像した撮像エリアのフレーム画像を処理し、撮像されているオブジェクトを抽出する。ここで抽出するオブジェクトは、人や物である。位置検出手段は、オブジェクト抽出手段が抽出したオブジェクト毎に、撮像エリア内の位置を検出する。さらに、姿勢推定手段が、オブジェクト抽出手段が抽出したオブジェクト毎に、その姿勢を推定する。そして、挙動判断手段が、オブジェクト抽出手段が抽出したオブジェクト毎に、位置検出手段が検出した撮像エリア内の位置と、姿勢推定手段が推定した姿勢とに基づいて、当該オブジェクトの挙動を判断する。
姿勢推定手段は、オブジェクト抽出手段が抽出したオブジェクトを囲む矩形領域を設定し、この矩形領域の高さと幅との比(所謂、アスペクト比)と、この矩形領域の上辺の高さと、この矩形領域の下辺の高さと、に基づいて姿勢を推定する。
このように、姿勢推定手段は、設定したオブジェクトを囲む矩形領域の上辺の高さと、この矩形領域の下辺の高さと、に基づいてオブジェクトの姿勢を推定するので、当該オブジェクトが人であれば、上辺の高さが下方に変化したときにはしゃがんだと推定でき、下辺の高さが上方に変化したときには、ジャンプしたと推定できる。
また、姿勢推定手段は、オブジェクト抽出手段が抽出したオブジェクトの形状と、姿勢モデル記憶手段がオブジェクトの姿勢別に記憶する形状モデルとの類似度を算出し、ここで算出した類似度に基づいて姿勢を推定してもよい。この場合、算出した類似度が最大であった形状モデルに対応する姿勢を、そのオブジェクトの姿勢として推定すればよい。
この場合、オブジェクト抽出手段が、複数の撮像装置が異なるアングルで撮像している撮像エリアのフレーム画像毎に、撮像されているオブジェクトを抽出し、同定手段が、抽出されたオブジェクトを、複数の撮像装置のフレーム画像間で同定する構成を備える。また、姿勢推定手段は、オブジェクト抽出手段が抽出し、同定手段が同定したオブジェクトの姿勢を、複数の撮像装置が撮像しているフレーム画像毎に推定した姿勢の組合せによって判断する。
また、ロケーション情報記憶手段が、撮像エリアを複数の領域に分割した領域毎に、対応するフレーム画像上での領域と、を対応付けて設定したロケーション情報を記憶する構成としてもよい。この場合、挙動判断手段が、ロケーション情報から得られるオブジェクトが位置する場所の環境を加えて、当該オブジェクトの挙動を判断すればよい。これにより、撮像されている人物等のオブジェクトの挙動を監視装置が撮像している場所に応じて推定できる。
さらに、オブジェクトマップ作成手段が、オブジェクト抽出手段が抽出したオブジェクトについて、位置検出手段が検出した位置と、姿勢推定手段が推定した姿勢とを時系列に登録したオブジェクトマップを作成する構成としてもよい。この場合、挙動判断手段は、オブジェクトマップ作成手段が作成したオブジェクトマップから得られる、時間経過にともなうオブジェクトの位置、および推定した姿勢の変化から当該オブジェクトの挙動を判断すればよい。これにより、オブジェクトの挙動が、そのオブジェクトの動きに基づいて推定できる。
なお、ここで言うオブジェクトは、人だけでなく、荷物等も含んでいる。
この発明によれば、オブジェクトの三次元情報を用いることなく、そのオブジェクトの挙動を精度良く判断することができ、システムの大型化やコストアップが十分に抑えられる。
挙動解析装置の主要部の構成を示すブロック図である。
オブジェクトマップを示す図である。
ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。
ビデオカメラの撮像エリアを分割した領域毎に設定している場所情報を説明する図である。
挙動解析装置の動作を示すフローチャートである。
オブジェクトの種類を判定するフローチャートである。
自動改札機における不正通行の検出を示す図である。
自動改札機における不正通行の検出を示す図である。
自動改札機における不正通行の検出を示す図である。
別の挙動解析装置の主要部の構成を示すブロック図である。
シルエット画像の例を示す図である。
オブジェクトマップを示す図である。
別の挙動解析装置の主要部の構成を示すブロック図である。
オブジェクトマップを示す図である。
挙動判断テーブルを示す図である。
以下、この発明の実施形態である挙動解析装置の実施形態について説明する。
図1は、この発明の実施形態にかかる挙動解析装置の主要部の構成を示すブロック図である。この実施形態にかかる挙動解析装置1は、監視カメラとして設置したビデオカメラ2で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や物)を抽出する。ビデオカメラ2は、1秒間に数十フレーム(例えば、30フレーム)程度のフレーム画像を画像入力部12に入力する。ビデオカメラ2は、例えば、駅の改札口や駅ホーム等の監視対象エリアを撮像する。また、挙動解析装置1は、抽出したオブジェクトが人であれば、その人の挙動を判断する。さらに、挙動解析装置1は、抽出したオブジェクトが物であれば、その物を放置した人を探索する機能も有している。
この挙動解析装置1は、制御部11と、画像入力部12と、画像処理部13と、記憶部14と、タイマ15と、通信部16と、を備えている。制御部11は、挙動解析装置1本体の動作を制御する。
画像入力部12には、接続しているビデオカメラ2が撮像しているフレーム画像が入力される。
画像処理部13は、オブジェクト抽出機能13a、および姿勢推定機能13bを有している。オブジェクト抽出機能13aは、ビデオカメラ2から入力されたフレーム画像を処理し、撮像されている人や物等をオブジェクトとして抽出する。また、オブジェクト抽出機能13aは、抽出したオブジェクトにIDを付与するとともに、その位置(フレーム画像上の位置)を検出する。このIDは、オブジェクトを識別できるユニークな値である。また、画像処理部13は、時間的に連続するビデオカメラ2の複数のフレーム画像を処理し、オブジェクトマップを作成することにより、ビデオカメラ2の撮像エリア内に位置しているオブジェクト(IDが付与されている人や物)を追跡する。このオブジェクトマップについては後述する。
画像処理部13は、時空間MRF(Markov Random Field)モデルを利用して、撮像されているオブジェクトの抽出や追跡を行う。時空間MRFモデルは、公知のように、時空間画像の時間軸方向の相関関係に着目し、MRFモデルを時空間モデルとして拡張したものである。この時空間MRFモデルは、処理対象であるフレーム画像に対して数ピクセル×数ピクセル(例えば、8ピクセル×8ピクセル)のブロックで領域分割を行い、時間的に連続するフレーム画像間でのブロック毎の動きベクトルを参照した時間軸方向の相関を定義するモデルである。
また、姿勢推定機能13bは、オブジェクト抽出機能13aが抽出したオブジェクトの姿勢を推定する。具体的には、姿勢推定機能13bは、オブジェクト抽出機能13aが抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。また、この矩形領域は、抽出したオブジェクトに外接するように設定する。姿勢推定機能13bは、ここで設定した矩形の高さと幅の比、すなわちアスペクト比、に基づき、そのオブジェクトの姿勢を推定する。
例えば、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
β/α<0.6であれば、立ち状態
0.6<β/α<1.5であれば、しゃがみ込み、または飛び跳ね状態
1.5<β/αであれば、横たわり状態、
であると推定する。
なお、ここでは、抽出したオブジェクトに対して矩形領域を設定するとしたが、矩形領域を設定せずに、そのオブジェクトの高さαと、幅βと、を検出し、姿勢を推定してもよい。
また、挙動解析装置1は、フレーム画像上における位置が予め定めた時間(数十秒程度)変化しないオブジェクトを荷物(放置物)と判断する。この時間は、監視対象エリアに応じて設定すればよい。挙動解析装置1は、オブジェクトマップを参照することにより、オブジェクト毎に、時間経過にともなう位置の変化を得ることができる。
図2は、オブジェクトマップを示す図である。オブジェクトマップは、図2に示すように、画像処理部13で抽出したオブジェクト毎に作成する。図2は、抽出したオブジェクトである物体A(図2(A)参照)、および物体B(図2(B)参照)について作成されたオブジェクトマップの例である。物体Aは人であり、物体Bは物である。図2に示すように、オブジェクトマップは、物体の種類(人、または物)、姿勢(人のみ)、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを時系列に登録したものである。上述したように、画像処理部13が、このオブジェクトマップを作成する。記憶部14が、このオブジェクトマップを記憶する。
図2に示すオブジェクトマップの場所情報は、その場所の環境を示す情報である。例えば、不特定多数の人の通行路であるフロア、自動改札機を設置している改札機エリア、ベンチを設置しているベンチエリアを示す。また、場所情報は、ビデオカメラ2の撮像エリアを図3に示すように分割し、分割した領域毎に設定している。図3(A)は、ビデオカメラ2による改札口周辺の撮像画像(フレーム画像)を示している。また、図3(B)は、図3(A)に示す撮像領域に対する場所情報の設定例を示す図である。図4(A)は、ビデオカメラ2による駅ホームの撮像画像を示している。また、図4(B)は、図4(A)に示す撮像領域に対する場所情報の設定例を示す図である。
記憶部14は、挙動解析装置1の動作時に用いる設定パラメータや、動作時に発生した処理データ(上述したオブジェクトマップを含む。)等を記憶する。タイマ15は、現在時刻を計時する。通信部16は、図示していない上位装置等との間における通信を制御する。
この挙動解析装置1は、1つのオブジェクト(単独オブジェクト)の挙動の解析が行えるだけでなく、複数オブジェクト間で関連する挙動の解析も行える。単独オブジェクトの挙動の解析により、自動改札機の不正通行(強行突破)、駅ホームや改札口周辺における徘徊、座り込み、倒れ込み、滞留、酔客等の検知が行える。また、複数オブジェクトの挙動の解析により、自動改札機の不正通行(共連れ)、不審物の置き去り、持ち去り、口論、つきまとい、キャッチセールス、通り魔等の検知が行える。
以下、この実施形態にかかる挙動解析装置1の動作について説明する。
図5は、この挙動解析装置の動作を示すフローチャートである。挙動解析装置1は、画像処理部13において、画像入力部12に入力されたビデオカメラ2で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や、物)を抽出する(S1)。S1では、例えば、背景との差分画像を生成し、この差分画像から撮像されている物体を抽出する。
画像処理部13は、前回処理したフレーム画像で抽出した人物と、S1で抽出した人物と、を対応付ける(S2)。画像処理部13は、時空間MRFモデルを用い、人物を、8ピクセル×8ピクセルのブロックを単位とする人物領域として抽出する。S2では、前回処理したフレーム画像で抽出した人物と、S1で抽出した人物と、を対応付けることにより、今回抽出した人物の移動方向や移動量を得ることができ、抽出した人物の追跡が行える。
また、今回の処理で抽出した人物であって、前回の処理で抽出されていなかった人物(すなわち、今回初めて抽出した人物)については、仮IDを付与する(S3、S4)。この仮IDが付与される人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ2の撮像エリア内に入ってきた人物である。
なお、前回の処理で抽出されていたが、今回の処理で抽出されなかった人物は、前回のフレーム画像の処理から、今回のフレーム画像の処理までの間に、ビデオカメラ2の撮像エリア外に出た人物である。
画像処理部13は、今回抽出した人物毎に、その人物を囲む矩形領域を設定する(S5)。画像処理部13は、今回抽出した人物毎に、S5で設定した矩形領域の高さ、および幅を検出し、アスペクト比(縦横比)を算出し、その人物(人のみ)の姿勢を推定する(S6)。S6では、上述したように、オブジェクトを囲む矩形領域の高さαと、幅βとの比が、
β/α<0.6であれば、立ち状態
0.6<β/α<1.5であれば、しゃがみ込み、または飛び跳ね状態
1.5<β/αであれば、横たわり状態、
であると推定する。
また、S6では、今回抽出した人物毎に、設定した矩形領域の上辺の高さ、および下辺の高さを検出する。
画像処理部13は、今回処理したフレーム画像から抽出したオブジェクト毎に、オブジェクトマップに登録するレコードを生成する(S7)。S7では、図2に示したように、オブジェクトの種類(人、または物)、姿勢(人のみ)、位置、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さ、場所情報、および時刻を対応づけたレコードを生成する。
なお、抽出したオブジェクトが人、または物であるかの判定は、位置が変化することなく一定時間経過したときに、物であるとする。言い換えれば、一定時間経過する前に、位置が変化している物体(移動している物体)であれば人と判定する。人、または物の判定にかかる詳細については、後述する。
挙動解析装置1は、S7で生成したレコードをオブジェクトマップに登録する(S8)。挙動解析装置1は、このオブジェクトマップを記憶部14に記憶する。
挙動解析装置1は、上述したS1〜S8にかかる処理を繰り返すことにより、ビデオカメラ2の撮像エリア内に位置する人や、物にかかるオブジェクトマップ(図2参照)を作成し、記憶部14に記憶する。
次に、上述した処理で作成したオブジェクトマップに基づき、オブジェクトの種類(人、または物)を判定する手法について説明する。
制御部11は、上述したオブジェクトマップに基づき、この判定を行う。この判定は、人、または物のどちらであるか判定していないオブジェクトについてのみ行い、すでに同判定を行っているオブジェクトについては、この判定を繰り返し行わない。図6は、このオブジェクトの種類を判定するフローチャートである。
制御部11は、種類を判定していないオブジェクトをオブジェクトマップから抽出する(S11)。制御部11は、S11で抽出したオブジェクト毎に、過去10フレームの撮像画像の処理で位置が変化していないかどうかを判定する(S12)。制御部11は、位置が変化しているオブジェクトを人であると判定する。一方、過去10フレームの撮像画像の処理で位置が変化していないオブジェクトであれば、そのオブジェクトが過去50フレーム前のフレーム画像に存在しているかどうかを判定する(S13)。このS13は、オブジェクトが、一時的に他のオブジェクトの影になってビデオカメラ2に撮像されなかった設置物であるかどうかを判定している。制御部11は、S13で過去50フレーム前のフレーム画像にも存在していないオブジェクトであれば、そのオブジェクトを物(放置物)であると判定する(S14)。
なお、制御部11は、S12で過去10フレームの撮像画像の処理で位置が変化していると判定した場合、そのオブジェクトを人であると判定する(S15)。また、制御部11は、S13で過去50フレーム前のフレーム画像に存在しているオブジェクトであると判定した場合、このオブジェクトを設置物であると判定する(S16)。
このように、挙動解析装置1は、ビデオカメラ2の撮像エリア内に位置するオブジェクトの種類を判定する。
また、挙動解析装置1は、上述した処理で作成したオブジェクトマップを用いることで、S14で放置物と判定したオブジェクトを放置した人の探索が行える。具体的には、その放置物が検出される直前に、その場所に位置していた人をオブジェクトマップから検索する。これにより、この放置物を放置した人が特定できる。同様に、オブジェクトマップを用いることで、喧嘩や口論等に関わった人の探索が行える。
また、上述したように、オブジェクトマップにはオブジェクトが位置している場所を示す場所情報が対応づけられている。オブジェクトのアスペクト比を用いることで、当該オブジェクト(人)の挙動を精度良く判定できる。例えば、オブジェクトである人が位置している場所の場所情報がフロアであり、姿勢が横たわり状態である場合、酔客等の倒れ込みであると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢がしゃがみ込み状態である場合、ベンチに座っていると判断できる。また、オブジェクトである人が位置している場所の場所情報がベンチであり、姿勢が横たわり状態である場合、ベンチに横たわっていると判断できる。また、オブジェクトである人が位置している場所の場所情報がごみ箱エリアであり、姿勢が立ち状態であれば、ゴミ箱をあさっていると判断できる。
なお、酔客であるかどうかの判断は、その人の移動速度から判断すればよい。一般に酔客は、移動速度が遅い。移動速度は、オブジェクトマップから得られる。
また、上述したように、オブジェクトマップには、オブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さが登録されているので、その人が飛び上がったのか、しゃがんだのか判断できる。すなわち下辺の高さが床面よりも上方に位置していれば飛び上がったと判断でき、下辺の高さが床面に位置していればしゃがんだと判断できる。
また、図7に示すように、自動改札機のゲートをしゃがんで不正に通行した場合、その不正通行者を囲む矩形の上辺が一時的(図7(B)参照)に下がる。図7(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図7(B)は、自動改札機の通路を通行しているとき(しゃがんでいる状態)のフレーム画像を示している。図7(C)は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的にしゃがんだことを検出したとき、自動改札機の不正通行者であると判断できる。
また、図8に示すように、自動改札機のゲートを飛び越えて不正に通行した場合、その不正通行者を囲む矩形の下辺が一時的(図8(B)参照)に上がる。図8(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図8(B)は、自動改札機の通路を通行しているとき(ゲートを飛び越えている状態)のフレーム画像を示している。図8(C)は、自動改札機の通路から退出したときのフレーム画像を示している。すなわち、自動改札機の通路を通行している人が、一時的に飛び跳ねたことを検出したとき、自動改札機の不正通行者であると判断できる。
なお、オブジェクト(通行者)を囲む矩形のアスペクト比を用いて状態を判断しているので、立ち状態である通行者を、しゃがんだ、または飛び跳ねたとする誤判断が抑えられる。
さらに、自動改札機から得られる通行者の人数を用いて、共連れにかかる不正通行の検出も行える。例えば、図9(A)は、自動改札機の通路に進入する直前のフレーム画像を示している。図9(B)は、自動改札機の通路を通行しているときのフレーム画像を示している。図9(C)は、自動改札機の通路から退出したときのフレーム画像を示している。図9(A)、(C)に示すように、自動改札機の入口、または出口で2人の人を検出していた場合に、自動改札機から得られた改札通路の通行者の人数が1人であれば、共連れであると判断できる。
このように、この実施形態にかかる挙動解析装置1は、抽出したオブジェクトの高さと、幅の比であるアスペクト比に基づいて、そのオブジェクトの挙動を判断する。すなわち、この挙動解析装置1は、オブジェクトの三次元情報を用いないので、システムの大型化やコストアップが十分に抑えられる。
次に、この発明の別の実施形態について説明する。この別の実施形態にかかる挙動解析装置1も図10に示す構成である。図10に示すように、この例の挙動解析装置1は、姿勢モデル記憶部21を備えている点で、上記例の挙動解析装置と異なる。また、後述するように、S6にかかる姿勢を推定する処理が異なる。
姿勢モデル記憶部21は、オブジェクトの姿勢毎に特徴量のモデルベクトルを記憶している。このモデルベクトルは、姿勢毎に、ビデオカメラ2で撮像したオブジェクトの画像を処理し得たものである。具体的には、姿勢毎に、ビデオカメラ2でオブジェクトを撮像し、その撮像画像に撮像されているオブジェクトを抽出する。抽出したオブジェクトについて、そのオブジェクトを囲む矩形領域を設定する。ここで設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像(2値化画像)を生成する(図11参照)。図11(A)、(B)は、ベンチに座っている人のシルエット画像であり、図11(C)はフロアに座っている人のシルエット画像である。図11(A)は、背筋を延ばした状態の人であり、図11(B)、(C)は、背中を丸めて、頭を下げている状態の人である。このシルエット画像における、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づいて作成した特徴量ベクトルを、該当する姿勢のモデルベクトルXとして、姿勢モデル記憶部21に記憶している。モデルベクトルXは、以下のようにして作成する。
作成に用いるシルエット画像の大きさの違いによる影響を抑えるため、シルエット画像を垂直方向にn分割(図11では、n=8)、水平方向にm分割(図11では、m=8)した大きさに正規化し、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)を作成する。モデルベクトルXは、作成した垂直方向のヒストグラム、および水平方向のヒストグラムに基づく、n+m(図11では、8+8=16)次元ベクトル(x1、x2、・・・xn、y1、y2、・・・ym)である。
また、この挙動解析装置1は、図12に示すオブジェクトマップを作成する。上記の例と異なる点は、抽出したオブジェクトを囲む矩形領域の上辺の高さ、および下辺の高さを登録していない点である。
次に、この挙動解析装置1におけるオブジェクトの姿勢を推定する処理(上述のS6にかかる処理)について説明する。
上述したように、画像処理部13のオブジェクト抽出機能13aが、S5で、今回抽出した人物毎に、その人物を囲む矩形領域を設定する。姿勢推定機能13bは、今回抽出したオブジェクト毎に、S5で設定した矩形領域内におけるオブジェクトと、それ以外と、を区別したシルエット画像を生成する。オブジェクト抽出機能13aは、ここで生成したシルエット画像における、垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づいて、このオブジェクトの特徴量ベクトルYを得る。このオブジェクトの特徴量ベクトルYも、上述したモデルベクトルXと同様に、シルエット画像を垂直方向にn分割、水平方向にm分割した大きさに正規化し作成した垂直方向のヒストグラム(x1〜xn)、および水平方向のヒストグラム(y1〜ym)に基づく、n+m(図11では、8+8=16)次元ベクトル(x1、x2、・・・xn、y1、y2、・・・ym)である。
姿勢推定機能13bは、オブジェクト毎に、そのオブジェクトについて取得した特徴量ベクトルYと、姿勢モデル記憶部21が記憶している各姿勢のモデルベクトルXとの距離(類似度)を算出する。そして、ここで算出した距離が、最小で、且つ、予め定めた閾値未満であるモデルベクトルXに対応する姿勢を、このオブジェクトの姿勢と推定する。一方、算出した距離が、最小であっても、予め定めた閾値未満でなければ、オブジェクトの姿勢を不明とする。
なお、この挙動解析装置1は、S6以外の処理については上記の例と同じである。
このように、この例にかかる挙動解析装置1は、シルエット画像からオブジェクト(人)の姿勢を推定するので、例えばベンチに座っている人が、背筋を延ばして座っているのか、背中を丸め、頭を下げてうずくまっているのか等の違いについても判別できる。
また、挙動解析装置1は、図13に示すように、ビデオカメラ2(2X、2Y)、画像入力部12(12X、12Y)、画像処理部13(13X、13Y)を2系統設けた構成としてもよい。
この例にかかる挙動解析装置1は、監視カメラとして設置した2台のビデオカメラ2(2X、2Y)で撮像しているフレーム画像を処理し、撮像されているオブジェクト(人や物)を抽出する。ビデオカメラ2X、2Yは、上述した例のものと同じである。2台のビデオカメラ2X、2Yは、同じ監視対象エリアを撮像する。監視対象エリアに対する、ビデオカメラ2Xのアングル(撮像方向)と、ビデオカメラ2Yのアングル(撮像方向)とは、略90°異なる。
画像入力部12Xには、接続しているビデオカメラ2Xが撮像しているフレーム画像が入力される。画像入力部12Yは、接続しているビデオカメラ2Yが撮像しているフレーム画像が入力される。
画像処理部13Xは、画像入力部12Xに入力されたビデオカメラ2Xの撮像画像を処理する。画像処理部13Yは、画像入力部12Yに入力されたビデオカメラ2Yの撮像画像を処理する。この画像処理部13(13X、13Y)も、オブジェクト抽出機能13a、および姿勢推定機能13bを有している。画像処理部13(13X、13Y)は、上述したシルエット画像から、撮像されているオブジェクトの姿勢を推定する処理を行う。
より具体的には、画像処理部13Xは、ビデオカメラ2Xが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。また画像処理部13Yは、ビデオカメラ2Yが撮像した監視対象エリアの撮像画像に撮像されているオブジェクトの姿勢を推定する。言い換えれば、監視対象エリア内に位置するオブジェクトは、ビデオカメラ2Xが撮像した撮像画像によって姿勢が推定されるとともに、ビデオカメラ2Yが撮像した撮像画像によっても姿勢が推定される。
この例では、生成されるオブジェクトマップは、S7で画像処理部13Xが生成したレコードと、画像処理部13Yが生成したレコードと、を統合したレコードを登録したものである。このレコードの統合にかかる処理は、制御部11が行う。
制御部11は、画像処理部13Xが抽出したオブジェクトと、画像処理部13Yが抽出したオブジェクトを対応づける(同定する)同定処理を行う。
ここで、画像処理部13Xが抽出したオブジェクトと、画像処理部13Yが抽出したオブジェクトを同定する同定処理について説明する。
挙動解析装置1は、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系と、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系と、の相対的な位置関係を示す座標変換情報を記憶部14に記憶している。この座標変換情報は、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系と、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系と、を共通の座標系に射影変換する情報である。ここでは、この座標変換情報として、以下に示す、第1の座標変換パラメータと、第2の座標変換パラメータと、を記憶部14に記憶している。第1の座標変換パラメータは、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換するパラメータである。第2の座標変換パラメータは、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換するパラメータである。
なお、座標変換情報は、第1の座標変換パラメータ、または第2の座標変換パラメータのどちらか一方のみであってもよい。
ここで、第1の座標変換パラメータ、および第2の座標変換パラメータについて説明しておく。この第1の座標変換パラメータ、および第2の座標変換パラメータは、ビデオカメラ2X、2Yの設置時に、実際に撮像したフレーム画像を用いて算出した値である。
まず、ビデオカメラ2X、2Yの設置完了時に、テープ等を用いて、監視対象エリア内の床面に4点をマーキングする。そして、ビデオカメラ2Xで撮像したフレーム画像を処理し、このフレーム画像上におけるマーキングした4点の座標位置(x,y)を検出する。同様に、ビデオカメラ2Yで撮像したフレーム画像上におけるマーキングした4点の座標位置(X,Y)を検出する。そして、マーキングした点毎に、その座標位置を、
X=(a1x+b1y+c1)/(a0x+b0y+1)
Y=(a2x+b2y+c2)/(a0x+b0y+1)
に代入し、8元連立方程式を得る。この8元連立方程式の解である、a0,b0,a1,b1,c1,a2,b2,c2の8個の定数が、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換する第1の座標変換パラメータである。
同様に、マーキングした点毎に、その座標位置を、
x=(A1X+B1Y+C1)/(A0X+B0Y+1)
y=(A2X+B2Y+C2)/(A0X+B0Y+1)
に代入し、8元連立方程式を得る。この8元連立方程式の解である、A0,B0,A1,B1,C1,A2,B2,C2の8個の定数が、ビデオカメラ2Yが撮像したフレーム画像の2次元座標系を、ビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換する第2の座標変換パラメータである。
ビデオカメラ2X、2Yが撮像したフレーム画像上におけるオブジェクトの同定は、一方のビデオカメラ2Xに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。また、他方のビデオカメラ2Yに撮像されているオブジェクト毎に、フレーム画像上の座標位置を取得する。これらは、画像処理部13X,13YがS7で作成したレコードから取得できる。そして、オブジェクトを、1対1で対応付ける組み合せパターンを作成する。ここで作成される組み合せのパターン数は、例えば、オブジェクトが2つであれば2通りであり、また3つであれば6通りである。
また、挙動解析装置1は、一方のビデオカメラ2Xに撮像されているオブジェクト毎に、第1の座標変換パラメータを用いて、そのオブジェクトの座標位置を他方のビデオカメラ2Yが撮像したフレーム画像の2次元座標系に射影変換する。挙動解析装置1は、オブジェクトの組み合せパターン毎に、他方のビデオカメラ2Yが撮像したフレーム画像の2次元座標系での、対応するオブジェクト間の距離の総和である第1の距離エネルギーを算出する。
また、挙動解析装置1は、他方のビデオカメラ2Yに撮像されているオブジェクト毎に、第2の座標変換パラメータを用いて、そのオブジェクトの座標位置を一方のビデオカメラ2Xが撮像したフレーム画像の2次元座標系に射影変換する。挙動解析装置1は、オブジェクトの組み合せパターン毎に、一方のビデオカメラ2Xが撮像したフレーム画像の2次元座標系での、対応するオブジェクト間の距離の総和である第2の距離エネルギーを算出する。
そして、挙動解析装置1は、監視対象エリアに位置するオブジェクトの組合せの中で、第1の距離エネルギーと、第2の距離エネルギーとの和が最小である組み合せパターンを、撮像されているオブジェクトの適正な対応付けと判断し、同定する。
この統合したレコードを、オブジェクトマップに登録する。このオブジェクトマップには、図14に示すように、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢がともに登録される。
また、この挙動解析装置1は、オブジェクトの挙動を、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢を用いて判断する。例えば、図15に示す、挙動判断テーブルを記憶部14に記憶している。この挙動判断テーブルは、改札機エリア(図15(A)参照)、ベンチエリア(図15(B)参照)、フロア(図15(C)参照)等の場所毎に記憶している。挙動判断テーブルは、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢を、オブジェクトの挙動に対応づけるテーブルである。例えば、改札機エリアであれば、画像処理部13Xが推定したオブジェクトの姿勢、および画像処理部13Yが推定したオブジェクトの姿勢がともに、立ち状態であれば適正利用者と判断する。一方、画像処理部13Xが推定したオブジェクトの姿勢、または画像処理部13Yが推定したオブジェクトの姿勢の少なくとも一方が、立ち状態でなければ、不正利用者(異常行動)と判断する。
また、監視対象エリアに対する、ビデオカメラ2Xのアングルと、ビデオカメラ2Yのアングルとを、略90°異ならせているので、オブジェクトが人である場合、少なくとも一方のビデオカメラ2で、このオブジェクトを横方向から撮像することができ、その姿勢の推定精度を向上させることができる。また、オブジェクトがオクルージョンによって、一方のビデオカメラ2で撮像されなくても、他方のビデオカメラ2で撮像される可能性が高く、オブジェクトの抽出精度の向上が図れる。
なお、上記の例では、ビデオカメラ2(2X、2Y)、画像入力部12(12X、12Y)、画像処理部13(13X、13Y)を2系統設けた構成を示したが、3系統以上設けた構成としてもよい。
また、上記の説明では、挙動解析装置1を自動改札機や駅ホームにおけるオブジェクトの挙動を判断する場合を例示したが、その他の場所にも適用可能である。
1…挙動解析装置
2(2X、2Y)…ビデオカメラ
11…制御部
12(12X、12Y)…画像入力部
13(13X、13Y)…画像処理部
13a…オブジェクト抽出機能
13b…姿勢推定機能
14…記憶部
15…タイマ
16…通信部
21…姿勢モデル記憶部