WO2010084902A1

WO2010084902A1 - 侵入警報ビデオ処理装置

Info

Publication number: WO2010084902A1
Application number: PCT/JP2010/050680
Authority: WO
Inventors: ヴィタリーアレクサンドロヴィチロポタ; アレクサンダーセルゲイビッチコンドラチェフ; ヴィクターイワノヴィッチユージン; セルゲイアナトリエヴィッチポロフコ; エカテリーナユーレヴナスミルノワ; キリルニコラエヴィッチスチューピン; レフボリソヴィッチコーギャン; ドミトリィニコラエヴィッチステパーノフ; 渡伊藤; 光恵伊藤; 一成岩永; 幸藤井
Original assignee: 株式会社日立国際電気
Priority date: 2009-01-22
Filing date: 2010-01-21
Publication date: 2010-07-29
Also published as: RU2009102124A; US8189049B2; JPWO2010084902A1; RU2484531C2; US20100201820A1; JP5325899B2

Abstract

　自然現象や人工的な外乱を含む映像から精度良く物体検出する。背景差分法を基礎とし、入力画像の各画素値の変動に係数を乗じて得たしきい値画像で二値化を行う。変動は、画素毎に更新係数に基づき時間平均するが、更新係数は、その画素が物体に属するか否かによって切替える。その後、二値化画像から初期検出のゾーンを形成して、空間的なフィルタ処理を行う。空間的なフィルタ処理は、スケルトン解析処理、オブジェクトマスク処理、モフォロジ演算処理、セクション解析処理の少なくとも１つを含む。追跡ゾーンは、例えばHough変換等の線成分抽出手法によって、その時間的な位置変化が追跡され、カルマンフィルタ等により雑音が低減される。追跡ゾーンのあるものは除かれ、残ったゾーンはクラスタに統合され、更に、実空間での寸法に基づきクラスタの選別が行われる。

Description

侵入警報ビデオ処理装置

　本発明は、侵入警報ビデオ処理装置に関し、特に単眼カメラで撮影された映像を処理することで侵入者を検知する侵入警報ビデオ処理装置に関する。

　従来の侵入者警報システムは、頻繁な誤報や、汎用性の無さ、即ち監視場所に応じた繊細で労力のかかる設定調整を要するという点で、満足なものではなかった。領域分割，骨格抽出，認識，検出などの画像処理の古典的タスクなどを実現する必要がある場合、一般的な侵入者警報システムの開発の難しさは、各種起源によるさまざまなノイズの存在よるところが大きいのは明らかである。

　ほとんどの監視用ビデオカメラでは、安価なCMOSセンサが使われている。しかし、これらのセンサの中でもっとも高性能なものでさえ、撮像データには何らかのハードウェアノイズが混入する。輝度レベルとセンサノイズレベルとの間には、逆相関の関係が成り立つ。このノイズによって、カメラと撮像する環境が動いていない場合でさえ、同じ画像を２枚撮像することは不可能となる。実際に、画素の輝度値あるいはRGB値は、確率変数として観測される。したがって、確率変数として観測される画素の値は、適切な方法によってモデル化されるべきである。センサのノイズは、白色雑音として適切にモデル化できることが実験的に照明されている。

　本発明の基礎となる従来技術として、Eremin S.N.による移動車両検出方法が知られる（特許文献１参照。）。その方法は、フレームの取得、フレーム間の差分の計算、閾値による２値化、モルフォロジカル演算、Ｓｏｂｅｌ演算子の計算、初期フレームの保存、特別な式に基づく背景の更新、フレームと背景との間の差分の検出、イメージのヒストグラムの算出、最大輝度の検出、存在する物体との比較による検証、混ざった物体の分離、車両の位置およびそのフレーム手段中でその車両が位置すると考えられる座標を表現する矩形の生成を含んでいる。

　また、本発明に関連のある従来技術として、Ｈｕ不変モーメントを用いた画像認識が知られる（非特許文献１参照）。
　また、フーリエメリン変換やガボールフィルタをスケール不変値として用い、それらを辞書と比較して物体認識するものが知られる（非特許文献２及び３参照）。

　また、ハリスのコーナー検出が知られる（非特許文献４参照）。このアプローチでは、検出したコーナーを特徴量として用いる。どのような物体も、ユニークなコーナー配置のセットを有する。認識処理は、標準画像における物体の持つコーナーの位置関係と比較することで行われる。
　また、画像にガウスフィルタを多段階に適用し、それらの差分画像群（ラプラシアンピラミッド）を作成するもの（特許文献２参照）や、その画像群の極大値からキーポイント等のスケール不変特徴量を抽出するＳＩＦＴ（Scale-invariant feature transform）（非特許文献５参照）が知られる。

露国特許第２２６２６６１号明細書米国特許第６１４１４５９号明細書

Ming-Kuei HU,"Visual Pattern Recognition by Moment Invariants"，IRE Transactions on information theory，1962年, p.179-187 Park, H.J., Yang H.S,"Invariant object detection based on evidence accumulation and Gabor features"，Pattern recognition letters 22，p.869-882 Kyrki, V., Kamarainen J.K,"Simple Gabor feature space for invariant object recognition"，Pattern recognition letters 25, No.3，2004年，p.311-318 C. Harris and M. Stephens,"A combined corner and edge detector"，Proc. Alvey Vision Conf.，Univ. Manchester，1988年，p.147-151 David G. Lowe,"Distinctive image features from scale-invariant keypoints", Journal of Computer Vision, 60, 2，2004年，p.91-110

　上記個々の方法の欠点は、影を物体（侵入者、車輌等）として誤って検出すること、及び物体の実際のサイズを判断できないことである。その他の欠点は、視界に持ってこられ置き去られた物体（或いはその位置）を誤って検出した場合に、適切なピクセルにおける背景モデルの更新が完全に停止してしまい、結果的に、静止物体を背景へ自動的に統合できなくなることである。そのため、照明や木の葉、水面の動き、降水（雨や雪など）の持続的もしくは一時的な変化によって生じる外乱が存在する状態下では、誤報や検出漏れが生じるという問題があった。また、フリッカ等の周期的な背景の変動や、場所により照度の大きく異なるようなエリア内での追跡に対しても、十分な配慮がされていなかった。

　本発明の目的は、誤った応答の数を減らし、動く物体の境界の検出精度を向上させることで、複雑な気象条件および変化する背景のもとで、テレビ監視セキュリティシステムの品質を向上させ、さらに機能性や操作性を拡張することである。

　本発明の侵入警報ビデオ処理装置は、パラメトリックなモデルに基づいた背景差分法を用いる。即ち、フレーム画像の入力の都度、現在のフレームの入力画像と背景画像の差分の絶対値を計算し、しきい値画像による二値化を行う。しきい値画像には、入力画像の各画素値の変動σ²に所定の係数ｋ₁を乗じたものを使う。変動σ²は、画素毎に更新係数ρに基づき時間平均されるが、更新係数ρは、その画素が背景に属するか、物体に属するかによって、異なる値に選択される。
　その後、二値化画像から初期検出のゾーンを形成して、空間的なフィルタ処理を行う。空間的なフィルタ処理は、スケルトン解析処理、オブジェクトマスク処理、モフォロジー演算処理、セクション解析処理の少なくとも１つを含み、スケルトン処理は、二値化画像に対する細線化処理ないしは骨格処理によって初期検出ゾーンの形状情報を得る処理と、形状情報から主要な軸を抽出する処理と、抽出された軸から物体の軸を抽出する処理とを含む。

　オブジェクトマスク処理は、二値化画像の初期検出ゾーンの境界に隣接していない境界領域を抽出する処理を含む。モフォロジー演算処理は、二値化画像の白画素に隣接する画素を白画素とする膨張処理と、二値化画像の黒画素に隣接する画素を黒画素とする収縮処理とを含む。セクション解析処理は、初期検出ゾーンを断片に分割する処理と、各断片に対する二値化画素の白画素の割合を解析する処理と、白画素の割合に基づいて断片を選別する処理とを含む。その後、物体の独立部位を表す追跡ゾーンが形成される。
　追跡ゾーンは、その存在位置や大きさ、重心、画像の輪郭特徴、モーメントなどの特徴情報に基づく追跡方法、あるいは、各時刻で得られた二値化画像を時間的に配置した二値化時空間データからHough変換などに代表される線成分抽出手法に基づく追跡方法の少なくとも１つの方法によって、注目する追跡ゾーンの時間的な位置変化を追跡する。追跡された結果は、平滑化フィルタ、移動平均フィルタ、カルマンフィルタの少なくとも１つのフィルタが施され算出した位置変化から雑音に起因する成分が削減される。

　追跡ゾーンのあるものは除かれ、残ったゾーンはクラスタに統合され、その上、クラスタの選別が行われる。クラスタ選別は、クラスタのサイズ、クラスタの位置座標と所定形状を持つ領域との変位やあるクラスタから所定の距離以下になる領域との変位などに基づいて判定される。この判定は、座標変換により実空間での寸法に変換して行う。この変換は、カメラの撮像素子の条件、取り付け位置のカメラパラメータを用いて算出する。最終的に、選別され残ったクラスタを、検出すべき物体であると判断する。
　以上のような侵入警報ビデオ処理装置のほか、構成要素の一部を他の公知技術で置換したものも本発明に含まれうる。

　本発明の侵入警報ビデオ処理装置は、気象条件や非能動（非生物）的な動き、人工的な画像の変動など、定常的、一時的、周期的な各種の外乱があっても、映像から精度良く監視対象物体を検知することができる。

侵入警報ビデオ処理装置のメイン処理ループ（実施例１）シーン座標、カメラ座標、スクリーン座標を示す図（実施例１）分割処理（Ｓ１１８）の一例を示す画像（実施例１）併合処理（Ｓ１１９）の一例を示す画像（実施例１）スケルトン処理の一例を示す画像（実施例３）スケルトン処理の一例を示す画像（実施例３）スケルトン処理の一例を示す画像（実施例３）スケルトン処理の一例を示す画像（実施例３）スケルトン処理の一例を示す画像（実施例３）スケルトン処理の一例を示す画像（実施例３）オブジェクト領域分割（OS）処理のフローチャート（実施例４）監視条件の一例（実施例５）監視条件の一例（実施例５）機器構成の一例（実施例５）判定テーブルの一例（実施例５）カメラ座標系での監視領域の設定例（実施例６）シーン座標系での監視領域の設定例（実施例６）監視領域の高さを考慮した処理領域の作成例（実施例６）監視すべき対象物体の撮像例（実施例６）

＜ビデオ監視システム機能の一般的なロジック＞
　主要目標の実現のためには、まず始めに、本発明の実施形態に係る侵入警報ビデオ処理装置の動作の一般的なロジックを決定する必要がある。
　従来の問題を解決するために、観測された環境変化の評価と予測のレベルにおけるデータ解析が必要である。このような解析結果に応じて、観測された状況は、警報すべきもの（脅威となるもの）として評価される。（予測も考慮に入れた）状況の危険度に依存して、１つあるいはその他のいずれかのビデオ監視システムの応答が形成されるであろう。このシステムの特徴は、システムの応答を人間のオペレータと同じものにすることである。

　その結果、ビデオ監視システムの処理ロジックは、物品に向けられた驚異の検出，予測，除去（スクリーニング）のロジックそのものである。処理ロジックの開発は、警戒と危険の状況の形式化が元になっている。現実の条件下では、状況の形式化は、統合解析と現在の状況をクラス（「問題」，「危険」，「非常に危険」）のひとつに分類することで、誤報の数を減らすことが可能である。処理ロジックを、監視業務を経験した人の判断に沿って開発することは、的を射たやり方である。環境変化が起こる複雑な複数シーンを見ている間、彼は、保護している物品への直接の脅威となる可能性を持つオブジェクトに注意を向け、疑わしいオブジェクトの速度や方向に注意しながら状況の変化を予測しようとする。

　自然界のノイズが存在する場面における複雑な背景から移動オブジェクト（または置き去られたオブジェクト）を識別することは、現在の状況評価の前に行うべきである。
　そして、本システムの複合機能は、以下の４つの主なステージに分けることができる：
　1)　調整
　2)　初期の検出（予検出）
　3)　検出オブジェクトを考慮した上での状況の解析
　4)　警報とメタデータの解析。
　「調整」は、以下の項目を含む：
　1)　アルゴリズムの調整（ビデオデータ処理のパラメータ設定）
　2)　カメラ設定調整（カメラ設定パラメータの設定・調節）
　3)　ゾーン調整（監視シーンに応じた異なる“注目ゾーン”の選択と指定）。

　「初期の検出」は、“背景”と現在のビデオフレームとの違いの評価を意味する。このステージの主な目的は、選択された基準（しきい値）によってすべての違いを可能な限り検出することである。検出の質（背景との違いの検出）は、初期検出ステージによって条件付けされる。ここで、我々はたくさんの誤検出を得るが、その量は次のステージで減少するであろう。初期検出のアルゴリズムは、画素の輝度値（RGBカラー3チャネルで、それぞれ0～255の値を持つ）に対する処理である。

　「状況の解析」は、誤検出の量を減らすために必要である。状況解析の第一ステップは、発報の必要のない注目しなくても良いオブジェクトを無視することである。本システムにおけるこのステップの実装には、以下の項目が含まれる：
　1)　初期検出オブジェクトのサイズの評価
　2)　初期検出オブジェクトの形状の評価
　3)　初期検出オブジェクトの“背景との照合”値の評価（１画素の輝度値の処理ではなく、検出オブジェクトに対応する画素全体の特性についての処理を行う）
　4)　初期検出オブジェクトのライフタイムの評価
　5)　初期検出オブジェクトの速度の評価。

　オブジェクト行動のさらなる評価と，状況の認識，対応する反応の生成のため、カメラ撮像範囲における以下の形状のエリアを用いる：
　1)　多角形エリア
　2)　円柱エリア
　3)　垂直平面エリア。
各ゾーンには、それぞれ個別の危険度を設定できる。

　はじめに、本実施例の説明で用いられている主な用語を定義する。
　現在フレーム（画像）：現処理サイクルにおいて、映像入力から得た１コマの画像。
　背景フレーム（画像）：画像フレーム内の各画素の輝度値を逐次平均（平滑）化した画像。これらの算出は、低周波時間フィルタ１０６ａ（後述）によって行われる。
　標準偏差フレーム：画像フレーム内の各画素の輝度値分散を逐次平均（平滑）化した画像。これらの算出は、低周波時間フィルタ１０６ｂ（後述）によって行われる。
　差分フレーム（画像）：現在フレームと背景フレームとの画像差分の結果画像。
　二値化フレーム（画像）：差分画像フレームを二値化した結果画像で、差分フレームと標準偏差フレームとを画素毎に比較して得る。
　前景画素：現在フレーム内の画素であって、二値画像フレームにおいて非ゼロゾーン（０以上の画素値を持つゾーン）に含まれる画素。
　背景画素：現在フレーム内の画素であって、二値画像フレームにおいてゼロゾーン（０の画素値を持つゾーン）に含まれる画素。
　なお、フレームは１画像を構成する単位であるが、画像と同義で用いる場合がある。

　図１は、実施例１のメイン処理ループを示している。初期検出のフェーズは、フレーム画像の入力（ステップ１０１）から、二値化処理（ステップ１０８）までを対象としている。

　ステップ１０１では、カメラで撮影されたばかりの入力フレームが入力される。ステップ１０１は、タイマーイベントによってイベントハンドらを介して起動され、それによってメイン処理ループが開始する。入力画像は、例えばYUV4:2:2フォーマットである。

　ステップ１０２では、入力画像の解像度及び／又は色数が、リアルタイム処理に適したフォーマットへ削減される。本実施例では、後述する幾つかの関数がＲＢＧか１チャネルグレイスケールのみサポートするため、１ピクセルあたり１byteのグレイスケース画像に変換される。ＹＵＶ、ＨＳＢ（ＨＳＶ）あるいはその他のフォーマットも適切かもしれない。解像度は、複数のフォーマットに対応しており、例えば３６０＊２４０ピクセルへ削減される。本ステップ１０２では、解像度及び／又は色数の削減の前或いは後に、低周波空間フィルタにより画像を適切にぼやけさせる処理も行う。例えば、ガウスフィルタはｘ方向とｙ方向の演算を別個にできるため、高速処理に向いている。或いは３×３画素内でのメディアンを採用するメディアンフィルタでもよい。最後に、画像内の所定の領域での輝度（平均）を一定にするように利得を制御する。

　ステップ１０３では、もしそれがメイン処理ループの初期の動作であった場合、ループをセットアップ（設定）プロセス（ステップ１０４）に分岐させる。ステップ１０４では、後述する各種の定数（パラメータ）を設定するほか、どのような形状及び位置の検知エリアで、どのような大きさや速度や軌跡の物体を検出したときに、どのような警報を出すかの設定を行う。これらの設定の一部は、スクリーン座標ではなく、実空間の座標（シーン座標系）の値で与えられる。詳細はステップ１２４、１２５で述べる。

　ステップ１０５では、その用意された（削減された）フレームを、１フレーム遅延画像として用いるために保存される。
　ステップ１０６では、用意された現在の画像と１フレーム遅延画像とを用いて、２種類の低域通過フィルタが行われる。本実施例では、背景画像は、未知の平均および標準偏差を有する確率過程としてモデル化される。時間領域低域通過フィルタは、それらのモーメントを評価（推定）するために用いられる。
　低域通過フィルタ１０６ａは、各画素の平均値の評価を定常的に更新する。移動平均は、（下式のように）新しいフレームが入力されるたびに算出される。

ここで、Ｉ_iは現在の画像、ρはフィルタ定数（０＜ρ＜１）、ｉはフレームのインデックスを示す。低域通過フィルタ１の結果は、背景フレームと呼ばれる。

　フィルタ定数は、以下の意味を持つ。今、新しい物体を背景に取り込むのに必要な画像フレームの数を考える。もし、この取り込みが早過ぎる場合、我々は、あまり早く移動しない（検出すべき）オブジェクトを見失ってしまうかも知れない。たとえば、ρ＝１の場合、現在の（新しい）画像フレームは直ちに新しい背景画像フレームになり、ρ＝０の場合、最初の画像フレームが背景画像フレームとして残り、背景画像フレームは更新されなくなる。実際は、我々は、（逐次的に）緩やかな背景の更新と、輝度値の急激な変化の平滑化の処理を実現したい。まず最初に、Ｔを背景画像フレームの完全な更新の望ましい周期（間隔）として定義する。Ｔを（秒単位ではなく）処理フレーム数で定義すると、ρはρ＝５／Ｔで得られる。例えば、もし背景の完全な更新を1000処理フレーム以内に実行したい場合、フィルタ定数をρ＝0.005に設定する。

　低周波時間フィルタ１０６ｂは、同様の方法を用いて各画素の推定標準偏差σを逐次算出する。

なお、背景フレームや現在フレームは、１フレーム前（インデックスがｉ－１）のものでもよい。後述するように、ρはゾーンの種類や各種条件（例えば輝度）に応じて画素毎にスイッチャブルである。ρは低周波時間フィルタ１０６ａと１０６ｂで異ならせても良く、その場合それぞれρ_a、ρ_bとする。
　推定標準偏差σは、平方根の計算を避けるため、実際にはσ²（つまり分散）としてメモリ上に保存され、二値化処理まで自乗値のまま扱われる。

　ステップ１０７では、低周波時間フィルタ１０６ｂが算出した標準偏差σ（又は分散）の時間上での極大値σ'を、画素毎に算出して保持する。極大値σ'は、過去所定数のフレームから逐次探しても良いが、例えば以下の式で求めることもできる。

　ステップ１０８では、その用意された現在の画像及び背景画像を用いて、差分フレームを生成する。本実施例の変化検出アルゴリズムは、縮小した入力画像Iiと低周波時間フィルタ１０６ａによって生成された背景画像μi（あるいはμi-1）との絶対値画像フレーム差分に基づいている。

　ステップ１０９では、その差分フレームが、適応しきい値ｋ₁σによって２値化される。標準偏差は、２値化しきい値の適応的部分としてここで用いられる。

ここで、ｋは、設定ステージ（ステップ１０４）で選択される定数値である。推奨値は３ないし４で、ノイズの質に依存して決定される。二値化処理の結果は、二値画像で得られ、“0”(False)は何も検出されなかったことを意味し、“255”(True)は検出された画素を表す。もし、本ステップまでカラー画像として扱っていた場合、ここでカラーチャネルの統合も行う。統合は、２値化前に重み付き加算しても良く、２値化後に論理和（ＯＲ）で合成してもよい。このステップ１０９で得られる２値化画像（またはその２値化画像中の真値の領域）は、初期オブジェクトマスクとも呼ばれる。

　ステップ１１０から１２３までが「状況の解析」のフェーズである。
　ステップ１１０では、初期オブジェクトマスクにモフォロジ演算（Morphological Operations）を施す。モフォロジ演算には、画像を所定範囲でずらしながら論理和を求めるdilation（ずらし重ね）と、論理積を求めるerosion（掻き取り）と、dilation後にerosionをするopening処理と、erosion後にdilationをするclosing処理の、４つの基本操作がある。Openingには、近接する“255”(True)の画素を繋ぎ合わせる効果があり、closingには、点状の“255”(True)画素を除去する効果があり、本例ではどちらかを用いる。
　初期オブジェクトマスクにおいて、真値の連結領域の中に偽値の穴が生じる場合が、モフォロジ演算では十分に取り除けない。そのため、周りを真値に囲まれた偽値領域を検出して、その領域を真値で埋める穴埋め処理を行ってもよい。

　ステップ１１１では、間違ったトレース（追跡）の除去と、その（原因となった）背景画像（の２値化画素）の除去を行う。即ち、前回の処理サイクルのステップ１２０や１２２等において、間違って検出された追跡ゾーンが見つかっていた場合、初期オブジェクトマスクにおけるその追跡ゾーン内の画素を無効にする（255以外の値にする）と共に、現在フレームにおけるその追跡ゾーン内を、背景画像のそれで置き換えて修正する。本ステップにより、オブジェクトマスクが完成する。なおオリジナルの現在フレームも別途保存しておく。

　ステップ１１２では、予検出ゾーンのラベリングとそれらの属性の算出が行われる。ラベリングは、画像内のすべての連結領域を見つけて印（ラベル）を付ける手法である。このステージでは、二値化画像内において真値を持つ画素からなる連結領域に対して独自の番号を付与し、連結領域はその後、外接矩形座標（上下左右の４つ）と面積（連結領域内の面積、或いは連結画素数）を持った予検出ゾーン“DetZones”（Ｄz₀、Ｄz₁、…）として扱われる。

　ステップ１１３では、もし輝度がなにかの出来事（雲や街灯の点灯など）によって急激に変化したときに、メイン処理ループを高速適応モード（ステップ１１４）に分岐させる。本例では、画像フレーム全体の検出ゾーンの面積総和、または“高速適応ゾーン”内の検出ゾーンの面積総和があらかじめ設定したしきい値よりも大きくなったときに、メイン処理ループを分岐させる。本例では、高速適応モードは、数期間維持される。その期間（時間ではなくフレーム数で規定）もまた予め設定される。

　ステップ１１４では、高速適応期間中であれば、フィルタ定数に、高速適応処理の継続時間の終了までに背景画像を刷新できるような値を割り当てる。たとえば、高速適応処理に50処理フレームの継続時間を設定したとすると、フィルタ定数ρは0.1に等しくなる。そのようにして、高速適応処理は、背景の急激な変化に起因する誤検出を避けることが可能となる。高速適応処理の間の疑わしいオブジェクトの検出（ステップ１１６以降）は、実行されない。

　ステップ１１５では、検出ゾーン用のフィルタ定数を適応化する。二値化画像は、疑わしいオブジェクトが検出され得る画素（二値画像中で255の値を持ち、前景画素と呼ばれる）と、背景のみが検出される画素（二値画像中で0の値を持つ）とを分離するために使用される。前景画素に対する低周波時間フィルタ１０６ａ，ｂのフィルタ定数は、（誤って検出された）前景画素が背景になる速度が、画像フレームの他の画素に比べて10倍遅くなるように、変更される。即ち、前述のρの説明をρ₁に適用し、ρを以下のように定義し直す。

本例では、ｋ＝0.1である。これによって、システムは、この局所的な適応処理がない場合に比べて長い間、背景画像に実際のオブジェクトが映り込まないようにできる。高速適応処理と比べて、この処理は、停止あるいは低速移動しているオブジェクトの見逃しを回避することができる。

　ステップ１１６では、予検出ゾーン（解析ゾーン）の幾何学的属性が計算される。幾何学的属性には、シーン座標系で表現された検出ゾーンの位置と大きさ（幅と高さ）が含まれる。以下の座標系を考える（図2）。
　Ｘ，Ｙ，Ｚ：シーン座標系（ワールド座標系）。Ｘ－Ｙ平面は床面（地面）に平行で、そのレベルは例えば0.5～0.7ｍ。
　Ｘ'，Ｙ'，Ｚ'：カメラ座標系。Ｘ'，Ｙ'軸は対象とする焦点面に平行で、Ｘ'はＸ軸に平行であり、Ｚ'はカメラの光軸に等しい。
　Ｘs，Ｙs：画像（スクリーン）座標。Ｘ'－Ｙ'平面に相似であるが、単位はメートルではなく、ピクセル。

　カメラの高さはｈ、カメラ光軸のＸ－Ｙ平面に対する傾斜はｔで表す。Ｘ，Ｙ，Ｚ座標（Ｚ＝０）で表されているシーン中に位置するオブジェクトＰは、以下によってカメラ座標系に変換される。

投影光学式によって、オブジェクトのスクリーン座標は、以下のようになる。

ここで、ｆ_iは焦点距離を、p_X [m^-1] と p_Y [m^-1] はそれぞれＸ_SとＹ_S方向の画素密度を表し、ｆ = ｆ_i・p_x = ｆ_i・p_Yと定義する。これらのカメラ設置パラメータは、ステップ１０４において与えられる。変数Ｚ'の置換によって、

が得られ、変換式は下記のようになる。

カメラが図２と異なる別の方法で設置されている可能性があるため、Ｚ軸およびＺ'軸に対してカメラの回転角を考慮する必要があるかも知れない。この場合、新しい座標は以下の式で表される：

ここで、ａは、Ｚ軸に対する回転角である。スクリーン座標についても同様に

ここで、ａ'は、Ｚ軸に対する回転角である。

　ステップ１１７では、所定のサイズを満たさない予検出ゾーン（解析ゾーン）を（後続の処理に渡されないように）遮断する。検出ゾーン毎にそのシーン座標系（Ｘ，Ｙ，Ｚ）における幾何学的属性（例えば、実空間での幅及び高さ）を所定の値（例えば、それぞれの上限、下限値を定義するｗ_min＝0.1, ｗ_max＝2, ｈ_min＝0.1, ｈ_max＝3）と比較され、それを満たすゾーンだけがろ過されて配列“SelZone”に保存される。また、現在フレームにおける、満たさなかった予検出ゾーンの画素は、背景フレームのそれで上書きされる。

　ステップ１１８では、ステップ１１７を通過した予検出ゾーンの分割が行われる。分割処理は、“検出領域の穴埋め”レベルの解析に必要である。濾された各ゾーンの新たな境界を計算するために、濾されたゾーン（注目する矩形領域）の全てが短冊状に等幅に分割され、その分割ゾーンの上辺及び下辺はオブジェクトマスクに基づいて再定義され、分割の幅はシーン座標系におけるメートル値として予め定められる。実際には、整数個でかつ等幅に分割されるよう、幅は微調整される。そして、分割ゾーンは、Ｓz0、Ｓz1、…として保存される。

　図３は、その分割の結果を示している。太い白線で描かれた矩形とその白い矩形内の縦長の矩形は、分割の結果と再計算された境界をそれぞれ表している。分割処理によって、例えば分割の幅を0.2[m]に設定することで、実際の車の輪郭と、実際の影の輪郭が得られることが分かる。

　ステップ１１９では、細長いゾーン（解析ゾーン）の充満率を用いて、分割された領域の併合が行われる。併合は、下記の第１から第３のサブステップを、未参照の分割ゾーンがなくなるまで繰り返すことで達成される。

　第１に、参照ゾーンの探索が行われる。参照ゾーンとは、前述の分割ゾーンの１つであって、下記のようなものである。即ち、1)　画像フレームの底辺中央に最も近く、2)　いずれの併合済みグループにも含まれておらず、3)　以前に試行ゾーンとして用いられていない。

　第２に、見つかった参照ゾーンの属性から、併合候補となる細長いゾーンを算出する。細長いゾーンは、シーン座標系における所定の高さ（例えば、人に対して０．８ｍ）より大きな高さを持つ矩形である。そのメートル単位の高さは、比例関係に基づいて、濾されたゾーン（分割前のゾーン）の高さから計算される。

　第３に、Ｓ_cross／Ｓ_total＞“Merge region overlapping ratio”が満たされたならば、細長いゾーンは併合済みグループに組み入れられる。ここで、Ｓ_crossは、併合済みゾーン（併合済みグループの外接矩形）と、細長いゾーンとの交差領域（共通領域）の面積であり、Ｓ_totalは細長いゾーン自体の面積である。交差領域が０の場合、参照ゾーン自体を併合済みゾーンとみなして上記重複率を計算し、満たしたときは、細長いゾーンをその最初のメンバーとする新規な併合済みグループを作成する。

　最終的に、十分満たされた併合済みグループが、併合ゾーンとして配列“Merge”に登録される。その条件は、Ｓ_sum／Ｓ_merge＞“Merge region filling ratio”であり、Ｓ_sumは、併合済みグループに含まれる細長いゾーンの個々の面積の和であり、Ｓ_mergeは併合済みゾーンの面積（外接矩形）である。“Merge region filling ratio”は例えば６０％である。十分に満たされなかった併合済みグループは、配列“Merge”に登録されない。
　図４は、併合の結果を示している。細い線の矩形は、一体に併合された分割ゾーンを表している。検出物体の高い部分だけが、併合処理を通過することが理解できる。

　ステップ１２０では、前回フレームの中から、配列Mergeに登録されたゾーン（追跡ゾーン）と類似する場所およびその一致度を算出し、配列Traceを更新する。配列Traceには前回までの追跡ゾーンが登録されており、この処理は、これらのゾーンが一連の処理フレームにおいて安定に存在しているか否かをチェックして、誤検出を減らすことを目的とする。このステップでは、配列Mergeに格納された各追跡ゾーンに対し、前回フレーム（もしくは前回の差分フレーム）から追跡ゾーンを切り出し、現在フレームからは追跡ゾーンを所定量拡張した探索範囲分の画像を切り出し、その探索範囲内で下記の計算を行い最大一致度を検索する。

ただし、ａ_ijは、パターンの輝度行列（部分画像）の要素、ｂ_ijは、探索範囲の輝度行列（部分画像）の要素を表す。もし各要素が複数のカラーチャネルを持つ場合、カラーチャネル毎の差分の絶対値の和が用いられる。
　ある追跡ゾーンにおいて、最大一致度が値“Trace zone correlation coef”より大きい場合、探索範囲内の算出された追跡ゾーンの位置は、追跡ゾーンの新しい位置として配列Traceを更新する。もし、フレーム数iMissedFrameCntの間、最大一致度が値“Trace zone correlation coef”より小さい場合、その追跡ゾーンは、配列Trace（および配列Merge）から削除される。

　ステップ１２１では、配列Traceの各追跡ゾーンに、背景と類似する追跡ゾーンが追加されないようにする。即ち、新しいゾーンは、背景との照合値が“Trace zone correlation to backgr”より小さい場合に限り配列Traceに追加されることになる。また、新しいゾーンと既存のゾーンとの重なりが値iTRZoneOvrCoefより大きい場合も、この新しいゾーンは配列Traceに追加しない。このステップにおける照合は、式(11)（ステップ１１７）の一致度（collation）と同様でも良く、或いは別の特徴量を用いてもよい。
　ステップ１２０、１２１の処理は、ゾーンが大きくなるに従い、計算量が急激に増加する。そのため、ゾーンサイズに上限を設け、切り出した画像をこの上限を越えないように縮小するとよい。ステップ１２１の後、配列Mergeはメモリ上から開放される。

　ステップ１２２では、配列Traceの各追跡ゾーンをクラスタに統合し、配列Clusterを作成する。クラスタには、許容できるライフタイムとサイズのパラメータが定義され、それを満たすものが配列Clusterに登録される。統合処理は、下記の第１から第５のサブステップにより行う。
　第１に、クラスタは、それぞれ近傍に存在する追跡ゾーンのグループを包含する矩形領域として、作成される。クラスタにまとめられる追跡ゾーン同士の最大許容間隔は、Clustering factorで表わされ、例えば５ピクセルである。
　第２に、現在と前回の処理サイクルで作成されたクラスタ（Cluster及びClustPre、以降、現クラスタ，前クラスタと呼ぶ）の連結処理を行い、以下の配列を作成する。
　　MinT0Cur：ある現クラスタCluster[i]と交差し、最小のT0（検出時刻）値を持つ、前クラスタを示す。
　　CrQPre：ある前クラスタClustPre[j]と交差する、現クラスタの数。
　　CrQCur：ある現クラスタCluster[i]と交差する、前クラスタの数。

　第３に、上記CrQCur，CrQPre，MinT0Curから、下記のルールに基づき、配列Clusterのデータを作成する。
　　・もし、ある前クラスタとある現クラスタが互いに唯一交差する場合、前クラスタのIDとT0および検出位置を現クラスタに継承する。
　　・もし、ある現クラスタが一つ以上の前クラスタと交差する場合、この現クラスタには、新しいIDを付与し、もっとも小さな値T0を持つ前クラスタのT0を継承し、検出位置として現クラスタの位置を採用する。
　　・もし、ある現クラスタがいかなる前クラスタとも交差しない場合、この現クラスタには、新しいIDを付与し、T0として現在の時刻を付与し、検出位置として現クラスタの位置を採用する。

　第４に、クラスタの軌跡，速度など（後のステップで用いる）を算出し、配列Clusterに格納する。
　第５に、現クラスタの配列Clusterを、前クラスタの配列ClustPreに上書き保存する。

　ステップ１２３では、配列Clusterの各クラスタのライフタイム（T0と現在時刻の差であって、単位はフレーム数）が所定値（例えば４０）を超えるものを選別し、所定値以下のものは却下する（次の処理に渡さない）。

　ステップ１２４では、ステップ１０４で設定された検知エリアと、各クラスタとの相対位置基づいて、クラスタが各検知エリアの内か外かの判定を行う。検知エリアには、多角形エリア（スクリーン座標またはシーン座標で定義される）、円柱エリア（シーン座標で定義される。円柱の下端は地面（Ｘ－Ｙ平面）とする。）円状エリア（地面（Ｘ－Ｙ平面）上にシーン座標で定義される。）、垂直平面エリア（シーン座標で定義される。壁や窓に好適。）がある。各クラスタの位置としては、クラスタの底辺中央（人の足などの接地部分）における、座標値（スクリーン座標またはシーン座標）を用いる。内外判定には公知のアルゴリズムを用いる。

　ステップ１２５では、検知エリア内とされたクラスタの属性（位置や動きのほか、クラスタ前景画像の不変値など）の解析及び照合の結果が、その検知エリアに定義された決定ルールを満たした場合に、所定の警報を発する。不変値（特徴量）の使用は必須ではないが、例えば非特許文献１～５に示されたもののほか、ＨＯＧ（Histograms of Oriented Gradients）なども使用できる。
　決定ルールには、例えば下記のものがある。

　［決定ルール名：“車両立入禁止”区域内の車両］
　オブジェクトが車両として検出され、“車両立入禁止”警戒区域（人のみの立ち入りが許可された区域）に存在した場合、そのオブジェクトは違反物体と判断される。
　［決定ルール名：車両限定区域内の人］
　オブジェクトが人として検出され、“車両限定”警戒区域に存在した場合、そのオブジェクトは違反物体と判断される。
　［決定ルール名：Ｕターン］
　すべての処理フレームにおいて、オブジェクトの軌跡の位置と、現在のオブジェクトの位置との距離を算出しており、この距離が前処理フレームの距離よりも小さくなったらそのオブジェクトの“Ｕターンカウンタ”を増加させ、この距離が大きくなったらカウンタを減少させる。カウンタの値がしきい値（“オブジェクトは、しきい値の処理フレームの間、ほとんど止まっている”）を超えた場合、そのオブジェクトは、Ｕターン動作をしていると判断される。より好適には、軌跡には、平滑化フィルタ、移動平均フィルタ、カルマンフィルタ等を適用したものを用い、０．数秒ないし数秒程度の時間周期で速度ベクトルの反転を判断する。
　［決定ルール名：固定タイムゾーン］
　固定タイムゾーンの内部でオブジェクトが検出された場合、オブジェクトのタイムゾーンカウンタk3が増加する。オブジェクトのタイムゾーンカウンタは、絶対に減少しない。カウンタがしきい値k3_maxより大きくなった場合、オブジェクトは車両の近くで長い間留まっていると判断され、警報を鳴らす。
　［決定ルール名：車両停車（一時タイムゾーン）］
　オブジェクトが車両として検出され、さらに停止として検出された場合、オブジェクトの周りに一時タイムゾーンを生成する（オブジェクトクラスタの外周を、上下左右方向にオブジェクトサイズの半分の量だけ拡大する）。タイムゾーンでは、車両が背景になるまでに少しの時間を要する（この期間を、タイムゾーン適応期間と呼ぶ）。その後、ゾーンが有効になり、判定動作が開始される。タイムゾーン内でオブジェクトが人として検出した場合、オブジェクトのタイムゾーンカウンタk3が増加する。オブジェクトのタイムゾーンカウンタは、絶対に減少しない。カウンタがしきい値k3_maxより大きくなった場合、オブジェクトは停止車両の近くで長い間留まっていると判断され、警報を鳴らす。もし、タイムゾーンの内側で車両が検出された場合、タイムゾーン除去処理が開始される。ゾーン中の背景が更新するまでしばらく時間がかかる。この期間、このタイムゾーンの内部では警報を発報しない。“復帰のための適応期間”が終了するとタイムゾーンは削除される
停止/低速移動オブジェクトの速度がしきい値を下回っている処理フレームでは、低速移動カウンタk2を増加させる。オブジェクトの速度がしきい値を上回っている処理フレームでは、低速移動カウンタを減少させる。カウンタの値がしきい値（“オブジェクトは、しきい値の処理フレームの間、ほとんど止まっている”）を超えた場合、オブジェクトは停止したと判断される。
　［決定ルール名：置き去り/持ち去られた物体］
　オブジェクトの分裂が検出（前処理フレームでは１つのオブジェクトだったものが、その位置で２つ以上に観測される）された場合、これらのオブジェクトのすべての“Split flag”（分裂フラグ）をオンにする。もし、オブジェクトの一つが停止したと判断され、分裂フラグがオンの場合、このオブジェクトは、“置き去りにされた、あるいは持ち去られたオブジェクト”として判断される。

　本実施例２の侵入警報ビデオ処理装置は、物体の追跡ために、ＴＳＶ（Temporal Spatio-Velocity：時空間－速度）変換を用いた点などで、実施例１と異なる。実施例１の装置は、通常は人が存在しない場所へのあるオブジェクト（車，ボート，人）の侵入を検出するのに好適であったが、実施例２の装置は、通常の往来する物体の中から疑わしい行動を行うオブジェクトを検出することを目標とする。

　ＴＳＶ変換は、連続する時系列フレームのような時空間画像についての３次元ハフ（Hough）変換を基本とするものである。物体の軌跡を得ることを目的とする本実施例では直線ハフ変換を用いる。つまり、空間的な２次元（原画像の縦方向と横方向）ならびに時間の３次元上で定義される画素値空間から直線を検出する。ＴＳＶ変換の対象となる画像（初期検出画像と呼ぶ）として以下のような隣接フレーム間差分画像の系列を用いる。

ここで、Ｓ(x,y,n)はｎフレーム目の初期検出画像を示し、Ｉ(x,y,n)はｎフレーム目の入力画像，Ｔは時定数，Thはしきい値（定数）を示す。式(13)の他、輪郭検出画像や、実施例１の背景差分画像も初期検出画像として使用できるかもしれない。
　品質を高めるために、Ｓ(x,y,n)のすべての画素に対して１×３のＡＮＤオペレータを使用し、Ｓ^*(x,y,n)を得る。

　ＴＳＶ変換の表記を、下記のように定義する。

本例のハフ変換では、フレームが古いほど投票の重みが小さくなるように、Ｓ^*(x,y,n)に予め指数関数減衰のフィルタを施す。

ここで、Ｓ^*(x,y,n)はｎ番目の画像フレームの二値画像，ｎ_pは現在の画像フレームのインデックス、Ｆ_ｎp(ｎ)は以下の式で表されるフィルタであり、ｎ＜＝ｎ_pである。

　時空間におけるLineAに対するハフ変換は、以下の式で表される。

ここで、(ｘ,ｙ)は座標，(ｖ_x,ｖ_y)は速度，(ｐ_x,ｐ_y)は基準位置（例えば、既知オブジェクトの現在フレームにおける位置）、LineAは、点(ｐ_x,ｐ_y)を通り傾き(ｖ_x,ｖ_y)を持つ直線を表す。Ｖ_npの値は、ｎ_p時点におけるその直線の確からしさを表している。

　指数関数表現の場合は、以下の回帰式で記述することができる。

p_x, p_y, v_x, v_yを離散化してセルを定義し、各セル内で式(18)を集計し適当な閾値によって真か偽に２値化したものをＶ^* _np(p_x, p_y, v_x, v_y)と定義する。

ここで、下記のような動きモデルの傾斜円筒式を導入する。

ただし、円筒座標の中心は、(a_xn²＋v_xn＋p_x，a_yn²＋v_yn＋p_y)であり、横方向および縦方向の半径は、Ｒ_x、Ｒ_yである。円筒座標のパラメータは、以下の式によって定義される：

ここで、σ_k ²はk軸上での分散，τ_k,lはkとlの共分散，ｋバーはｋの平均値を表す。

　円筒の妥当性を意味する円筒の密度は、以下の式で定義される。

ここで、ｈは円柱の高さ（すなわち、観測時間）、Ｎは円筒内にある真値ＴＳＶセルの数である。

　本実施例では、上記説明したフレーム間差分による初期検出を、実施例１のステップ１０６～１１５の背景差分による初期検出と平行して行う。また、実施例１のステップ１２０～１２１を削除してステップ１１９からステップ１２２へ遷移するようにし、それと平行してＴＳＶ変換を行う。ステップ１２２では、ＴＳＶ変換で得られた軌跡情報とステップ１１９で得られた配列“Merge”とを突き合わせて、実施例１同様の処理を行う。

　本実施例３の侵入警報ビデオ処理装置は、実施例１のステップ１１８～１１９の分割併合処理に代えて或いは加えて、スケルトン処理を行う点などで、実施例１と異なる。スケルトン処理は、二値化画像に対する細線化処理ないしは骨格処理によって初期検出ゾーンの形状情報を得る処理と、形状情報から主要な軸を抽出する処理と、抽出された軸から物体の軸を抽出する処理とを含む。

　任意の画像Ａをスケルトン処理した画像skel(Ａ)は、以下の式で表される。

ただし、Ｂは構造要素（望ましくは円形）、er(A,kB)はＡをＢでｋ回erosion（掻き取り）する演算、open(A,B)はＡをＢでオープニングする演算を示す。
　本実施例では、画像Ａとして、ステップ１１７で得られた予検出ゾーン（外接矩形）で切り出した２値化画像を用いる。

　図５Ａから図５Ｆは、本例のスケルトン処理の一例を示す画像である。図５Ａは、現在フレームを、オブジェクト（人）を含む予検出ゾーンで切り出した画像であり、図５Ｂは、図５Ａに対応する差分画像であり、図５Ｃは、図５Ｂの２値化画像であり、図５Ｄは、図５Ｃのスケルトン処理による細線（フィラメント）化画像である。
　図５Ｅは、図５Ｄにおいて短い細線を整理（削除）し、残った基本的な細線を幅の一定な２つの帯で近似した結果であり、帯の連結境界の示してある。この帯により人とその影の基本軸を決定でき、それらの鉛直方向に対する角度が求められる。もし帯の一方の角度がほぼ０（鉛直に近い）で、他方の角度が所定の範囲内のときには、その他方は影であると判断する。連結境界で区切られた影側の２値化画像を偽値で塗りつぶすことで、図５Ｆのような人だけが取り出された画像が得られる。
　オブジェクトマスクが修正された後は、実施例１同様にステップ１２０以降の処理を続けることができる。

　本実施例４の侵入警報ビデオ処理装置は、実施例１のステップ１１８～１１９の分割併合処理に代えて、予検出ゾーンからより純粋なオブジェクトを抽出する処理（以下、OS処理と呼ぶ）を行う。
　本例において、予検出ゾーンは、物体の初期検出による二値化画像中のオブジェクト候補を内包する、水平又は垂直な辺からなる長方形の領域であり、以下DZと称す。DZにおける領域分割処理の目的は、「純粋な」オブジェクトの画素、すなわち、認識画像として背景の画素を伴わないオブジェクト画像を表現することである。数学的に、DZにおける画像の行列は、DZのオブジェクト領域分割処理の入力となり、背景を伴わないDZのオブジェクト画像の行列は、オブジェクト領域分割処理の出力となる。画像の行列は、一般に、原画像におけるＤＺ内の画素の行列に対応する、RGB成分からなる画素の３次元ベクトルの行列になる。

　本例のOS処理は、下記の３方法を複合化したものである。
　1)　DZにおけるオブジェクト検出された部分画像とオブジェクトが存在しない画像（背景画像）の差分分析方式
　2)　明るさ，色，テクスチャなどによる部分画像の抽出方式
　3)　領域分割および影切り取り方式

　図６は、上記1)の方法のフローチャートであり、DZ１つずつに対して行われる。
　ステップ２０１として、対象とするDZに背景（正確には、ステップ２０２～２０６で分離可能な背景）が含まれるかどうか判断する。背景が含まれていない場合、ステップ２０２～２０６は無意味なので、ステップ２０７に遷移する。

　ステップ２０２として、DZにおける現在画像と背景画像のフィルタ処理を行う。この処理は、メディアンフィルタ、画像拡大処理によるいわゆるセル離散化処理（以後、CD（Celluar Dilation）処理と呼ぶ）、低周波フィルタ（平滑化）を含む。
　CD処理は、原画像の各画素を、その画素の周囲２～３またはそれ以上の画素を含めた類似の画素からなる正方部分画像へ変換する処理からなる。この処理は、DZをできる限り小さいサイズにするのに役立つ。
　CD処理にメディアン処理（CDの前に実行）と低周波フィルタ（CDの後に実行）とを組み合わせて使用すると、DZにおける画像の引き伸ばしと、ある度合への小さく低画質の画像の復元が同時に行える。これらの処理は、各DZにおいて、現在の画像フレームと，背景画像（基準画像）フレームのそれぞれに対して同時に実行される。

　ステップ２０３として、DZにおける差分フレーム（DF, Difference Frame）の作成および処理を行う。これは、ステップ２０２によるフィルタ済みの現在画像（オブジェクトを含む）と背景画像（オブジェクトを含まない）から各DZにおけるDFを作成する処理と，適切な画素値しきい値を用いたDFの二値化処理の２つの個別の処理によって行われる。DF作成処理は、DZにおける現在画像と背景画像についてのフィルタ画像行列の各要素の単純な減算処理である。カラー画像を処理する場合は、ベクトルの差は、ベクトルの大きさの算出結果によって決定される。二値化処理は、所定のしきい値を用いて実施例１のステップ１０９同様の処理を行う。

　ステップ２０４として、連結領域抽出処理を行う。連結（集結）領域抽出処理は、個々のDZ内で１つの塊として繋がった領域であって、所定以上のサイズ（画素数）の領域を抽出するもので、実施例１のステップ１１２と同様である。

　ステップ２０５として、ステップ２０３で抽出した複数の連結領域の中から有効領域を抽出する。有効領域の候補として、最大（画素数で判断）の連結領域を選択し、これをArMとする。そしてArMの内部に存在する穴を埋める処理をおこなう。
　それにはまず、ArMのみの反転画像を作成する。
　次に、作成した反転画像からDZの境界に隣接していない連結領域を抽出する。その領域が穴であるので、その領域を“真”で塗りつぶすことによりArMを修正する。

　穴埋め領域を考慮に入れたことで、認識や除去のためにオブジェクトの有益な幾何的情報が得られるようになるが、有益な特徴（特にオブジェクト領域の骨格情報）を得るのに単純連結オブジェクト領域が必要なことに変わりはない。

　ステップ２０６として、ステップ２０４で有効領域が抽出できたか判定し、できたときはステップ２１２へ、できないときはステップ２０６へ遷移する。

　ステップ２０７として、明度（輝度）による領域分割を行う。例えばＹＵＶフォーマットのＹやＨＵＶのＶの値を離散値化し、DZ内の全画素をそれら離散値のグループに振り分ける。振り分けられた画素を空間フィルタリングにより、連結領域化する。
　ステップ２０８として、色による領域分割をステップ２０５同様に行う。
　ステップ２０９として、DZを数ピクセル四方のブロックに分割してブロック毎のテクスチャ値を算出し、それを用いてグループ分けすることで領域を形成する。
　ステップ２１０として、ステップ２０５～２０７の領域分割の組み合わせから、所定の規則で複数の有効領域の候補を作成する。
　ステップ２１１として、複数の有効領域の候補から、所定の尺度（例えば領域の大きさ）で有効領域を１つ抽出する。

　ステップ２１２として、実施例３同様のスケルトン処理などを用いて、陰の検出、領域分割、影領域の除去を行う。
　ステップ２１３として、修正さえたオブジェクトマスクを現在画像に適用して、オブジェクトのみの画像配列を得る。

　本実施例５の侵入警報ビデオ処理装置は、実施例１のステップ１０４のセットアッププロセスを改良したものである。
(1) 本実施例の機器構成
　画像処理装置の構成を図９に示す。監視装置は、撮像装置501と、映像入力回路502と、画像処理プロセッサ503と、プログラムメモリ504と、ワークメモリ505と、外部I/F回路506と、映像出力回路507と、データバス508と、指示装置509と、表示装置510を有している。

(2) 本実施例の監視条件の指定方法
　本実施例における監視条件の一例を図７、図８に示す。図７は、車両の走行速度，走行方向の違反を監視するためのスクリプトであり、所定速度以下で、所定方向に進む場合は許可され（警報を発報する対象ではない、監視すべき物体ではない）、それ以外は禁止される（発報の対象となる、監視すべき物体である）。図８は、スクリプト形式で指定された監視条件が、画像処理プロセッサ503において、字句解析される中間スクリプトを示している。中間スクリプト中「:=」は定義を表す演算子であり、「:=」の左側（左辺値）は対象とする定義、「:=」の右側（右辺値）は定義の条件である。また、「=」は比較を表す演算子であり、「=」の左辺値は物体の情報、「=」の右辺値はユーザが設定する条件値である。

(3) 判定テーブルの生成と判定テーブルを用いた判定
　図１０は判定テーブルの例である。本発明において、判定条件は、複数の条件の組み合わせによって構成されるため、図１０に示すような判定テーブルを用いて検出された物体が監視条件に合致するかを判断する。ここで、説明を簡潔にするために、検出された物体の幅と高さの２つの情報により判定テーブルを作成し、検出された物体（一例として、幅3m，高さ1.5mの物体）が条件401に合致するか否か、すなわち検出された物体が、[CAR]と判断できるかを示す。まず、図８において、条件401の高さに関する条件は、[WIDTH]=[2m以上]かつ[WIDTH]=[5m未満]であるため、判定テーブルの[WIDTH]の軸、すなわち横軸を5等分し、それぞれ[2m未満]，[2m]，[5m未満]，[5m]，[5m超]トラベル付けする。ここで、５つのラベルにしたのは、[WIDTH]の条件が、[2m以上]かつ[5m未満]という２つの条件値から成り立っており、「以上」や「未満」を区分するための境界部分を含めるためである。また、[WIDTH]=[2m以上]という一つの条件値でよい場合は、３つの区分になる。したがって、区分の最大値は、条件値の２倍に1を加えた数となる。次に、この条件に合致する部分に1（例えば、記号603），合致しない部分に-1（例えば、記号602）を埋めていく。これを、[HEIGHT]の軸に対しても行うと、図１０に示した判定テーブル601になる。次に、前記検出された物体は、幅3m，高さ1.5mであるため、この判定テーブルによれば、記号603で示されるように1となり、条件に合致すると判断できる。条件の数が増えた場合でも、この判定テーブルの軸の数、各軸の区分数を変化させればよく、事実上、ワークメモリに記憶できる大きさのデータ数まで対応できるようになる。また、この方法では、-1乃至は1といった値によって、条件に合致するか否かを表現しているが、それ以外の値（例えば0など）によって判定を行わない条件（Don't care）を示すようにしてもよい。

　本実施例によれば、監視条件を可読性の高い平易な文章（スクリプト）で指定できるようになり、さらに、複数の条件を論理的に判定するように構成することで、従来に比べ複雑な条件指定ができるようにし、容易かつ正確な指定が行えるようになる。
　（特殊な監視条件を構成しておき、ネットワークを介してダウンロードできるようにすれば、各種監視環境に柔軟に対応したサービスが実現でき、ビジネスモデルの構築も可能となる。）

(1) 本実施例の機器構成
　実施例６の機器構成、基本動作は実施例５と同じである。
(2) 本実施例での監視領域の設定
　監視領域1301は、シーン座標系（地面に平行で地図に相似する第二の座標系）上で、監視を所望する領域の地図上の情報を、指示装置を用いて指示する（図12）。監視を所望する領域の高さ情報は、数値などによって与える。高さ情報はシーン座標系のz軸座標に相当するため（xy平面が高さ0の場合）、見かけの高さによらない実際の値（2メートル, 3フィートなど）で与えることが可能である。
　監視領域1301の指示は、入力画像などのカメラ座標系に、直接実施してもよい（図11）。監視を所望する領域の高さは、事前にプリセットされていてもよい。監視領域は、多角形の他、円や直線で指示してもよく、円柱型や球状、垂直平面などの様々な図形を用いて処理領域を指定できる。

(3) 本実施例でのカメラと監視領域上の点との距離を計算する方法
　カメラ座標系での位置(x',y')をシーン座標系での位置(x,y)に変換する。
　シーン座標系は地図に相似であるので、シーン座標系の原点Oがカメラの位置である場合、カメラと監視領域上の点との距離は、

となる。

(4) 前記点における監視すべき対象物体の見かけの高さを算出する方法
対象物体の上辺のカメラ座標 (x'_head, y'_head)
対象物体の下辺のカメラ座標 (x'_legs, y'_legs) とする。
　まず、カメラの設置条件を用いてシーン座標への変換式によって、以下を算出する。
対象物体の上辺のシーン座標 (x_head, y_head) 　上辺を撮像する俯角 θy_head
対象物体の下辺のシーン座標 (x_legs, y_legs) 　下辺を撮像する俯角 θy_legs
回転角θx = θx_head = θx_legs
　カメラと対象物体下辺の距離

　カメラと対象物体上辺のシーン座標上での距離

　図１４に監視すべき対象物体601の撮像例を示す。
　図１４より、対象物体の高さHeightは、幾何学的に次の式で計算できる。
Height = (D_head - D_legs)/ tan(90°- θy_head)　…(1-1)
(5) シーン座標系に変換して見かけの高さを算出する方法
　監視領域上の点(x_legs, y_legs)における高さHeightの情報が、シーン座標上でどの位置(x_head, y_head)に現れるか[見かけの高さ]を算出する(つまり(4)の逆算)。
　θy_headは、撮像装置の設置高さHを利用して、次のように表現できる。
tan(θy_head) = (H - Height) / D_legs　…(1-2)
[ tan(90 - θy_head) = D_legs / (H - Height) ]
　(1-1)式を変形して、(1-2)を代入する。
D_head = (Height・D_legs) / (H - Height) + D_legs
　従って、監視領域の上辺の座標(x_head, y_head)は、以下のように算出できる。
x_head = D_head・cos(θx)
y_head = - D_head・sin(θx)
　また、カメラ座標(x'_head, y'_head)も座標変換により算出でき、カメラ座標上での見かけの高さについても容易に表現できる。

(6) 前記見かけの高さに基づいて監視領域から処理領域を生成する方法
　(2)で指示した監視領域1301の各座標と、監視領域の高さ情報より、それぞれの見かけの高さを算出する。見かけの高さが占める各座標と、指示した監視領域が占める各座標を処理領域とする事で、監視領域1301の高さを考慮した立体的な処理領域1401を作成する事が出来る(図13)。

本実施例の効果
　（地図上の）監視領域を設定することで、自動的に監視領域の高さを考慮した立体的な処理領域が設定できるため、見かけの大きさによらない簡単な領域設定を実現できる。また、入力画像中に映る物体の高さを実際に測量することによる領域設定が不要なため、設定の煩雑さが軽減される。
　また、シーン座標系で監視領域を設定する事が可能で、地図上の座標を領域設定にそのまま利用できることや、複数監視装置間での監視領域の共有など、先願と組み合わせた効率的な領域設定及び侵入者監視が可能となる。

　５０１　撮像装置
　５０２　映像入力回路
　５０３　画像処理プロセッサ
　５０４　プログラムメモリ
　５０５　ワークメモリ
　５０６　外部I/F回路
　５０７　映像出力回路
　５０８　データバス
　５０９　指示装置
　５１０　表示装置

Claims

　動画像から物体を検出する物体検出方法であって、
　画像の画素毎に、該画素の時間平均値を算出するステップと、
　画像の画素毎に、該画素の時間領域での分散または標準偏差を、画素毎に可変の時定数を用いて算出するステップと、
　画像の画素毎に、前記分散または標準偏差の時間領域での極大値を算出するステップと、
　画像の画素毎に、前記極大値に所定の係数を乗じた値に基づくしきい値で、現在の画像を二値化するステップと、
　前記二値化された画像をラベリング処理し、見つかった複数の連結領域をそれぞれ予検出ゾーンとするステップと、
　画像の画素毎に、当該画素が背景もしくは物体のいずれに分類されるかに応じて、前記可変の時定数を制御するステップと、
　複数の前記予検出ゾーンの実空間における幾何学的属性を計算し、該幾何学的属性に基づいて前記予検出ゾーンをスクリーニングするステップと、
　前記二値化された画像もしくは該二値化から派生した画像に、スケルトン解析処理、オブジェクトマスク処理、モフォロジー演算処理、セクション解析処理の少なくとも１つを含む空間フィルタを施すステップと、
　前記空間フィルタ或いはスクリーニングを通過した予検出ゾーンを追跡ゾーンとし、記憶された過去の追跡ゾーンとの一致度に応じて該記録された追跡ゾーンを更新するか、或いは、時空間における線成分抽出することによって、注目する追跡ゾーンの時間的な位置変化を追跡するステップと、
　近傍に存在する追跡ゾーンを所定の規則でクラスタにまとめるステップと、
　実空間におけるクラスタのサイズ、もしくは予め定めた監視領域又は他のクラスタとの相対位置の変位の少なくとも１つを既定する複数の条件に基づいて、該クラスタを判別するステップと、
を有する物体検出方法。
　請求項１に記載の物体検出方法において、前記判別するステップは、前記予め定めた監視領域を用いるものであって、予め定めた監視領域は、地面に平行な２つの直交軸を有する座標系を用いて、該地面に垂直な多角柱、円柱、若しくは平面領域のいずれかで定義することを特徴とする物体検出方法。
　請求項１に記載の物体検出方法において、前記スケルトン解析処理は、前記二値化画像に対する細線化処理ないしは骨格処理によって予検出ゾーンの形状情報を得るステップと、形状情報から主要な軸を抽出するステップと、抽出された軸から影の軸を除去し、物体の軸を抽出するステップとを有する物体検出方法。
　請求項１に記載の物体検出方法において、
　スクリプト形式で記述される前記複数の条件を、それぞれの条件に優先順位及び検出の禁止又は許可を指定可能な監視条件スクリプトとして入力するステップと、
　該監視条件スクリプトの論理を解析して判定テーブルを生成するステップと、
　を更に備え、
　前記判別するステップは、条件に割り当てた優先順位に従って該物体の前記情報が監視条件に合致するか否かを判定することを特徴とする物体検出方法。