WO2015186347A1

WO2015186347A1 - 検出システム、検出方法及びプログラム記憶媒体

Info

Publication number: WO2015186347A1
Application number: PCT/JP2015/002775
Authority: WO
Inventors: 博義宮野; 哲明鈴木
Original assignee: 日本電気株式会社
Priority date: 2014-06-03
Filing date: 2015-06-02
Publication date: 2015-12-10
Also published as: US10115206B2; JP6652051B2; US20170186179A1; JPWO2015186347A1

Abstract

好適に移動体を検出することのできる検出システム、検出方法及びプログラムを提供する。検出システムは、撮影時刻の異なる複数の画像フレームの入力を受ける画像入力部１１０と、処理時刻の画像フレームを元に生成された第１の背景モデルと、第１の背景モデルよりも処理時刻の画像フレームの影響が小さい第２の背景モデルと、第２の背景モデルよりも処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する背景モデル間距離計算部１５０と、第２の背景モデルと第３の背景モデルとの差異が第１の閾値以上であり、かつ、第１の背景モデルと第３の背景モデルとの差異が、第１の背景モデルと第２の背景モデルとの差異の第２の閾値倍以上である、画像フレーム内の第１の領域を検出する移動体検出部１６０を備える。

Description

検出システム、検出方法及びプログラム記憶媒体

　本発明に係るいくつかの態様は、検出システム、検出方法及びプログラム記憶媒体に関する。

　近年、ビデオ監視などの用途において、人や車等の移動体を検出し追跡することに対するニーズが高まっている。このようなニーズの高まりにあわせて、移動体を検出し、検出した移動体を追跡する手法が数多く提案されている。ここで移動体は、画像に映る物体のうち、常に移動をつづける物体のみに限られるものではなく、一時的に停止（静止／滞留ともいう。）する場合をも含む。換言すれば、移動体は、画像中の背景とみなされる部分以外に映る物体全般を指す。例えば、ビデオ監視での監視対象として一般的である人や車は、常に動いているわけではなく、一時的に停止したり駐車したりといった静止状態が発生する。そのため、一時的に停止する場合でも検出できるようにすることが、ビデオ監視などの用途において重要である。

　移動体を検出する手法の１つとして、背景差分法が知られている（例えば、非特許文献１及び非特許文献２参照）。背景差分法は、背景として記憶している画像と、カメラで撮影された画像とを比較して、違いのある領域を移動体として抽出する手法である。ここで、背景差分を用いて移動体を検出する場合、解析を行う時点における正確な背景抽出が必要となる。単純に観測開始時のデータを固定的に背景として利用する場合には、照明の変化など環境が変化していくことに伴う背景変化の影響を受けて誤検出が多く発生してしまうからである。そこで、このような課題を回避すべく、最新の一定時間内の観測画像から例えば各画素について平均値を算出する等の手法により、解析を行う時点での背景を推定することが多い。例えば非特許文献１には、背景の更新を逐次行いながら背景差分法を適用する方法が開示されている。

　一方、置き去りにされた物体や一定時間滞留する人物のような一時的な静止する物体に限定して抽出する技術も存在する（例えば、特許文献１参照）。特許文献１には、シーン中の動きを複数の異なる時間幅の背景モデルで解析する手法が開示されている。当該手法では、長時間のレンジで解析された長期背景モデルと、短時間のレンジで解析された短期背景モデルを作成する。短期背景モデルに基づく背景差分で移動体が検知されず、長期背景モデルに基づく背景差分で移動体が検知される状態が所定回数継続すれば、一時的な静止物が存在するものとして、当該静止物が移動体として検出される。

特許第５０５８０１０号公報

川端敦、谷藤真也、諸岡泰男。「移動体像の抽出技術」、情報処理学会、vol.28、no.4、pp.395-402、1987 C. Stauffer and W. E. L. Grimson， "Adaptive background mixture models for real-time tracking"， Proceedings of CVPR， vol.2， pp. 246-252， 1999

　非特許文献１のように、逐次更新された背景画像と解析対象の画像との差分（「背景差分」ともいう）を抽出する手法において、背景画像を解析する時間幅よりも長時間人や車等の移動体が滞在する場合を検討する。この場合、当該移動体は背景画像の一部と判定されてしまうため、検知できないという課題がある。一方で、一時的な静止物を検出するために解析する時間幅を長くすると、照明変動のような外部ノイズによる背景変化の影響を受けやすくなるため、静止物以外の背景画像の一時的な変化を多く誤検出する課題が生じる。

　また、特許文献１は一時的な静止物を検出することを意図したものであるが、長期背景モデルに基づく背景差分が観測画像取得時の真の背景を表現できることを前提としている。そのため、照明変動のような時々刻々と背景が変化する環境では、長期背景モデルが観測画像取得時の真の背景との違いが大きくなるため、誤検出を十分に抑止するのは困難であった。

　本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、好適に移動体を検出することのできる検出システム、検出方法及びプログラム記憶媒体を提供することを目的の１つとする。

　本発明に係る１の検出システムは、撮影時刻の異なる複数の画像フレームの入力を受ける入力手段と、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する算出手段と、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する検出手段とを備える。

　本発明に係る１の検出方法は、撮影時刻の異なる複数の画像フレームの入力を受けるステップと、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出するステップと、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出するステップとをコンピュータが行う。

　本発明に係る１のプログラムは、撮影時刻の異なる複数の画像フレームの入力を受ける処理と、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する処理と、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する処理とをコンピュータに実行させる。

　なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されても良い。

　本発明によれば、好適に移動体を検出することのできる検出システム、検出方法及びプログラム記憶媒体を提供することができる。

背景モデルと入力画像フレームとの関係を説明するための図である。第１実施形態に係る検出システムの概略構成を示す機能ブロック図である。図２に示す検出システムの処理の流れを示すフローチャートである。図２に示す検出システムを実装可能なハードウェアの構成を示すブロック図である。第２実施形態に係る検出システムの概略構成を示す機能ブロック図である。

　以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。

（１　第１実施形態）
（１．１　概要）
　図１乃至図４は、第１実施形態を説明するための図である。以下、これらの図を参照しながら説明する。
　本実施形態は、カメラ等の撮影装置により撮影された映像中から、人物や車などの、移動や一時的な滞留を繰り返す移動体を検出する検出システムに関する。特に、本実施形態に係る検出システムでは、照明変動のような時々刻々と環境が変化する場合であっても、人や車などの移動体を好適に検出する。

　そのために本実施形態に係る検出システムは、図１に示すように、映像から切りだされた各時刻の画像フレームを元にそれぞれ作成される３つの背景モデルを生成し、これらの背景モデルを用いて移動体の検出を行う。これらの３つの背景モデルは、それぞれ背景モデルの元となる複数の画像フレームが撮影される時刻の時間幅（解析対象の時間幅）が異なる。以下、これらの３つの背景モデルを、長期背景モデル、中期背景モデル、及び短期背景モデルと呼ぶ。

　移動体の検出の際には、長期背景モデルと短期背景モデルとを比較し、差分のある画素領域を移動体として検出することができる。このとき、何らかの原因で一時的に静止する可能性のある移動体を検出するために、長期背景モデルは、移動体が静止すると想定される時間よりも十分に長い時間幅の画像フレームから作成される。

　ここで、背景（移動体を除く領域）が時間とともに変化しない環境であれば、単純に長期背景モデルと短期背景モデル（処理時刻に係る１枚の画像フレームをも含む）との差異を検出することで移動体の有無を判定することができる。しかしながら、照明変動等の理由により背景自体が変化する場合には、短期背景モデルと長期背景モデルとの間には、移動体が存在する領域のみならず、移動体の存在しない背景部分についても大きな差異が生じてしまう。よって、長期背景モデルと短期背景モデルとを単純に比較しただけでは、移動体の領域を特定するのは難しい。

　しかしながら、短期背景モデルと中期背景モデルとの間、及び中期背景モデルと長期背景モデルとの間であれば、移動体の存在しない背景部分の差異が小さくなる。この性質を活かし、本実施形態に係る検出システムは、長期背景モデルと短期背景モデルとの間よりも解析対象の時間幅の差が小さい、中期背景モデルを用いて移動体を検出する。以下の２つの条件を満たす場合に、本実施形態に係る検出システムは、当該条件を満たす画素領域を、一時的に静止している移動体が存在する領域として検出する。
（条件１）中期背景モデルと長期背景モデルとの差異が、予め定めた閾値以上である。
（条件２）短期背景モデルと長期背景モデルとの間に、短期背景モデルと中期背景モデルとの差異の、予め定めた定数倍以上の差異がある。

　これにより、移動体の存在しない背景領域に関しては、中期背景モデルと長期背景モデルとの差異が閾値より小さければ、条件１を満たさないため、検出システムは当該領域を背景として検出することができる。

　また、移動体が一定時間停止した場合には、当該静止している移動体が中期背景モデルに大きな影響を与える一方で、長期背景モデルには殆ど影響を与えない。そのため、中期背景モデルと長期背景モデルとの間には移動体の領域には予め定めた閾値以上の差異が生じる。すなわち、上記条件１を満たす。また、中期背景モデルには、前述のとおり移動体が大きな影響を与えることから、短期背景モデルと中期背景モデルとの間の差異は小さくなる。よって、短期背景モデルと長期背景モデルとの間に、短期背景モデルと中期背景モデルとの差異の、予め定めた定数倍以上の差異が生じるようになる。すなわち、条件２を満たす。これにより、移動体の存在する領域に関しては、条件１及び条件２の双方を満足するため、検出システムは当該領域を移動体の存在する領域として検出することができる。

　更に、一時的に静止していた移動体が、動き出して存在しなくなった直後には、中期背景モデルには、存在しなくなった移動体が大きな影響を与え続ける一方で、短期背景モデルには、当該移動体の影響が殆ど無くなる。そのため、中期背景モデルと短期背景モデルとの差異が非常に大きくなる。また、一般的に長期背景モデルと短期背景モデルとの差異が小さくなる。これにより、条件２を満たさなくなるため、検出システムは、当該領域を背景として検出することができる。

　つまり、本実施形態に係る検出システムは、例えば照明変動などの外部ノイズによる背景変化が生じる環境下にあっても、一時的に静止する人や車などの移動体を好適に検出できる。

　なお、本実施形態では、検出システム１００は３つの背景モデルを利用して移動体を検出しているが、これに限られるものではない。検出対象の移動体の静止時間に応じて、生成した４以上の多数の背景モデルから３つの背景モデルを短期背景モデル、中期背景モデル、及び長期背景モデルとして抽出し、それらの間の差異に応じて移動体を検出するようにしても良い。

（１．２　システム構成）
　以下、図２を参照しながら、本実施形態に係る検出システムのシステム構成を説明する。図２は、本実施形態に係る検出システム１００のシステム構成を示すブロック図である。図２に示す検出システム１００は、画像入力部１１０、背景モデル取得部１２０、背景モデルデータベース（ＤＢ）１３０、背景モデル更新部１４０、背景モデル間距離計算部１５０、移動体検出部１６０、移動体検出パラメータ辞書１７０、及び結果出力部１８０を含む。

（１．２．１　画像入力部１１０）
　画像入力部１１０は、図示しないカメラ等の撮影装置から逐次映像を構成する画像フレーム、すなわちそれぞれ撮影時刻の異なる画像フレームの入力を受ける。換言すれば、画像入力部１１０は、処理時刻における画像フレームの入力を受ける。ここで、画像フレームはモノクロ画像であっても良いし、カラー画像であっても良い。モノクロ画像であれば、画像フレームには各画素に１つの値が含まれる。カラー画像であれば、画像フレームには各画素に３つの値（例えばＲＧＢ、ＹＣｂＣｒ等の色表現）を有する。或いは画像フレームには、ＴＯＦ（Ｔｉｍｅ　ｏｆ　Ｆｌｉｇｈｔ）カメラなどにより得られる距離情報等、画素毎に４つ以上の値を有してもよい。

（１．２．２　背景モデル取得部１２０）
　背景モデル取得部１２０は、画像入力部１１０から入力された画像フレーム、及び、背景モデルＤＢ１３０に格納されている短期背景モデル、中期背景モデル、及び長期背景モデルの３つの背景モデルを読み込む。

（１．２．３　背景モデルＤＢ１３０）
　背景モデルＤＢ１３０は、解析元となる画像フレームの撮影時刻の時刻幅の異なる短期背景モデル、中期背景モデル、及び長期背景モデルを含む複数の背景モデルを格納する。
ここで、各背景モデルの形式は種々考えられるが、例えば画像入力部１１０から入力される画像フレームと同様の画像形式とすることができる。この場合、例えば背景モデルをモノクロ画像とするのであれば、各画素毎に１つの値が、カラー画像とするのであれば各画素毎に３つの値が含まれる。

　或いは、背景モデルは、各画素毎に、その元となった各画像フレームの画素値の尤度を示す、各画素毎の分布関数とすることも考えられる。ここで分布関数は、例えばヒストグラムとすることも考えられるし、或いは、複数のガウシアンの和により分布関数としてもよい。

　前述のとおり、短期背景モデル、中期背景モデル、及び長期背景モデルは、元となる画像フレームの撮影時刻の時間幅がそれぞれ異なり、短期背景モデル、中期背景モデル、長期背景モデルの順に、時間幅が長くなる。特に短期背景モデルに関しては、画像入力部１１０から入力された画像フレームを、そのまま短期背景モデルとして採用することも考えられる。その場合には、背景モデルＤＢ１３０では短期背景モデルを管理しないことも考えられる。

（１．２．４　背景モデル更新部１４０）
　背景モデル更新部１４０は、背景モデル取得部１２０が取得した処理時刻の画像フレーム及び背景モデルＤＢ１３０に記憶された背景モデルから、処理時刻の画像フレーム（最も新しい時刻の画像フレーム）を考慮した短期背景モデル、中期背景モデル、長期背景モデルを生成する。生成された背景モデルは、背景モデルＤＢ１３０に格納される。

　本実施形態において、短期背景モデル、中期背景モデル、及び長期背景モデルは、それぞれ元となる画像フレームの時間幅が異なる。図１に示すように、短期背景モデルは処理時刻から最も短い時間幅に撮影された画像フレームから、中期背景モデルはそれよりも長い時間幅に撮影された画像フレームから、長期背景モデルは最も長い時間幅に撮影された画像フレームから、それぞれ生成される。

　背景モデルの作成方法としては、例えば、各背景モデルごとに定められた時間幅分の各画像フレームについて、画素毎に平均値を取ったり、最頻度の画素値を取ったりすることが考えられる。或いは、前述のとおり画素毎の分布関数とするのであれば、それぞれの画像フレームの画素値の分布関数を生成することが考えられる。

　なお、上述の移動体検出値を用いる条件のうち、条件２が満たされない場合には、一時的に静止していた移動体が動き出した直後であり、中期背景モデルに移動体が大きな影響を与えているものと考えられる。よって、背景モデル更新部１４０は、中期背景モデルに与える処理時刻近傍の入力画像の影響（重み）を大きくし、中期背景モデルが短期背景モデルにより近づくように更新方法を変えても良い。これにより、中期背景モデルを速やかに移動体がいない背景状態に近づけることが可能となるため、誤検出を抑制することが可能となる。

　なお、本実施形態では、短期背景モデル、中期背景モデル、及び長期背景モデルは、それぞれ元となる画像フレームの撮影時刻の時間幅が異なるものとして説明しているが、これに限られるものではない。短期背景モデル、中期背景モデル、及び長期背景モデルは、処理時刻（最も新しい時刻）の画像フレームが与える影響の大きさが異なる背景モデルであると理解することもできる。すなわち、短期背景モデルは、処理時刻の画像フレームの与える影響が最も大きく、長期背景モデルは、処理時刻の画像フレームの与える影響は最も小さい。よって、時間幅という概念を用いる代わりに更新係数という概念を導入し、画像入力部１１０から入力された画像フレームを用いて背景モデルを更新する際の更新係数を短期背景モデル、中期背景モデル及び長期背景モデルで変えるようにしても良い。
　この場合、例えば、背景モデルがＩ_bgであり、画像入力部１１０から入力された画像フレームをＩとすると、

　[数１]

として、背景モデルを更新することができる。この式において、ａは０以上１以下の定数であり、短期背景モデルと中期背景モデルと長期背景モデルとで異なる値を取る。短期背景モデル、中期背景モデル、及び長期背景モデルの定数をａ₁、ａ₂、ａ₃とすると、

　[数２]

との関係が成立する。ａ₁＝１の場合には、短期背景モデルは新しい画像フレームで常に置き換えられる。また、ａ₃＝０の場合には、長期背景モデルは固定の背景モデルを利用することを意味する。背景モデルとして固定の背景モデルを用いる場合であっても、同様の方式により更新することができる。

（１．２．５　背景モデル間距離計算部１５０）
　背景モデル間距離計算部１５０は、背景モデル取得部１２０が取得した３つの背景モデル間の差異を数値で示す距離値を、各画素毎に計算する。具体的には、各画素毎に、短期背景モデルと中期背景モデルとの距離、短期背景モデルと長期背景モデルとの距離、中期背景モデルと長期背景モデルとの距離を、背景モデル間距離計算部１５０はそれぞれ算出する。

　例えば、背景モデルを画像形式とする場合には、背景モデル間距離計算部１５０は、各画素の画素値の差分値もしくは差分ベクトルを算出した上で、その絶対値若しくは大きさを距離として計算することが考えられる。背景モデルが画素毎に複数の値を持っている場合、例えばＲＧＢやＹＣｂＣｒ、ＨＳＶ等のカラー画像形式である場合には、それぞれの値について差分値を算出した上で、それらの差分値の絶対値総和を、各画素の距離とすることも考えられる。或いは、処理対象の画素位置を中心とした近傍３×３画像や５×５画像等の近傍部分画像を抽出した上で、抽出された２つの近傍部分画像の画素値をそれぞれ２つのベクトルと捉え、当該２つのベクトルのベクトル間距離や正規化相関ｒを計算してもよい。この場合、例えばモノクロ画像形式の背景モデルで近傍３×３画像により距離を算出する場合には、９次元ベクトル同士の距離を算出することになる。また、ＲＧＢカラー画像で近傍５×５画像により距離を算出する場合には、７５次元（５×５×３）ベクトル同士の距離を算出することになる。

　なお、正規化相関ｒを距離に用いる場合には、相関ｒは１が最大値であり、ｒが１に近いほど同一に近いことを示す。よって、距離の尺度に変換するため、１－ｒを距離を示す値として用いることができる。或いは、エッジ強調フィルタなどで上記近傍部分画像に対して前処理を行った上で、距離を計算してもよい。

　また、背景モデルにヒストグラムなどの分布関数を用いる場合、背景モデル間距離計算部１５０は、２つのヒストグラムの共通部分の面積や、バタチャリヤ距離などのヒストグラム距離計算手法を用いて、背景モデル間の距離を計算することができる。

　なお、上述の手法では、背景モデル間距離計算部１５０は画素毎に距離を計算するものとして説明したが、これに限られるものではない。例えば、背景モデル間距離計算部１５０は、画像をいくつかの領域単位、例えばメッシュ状に区切った上で、当該メッシュ単位毎に距離を算出する等の手法を用いることもできる。なお、距離はマイナス値を取るようにしても良い。

　また、短期背景モデル、中期背景モデル、及び長期背景モデルは、それぞれ異なる形式であることも考えられる。例えば、短期背景モデルは画像形式とし、中期背景モデルは画素毎の分布関数としてもよい。この場合、距離の計算方法としては、例えば、短期背景モデルで保持されている画素値を中心として、予め定めた標準偏差の正規分布のヒストグラムを生成する。そして、当該ヒストグラムを短期背景モデルにおける分布関数とみなして、当該ヒストグラムと中期背景モデルのヒストグラムとを比較することにより距離を算出する手法を採用することが考えられる。或いは、中期背景モデルの各画素の分布関数から画素毎に平均値を算出した上で、当該平均値の集合として生成される画像形式の中期背景モデルと、短期背景モデルとを比較することにより距離を算出することも考えられる。

（１．２．６　移動体検出部１６０）
　移動体検出部１６０は、各画素毎に、背景モデル間距離の情報、及び移動体検出パラメータ辞書１７０に格納されているパラメータを用いて、移動体の写る領域に含まれているか否かを判定する。より具体的には、移動体検出部１６０は、以下の２つの条件を満たす場合に、処理対象の画素が移動体の写る領域に含まれていると判定する。
（条件１）中期背景モデルと長期背景モデルとの距離が、予め定めた閾値以上である。
（条件２）短期背景モデルと長期背景モデルとの間に、短期背景モデルと中期背景モデルとの距離の、予め定めた定数倍以上の距離がある。
　ここで、条件１の「予め定めた閾値」及び条件２の「予め定めた定数倍」が、それぞれ移動体検出パラメータ辞書１７０に含まれるパラメータである。

　一時的に静止する移動体を検出するために、長期背景モデルは、移動体が静止すると想定される時間よりも長時間の時間幅の画像フレームから生成される。移動体の存在しない背景領域の変化が発生しない環境であれば、単純に長期背景モデルと短期背景モデル（処理時刻の画像フレーム自体であっても良い）とを比較することで移動体の有無を判定することができる。しかしながら、例えば照明変動などの外部ノイズの影響で背景領域も時々刻々と変化する場合には、単純に短期背景モデルと長期背景モデルとを比較しただけでは、移動体の存在する領域のみならず背景領域でも、両者の間に大きな距離値が生じる。すなわち、移動体の領域を検出するのは難しい。

　しかしながら、解析対象となる時間窓の差が小さい、短期背景モデルと中期背景モデルとの間の差異、及び中期背景モデルと長期背景モデルとの差異に関しては、照明変動などの外部ノイズの影響が小さいため、背景領域における距離値は小さくなる。

　また、背景がゆるやかに変化する場合には、移動体が存在しなければ、短期背景モデルが最も処理時刻の背景に近く、次に中期背景モデルが処理時刻の背景に近い。すなわち、長期背景モデルが処理時刻の背景からは最も遠い。すなわち、短期背景モデルと中期背景モデルとの間の距離は、短期背景モデルと長期背景モデルとの距離に１以下の定数を乗じた値よりも小さくなる。当該定数は、各背景モデルの解析対象となる時間幅によって変化し、中期背景モデルの時間幅と長期背景モデルの時間幅とが近ければ１に近い値となり、中期背景モデルの時間幅と長期背景モデルの時間幅との差が大きければ１より小さい値となる。

　移動体検出部１６０による上記条件１、条件２を用いた検出方法はこのような特性を利用したものである。背景領域は中期背景モデルと長期背景モデルとの距離が小さくなる（閾値以下となる）ことなら、移動体検出部１６０は条件１により背景領域として判別することができる。

　また、移動体が一定時間静止している場合には、中期背景モデルに静止している移動体が大きな影響を与える一方で、長期背景モデルにはあまり影響を与えないことから、中期背景モデルと長期背景モデルとの間の距離は、予め定めた閾値以上となる。すなわち、条件１を満たす。加えて、中期背景モデルには移動体が背景に大きな影響を与えるため、短期背景モデルとの距離が小さくなる。よって、短期背景モデルと長期背景モデルとの距離が、短期背景モデルと中期背景モデルとの間の距離の予め定めた定数倍以上となる。すなわち、条件２も満たす。よって、移動体検出部１６０は移動体の存在する領域を好適に抽出できる。

　一時的に静止していた移動体が動き出した直後には、中期背景モデルには依然として移動体が大きな影響を与え続けている一方で、短期背景モデルには殆ど移動体の影響がなくなる。つまり、短期背景モデルと中期背景モデルとの間に大きな距離が生じる。これにより、条件２が満たされなくなるため、移動体検出部１６０は処理時刻の画像フレームでは移動体を検出しなくなる。

　加えて、移動し続けている移動体（静止していない移動体）も検出するために、移動体検出パラメータ辞書１７０に移動中の移動体を検出するための閾値を用意しておいてもよい。この場合、移動体検出部１６０は、中期背景モデルと短期背景モデルとの間の距離が当該閾値以上であれば、移動中の移動体が存在するものとして、当該移動体の領域（閾値以上の領域）を検出するようにしても良い。これにより、一時的に移動と静止とを繰り返す人や車などの移動体を常に検出することができる。

（１．２．７　結果出力部１８０）
　結果出力部１８０は、移動体検出部１６０で得られた移動体の情報を出力する。出力方法は種々考えられるが、例えば、移動体領域を１とし、それ以外の領域を０とした２値画像として出力することができる。或いは、当該２値画像に対してラベリング処理を施すことによって連結部分を生成し、連結成分毎に外接矩形を出力することも考えられる。

　若しくは、本実施形態に係る検出システムによる検出方法を用いて、短期背景モデルと中期背景モデルとの距離が大きいために検出された移動体を移動中の移動体として出力し、中期背景モデルと長期背景モデルとの距離が大きいために検出された移動体を一時的に滞留（静止）している移動体として出力することも考えられる。この場合、例えば、出力される画像は、移動中の移動体として検出された画素の画素値を１とし、一時的に静止している移動体として検出された画素の画素値を２とし、それ以外の画素値を０として３値で出力することが考えられる。場合によっては、短期背景モデルと中期背景モデルとの距離、及び中期背景モデルと長期背景モデルとの距離の両方が大きくなる場合も考えられるが、その場合には移動中物体として１を出力してもよいし、或いは、全体として４値取ることを可能とした上で、どちらかわからないものとして画素値３を出力するようにしても良い。

（１．３　処理の流れ）
　以下、検出システム１００の処理の流れを、図３を参照しながら説明する。図３は、本実施形態に係る検出システム１００の処理の流れを示すフローチャートである。

　なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上１つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを１ステップとして実行することもできる。

　画像入力部１１０は、新しい画像フレーム（処理時刻の画像フレーム）の入力を受ける（Ｓ３０１）。また、背景モデル取得部１２０は、背景モデルＤＢ１３０に格納された短期背景モデル、中期背景モデル及び長期背景モデルを読み込む（Ｓ３０３）。

　背景モデル間距離計算部１５０は、各画素に対して、短期背景モデルと中期背景モデルとの間の距離、中期背景モデルと長期背景モデルとの間の距離、及び短期背景モデルと長期背景モデルとの間の距離を算出する（Ｓ３０５）。移動体検出部１６０は、背景モデル間距離計算部１５０が算出した各背景モデル間の距離に対して、上記条件１及び条件２を満たすか否かを判別することにより、各画素が移動体の映る領域であるか否かを判別する（Ｓ３０７）。結果出力部１８０は、検出結果を出力する（Ｓ３０９）。

　また、背景モデル更新部１４０は、画像入力部１１０から入力された画像フレームを用いて各背景モデルを更新し、更新した背景モデルを背景モデルＤＢ１３０に記憶させる（Ｓ３１１）。

（１．４　ハードウェア構成の具体例）
　以下、図４を参照しながら、上述してきた検出システム１００をコンピュータにより実現する場合のハードウェア構成の一例を説明する。なお、検出システム１００の機能は、複数のコンピュータにより実現することも可能である。

　図４に示すように、検出システム１００は、プロセッサ４０１、メモリ４０３、記憶装置４０５、入力インタフェース（Ｉ／Ｆ）部４０７、データＩ／Ｆ部４０９、通信Ｉ／Ｆ部４１１、及び表示装置４１３を含む。

　プロセッサ４０１は、メモリ４０３に記憶されているプログラムを実行することにより、検出システム１００の様々な処理を制御する。例えば、図２に示した画像入力部１１０、背景モデル取得部１２０、背景モデル更新部１４０、背景モデル間距離計算部１５０、移動体検出部１６０、及び結果出力部１８０にかかる処理は、メモリ４０３に一時記憶された上で主にプロセッサ４０１上で動作するプログラムとして実現可能である。

　メモリ４０３は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の記憶媒体である。メモリ４０３は、プロセッサ４０１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

　記憶装置４０５は、例えばハードディスクやフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置４０５は、オペレーティングシステムや、画像入力部１１０、背景モデル取得部１２０、背景モデル更新部１４０、背景モデル間距離計算部１５０、移動体検出部１６０、及び結果出力部１８０を実現するための各種プログラムや、背景モデルＤＢ１３０や移動体検出パラメータ辞書１７０を含む各種データ等を記憶できる。記憶装置４０５に記憶されているプログラムやデータは、必要に応じてメモリ４０３にロードされることにより、プロセッサ４０１から参照される。

　入力Ｉ／Ｆ部４０７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部４０７の具体例としては、キーボードやマウス、タッチパネル等があげられる。入力Ｉ／Ｆ部４０７は、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等のインタフェースを介して検出システム１００に接続されても良い。

　データＩ／Ｆ部４０９は、検出システム１００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部４０９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部４０９は、検出システム１００の外部に設けられても良い。その場合、データＩ／Ｆ部４０９は、例えばＵＳＢ等のインタフェースを介して検出システム１００へと接続される。

　通信Ｉ／Ｆ部４１１は、検出システム１００の外部の装置、例えば撮影装置（ビデオカメラや監視カメラ、デジタルカメラ）等との間で有線又は無線によりデータ通信するためのデバイスである。通信Ｉ／Ｆ部４１１は検出システム１００の外部に設けられてもよい。その場合、通信Ｉ／Ｆ部４１１は、例えばＵＳＢ等のインタフェースを介して検出システム１００に接続される。

　表示装置４１３は、例えば結果出力部１８０が出力する移動体の検出結果等を表示するためのデバイスである。表示装置４１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等があげられる。表示装置４１３は、検出システム１００の外部に設けられても良い。その場合、表示装置４１３は、例えばディスプレイケーブル等を介して検出システム１００に接続される。

（１．５　本実施形態に係る効果）
　以上説明したように、本実施形態に係る検出システム１００は、短期背景モデル、中期背景モデル、及び長期背景モデルの間のそれぞれの差異を検出し、それらを利用することで、特に一時的に静止する移動体を好適に検出することができる。

（２　第２実施形態）
　以下、第２実施形態を、図５を参照しながら説明する。図５は、検出システム５００の機能構成を示すブロック図である。図５に示すように、検出システム５００は、入力部５１０と、算出部５２０と、検出部５３０とを含む。
　入力部５１０は、例えば映像を構成する、撮影時刻の異なる複数の画像フレームの入力を受ける。

　算出部５２０は、処理時刻の画像フレームを元に生成された第１の背景モデルと、第１の背景モデルよりも処理時刻の画像フレームの影響が小さい第２の背景モデルと、第２の背景モデルよりも処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する。

　検出部５３０は、第２の背景モデルと第３の背景モデルとの差異が第１の閾値以上であり、かつ、第１の背景モデルと第３の背景モデルとの差異が、第１の背景モデルと第２の背景モデルとの差異の第２の閾値倍以上である、画像フレーム内の第１の領域を検出する。
　このように実装することで、本実施形態に係る検出システム５００は、好適に移動体を検出することができる。

（３　付記事項）
　なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。

　なお、前述の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。また、本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。

　（付記１）
　撮影時刻の異なる複数の画像フレームの入力を受ける入力手段と、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する算出手段と、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する検出手段とを備える、検出システム。

　（付記２）
　前記第１の背景モデルと、前記第２の背景モデルと、前記第３の背景モデルとは、考慮される画像フレームの撮影時刻の時間幅が異なる付記１記載の検出システム。

　（付記３）
　前記検出手段は、前記第１の背景モデルと前記第２の背景モデルとの差異が第３の閾値以上である、前記画像フレーム内の第２の領域を検出する、付記１又は付記２記載の検出システム。

　（付記４）
　前記第１の領域と、前記第２の領域とを区別して出力する出力手段を更に備える、付記１乃至付記３のいずれか１項記載の検出システム。

　（付記５）
　前記第２の背景モデルにおける前記処理時刻の画像フレームの影響が可変である、付記１乃至付記４のいずれか１項記載の検出システム。

　（付記６）
　前記処理時刻の画像フレーム中の前記第１の領域についての前記第２の背景モデルに対して与える影響が、他の領域が前記第２の背景モデルに対して与える影響よりも小さい、付記１乃至付記５のいずれか１項記載の検出システム。

　（付記７）
　撮影時刻の異なる複数の画像フレームの入力を受けるステップと、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出するステップと、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出するステップとをコンピュータが行う、検出方法。

　（付記８）
　前記第１の背景モデルと、前記第２の背景モデルと、前記第３の背景モデルとは、考慮される画像フレームの撮影時刻の時間幅が異なる付記７記載の検出方法。

　（付記９）
　前記検出手段は、前記第１の背景モデルと前記第２の背景モデルとの差異が第３の閾値以上である、前記画像フレーム内の第２の領域を検出する、付記７又は付記８記載の検出方法。

　（付記１０）
　前記第１の領域と、前記第２の領域とを区別して出力する出力手段を更に備える、付記７乃至付記９のいずれか１項記載の検出方法。

　（付記１１）
　前記第２の背景モデルにおける前記処理時刻の画像フレームの影響が可変である、付記７乃至付記１０のいずれか１項記載の検出方法。

　（付記１２）
　前記処理時刻の画像フレーム中の前記第１の領域についての前記第２の背景モデルに対して与える影響が、他の領域が前記第２の背景モデルに対して与える影響よりも小さい、付記１１記載の検出方法。

　（付記１３）
　撮影時刻の異なる複数の画像フレームの入力を受ける処理と、処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する処理と、前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する処理とをコンピュータに実行させるプログラム。

　（付記１４）
　前記第１の背景モデルと、前記第２の背景モデルと、前記第３の背景モデルとは、考慮される画像フレームの撮影時刻の時間幅が異なる付記１３記載のプログラム。

　（付記１５）
　前記検出手段は、前記第１の背景モデルと前記第２の背景モデルとの差異が第３の閾値以上である、前記画像フレーム内の第２の領域を検出する、付記１３又は付記１４記載のプログラム。

　（付記１６）
　前記第１の領域と、前記第２の領域とを区別して出力する出力手段を更に備える、付記１３乃至付記１５のいずれか１項記載のプログラム。

　（付記１７）
　前記第２の背景モデルにおける前記処理時刻の画像フレームの影響が可変である、付記１３乃至付記１６のいずれか１項記載のプログラム。

　（付記１８）
　前記処理時刻の画像フレーム中の前記第１の領域についての前記第２の背景モデルに対して与える影響が、他の領域が前記第２の背景モデルに対して与える影響よりも小さい、付記１７記載のプログラム。
　以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
　この出願は、２０１４年６月３日に出願された日本出願特願２０１４－１１５２０７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１００　　：検出システム
１１０　　：画像入力部
１２０　　：背景モデル取得部
１３０　　：背景モデルデータベース
１４０　　：背景モデル更新部
１５０　　：背景モデル間距離計算部
１６０　　：移動体検出部
１７０　　：移動体検出パラメータ辞書
１８０　　：結果出力部
４０１　　：プロセッサ
４０３　　：メモリ
４０５　　：記憶装置
４０７　　：入力インタフェース部
４０９　　：データインタフェース部
４１１　　：通信インタフェース部
４１３　　：表示装置
５００　　：検出システム
５１０　　：入力部
５２０　　：算出部
５３０　　：検出部

Claims

　撮影時刻の異なる複数の画像フレームの入力を受ける入力手段と、
　処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する算出手段と、
　前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する検出手段と
を備える、検出システム。
　前記第１の背景モデルと、前記第２の背景モデルと、前記第３の背景モデルとは、考慮される画像フレームの撮影時刻の時間幅が異なる
請求項１記載の検出システム。
　前記検出手段は、前記第１の背景モデルと前記第２の背景モデルとの差異が第３の閾値以上である、前記画像フレーム内の第２の領域を検出する、
請求項１又は請求項２記載の検出システム。
　前記第１の領域と、前記第２の領域とを区別して出力する出力手段
を更に備える、請求項１乃至請求項３のいずれか１項記載の検出システム。
　前記第２の背景モデルにおける前記処理時刻の画像フレームの影響が可変である、
請求項１乃至請求項４のいずれか１項記載の検出システム。
　前記処理時刻の画像フレーム中の前記第１の領域についての前記第２の背景モデルに対して与える影響が、他の領域が前記第２の背景モデルに対して与える影響よりも小さい、請求項５記載の検出システム。
　コンピュータが、
　撮影時刻の異なる複数の画像フレームの入力を受信し、
　処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出し、
　前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する検出方法。
　撮影時刻の異なる複数の画像フレームの入力を受ける処理と、
　処理時刻の画像フレームを元に生成された第１の背景モデルと、前記第１の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第２の背景モデルと、前記第２の背景モデルよりも前記処理時刻の画像フレームの影響が小さい第３の背景モデルとの間で、それぞれ差異を算出する処理と、
　前記第２の背景モデルと前記第３の背景モデルとの差異が第１の閾値以上であり、かつ、前記第１の背景モデルと前記第３の背景モデルとの差異が、前記第１の背景モデルと前記第２の背景モデルとの差異の第２の閾値倍以上である、前記画像フレーム内の第１の領域を検出する処理と
をコンピュータに実行させるプログラムを記憶するプログラム記憶媒体。