WO2015029588A1

WO2015029588A1 - 画像処理システム、画像処理方法及びプログラム

Info

Publication number: WO2015029588A1
Application number: PCT/JP2014/067693
Authority: WO
Inventors: 小西　勇介
Original assignee: 日本電気株式会社
Priority date: 2013-08-27
Filing date: 2014-07-02
Publication date: 2015-03-05
Also published as: JPWO2015029588A1; US20160210756A1; JP6414066B2; US9934576B2

Abstract

【課題】複数人物の滞留を好適に検出することのできる画像処理システム、画像処理方法及びプログラムを提供する。【解決手段】撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する背景画像生成部６０５と、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する静止領域判定部６１１と、入力画像の部分領域に映る１以上の人物を検出する人物検出部６２１と、滞留の検出結果及び人物の検出結果に基づき、部分領域における複数人物の滞留を検出するたむろスコア算出部６２５とを備える。

Description

画像処理システム、画像処理方法及びプログラム

　本発明に係るいくつかの態様は、画像処理システム、画像処理方法及びプログラムに関する。

　近年、例えばビデオ監視などにおいて、監視カメラ等で撮影された映像の解析により、混雑状況等を特定することが考えられている。例えば、特許文献１は、入力画像内の各部分領域において動きがあるか否かを判定すると共に、個々の部分領域に対してテクスチャ情報から人の有無を判定することにより、個々の領域に人が存在するか否かを判定することのできる混雑推定装置を開示している。
　その他、特許文献２－４も、関連技術を開示している。

特開２００９－１１０１５２号公報特許第４８５２３５５号公報特許第５０５８１０号公報特開２０１０－１９８５６６号公報

　ここで、監視カメラによる監視などでは、複数人が一定の場所に滞留している状況を特定したいという要求がある。しかしながら、特許文献１記載の手法では、滞留している人々の前を歩行者が横切る場合等、混雑状況下や人が様々な方向に移動するような状況下において、滞留を検出するのは困難である。

　本発明のいくつかの態様は前述の課題に鑑みてなされたものであり、複数人物の滞留を好適に検出することのできる画像処理システム、画像処理方法及びプログラムを提供することを目的の１つとする。

　本発明に係る画像処理システムは、撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する生成手段と、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する第１の検出手段と、入力画像の前記部分領域に映る１以上の人物を検出する第２の検出手段と、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する第３の検出手段とを備える。

　本発明に係る画像処理方法は、撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成するステップと、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出するステップと、入力画像の前記部分領域に映る１以上の人物を検出するステップと、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出するステップとを画像処理システムが行う。

　本発明に係るプログラムは、撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する処理と、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する処理と、入力画像の前記部分領域に映る１以上の人物を検出する処理と、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する処理とをコンピュータに実行させる。

　なお、本発明において、「部」や「手段」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」や「手段」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、１つの「部」や「手段」、「装置」、「システム」が有する機能が２つ以上の物理的手段や装置により実現されても、２つ以上の「部」や「手段」、「装置」、「システム」の機能が１つの物理的手段や装置により実現されても良い。

　本発明によれば、複数人物の滞留を好適に検出することのできる画像処理システム、画像処理方法及びプログラムを提供することを提供することができる。

出力画像の具体例を示す図である。たむろ検出の際に使用する係数の具体例を説明するための図である。入力画像の具体例を示す図である。入力画像に対して特定した背景領域の具体例を示す図である。背景画像の生成方法の具体例を示す図である。第１実施形態に係る画像処理システムの概略構成を示す機能ブロック図である。図６に示す画像処理システムの処理の流れを示すフローチャートである。図６に示す画像処理システムの処理の流れを示すフローチャートである。図６に示す画像処理システムの処理の流れを示すフローチャートである。図６に示す画像処理システムを実装可能なハードウェアの構成を示すブロック図である。第２実施形態に係る画像処理システムの概略構成を示す機能ブロック図である。

　以下に本発明の実施形態を説明する。以下の説明及び参照する図面の記載において、同一又は類似の構成には、それぞれ同一又は類似の符号が付されている。

　（１　第１実施形態）
　図１乃至図１０は、第１実施形態を説明するための図である。以下、これらの図を参照しながら、以下の流れに沿って本実施形態を説明する。まず、「１．１」で本実施形態における複数人物の滞留（以下、「たむろ」ともいう。）の検出方法の概要を説明する。その後、「１．２」で本実施形態に係る画像処理システムの機能構成の概要を、「１．３」で画像処理システムの処理の流れを説明する。「１．４」では、画像処理システムを実現可能なハードウェア構成の具体例を示す。最後に、「１．５」以降で、本実施形態に係る効果などを説明する。

　（１．１　概要）
　（１．１．１　たむろの検出方法）
　本実施形態に係る画像処理システムは、例えば監視カメラ等の撮影装置で撮影される映像から、複数人物の滞留（たむろ）を検出するためのものである。

　図１は、撮影装置で撮影した画像の具体例を示す図である。図１に示す画像には、人物Ｐ１乃至Ｐ５が映っている。ここで、人物Ｐ１乃至Ｐ３はお互いに近接した位置で一定時間以上移動しておらず（滞留している）、人物Ｐ４及びＰ５はそれぞれ移動しているものとする。この場合に、本実施形態に係る画像処理システムでは、人物Ｐ１乃至Ｐ３が含まれる検知窓Ｗをたむろ領域として特定する。

　ここで、本実施形態に係る画像処理システムでは、たむろを検知するために、入力画像内に設定可能な検知窓Ｗに対して、滞留物領域の検出結果に基づき算出される滞留スコアと、人物検出結果に基づき算出される混雑スコアとを算出した上で、滞留スコア及び混雑スコアを用いて、たむろを検知するためのたむろスコアを算出する。この結果、例えば、たむろスコアが閾値以上となった場合には、画像処理システムは、当該たむろ検知窓Ｗでたむろが発生しているものと判定し、例えば図１に示すように、検知窓Ｗを映像上に図示することにより、たむろの発生をユーザに報知する。なお、本実施形態における「混雑スコア」は、例えば「群衆密度」と呼ぶこともできる。

　なお、検知窓Ｗは、複数の人物が含まれる大きさに設定される（図１の例では、３名の人物を内包できる大きさに設定されている）。入力画像内に、多数の検知窓Ｗを設定することができる。それぞれの検知窓Ｗは互いに重複しても良い。なお、検知窓Ｗの大きさは、撮影装置の位置と、人物の大きさ及び内包する人物の数等とに基づき設定される。これにより、入力画像の下側（撮影対象の三次元空間中では撮影装置の近傍に相当する）では検知窓Ｗは大きく設定され、入力画像の上側（撮影対象の三次元空間中では撮影装置の遠方に相当する）では検知窓Ｗは小さく設定される。

　また、本実施形態に係る画像処理システムがたむろスコアの算出の際に使用する滞留スコアは、検知窓Ｗ中の下部領域Ｗ１の重みを大きく、上部領域Ｗ２の重みを小さく設定しても良い。この場合、検知窓Ｗ中の下部領域Ｗ１における滞留の検出結果の方が、上部領域Ｗ２における滞留の検出結果よりも、たむろスコアに対して大きな影響を与える。これは、一般的に人間は静止時において下半身の方が上半身よりも動きが小さいため、下部領域Ｗ１の方が好適に滞留を検出できるからである。

　また、人物を検出する方法として頭部や上半身を検出する手法を用いる場合には、下部領域Ｗ１よりも上部領域Ｗ２の重みを大きくして検知窓Ｗの混雑スコアを算出しても良い。これは、人物の大きさに応じて設定される検知窓Ｗにおいて、検出したいたむろが検知窓Ｗ内に存在する場合には、頭部や上半身は、検知窓Ｗの上方により多く存在するはずだからである。

　図２に、たむろスコアを算出する際に滞留スコア及び混雑スコアに乗算する係数（重み）の具体例を示す。図２の例では、下部領域Ｗ２における滞留スコアに対しては１を、上部領域Ｗ１における滞留スコアに対しては０を設定し、下部領域Ｗ２における混雑スコアに対しては０を、上部領域Ｗ２における滞留スコアに対しては１を設定している。しかしながら、係数の設定方法はこれに限られるものではない。例えば滞留スコアに関しては、下部領域Ｗ１における値の方が上部領域Ｗ２における値よりも大きな影響を与えれば、どのように設定してもよく、図２の例のように２値的に設定する必要は無い。混雑スコアに対する係数に関しても同様である。

　また、上部領域Ｗ２及び下部領域Ｗ１の一方の係数を１、他方の係数を０とする場合には、上部領域Ｗ２のみを対象に混雑スコアを算出し、下部領域Ｗ１のみを対象に滞留スコアを算出するようにしても同様の結果が得られる。以下の説明では、係数を用いる場合について説明するが、このように、上部領域Ｗ１又は下部領域Ｗ２の一方のみを対象に混雑スコア又は滞留スコアを算出するようにしても良い。

　（１．１．２　滞留スコアの算出方法）
　以下、滞留スコアの算出方法の概要を、図３乃至図５を参照しながら説明する。

　映像を構成する画像から物体の滞留を検出する方法としては、例えば、長期間（以下、長期時間窓ともいう。）に撮影された多数の撮影画像を平均化等することにより背景画像を作り、この背景画像と、それよりも短い短期間（以下、短期時間窓ともいう。）に撮影された撮影画像を平均化等した背景画像とを比較することにより、当該短期間内に長く映る物体を、滞留する物体として検出することが考えられる。このように、一定期間内の撮影画像から平均的な画像（背景画像）を生成すれば、この画像内では、例えばすぐにフレームアウトするような移動物体（人物を含む。）等の影響を低く抑えることができるため、静止物体を抽出しやすくなる。なお、本実施形態では、複数の画像を元に生成されることにより、移動物体の影響が低く抑えられた画像を背景画像と呼ぶ。

　一方でこのような手法では、人流が常に発生するような場合には、撮影画像を平均化等したとしても、人流の影響が大きくなってしまうため、当該人流の背景への溶け込み具合が長時間窓の背景画像と短期時間窓の背景画像とで変わってしまい、結果として静止物の検出漏れや誤検出が発生しやすくなる。

　そこで、本実施形態に係る画像処理システムでは、撮影画像から、まず移動物体の領域（以下、「前景領域」ともいう。）と、それ以外の静止領域（以下、「背景領域」ともいう。）とを分離した上で、各撮影画像の静止領域を時間方向に平均化などすることにより、背景画像を生成する。これにより、人流などが発生していた場合であっても、人流発生領域は前景領域となるため、生成される背景画像への人流の影響を抑えることが可能となる。これにより、長期時間窓の背景画像と短期時間窓の背景画像とを比較すれば、好適に滞留物体を検出することが可能となる。以下、図３乃至図５を参照しながら、処理の流れの具体例を説明する。

　図３は、時刻ｔ－４～時刻ｔにそれぞれ撮影された入力画像の具体例を示す図である。ここで、時刻ｔ－４及び時刻ｔ－３の画像には誰も写っておらず、時刻ｔ－２～時刻ｔの画像には、人物が映っている。また、時刻ｔ－２では人物は移動しているが、時刻ｔ－１及び時刻ｔでは、人物は停止している。

　本実施形態に係る画像処理システムでは、図３に示したような各入力画像に対し、移動領域（前景領域）と静止領域（背景領域）とに分ける。図２は、図１の入力画像のうち、静止領域のみを抽出した場合の画像の例を示す図である。前述したように、時刻ｔ－２の画像では人物が移動しているので、当該人物を含む領域が移動領域として画像から除かれている。一方、他の画像に関しては、移動領域が存在しないため、換言すると画像全体が静止領域であるため、入力画像のまま変化していない。

　図５に示すように、本実施形態に係る画像処理システムは、静止領域のみを抽出した時刻ｔ－４～時刻ｔの各画像から、複数の時間窓に対して背景画像を生成する。この背景画像は、例えば、現在時刻ｔから過去一定期間内に撮影された各画像の静止領域に対して、画素値の平均値、中央値、または最頻値を画像内の各画素に対して求めることにより生成することができる。背景画像を短期時間窓と長期時間窓とのそれぞれに対して生成すれば、画像処理システムは両者を比較した上で、差異が閾値を超える画素を抽出し、当該画素領域を、滞留領域として特定する。滞留スコアは、当該滞留領域の大きさ（例えば画素数）として算出することが可能である。

　なお、図５の例において、長期時間窓に対する背景画像では人物が表示されていないが、これは、背景画像を生成する際に、各画素に対して例えば画素値の最頻値や中央値等を取ることにより、短時間しか写っていない人物の影響が弱くなるためである。
　本実施形態に係る画像処理システムは、図５に示す処理により、図５の最下部の画像で示すように、適切に滞留物体を検出する。

　（１．２　システム概要）
　以下、図６を参照しながら、本実施形態に係る画像処理システム１のシステム構成を説明する。図６は、画像処理システム１のシステム構成を示すブロック図である。

　画像処理システム１は、画像入力部６０１、前景・背景分離部６０３、背景画像生成部６０５、背景画像記憶部６０７、背景画像比較部６０９、静止領域判定部６１１、滞留スコア算出部６１３、データベース（ＤＢ）６１５、人物検出部６２１、混雑スコア算出部６２３、たむろスコア算出部６２５、及び出力部６２７を含む。

　画像入力部６０１は、図示しない監視カメラなどである撮影装置から入力される映像に含まれるフレーム画像の入力を順次受ける。つまり、各フレーム画像は、それぞれ撮影時刻の異なる画像である。若しくは、画像入力部６０１は、図示しないＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）やＶＣＲ（Ｖｉｄｅｏ　Ｃａｓｓｅｔｔｅ　Ｒｅｃｏｒｄｅｒ）に記憶された映像データを復号して得られるフレーム画像の入力を受けても良い。

　前景・背景分離部６０３は、例えば背景差分法やオプティカルフロー等を用いて、画像入力部６０１から入力されてきた入力画像に対して、順次前景領域と背景領域とを分離する。ここで、前景領域は、画像内の動きのある領域であり、背景領域は動きのない（静止している）領域である。

　オプティカルフローを使用する手法では、前景・背景分離部６０３は、例えば、マクロブロック単位で前のフレームと比較した上で、動きのあるブロックを特定する。より具体的には、例えば、処理対象の画像の各マクロブロック（画素の集合）と類似するマクロブロックが、直前に撮影された画像のどこにあるかを調べる（ブロックマッチング）等により特定することができる。

　背景差分法を用いる場合には、前景・背景分離部６０３は、事前に取得しておいた背景画像と処理対象の画像との差分を比較することにより、移動物体を特定する。

　背景画像生成部６０５は、前景・背景分離部６０３で抽出した背景領域（静止領域の画像）と、背景画像記憶部６０７に記憶されている、定められた複数の時間窓内に撮影された画像に係る背景領域とを用いて、背景画像を生成する。この際、背景画像生成部６０５は、各画像の背景領域に係る各画素位置で得られた時間窓分の画素値の平均値、中央値、または最頻値を算出することにより、背景画像を生成することができる。

　ここで、背景画像記憶部６０７は、前景・背景分離部６０３で逐次抽出される、各入力画像の背景領域にかかる画像を所定時間分記憶する。或いは、背景画像生成部６０５での処理に合わせ、当該背景画像生成部６０５で生成された、各時間窓における背景画像を背景画像記憶部６０７は記憶する。

　背景画像比較部６０９は、背景画像生成部６０５が各時間窓に対して生成した背景画像同士を比較する。より具体的には、最も長い時間窓から生成した背景画像（真の背景で構成されていると想定される背景画像）と、それよりも短い時間窓から生成した背景画像とを比較することにより、一定時間静止している静止物体（滞留物体）を検出することができる。このとき、複数の時間窓の背景で背景画像を生成することにより、静止物体を、静止時間長に応じて分類して検出することも考えられる。

　背景画像比較部６０９による背景画像の比較方法としては、例えば、背景画像間の画素値の差の絶対値を用いる方法や、画像上で小さいサイズの矩形領域を操作しながら、矩形領域内の画素値の相関を算出する方法や、矩形領域内の画素値のヒストグラム距離を算出する方法などが考えられる。矩形領域を用いる手法に関しては、例えば、マクロブロックなどの一定のサイズを設定しても良いし、カメラパラメータ（カメラの設置位置等に応じて設定される）を用いて、検出対象物体（人物）が画像上でどのような大きさで見えるかを考慮した上で、画像上の場所ごとに異なるサイズを設定（例えば、撮影装置の近傍が映っている画像領域は矩形領域を大きく、撮影装置の遠方が映っている画像領域は矩形領域を小さく）しても良い。

　静止領域判定部６１１は、背景画像比較部６０９による比較の結果、例えば閾値を超える差異があった画素を特定した上で、このような画素で構成される画素領域を滞留領域として判定する。なお、本実施形態では、静止領域判定部６１１は入力画像全体に対して滞留領域の特定を行なっているが、これに限られるものではなく、少なくとも処理対象となる検出窓Ｗを含む領域で滞留領域を特定すれば良い。

　滞留スコア算出部６１３は、静止領域判定部６１１で判定した滞留領域を用いて、処理対象となる検知窓Ｗの滞留スコアを算出する。滞留スコアの算出方法としては、前述の通り、例えば検知窓Ｗ内の滞留領域の画素の数等に基づいて算出することが考えられる。ここで、検知窓Ｗの位置や大きさに係る情報は、分割領域情報６１７としてＤＢ６１５に予め設定することが考えられる。このとき、検知窓Ｗは入力画像に対して複数設定することも可能であり、より具体的には、例えば、入力画像の全体に渡って、それぞれの検知窓Ｗが重複するように多数設定することが考えられる。また、検知窓Ｗの大きさはたむろとして特定する人数以上の人物を含みうる大きさとすることが考えられる。また、検知窓Ｗは撮影装置との位置関係（例えば、図示しないカメラパラメータとして設定される）に応じて、撮影装置の近傍に相当する検知窓Ｗは大きく、撮影装置の遠方に相当する検知窓Ｗを小さく設定することが考えられる。

　更に、本実施形態においては、前述の通り、上部領域Ｗ２よりも下部領域Ｗ１の影響が大きくなるように設定された係数が滞留スコアに乗算される。係数は、ＤＢ６１５内に係数情報６１９として格納される。

　人物検出部６２１は、画像入力部６０１から入力された画像から、人物を検出する。人物の検出方法としては種々考えられるが、例えば、頭部や上半身、全身或いは群衆パッチに関する画像上の特徴を学習させた学習器で予め準備しておいた上で、当該学習器を用いて頭部や上半身等を入力画像から検出する方法が考えられる。

　なお、本実施形態では、人物検出部６２１は入力画像全体に対して人物の検出を行なっているが、これに限られるものではなく、少なくとも処理対象となる検出窓Ｗを含む領域で人物検出を行えばよい。

　混雑スコア算出部６２３は、人物検出部６２１で判定した人物検出結果に基づき、処理対象となる検知窓Ｗの混雑スコアを算出する。混雑スコアの算出方法としては、例えば、検知窓Ｗ内に検出された人物の数等に基づいて算出することが考えられる。ここで、前述の通り、上部領域Ｗ２の方が下部領域Ｗ１よりも影響が大きくなるように設定された係数が混雑スコアに算出される。係数は、係数情報６１９として格納される。
　なお、混雑スコア算出部６２３は、処理対象である検知窓Ｗにおける人数を時系列的に記憶しておき、その増減を検出するようにしても良い。

　たむろスコア算出部６２５は、滞留スコア算出部６１３で算出した滞留スコア及び混雑スコア算出部６２３で算出した混雑スコアを用いて、処理対象の検知窓Ｗにおけるたむろスコアを算出する。たむろスコアの算出方法としては種々考えられるが、例えば、それぞれ係数が乗算された滞留スコア及び混雑スコアを乗算した値をたむろスコアとする方法などが考えられる。

　出力部６２７は、たむろスコア算出部６２５により求めたたむろスコアに基づき、たむろ検出結果を出力する。出力方法としては種々考えられるが、例えば、検知窓Ｗに対するたむろスコアを数値として表示しても良いし（複数の検知窓Ｗが設定されている場合には、それぞれたむろスコアを表示すれば良い）、たむろスコアに応じた検知窓Ｗ（例えば、たむろスコアの大きさに応じた太さの検知窓Ｗを示す画像）を、入力画像に重畳させても良い。また、音声などによりたむろスコアに応じた情報をユーザに報知することも考えられる。

　なお、上述のように、混雑スコア算出部６２３が人数の時系列的な増減を検出している場合、出力部６２７は、所定領域において徐々に人数が増加している（所定領域に徐々に人間が集合している）ことを示す情報を、別途出力しても良い。

　このとき出力部６２７は、たむろスコアが閾値を超えた場合にのみユーザに報知しても良い。或いは、出力部６２７は、たむろスコアが閾値を超えた持続時間に応じて、ユーザに報知することも考えられる。たむろスコアの閾値は、予め設定することも考えられるし、或いは、ユーザ入力により設定することも考えられる。

　さらに、混雑スコア算出部６２３が人数の増減を検知している場合には、出力部６２７はその情報も出力するようにしても良い。

　（１．３　処理の流れ）
　以下、画像処理システム１の処理の流れを、図７乃至図９を参照しながら説明する。図７乃至図９は、本実施形態に係る画像処理システム１の処理の流れを示すフローチャートである。

　なお、後述の各処理ステップは、処理内容に矛盾を生じない範囲で、任意に順番を変更して若しくは並列に実行することができ、また、各処理ステップ間に他のステップを追加しても良い。更に、便宜上１つのステップとして記載されているステップは複数のステップに分けて実行することもでき、便宜上複数に分けて記載されているステップを１ステップとして実行することもできる。

　（１．３．１　全体の処理の流れ）
　まず、全体の処理の流れを図７を参照しながら説明する。
　滞留スコア算出部６１３は、画像入力部６０１から入力された画像の検知窓Ｗに対する滞留スコアを算出する（Ｓ７０１）。滞留スコア算出に至る画像処理システム１の処理の流れは、図８を参照しながら後述する。

　また混雑スコア算出部６２３は、画像入力部６０１から入力された画像の検知窓Ｗに対する混雑スコアを算出する（Ｓ７０３）。混雑スコア算出に至る画像処理システム１の処理の流れは、図９を参照しながら後述する。なお、Ｓ７０１及びＳ７０３の処理順序は逆でもよく、若しくは、並行して処理を行なってもよい。

　滞留スコア及び混雑スコアが求まれば、たむろスコア算出部６２５は、滞留スコア及び混雑スコアにもとづいてたむろスコアを算出する（Ｓ７０５）。出力部６２７は、算出されたたむろスコアに基づき、検知窓Ｗに係るたむろ検出結果を出力する（Ｓ７０７）。

　（１．３．２　滞留スコア算出に係る処理の流れ）
　続いて、図８を参照しながら、滞留スコアの算出に係る画像処理システム１の処理の流れを説明する。当該処理は、図７のＳ７０１に相当する。

　まず画像入力部６０１は、例えばビデオカメラ等の撮影装置で撮影された画像や、撮影装置で撮影された映像が記録された映像データを読みだした上で、当該映像データを復号して得られる画像の入力を受ける（Ｓ８０１）。

　前景・背景分離部６０３は、画像入力部６０１から入力された画像のうち、静止している背景領域と、移動が生じている前景領域とに分離する（Ｓ８０３）。生成された背景領域の画像は、例えば背景画像記憶部６０７に記憶される。

　背景画像生成部６０５は、予め設定した時間窓内に撮影された各画像のうちの、前景・背景分離部６０３により特定された背景領域を使用して、背景画像を生成する（Ｓ８０５）。このとき背景画像生成部６０５は、抽出するたむろに係る人物の滞留時間に応じて、複数の時間窓に対して背景画像を生成する。

　背景画像比較部６０９は、背景画像生成部６０５が生成した、各時間窓の背景画像をそれぞれ比較し（Ｓ８０７）、静止領域判定部６１１は、背景画像間の差異が閾値以上である領域を、滞留領域として特定する（Ｓ８０９）。滞留スコア算出部６１３は、処理対象である検知窓Ｗ内の滞留領域の大きさ等に基づき、滞留スコアを算出する（Ｓ８１１）。このとき、検知窓Ｗ内の滞留領域に含まれる画素の位置などに基づき、滞留スコアに所定の係数を乗算しても良い。

　（１．３．３　混雑スコア算出に係る処理の流れ）
　続いて、図９を参照しながら、混雑スコアの算出にかかる画像処理システム１の処理の流れを説明する。当該処理は、図７のＳ７０３に相当する。

　まず画像入力部６０１は、例えばビデオカメラ等の撮影装置で撮影された画像や、撮影装置で撮影された映像が記録された映像データを読みだした上で、当該映像データを復号して得られる画像の入力を受ける（Ｓ９０１）。なお、当該処理は図８の処理のＳ８０１と兼ねることができる。
　人物検出部６２１は、入力画像から人物を検出する（Ｓ９０３）。前述の通り、人物の検出方法としては、頭部検出や上半身検出などが考えられる。

　混雑スコア算出部６２３は、人物検出部６２１が検出した人物検出結果に基づき、処理対象である検知窓Ｗ内の混雑スコアを算出する（Ｓ９０５）。混雑スコアは、例えば検知窓Ｗ内で検出された人物の数等に基づき算出できる。またこのとき、検知窓Ｗ内の検出人物の位置などに基づき、混雑スコアに所定の係数を乗算しても良い。

　（１．４　ハードウェア構成）
　以下、図１０を参照しながら、上述してきた画像処理システム１をコンピュータにより実現する場合のハードウェア構成の一例を説明する。なお、画像処理システム１の機能は、複数の情報処理装置により実現することも可能である。

　図１０に示すように、画像処理システム１は、プロセッサ１００１、メモリ１００３、記憶装置１００５、入力インタフェース（Ｉ／Ｆ）１００７、データＩ／Ｆ１００９、通信Ｉ／Ｆ１０１１、及び表示装置１０１３を含む。

　プロセッサ１００１は、メモリ１００３に記憶されているプログラムを実行することにより画像処理システム１における様々な処理を制御する。例えば、図６で説明した画像入力部６０１、前景・背景分離部６０３、背景画像生成部６０５、背景画像比較部６０９、静止領域判定部６１１、滞留スコア算出部６１３、人物検出部６２１、混雑スコア算出部６２３、たむろスコア算出部６２５、及び出力部６２７に係る処理は、メモリ１００３に一時記憶された上で主にプロセッサ１００１上で動作するプログラムとして実現可能である。

　メモリ１００３は、例えばＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の記憶媒体である。メモリ１００３は、プロセッサ１００１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。例えば、メモリ１００３の記憶領域には、プログラム実行時に必要となるスタック領域が確保される。

　記憶装置１００５は、例えばハードディスクやフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置１００５は、オペレーティングシステムや、画像入力部６０１、前景・背景分離部６０３、背景画像生成部６０５、背景画像比較部６０９、静止領域判定部６１１、滞留スコア算出部６１３、人物検出部６２１、混雑スコア算出部６２３、たむろスコア算出部６２５、及び出力部６２７を実現するための各種プログラムや、背景画像記憶部６０７及びＤＢ６１５を含む各種データ等を記憶する。記憶装置１００５に記憶されているプログラムやデータは、必要に応じてメモリ１００３にロードされることにより、プロセッサ１００１から参照される。

　入力Ｉ／Ｆ１００７は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ１００７の具体例としては、キーボードやマウス、タッチパネル等が挙げられる。入力Ｉ／Ｆ１００７は、例えばＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）等のインタフェースを介して画像処理システム１に接続されても良い。

　データＩ／Ｆ１００９は、画像処理システム１の外部からデータを入力するためのデバイスである。データＩ／Ｆ１００９の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ１００９は、画像処理システム１の外部に設けられることも考えられる。その場合、データＩ／Ｆ１００９は、例えばＵＳＢ等のインタフェースを介して画像処理システム１へと接続される。

　通信Ｉ／Ｆ１０１１は、画像処理システム１の外部の装置、例えばビデオカメラ等との間で有線又は無線によりデータ通信するためのデバイスである。通信Ｉ／Ｆ１０１１は画像処理システム１の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ１０１１は、例えばＵＳＢ等のインタフェースを介して画像処理システム１に接続される。

　表示装置１０１３は、例えば図１に示したような映像等の各種情報を表示するためのデバイスである。表示装置１０１３の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ等が挙げられる。表示装置１０１３は、画像処理システム１の外部に設けられても良い。その場合、表示装置１０１３は、例えばディスプレイケーブル等を介して画像処理システム１に接続される。

　（１．５　本実施形態に係る効果）
　以上説明したように、本実施形態に係る画像処理システム１は、入力画像内の滞留領域にもとづいて算出される滞留スコアと、入力画像から検出される人物に基づいて算出される混雑スコアとを用いて、複数人物の滞留（たむろ）を検出する。これにより、一定時間以上滞留する物体が多く含まれると共に、人物が多く存在している領域をたむろとして好適に検知することができる。

　また、滞留領域の特定に際しては複数の時刻に渡って撮影された画像から生成される背景画像を用いることにより、複数人物の滞留領域が一時的にその前方を移動する他の人物等により遮られるような場合であったとしても、その影響を低減しつつ、好適にたむろを検出することができる。

　（２　第２実施形態）
　以下、第２実施形態を、図１１を参照しながら説明する。図１１は、画像処理システム１１００の機能構成を示すブロック図である。図１１に示すように、画像処理システム１１００は、生成部１１１０と、第１検出部１１２０と、第２検出部１１３０と、第３検出部１１４０とを含む。
　生成部１１１０は、撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する。

　第１検出部１１２０は、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する。
　第２検出部１１３０は、入力画像の部分領域に映る１以上の人物を検出する。
　第３検出部１１４０は、滞留の検出結果及び人物の検出結果に基づき、部分領域における複数人物の滞留を検出する。
　このように実装することで、本実施形態に係る画像処理システム１１００によれば、複数人物の滞留を好適に検出することができる。

　（３　付記事項）
　なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。

　なお、前述の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。また、本発明のプログラムは、上記の各実施形態で説明した各動作を、コンピュータに実行させるプログラムであれば良い。

　（付記１）
　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する生成手段と、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する第１の検出手段と、入力画像の前記部分領域に映る１以上の人物を検出する第２の検出手段と、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する第３の検出手段とを備える画像処理システム。

　（付記２）
　前記背景画像は、入力画像のうち、動きのない静止領域に基づいて生成される、付記１記載の画像処理システム。

　（付記３）
　前記部分領域の大きさは、入力画像を撮影する前記撮影装置の位置と、入力画像内の前記部分領域とに応じて設定される、付記１又は付記２記載の画像処理システム。

　（付記４）
　前記部分領域内の下部領域における滞留の検出結果の方が、上部領域における滞留の検出結果よりも、前記複数人物の滞留の検出結果に大きな影響を与える、付記１乃至付記３のいずれか１項記載の画像処理システム。

　（付記５）
　前記部分領域における前記複数人数の滞留の検出結果を報知する出力手段を更に備える、付記１乃至付記４のいずれか１項記載の画像処理システム。

　（付記６）
　前記出力手段は、前記複数人数の滞留の度合いに応じて報知方法を変える、付記５記載の画像処理システム。

　（付記７）
　前記出力手段は、前記複数人数の滞留の度合いが閾値を超えた時間に基づいて報知する、付記５記載の画像処理システム。

　（付記８）
　前記閾値はユーザが設定可能である、付記７記載の画像処理システム。

　（付記９）
　前記第２の検出手段は、前記部分領域における人数の増減を検出し、前記出力手段は、前記第２の検出手段による前記人数の増減の検出結果に基づき、所定領域において徐々に人物が集合していることを示す情報を別途報知する、付記５乃至付記８のいずれか１項記載の画像処理システム。

　（付記１０）
　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成するステップと、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出するステップと、入力画像の前記部分領域に映る１以上の人物を検出するステップと、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出するステップとを画像処理システムが行う、画像処理方法。

　（付記１１）
　前記背景画像は、入力画像のうち、動きのない静止領域に基づいて生成される、付記１０記載の画像処理方法。

　（付記１２）
　前記部分領域の大きさは、入力画像を撮影する前記撮影装置の位置と、入力画像内の前記部分領域とに応じて設定される、付記１０又は付記１１記載の画像処理方法。

　（付記１３）
　前記部分領域内の下部領域における滞留の検出結果の方が、上部領域における滞留の検出結果よりも、前記複数人物の滞留の検出結果に大きな影響を与える、付記１０乃至付記１２のいずれか１項記載の画像処理方法。

　（付記１４）
　前記部分領域における前記複数人数の滞留の検出結果を報知するステップを更に備える、付記１０乃至付記１３のいずれか１項記載の画像処理方法。

　（付記１５）
　前記複数人数の滞留の度合いに応じて報知方法を変える、付記１４記載の画像処理方法。

　（付記１６）
　前記複数人数の滞留の度合いが閾値を超えた時間に基づいて報知する、付記１４記載の画像処理方法。

　（付記１７）
　前記閾値はユーザが設定可能である、付記１６記載の画像処理方法。

　（付記１８）
　前記部分領域における人数の増減を検出し、前記第２の検出手段による前記人数の増減の検出結果に基づき、所定領域において徐々に人物が集合していることを示す情報を別途報知する、付記１４乃至付記１７のいずれか１項記載の画像処理方法。

　（付記１９）
　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する処理と、処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する処理と、入力画像の前記部分領域に映る１以上の人物を検出する処理と、滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する処理とをコンピュータに実行させるプログラム。

　（付記２０）
　前記背景画像は、入力画像のうち、動きのない静止領域に基づいて生成される、付記１９記載のプログラム。

　（付記２１）
　前記部分領域の大きさは、入力画像を撮影する前記撮影装置の位置と、入力画像内の前記部分領域とに応じて設定される、付記１９又は付記２０記載のプログラム。

　（付記２２）
　前記部分領域内の下部領域における滞留の検出結果の方が、上部領域における滞留の検出結果よりも、前記複数人物の滞留の検出結果に大きな影響を与える、付記１９乃至付記２１のいずれか１項記載のプログラム。

　（付記２３）
　前記部分領域における前記複数人数の滞留の検出結果を報知する出力処理を更にコンピュータに実行させる、付記１９乃至付記２２のいずれか１項記載のプログラム。

　（付記２４）
　前記複数人数の滞留の度合いに応じて報知方法を変える、付記２３記載のプログラム。

　（付記２５）
　前記複数人数の滞留の度合いが閾値を超えた時間に基づいて報知する、付記２３記載のプログラム。

　（付記２６）
　前記閾値はユーザが設定可能である、付記２５記載のプログラム。

　（付記２７）
　前記部分領域における人数の増減を検出し、前記第２の検出手段による前記人数の増減の検出結果に基づき、所定領域において徐々に人物が集合していることを示す情報を別途報知する、付記２３乃至付記２６のいずれか１項記載のプログラム。

　この出願は、２０１３年８月２７日に出願された日本出願特願２０１３－１７６０８２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１・・・画像処理システム、６０１・・・画像入力部、６０３・・・前景・背景分離部、６０５・・・背景画像生成部、６０７・・・背景画像記憶部、６０９・・・背景画像比較部、６１１・・・静止領域判定部、６１３・・・滞留スコア算出部、６１５・・・データベース、６１７・・・分割領域情報、６１９・・・係数情報、６２１・・・人物検出部、６２３・・・混雑スコア算出部、６２５・・・たむろスコア算出部、６２７・・・出力部、１００１・・・プロセッサ、１００３・・・メモリ、１００５・・・記憶装置、１００７・・・入力インタフェース、１００９・・・データインタフェース、１０１１・・・通信インタフェース、１０１３・・・表示装置、１１００・・・画像処理装置、１１１０・・・生成部、１１２０・・・第１検出部、１１３０・・・第２検出部、１１４０・・・第３検出部、Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５・・・人物、Ｗ・・・検知窓

Claims

　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する生成手段と、
　処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する第１の検出手段と、
　入力画像の前記部分領域に映る１以上の人物を検出する第２の検出手段と、
　滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する第３の検出手段と
を備える画像処理システム。
　前記背景画像は、入力画像のうち、動きのない静止領域に基づいて生成される、
請求項１記載の画像処理システム。
　前記部分領域の大きさは、入力画像を撮影する前記撮影装置の位置と、入力画像内の前記部分領域とに応じて設定される、
請求項１又は請求項２記載の画像処理システム。
　前記部分領域内の下部領域における滞留の検出結果の方が、上部領域における滞留の検出結果よりも、前記複数人物の滞留の検出結果に大きな影響を与える、
請求項１乃至請求項３のいずれか１項記載の画像処理システム。
　前記部分領域における複数人数の滞留の検出結果を報知する出力手段
を更に備える、請求項１乃至請求項４のいずれか１項記載の画像処理システム。
　前記出力手段は、前記複数人数の滞留の度合いに応じて報知方法を変える、
請求項５記載の画像処理システム。
　前記出力手段は、前記複数人数の滞留の度合いが閾値を超えた時間に基づいて報知する、
請求項５記載の画像処理システム。
　前記閾値はユーザが設定可能である、
請求項７記載の画像処理システム。
　前記第２の検出手段は、前記部分領域における人数の増減を検出し、
　前記出力手段は、前記第２の検出手段による前記人数の増減の検出結果に基づき、所定領域において徐々に人物が集合していることを示す情報を別途報知する、
請求項５乃至請求項８のいずれか１項記載の画像処理システム。
　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成するステップと、
　処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出するステップと、
　入力画像の前記部分領域に映る１以上の人物を検出するステップと、
　滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出するステップと
を画像処理システムが行う、画像処理方法。
　撮影装置により複数の時刻に撮影された入力画像に基づいて背景画像を生成する処理と、
　処理時刻から第１の時間幅内に撮影された入力画像に基づき生成された第１の背景画像と、前記処理時刻から第２の時間幅内に撮影された入力画像に基づき生成された第２の背景画像との差分に基づき、入力画像内の、複数の人物が映り得る部分領域に対して滞留を検出する処理と、
　入力画像の前記部分領域に映る１以上の人物を検出する処理と、
　滞留の検出結果及び人物の検出結果に基づき、前記部分領域における複数人物の滞留を検出する処理と
をコンピュータに実行させるプログラム。