WO2018061976A1

WO2018061976A1 - 画像処理装置

Info

Publication number: WO2018061976A1
Application number: PCT/JP2017/034088
Authority: WO
Inventors: 佑一郎小宮; 山口　宗明; 裕章中北; 一成岩永; 純一富樫; 洋平秋元; 正也岡田; 佐々　敦; 伊藤　渡
Original assignee: 株式会社日立国際電気
Priority date: 2016-09-28
Filing date: 2017-09-21
Publication date: 2018-04-05
Also published as: JP6616521B2; SG11201901574XA; JPWO2018061976A1; US10853949B2; US20190180447A1

Abstract

映像内の混雑状況に応じて映像解析手法を適応的に切り替え、限られた演算量によって好適な映像解析を行う技術を提供する。　画像処理装置１００の混雑度推定部１０２は、画像入力部１０１から取得した映像内の混雑状況を推定する。制御部１０３は混雑状況に応じて、映像解析の手法を切り替える。混雑度が低い場合には、通常時用画像解析部１０５が単純な手法によって映像解析を行い、混雑度が高い場合においては、混雑時用画像解析部１０６が複数フレームに渡る解析等の精度の高い映像解析を行う。

Description

画像処理装置

　本発明は、映像解析技術により映像装置の映像から情報を抽出する画像処理装置に関する。

　映像監視システムにおいて、監視カメラの映像を解析することにより、撮像された場所の状況を自動推定する技術が提案されている。例えば、監視カメラの映像から人物の滞留及び置き去りにされた物体を検出する技術がある（例えば、特許文献１及び２参照）。この画像処理技術は、異なる時間幅内で撮影された各画像フレームより生成された２つの画像を用いて滞留および置き去りにされた物体の検出を行う差分法処理を用いている。さらに、各画像領域の信頼度を算出することにより誤報を抑える技術を適用することで、信頼性向上を図った技術もある。

国際公開第１６／０２１１４７号パンフレット特開２０１６－０３７３８７号公報特開２００５－３４６２６１号公報国際公開第１５／１１９０４４号パンフレット

　ところで、上述した手法では人が多く行きかう領域においては、誤報の発生は抑えられるものの、人物の滞留及び置き去りにされた物体の検出は行われないという課題があった。人が多く行きかうような場合に、人物の滞留及び置き去りにされた物体の検出を行うには、例えば複数フレームに渡って画像内の物体の動きを追跡することにより、物体を個々に分離して捉えることが考えられるが、そのような手法は上述した画像の差分によって検出する手法に比べて演算量が大きくなることから、別の技術の導入が求められていた。

　本発明は、このような状況に鑑みなされたもので、上記課題を解決することを目的とする。

　本発明は、映像装置が撮影した映像から情報を抽出する画像処理装置であって、前記映像をもとに、撮影領域の混雑度をリアルタイムで推定する混雑度推定器と、複数の画像解析技術を用いて前記映像から背景以外の物体の情報をそれぞれ抽出する複数の画像解析器と、前記推定された混雑度に応じて、前記複数の画像解析器から画像解析に用いる画像解析器を選択する制御器と、を備える。
　また、前記複数の画像解析技術は、リアルタイムで処理する第1の解析技術と、非リアルタイムで処理する第２の解析技術とを含み、前記物体の情報は、人物の領域及び放置物の領域に関する情報を含み、前記映像を記録する画像記録機を備え、前記画像解析器は、混雑度変化の履歴情報に応じて、前記画像解析に用いる映像を前記画像記録機から取得して第２の解析技術による画像解析を行ってもよい。
　また、前記映像装置は複数であって、前記混雑度推定器は、前記複数の映像装置に対応して複数設けられ、それぞれの映像の混雑度を推定し、前記制御器は、前記複数の映像装置の映像のそれぞれの混雑度に応じ、該混雑度が高いほど前記第２の解析技術が選択されやすくなる様態で、前記画像解析に用いる前記画像解析部を選択してもよい。

　本発明によると、映像内の混雑状況に応じて映像解析手法を適応的に切り替え、限られた演算量によって好適な映像解析を行う技術を提供することを目的とする。

第１の実施形態に係る、画像処理装置の構成を示したブロック図である。第１の実施形態に係る、混雑度推定部のブロック図である。第１の実施形態に係る、群衆とヒートマップの関係を示した図である。第２の実施形態に係る、画像処理装置の構成を示したブロック図である。

　次に、本発明を実施するための形態（以下、単に「実施形態」という）を、図面を参照して具体的に説明する。

　＜第１の実施形態＞　図１は、本実施形態に係る画像処理装置１００の構成を示したブロック図である。画像処理装置１００は、監視システムとして機能する装置であって、画像入力部１０１と、混雑度推定部１０２と、制御部１０３と、画像記録部１０４と、通常時用画像解析部１０５と、混雑時用画像解析部１０６と、出力部１０７とを備える。

　画像入力部１０１は、任意の数Ｎ個の第１～第Ｎ画像入力部１０１＿１～１０１＿Ｎを備える。混雑度推定部１０２は、Ｎ個の第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎを備える。

　第１～第Ｎ画像入力部１０１＿１～１０１＿Ｎは、それぞれ、例えば監視カメラ等の撮像装置（撮像素子）、もしくはそれとのインタフェースであり、人が往来する道路等の映像を取得し、第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎ及び通常時用画像解析部１０５へ出力する。

　第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎは、第１～第Ｎ画像入力部１０１＿１～１０１＿Ｎから取得した映像から混雑度を推定する。混雑度は、例えば特許文献４に記載されているように、映像を構成する画像フレーム（以下、単に「フレーム」という）間のエッジの変化量から推定する。第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎは、Ｈ．２６４等で符号化された映像を復号するデコーダと一体に構成することができ、その場合、予測符号化された符号の発生量から混雑度が推定され得る。

　図２は、第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎそれぞれの構成を示すブロック図であり、図中では「混雑度推定部１０２」として表記している。本実施形態における混雑度推定方式を行うために、混雑度推定部１０２は、エッジ画像生成部２０１と、フレームメモリ２０２と、差分処理部２０３と、混雑度算出２０４とを備える。

　エッジ画像生成部２０１は、第１画像入力部１０１＿１から取得した入力画像から、例えばＣａｎｎｙアルゴリズムに基づくエッジを抽出したエッジ画像を生成し、フレームメモリ２０２と差分処理部２０３へ出力する。なお、本例で説明するエッジ画像には、輪郭やテクスチャを抽出する各種のフィルタで生成されたものも含まれる。

　フレームメモリ２０２は、エッジ画像生成部２０１から取得したエッジ画像を１フレーム分保持し、遅延させて差分処理部２０３へ出力する。

　差分処理部２０３は、入力した時間が異なる２枚のエッジ画像の差分を取ることにより、エッジ差分画像を生成する。すなわち、エッジ画像生成部２０１から直接取得したエッジ画像とフレームメモリ２０２から取得したエッジ画像とからエッジ差分画像を生成し、混雑度算出部２０４へ出力する。差分は、多値の画素値の算術的な差分（の絶対値）、２値化画素値の排他的論理和のどちらでもよい。

　混雑度算出部２０４は、差分処理部２０３から取得したエッジ差分画像から、エッジの変化量を抽出し、その値（変化量）から混雑度を推定し、推定した混雑度を混雑度推定値として制御部１０３へ出力する。例えば、エッジ差分の絶対値を１フレーム内に亘って加算した値（エッジ変化量そのもの）を、混雑度としても良い。もしくは、回帰分析等の機械学習によって、混雑度とエッジ変化量の関係を定めても良い。これらの混雑度は、画像の視野角内の平均的な混雑度を示す。なお、混雑度算出部２０４は、例えば画像処理を行うサーバに集約してもよいし、監視カメラ等の撮像装置が有してもよい。

　図３を参照して、混雑度算出部２０４の付加的な処理を説明する。混雑度算出部２０４は任意で、監視映像から群集測定を行う。例えば、混雑度算出部２０４は、監視映像に基づいて群衆をヒートマップで表し、群衆の規模（空間的なサイズ）及び個々の群衆内の混雑度を測定する。

　図３は群衆とヒートマップの関係を示した図である。図３（ａ）は群衆が映っている監視映像を示し、図３（ｂ）はそれをヒートマップとして表したものである。まず、混雑度算出部２０４は、群衆が写っている監視映像に対して所定の画像処理を行い、図３（ｂ）に示すように、群衆混雑度レベルを等高線状に表現するヒートマップ画像を作成する。本例では、群衆レベルごとに、青＜緑＜黄＜赤の順で表示される。すなわち、群衆レベルが低密度である場合には、ヒートマップ上では「青」で表示される。群衆レベルが高密度である場合には、ヒートマップ上では「赤」で表示される。

　ヒートマップ画像は、差分処理部２０３から取得したエッジ差分画像を所定時間累積加算し、ガウスフィルタ等の空間フィルタを施したものである。人の群集のみを正確に測定しようとする場合は、累積加算の前に、エッジ差分の高い画素をクラスタリングし、そのサイズに基づいて人より小さな移動体を除外する方法を用いることができる。次に、混雑度算出部２０４は、群衆サイズとして、例えば、黄レベル以上の領域を特定し、その幅や面積を測定する。幅を群衆サイズとして用いる場合、領域の両端（Ｘ軸方向の両側端）の座標をホモグラフィ行列によりワールド座標系に変換後、それらの間の距離を計算することにより、群衆サイズを測定できる。つまり群衆は実質的に地平面上に存在すると仮定できるので、平面を別の平面に射影するホモグフィ変換が利用できる。なお処理負荷や処理能力に応じて、群衆レベルの階層数や群衆サイズの測定手法が選択されてもよい。

　図２の説明に戻る。制御部１０３は、混雑度推定部１０２から取得した混雑度推定値をもとに、混雑状態にあるか否かを判断し、混雑状態にある入力画像を検出し、その情報を出力する。ここでは、制御部１０３は、第１～第Ｎ混雑度推定部１０２＿１～１０２＿Ｎから取得した、Ｎ個の混雑度（混雑度推定値）の推移を記録する。そして、例えば一定期間内の積分値が閾値を超えた場合に、混雑度ｎに対する入力画像を混雑状態であると判定し、その情報（混雑情報）を画像記録部１０４及び出力部１０７へ出力する。

　本実施形態の処理では、混雑状態であると判断された入力画像のみを演算量の大きい混雑時用画像解析部１０６にて処理を行わせる。仮に、混雑時用画像解析部１０６が、任意の数Ｌ（Ｌ＜Ｎ）の入力画像までしか処理する性能が無い場合に、混雑状態と判定された入力画像がＬより大きい場合は、例えば混雑度の積分値が大きいものからＬ個を抽出し、混雑状態である入力画像として出力する。

　画像記録部１０４は、第１～第Ｎ画像入力部１０１＿１～１０１＿Ｎから取得した映像をハードディスク等の不揮発性記憶媒体に記録し、制御部１０３から混雑情報を受けた時は、記録した映像を出力する。なおタイムシスト再生はハードディスクへの書込みの支障となる場合があり、書込みバッファ等の一時メモリに保持した映像を出力してもよい。

　通常時用画像解析部１０５は第１～第Ｎ画像入力部１０１＿１～１０１＿Ｎから取得したＮ個の入力画像を実質的にリアルタイムに解析し、その結果を出力する。例えば、置去りにされた物体の検出の場合は、背景差分処理により、前景領域を関心領域として抽出し、その前景領域が一定期間以上存在する場合に置き去りにされた物体として検知する。或いは、人数カウントの場合は、同様に抽出した関心領域の空間サイズが人として想定されるサイズに合致する場合に、1人の人として計数する。なお関心領域の空間サイズによっては、１つの関心領域を複数の人として計数してもよい。またカウントには、画像中の人を全員計数する方法と、画像中に設けた判定ラインを通過する人数を計数する方法がある。

　上述した置き去りにされた物体（人物の滞留を含む）の検出技術は、背景差分によるものであるので、移動する物体の影響が背景画像に強く残る混雑時には誤検出が多くなるという課題があり、誤検出防止には、処理情報量を多くした高負荷の処理が必要になる。例えば複数の人の姿が隙間なく重なるほど密集した映像では、関心領域は同じ場所に留まり続けるので、群衆が移動していても通過人数のカウントは増加しない。

　混雑時用画像解析部１０６は、画像記録部１０４から取得した最大でＬ個の入力画像を同時に解析し、その結果を出力する。混雑時用画像解析部１０６が取得する画像は制御部１０３にて混雑状態にあると判断された入力画像である。そのため、混雑時においても好適に動作する方式が用いられる必要がある。

　混雑時用画像解析部１０６に入力される映像は、映像記録装置１０３の出力であるため必ずしもリアルタイムで処理する必要は無く、映像の撮影レートより遅い若しくは速いレートで処理してもよい。また、混雑状態と判定された直後から特徴点の追跡による人数カウント等を得るために、制御部１０３によって入力画像が混雑状態と判定される前の映像に遡って処理してもよい。

　置去りにされた物体の検出の場合、例えば、特徴点の追跡によって行う技術がある。特徴点とは、画面内にて、画像処理による追跡に適した点のことを指し、周知のコーナー検出（Harris、FASTやShi-Tomasi等）やSIFT(Scale Invariant Feature Transform)が利用できる。この技術では、特徴点の追跡を複数フレームにわたり行うことにより、特徴点の軌跡を抽出する。抽出した軌跡を、その動きの振る舞いによってクラスタリングすることにより、個々の物体を分離して抽出することが可能となる。この技術を放置物の検出や正確な混雑度（特に人数）の推定に適用することができる。例えば、一定期間以上、画面内で全く動いていない特徴点クラスタが存在し、それらの特徴点が背景画像からは検出されず、クラスタの空間サイズが放置物として想定されるサイズに合致する場合に、それを放置物として検知する。また人の歩行速度に相当する変動のある動きを示すクラスタを、その空間サイズに応じて１人若しくは複数の人或いは群衆（の一部）として検知する。
　放置物及び滞留として検出画像解析に用いる映像は、混雑度変化の履歴情報に応じて、映像記録装置から取得する。

　画像解析に用いる映像は、混雑度変化の履歴情報に応じて、映像記録装置から取得する。なお上述した混雑時用画像解析部１０６で用いる画像解析技術は、通常時用画像解析部１０５で用いる技術よりも演算量は大きいものとなる。しかし、例えば、ＦＰＧＡ（field-programmable gate array）を用いた外部装置やＧＰ－ＧＰＵ（General-purpose computing on graphics processing unit）を用いることによりリアルタイム以上での動作も可能となる。

　出力部１０７は入力した映像解析の結果を統合して出力する。

　このように、画像処理装置１００は、映像内の混雑状況を推定し、推定された混雑状況に応じて、映像解析の手法を切り替える。例えば、混雑度が低い場合には単純な手法によって映像解析を行い、混雑度が高い場合においては、複数フレームに渡る解析等の精度の高い映像解析を行う。その結果、映像内の混雑状況に応じて映像解析手法を適応的に切り替え、限られた演算量によって精度の高い映像解析を行うことができる。

　＜第２の実施形態＞　図４は、本実施形態に係る画像処理装置４００の構成を示したブロック図である。画像処理装置４００は、映像を記録する機能を有さず、画像入力部４０１（第１～第Ｎ画像入力部４０１＿１～４０１＿Ｎ）から取得した映像をリアルタイムで映像解析処理する。具体的な構成は次の通りである。

　画像処理装置４００は、画像入力部４０１と、混雑度推定部４０２と、制御部４０３と、映像分配部４０４と、混雑時用映像解析部４０５と、通常時用映像解析部４０６と、出力部４０７とを備える。

　画像入力部４０１は、任意の数Ｎ個の第１～第Ｎ画像入力部４０１＿１～４０１＿Ｎを備える。混雑度推定部４０２は、Ｎ個の第１～第Ｎ混雑度推定部４０２＿１～４０２＿Ｎを備える。

　第１～第Ｎ画像入力部４０１＿１～４０１＿Ｎは、それぞれ、例えば監視カメラ等の撮像装置に接続され、それら撮像装置から映像を取得し、第１～第Ｎ混雑度推定部４０２＿１～４０２＿Ｎ及び映像分配部４０４へ出力する。

　第１～第Ｎ混雑度推定部４０２＿１～４０２＿Ｎは、第１～第Ｎ画像入力部４０１＿１～４０１＿Ｎから取得した映像から混雑度を推定する。混雑度の推定方法は、第１の実施形態と同様である。

　映像分配部４０４は、制御部４０３からの情報をもとに、取得したＮ個の入力画像（映像）のうち、Ｌ個の映像を混雑時用映像解析部４０５へ、Ｍ個の映像を通常時用映像解析部４０６へ出力する。ただし、Ｎ＝Ｌ＋Ｍである。

　すなわち、制御部４０３から各映像の混雑度の推定結果を取得した映像分配部４０４は、その混雑度の推定元となった映像に関して、混雑度が高いＬ個の映像を混雑時用映像解析部４０５へ、混雑度が低いＭ個の映像を通常時用映像解析部４０６へ出力する。

　混雑度の高い入力画像を混雑時用映像解析部４０５が、混雑度の低い入力画像を通常時用映像解析部４０６が、それぞれリアルタイムにて画像解析を行う。

　その結果、混雑時用映像解析部４０５に高い演算能力を配分し、通常時用映像解析部４０６に相対的に低い演算能力を配分することができ、処理能力の最適化をはかり、リアルタイムの画像解析が可能となる。なお、同じ演算能力である場合には、混雑時用映像解析部４０５への配分数を少なくし、通常時用映像解析部４０６への配分数を多くするという振り分けも可能である。いずれにせよ、演算能力の最適化を行うことができる。

　以上、本発明を実施形態をもとに説明した。この実施形態は例示であり、それらの各構成要素の組み合わせにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。例えば、上記の実施形態では、混雑度が高い場合と低い場合の２通りに分けて、通常時用画像解析部１０５（通常時用映像解析部４０６）、混雑時用画像解析部１０６（混雑時用映像解析部４０５）を切り替えたが、画像解析部（映像解析部）を３以上設けて、混雑度に応じて用いる画像解析部（映像解析部）を切り替えてもよい。

１００、４００　画像処理装置１０１、４０１　画像入力部１０１＿１、４０１＿１　第１画像入力部１０１＿２、４０１＿２　第２画像入力部１０１＿３、４０１＿３　第３画像入力部１０１＿Ｎ、４０１＿Ｎ　第Ｎ画像入力部１０２、４０２　混雑度推定部１０２＿１、４０２＿１　第１混雑度推定部１０２＿２、４０２＿２　第２混雑度推定部１０２＿３、４０２＿３　第３混雑度推定部１０２＿Ｎ、４０２＿Ｎ　第Ｎ混雑度推定部１０３、４０３　制御部１０４　画像記録部１０５　通常時用画像解析部１０６　混雑時用画像解析部１０７、４０７　出力部２０１　エッジ画像生成部２０２　フレームメモリ２０３　差分処理部２０４　混雑度算出部４０４　映像分配部４０５　混雑時用映像解析部４０６　通常時用映像解析部

Claims

　映像装置が撮影した映像から情報を抽出する画像処理装置であって、
　前記映像をもとに、撮影領域の混雑度をリアルタイムで推定する混雑度推定器と、
　複数の画像解析技術を用いて前記映像から背景以外の物体の情報をそれぞれ抽出する複数の画像解析器と、
　前記推定された混雑度に応じて、前記複数の画像解析器から画像解析に用いる画像解析器を選択する制御器と、
　を備える画像処理装置。
　前記複数の画像解析技術は、リアルタイムで処理する第1の解析技術と、非リアルタイムで処理する第２の解析技術とを含み、前記物体の情報は、人物の領域及び放置物の領域に関する情報を含み、
　前記映像を記録する画像記録機を備え、
　前記画像解析器は、混雑度変化の履歴情報に応じて、画像解析に用いる映像を前記画像記録機から取得して第２の解析技術による画像解析を行うことを特徴とする請求項１に記載の画像処理装置。
　前記映像装置は複数であって、
　前記混雑度推定器は、前記複数の映像装置に対応して複数設けられ、それぞれの映像の混雑度を推定し、
　前記制御器は、前記複数の映像装置の映像のそれぞれの混雑度に応じ、該混雑度が高いほど前記第２の解析技術が選択されやすくなる様態で、前記画像解析に用いる前記画像解析部を選択することを特徴とする請求項２に記載の画像処理装置。
　前記混雑度推定器に備えられた混雑度算出部は、前記映像に基づいて群衆をヒートマップで表し、群衆の規模及び個々の群衆内の混雑度を測定することを特徴とする請求項１に記載の画像処理装置。
　前記画像解析器は、混雑度の高い入力画像を解析する混雑時用映像解析部と混雑度の低い入力画像を解析する通常時用映像解析部と備え、それぞれリアルタイムにて画像解析を行い、前記混雑時用映像解析部に高い演算能力を配分し、前記通常時用映像解析部に相対的に低い演算能力を配分することを特徴とする請求項１に記載の画像処理装置。