WO2018134979A1

WO2018134979A1 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: WO2018134979A1
Application number: PCT/JP2017/001990
Authority: WO
Inventors: 崇西辻
Original assignee: 三菱電機株式会社
Priority date: 2017-01-20
Filing date: 2017-01-20
Publication date: 2018-07-26
Also published as: JP6456571B2; JPWO2018134979A1

Abstract

解像度圧縮部（１０３）は、前景に１つ以上の被写体が表される撮影画像へのエッジ解析及び背景差分により得られた被写体のエッジである前景エッジが表される前景エッジ画像を水平方向で分割して、複数の分割領域を取得し、複数の分割領域の各々を走査して前景エッジ画素を抽出し、前景エッジ画素と水平方向で同一線上にある画素の画素値を、分割領域の単位で、前景エッジ画素値に変換する。また、解像度圧縮部（１０３）は、画素値が前景エッジ画素値に変換された領域である第１の領域に挟まれている、画素値が前景エッジ画素値に変換されていない領域を、分割領域の単位で、第２の領域として抽出し、第２の領域内の画素の画素値を前景エッジ画素値に変換する。被写体推定部（１０４）は、前景エッジ画像に含まれる前景エッジ画素値の領域である前景エッジ画素値領域を用いて、撮影画像に表される被写体の数を推定する。

Description

画像処理装置、画像処理方法及び画像処理プログラム

　本発明は、撮影画像を解析する技術に関する。

　監視カメラは人、機器等の監視対象の状況を監視することを目的に設置される。監視カメラは、街頭、店頭、河川、駅など多くの場所に設置されている。撮影画像は一般に防災センター、店舗事務所などの拠点に集約される。そして、監視担当者が撮影画像を通して監視対象に起こっている状況を確認し、必要に応じて対策を講じる。しかし、近年の監視カメラの台数の増加によって監視担当者の業務負荷増が懸念される。このため、コンピュータによる画像解析技術の導入が進んでいる。

　監視カメラの監視対象は、多くの場合、人である。たとえば、駅構内の監視カメラは、混雑、痴漢などの不審者、傷病者などを発見し、それらに対する迅速な対処をすることを目的に設置されていることが多い。特に混雑は日常的に起こり得る。また、混雑は、時には死者を伴う重大事故につながる危険性があるため、監視カメラの設置目的として重要性が高い。

　人の位置を解析する一つの手法として、撮影画像に映る人を認識し、監視カメラの特性及び設置条件から、人の分布及び配置を推定する手法が取られることがある。たとえば、非特許文献１に記載の手法では、画像の輝度勾配に関する特徴量であるＨｏＧ（Ｈｉｓｔｇｒａｍ　ｏｆ　Ｇｒａｄｉｅｎｔｓ）と識別手法であるＳＶＭ（Ｓｕｐｐｏｒｔ　Ｖｅｃｔｏｒ　Ｍａｃｈｉｎｅ）を組み合わせた人の検知手法が開示されている。

　また、特許文献１に記載のように人位置検知の前段階として、背景差分処理が行われることがある。背景差分処理では、人の映っていない撮影画像から生成される背景画像と撮影画像との差分によって人などの前景領域が抽出される。そして、特許文献１の技術では、背景差分処理により抽出された前景領域の輪郭線の特徴から人位置を推定できる。

特開平０８－３１５１４９号公報

Ｎ．Ｄａｌａｌ　ａｎｄ　Ｂ．Ｔｒｉｇｇｓ，"Ｈｉｓｔｏｇｒａｍｓ　ｏｆ　ｏｒｉｅｎｔｅｄ　ｇｒａｄｉｅｎｔｓ　ｆｏｒ　ｈｕｍａｎ　ｄｅｔｅｃｔｉｏｎ"，２００５　ＩＥＥＥ　Ｃｏｍｐｕｔｅｒ　Ｓｏｃｉｅｔｙ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｃｏｍｐｕｔｅｒ　Ｖｉｓｉｏｎ　ａｎｄ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ’０５），Ｓａｎ　Ｄｉｅｇｏ，ＣＡ，ＵＳＡ，２００５，ｐｐ．８８６－８９３　ｖｏｌ．１．ｄｏｉ：１０．１１０９／ＣＶＰＲ．２００５．１７７

　非特許文献１の技術では、画像の特徴量及び識別手法を用いるため、高い計算負荷がかかる。このため、監視システムの機器コストが増大するという課題がある。
　また、特許文献１の技術では、カラーまたはグレイスケール画像を用いた背景差分処理が行われる場合は、事前に用意した背景成分と被写体の画像濃淡値が近い場合（たとえば、黄色い点字ブロックの前に黄色い服の人が立った場合）に、正しく前景が抽出されないという課題がある。また、車のヘッドライトなどによる外光によっても、前景抽出が正しく行われないという課題がある。

　本発明は、このような課題を解決することを主な目的とする。つまり、本発明は、外光などの外乱に対して頑健で、少ない計算負荷で撮影画像に表される被写体の数を推定できる構成を得ることを主な目的とする。

　本発明に係る画像処理装置は、
　前景に１つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画像を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第１の変換部と、
　前記第１の変換部により画素値が前記前景エッジ画素値に変換された領域である第１の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第２の領域として抽出し、抽出した前記第２の領域内の画素の画素値を前記前景エッジ画素値に変換する第２の変換部と、
　前記第２の変換部により前記第２の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定部とを有する。

　本発明では、エッジを基準にして被写体が表されている可能性のある領域を前景エッジ画素値領域として抽出し、抽出した前景エッジ画素値領域に基づいて被写体の数を推定する。このため、本発明によれば、外乱に対して頑健で、少ない計算負荷で撮影画像に表される被写体の数を推定できる構成を得ることができる。

実施の形態１に係る画像処理装置の機能構成例を示す図。実施の形態１に係る画像処理装置のハードウェア構成例を示す図。実施の形態１に係る画像処理装置の動作例を示すフローチャート。実施の形態１に係る画像処理装置の動作例を示すフローチャート。実施の形態１に係る画像処理装置の動作例を示すフローチャート。実施の形態１に係る分割領域に分割された前景エッジ画像の例を示す図。実施の形態１に係る走査処理の例を示す図。実施の形態１に係る第１の変換処理の後の状態を示す図。実施の形態１に係る第２の変換処理の後の状態を示す図。実施の形態１に係る人の輪郭のテンプレートの例を示す図。

　以下、本発明の実施の形態について、図を用いて説明する。以下の実施の形態の説明及び図面において、同一の符号を付したものは、同一の部分または相当する部分を示す。

　実施の形態１．
＊＊＊構成の説明＊＊＊
　図１は、本実施の形態に係る画像処理装置１００の機能構成例を示す。
　図２は、画像処理装置１００のハードウェア構成例を示す。
　画像処理装置１００の機能構成例及びハードウェア構成例の詳細を説明する前に、画像処理装置１００の概要を説明する。

　画像処理装置１００は、カメラの撮影画像を取得する。例えば、画像処理装置１００は、監視カメラの撮影画像を取得する。そして、画像処理装置１００は、撮影画像を解析して、撮影画像に表される被写体の数を推定する。本実施の形態では、画像処理装置１００は、被写体の数として、撮影画像に表わされる人の数を推定する。また、画像処理装置１００は、撮影画像に表わされる人の位置を推定する。更に、画像処理装置１００は、推定した人物の数と位置とに基づき、撮影画像に表される空間（以下、撮影空間という）における群衆密度を推定する。
　より具体的には、画像処理装置１００は、エッジ解析により抽出された被写体のエッジをベースにした前景抽出と、ノイズなどの影響を排するための事後処理によって、撮影画像において人が表されている可能性のある候補領域を正しく抽出する。そして、候補領域の輪郭を人の輪郭のテンプレートと比較して、撮影画像に表される人の位置と数を推定する。
　画像処理装置１００は、推定した人物の人数と位置とを示す人位置座標人数情報を出力する。また、画像処理装置１００は、推定した群衆密度を示す密度分布情報を出力する。
　画像処理装置１００により行われる動作は、画像処理方法及び画像処理プログラムに相当する。

　次に、図２を参照して、画像処理装置１００のハードウェア構成例を説明する。

　画像処理装置１００は、ハードウェアとして、撮影画像インタフェース２０１、プロセッサ２０２、表示装置２０３、ユーザーインタフェース２０４、記憶装置２０５を備えるコンピュータである。
　撮影画像インタフェース２０１は、監視カメラから撮影画像を取得するためのインタフェースである。
　ユーザーインタフェース２０４は、画像処理装置１００のユーザー（監視担当者）からの指示を取得するインタフェースである。
　表示装置２０３は、人位置座標人数情報と密度分布情報を画像処理装置１００のユーザーに表示する。
　プロセッサ２０２は、図１に示すエッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能を実現するプログラムを実行する。
　記憶装置２０５には、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能を実現するプログラムが記憶されている。

　次に、図１を参照して、画像処理装置１００の機能構成例を説明する。

　エッジ抽出部１０１は、撮影画像インタフェース２０１を介して監視カメラから撮影画像を取得する。そして、エッジ抽出部１０１は、エッジ解析により撮影画像内のエッジを抽出する。
　エッジ抽出部１０１は、抽出した撮影画像のエッジが表される画像（以下、撮影画像のエッジ画像という）を背景差分部１０２に出力する。

　背景差分部１０２は、撮影画像の背景成分のエッジが表される画像（以下、背景エッジ画像という）が記憶装置２０５に記憶されていなければ、背景エッジ画像を生成する。
　また、背景差分部１０２は、背景エッジ画像が記憶装置２０５に記憶されている場合は、背景差分により、撮影画像の前景成分のエッジ（以下、前景エッジという）を抽出する。より具体的には、背景差分部１０２は、エッジ抽出部１０１から取得した撮影画像のエッジ画像と背景エッジ画像との差分をとり、撮影画像の前景エッジを抽出する。以下では、前景エッジが表される画像を前景エッジ画像という。背景差分部１０２は、撮影画像の前景エッジを抽出することで、前景エッジ画像を生成する。
　本実施の形態では、撮影画像は矩形である。このため、前景エッジ画像も矩形である。
　撮影画像に前景として人が表されている場合は、背景差分部１０２は、人の輪郭を構成するエッジである前景エッジを抽出し、抽出した前景エッジが表される前景エッジ画像を生成する。
　そして、背景差分部１０２は、前景エッジ画像を解像度圧縮部１０３に出力する。

　解像度圧縮部１０３は、背景差分部１０２から前景エッジ画像を取得する。
　そして、解像度圧縮部１０３は、前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得する。また、解像度圧縮部１０３は、取得した複数の分割領域の各々を走査して前景エッジを構成する前景エッジ画素を抽出する。更に、解像度圧縮部１０３は、抽出した前景エッジ画素と水平方向で同一線上にある画素の画素値を、分割領域の単位で、前景エッジ画素の画素値である前景エッジ画素値に変換する。画素値が前景エッジ画素値に変換された領域を第１の領域という。
　また、解像度圧縮部１０３は、第１の領域に挟まれている、画素値が前景エッジ画素値に変換されていない領域を、分割領域の単位で、第２の領域として抽出する。更に、解像度圧縮部１０３は、抽出した第２の領域内の画素の画素値を前景エッジ画素値に変換する。
　解像度圧縮部１０３は、第１の領域と第２の領域が前景エッジ画素値に変換された後の前景エッジ画像を被写体推定部１０４に出力する。
　なお、解像度圧縮部１０３は、第１の変換部及び第２の変換部に相当する。また、解像度圧縮部１０３により行われる動作は、第１の変換処理及び第２の変換処理に相当する。

　被写体推定部１０４は、第１の領域と第２の領域が前景エッジ画素値に変換された後の前景エッジ画像を取得する。なお、以下では、当該前景エッジ画像内の前景エッジ画素値の領域（つまり、第１の領域と第２の領域）を前景エッジ画素値領域という。被写体推定部１０４は、前景エッジ画素値領域を用いて、撮影画像に表される被写体（人）の数を推定する。より具体的には、被写体推定部１０４は、前景エッジ画素値領域の輪郭と人の輪郭のテンプレートとを比較して、撮影画像に表される人の数を推定する。また、被写体推定部１０４は、前景エッジ画素値領域の輪郭と人の輪郭のテンプレートとを比較して、撮影画像に表される人の位置を推定する。更に、被写体推定部１０４は、推定した人の数に基づいて、撮影空間における人の密度（群衆密度）を推定する。
　そして、被写体推定部１０４は、推定した人物の人数と位置とを示す人位置座標人数情報を表示装置２０３に出力する。また、被写体推定部１０４は、推定した群衆密度を示す密度分布情報を表示装置２０３に出力する。
　被写体推定部１０４は、内部構成として、ラベリング部１０４１、極値抽出部１０４２、人位置判定部１０４３及び密度推定部１０４４を有する。ラベリング部１０４１、極値抽出部１０４２、人位置判定部１０４３及び密度推定部１０４４の詳細は、図３、図４及び図５を参照して後述する。
　被写体推定部１０４により行われる動作は、被写体推定処理に相当する。

　なお、前述したように、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能はプログラムにより実現される。そして、プロセッサ２０２がこれらプログラムを実行して、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の動作を行う。
　図１では、プロセッサ２０２がエッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能を実現するプログラムを実行している状態を模式的に表している。

＊＊＊動作の説明＊＊＊
　次に、図３、図４及び図５を参照して、画像処理装置１００の動作例を説明する。

　エッジ抽出部１０１は、撮影画像インタフェース２０１を介して監視カメラの撮影画像を取得し、撮影画像のエッジを抽出する（ステップＳＴ３０１）。
　そして、エッジ抽出部１０１は、抽出したエッジが表される撮影画像のエッジ画像を背景差分部１０２に入力する。

　背景差分部１０２は、撮影画像の背景エッジ画像が存在するか否かを判定する。つまり、背景差分部１０２は、背景エッジ画像が記憶装置２０５に記憶されているか否かを判定する（ステップＳＴ３０２）。

　背景エッジ画像が存在しない場合は、背景差分部１０２は、表示装置２０３を介して画像処理装置１００のユーザーに背景エッジ画像が存在しない旨を通知し、背景エッジ画像を生成する（ステップＳＴ３０３）。
　より具体的には、背景差分部１０２は、エッジ抽出部１０１から入力された撮影画像のエッジ画像から背景エッジ画像を生成する。背景エッジ画像の生成方法は、既存の方法を含むどのような方法でもよい。

　次に、背景差分部１０２は、生成した背景エッジ画像を表示装置２０３に表示し、生成した背景エッジ画像が適切であるか否かをユーザーに問合せる（ステップＳＴ３０４）。

　ユーザーインタフェース２０４を介してユーザーから、生成した背景エッジ画像が適切との回答が得られた場合に、背景差分部１０２は、生成した背景エッジ画像を記憶装置２０５に保存する（ステップＳＴ３０５）。

　ステップＳＴ３０２で背景エッジ画像が存在すると判定した場合及びステップＳＴ３０５で背景エッジ画像を記憶装置２０５に保存した場合に、背景差分部１０２は、背景差分を行う（ステップＳＴ３０６）。
　より具体的には、エッジ抽出部１０１から入力された撮影画像のエッジ画像と、記憶装置２０５に記憶されている背景エッジ画像との差分画像を計算する。この差分画像が前景エッジ画像にあたる。
　背景差分部１０２は、前景エッジ画像を解像度圧縮部１０３に入力する。

　解像度圧縮部１０３は、入力された前景エッジ画像を図６のように幅Ｎピクセルの矩形に分割する（ステップＳＴ３０７）。分割により得られた矩形の領域を分割領域という。また、分割の基準となるＮは、例えば３２である。例えば、ＶＧＡ（Ｖｉｄｅｏ　Ｇｒａｐｈｉｃｓ　Ａｒｒａｙ）画像の水平方向のピクセル数は６４０ピクセルであるため、ＶＧＡ画像では、２０個の分割領域が得られる。
　なお、図６は分割領域に分割された前景エッジ画像を示す。図６では、作図上の理由から分割領域の数は８個であるが、実際には、１０以上の分割領域が得られる。また、図６において白線で表している人型は、被写体である人の輪郭を表わすエッジであり、前景エッジに相当する。

　次に、解像度圧縮部１０３は、各分割領域を走査する（ステップＳＴ３０８）。
　より具体的には、解像度圧縮部１０３は、図７に示すように、左端の分割領域から右方向に順に各分割領域を走査する。
　各分割領域では、解像度圧縮部１０３は、前景エッジ画像の最上位の行から下方向に向けて、水平方向に走査する。
　水平方向への走査において１画素でも前景エッジ画素があれば（ステップＳＴ３０９でＹＥＳ）、解像度圧縮部１０３は、分割領域の範囲内で、前景エッジ画素と水平方向で同一線上の全ての画素の画素値を前景エッジ画素値に変換する（ステップＳＴ３１０）。
　このように、解像度圧縮部１０３は、前景エッジ画素と同一線上の全ての画素の画素値を前景エッジ画素値に変換することで、水平方向の解像度を１／Ｎに圧縮する。水平方向の解像度を１／Ｎにすることで、解像度圧縮部１０３は、前景エッジ画像での細かな凹凸を平滑化できる。従って、被写体推定部１０４が、人の足及び人の頭に対応する凹凸のみを抽出することができる。
　また、一般に監視カメラのような固定カメラの場合、水平方向で視認される範囲よりも垂直方向で視認される範囲の方が大きい。このため、人位置推定、および群衆密度推定においては、垂直方向の解像度の方が重要度が高い。従って、本実施の形態では、解像度圧縮部１０３は、水平方向の解像度を圧縮している。
　ステップＳＴ３１０の処理は、第１の変換処理に相当する。

　図８は、左端から４つの分割領域までステップＳＴ３１０が行われた状態の前景エッジ画像を示す。
　左端の分割領域の走査では、前景エッジ画素が抽出されないので、左端の分割領域のいずれの部分も前景エッジ画素値に変換されていない（分割領域の全域が黒いままである）。
　左端から２つ目の分割領域の走査では、図６の符号６０１と符号６０２の部分で前景エッジ画素が抽出されるので、符号８０１の部分と符号８０２の部分が水平方向で前景エッジ画素値に変換されている（符号８０１の部分と符号８０２の部分が白く変化している）。
　左端から３つ目の分割領域及び左端から４つ目の分割領域でも同様にして、前景エッジ画素が抽出される部分が前景エッジ画素値に変換されている。
　符号８０１及び符号８０２のように画素値が前景エッジ画素値に変換された領域は、前述のように、第１の領域という。

　解像度圧縮部１０３は、全ての分割領域について、水平方向への走査、画素値の変換及び垂直方向への走査が完了しているか否かを判定する（ステップＳＴ３００）。

　全ての分割領域について、水平方向への走査、画素値の変換及び垂直方向への走査が完了している場合（ステップＳＴ３００でＹＥＳ）は、解像度圧縮部１０３は、背景画素が規定の連続数以上連続しているか否かを判定する（ステップＳＴ３１１）。背景画素とは、ステップＳＴ３０１で画素値が前景エッジ画素値に変換された画素以外の画素である。つまり、背景画素は、図８において黒いまま残っている領域である。

　背景画素が連続数以上連続している場合（ステップＳＴ３１１でＹＥＳ）は、解像度圧縮部１０３は、連続数以上連続している背景画素の領域が第１の領域で挟まれているか否かを判定する（ステップＳＴ３１２）。

　背景画素の領域が第１の領域で挟まれている場合（ステップＳＴ３１２でＹＥＳ）は、解像度圧縮部１０３は、当該背景画素の領域に含まれる画素の画素値を前景エッジ画素値に変換する（ステップＳＴ３１３）。
　ステップＳＴ３１１－ＳＴ３１３の処理は、第２の変換処理に相当する。

　次に、解像度圧縮部１０３は、前景エッジ画像内の全ての背景画素の領域についてステップＳＴ３１１～ＳＴ３１３の動作を行ったか否かを判定する（ステップＳＴ３１４）。
　全ての背景画素の領域について、ステップＳＴ３１１～ＳＴ３１３の動作が行われている場合は、処理がステップＳＴ３１５に進む。
　一方、ステップＳＴ３１１～ＳＴ３１３の動作が行われていない領域があれば、解像度圧縮部１０３は、該当する領域にステップＳＴ３１１～ＳＴ３１３の動作を行う。

　解像度圧縮部１０３がステップＳＴ３１１～ＳＴ３１３を行うことで、前景エッジ画像内の不連続成分が前景エッジ画素値で埋められ、ラベリング部１０４１が、第１の領域と第２の領域を１つの連続領域として処理できるようになる。
　なお、連続領域となった第１の領域と第２の領域を前景エッジ画素値領域という。
　解像度圧縮部１０３は、前景エッジ画素値領域が含まれる前景エッジ画像をラベリング部１０４１に入力する。

　ラベリング部１０４１は、入力された前景エッジ画像にラベリング処理を行う（ステップＳＴ３１５）。具体的には、ラベリング部１０４１は、前景エッジ画像から、前景エッジ画素値領域を抽出する。
　そして、ラベリング部１０４１は、抽出した前景エッジ画素値領域を極値抽出部１０４２に入力する。

　極値抽出部１０４２は、前景エッジ画素値領域で極大値をとる位置及び極小値をとる位置を探索する（ステップＳＴ３１６）。
　具体的には、極値抽出部１０４２は、図９のように、前景エッジ画素値領域の上端を極大値をとる位置として特定し、前景エッジ画素値領域の下端を極小値をとる位置として特定する。
　そして、極値抽出部１０４２は、極大値をとる位置と極小値をとる位置を人位置判定部１０４３に通知する。
　人位置判定部１０４３は、極大値をとる位置を被写体である人の頭の位置と推定でき、極小値をとる位置を人の足の位置と推定できる。

　人位置判定部１０４３は、前景エッジ画素値領域の輪郭を人の輪郭のテンプレートと比較する（ステップＳＴ３１７）。
　図１０は、人の輪郭のテンプレートの例を示す。人位置判定部１０４３は、前景エッジ画素値領域の極大値をとる位置にテンプレートの上端を合わせ、必要であれば、テンプレートのサイズを拡大又は縮小して、前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致するか否かを判定する。
　前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致する場合は、人位置判定部１０４３は、当該前景エッジ画素値領域は、１人の人の輪郭に対応すると推定する。
　また、前景エッジ画素値領域の輪郭とテンプレートの輪郭が規定の許容範囲内で一致しない場合は、人位置判定部１０４３は、以下のように推定する。
　例えば、前景エッジ画素値領域の垂直方向の長さをテンプレートの垂直方向の長さに一致させた場合に、前景エッジ画素値領域の水平方向の長さがテンプレートの水平方向の長さのｍ（ｍ≧２）倍である場合を想定する。この場合は、人位置判定部１０４３は、当該前景エッジ画素値領域には、ｍ人の人が横に並んでいると推定する。そして、人位置判定部１０４３は、テンプレートをｍ個横に並べた際の各テンプレートの足の位置を、各人の足の位置と推定する。
　また、前景エッジ画素値領域の水平方向の長さをテンプレートの水平方向の長さに一致させた場合に、前景エッジ画素値領域の垂直方向の長さがテンプレートの垂直方向の長さよりも長い場合を想定する。この場合は、人位置判定部１０４３は、前景エッジ画素値領域には、人が１人映っているが、その人の足元が何かによって隠されていると推定する。そして、人位置判定部１０４３は、テンプレートの足の位置を前景エッジ画素値領域に映っている人の足の位置と推定する。そして、人位置判定部１０４３は、推定した足の位置から下に人の輪郭のテンプレートを配置し、推定した足の位置から下の前景エッジ画素値領域とテンプレートとを比較する。

　人位置判定部１０４３は、ステップＳＴ３１７で前景エッジ画素値領域と人の輪郭のテンプレートとが許容範囲内で一致する度に、足の位置の座標（撮影画像内の座標）を記憶装置２０５に保存する（ステップＳＴ３１８）。
　人位置判定部１０４３は、全ての前景エッジ画素値領域に対してステップＳＴ３１７及びＳＴ３１８を行うと、密度推定部１０４４に、全ての前景エッジ画素値領域に対してステップＳＴ３１７及びＳＴ３１８を行ったことを通知する。

　また、人位置判定部１０４３は、記憶装置２０５で保存されている足の位置の座標をもとに透視投影変換を行う（ＳＴ３１９）。そして、人位置判定部１０４３は、透視投影変換により得られた位置と数を、人の位置及び人の数として示す人位置座標人数情報を出力する。

　密度推定部１０４４は、ステップＳＴ３１９の透視投影変換で得られた位置の相互距離を計算し、得られた相互距離に基づき撮影空間における群衆密度を計算する（ＳＴ３２０）。そして、密度推定部１０４４は、群衆密度を示す密度分布情報を出力する。

＊＊＊実施の形態の効果の説明＊＊＊
　以上、本実施の形態に係る画像処理装置は、外乱への頑健性が高いエッジを基準にして被写体が表されている可能性のある領域を前景エッジ画素値領域として抽出し、抽出した前景エッジ画素値領域に基づいて被写体の数を推定する。このため、本実施の形態に係る画像処理装置は、外乱に対して頑健であり、少ない計算負荷で撮影画像に表される被写体の数を推定することができる。

　一般的に、撮影画像からエッジを抽出した場合に、ノイズの影響などにより、抽出したエッジが閉曲線とならないことがある。また、ノイズの影響などにより、抽出したエッジが、がたつきが多い曲線となることがある。このような閉曲線ではないエッジ、がたつきが多いエッジに対して背景差分を行っても、閉曲線ではない前景エッジ又はがたつきの多い前景エッジが得られることになる。つまり、前景エッジの輪郭形状の特徴が正しく抽出されない。
　本実施の形態では、前景エッジ画素と水平方向で同一線上にある画素の画素値を前景エッジ画素値に変換するので、閉曲線ではない前景エッジ又はがたつきの多い前景エッジが得られた場合でも、前景エッジの輪郭形状の特徴を正しく抽出することができる。
　また、本実施の形態によれば、解像度圧縮を水平方向のみにすることで、垂直方向（奥行き方向）の情報を維持できる。一般に、映像の見える範囲は奥行き方向の方が広いため、このようにすることで、輪郭の平滑化と奥行き方向の位置推定の正確性を両立することができる。

＊＊＊ハードウェア構成の説明＊＊＊
　最後に、画像処理装置１００のハードウェア構成の補足説明を行う。
　プロセッサ２０２は、プロセッシングを行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）である。
　プロセッサ２０２は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等である。
　記憶装置２０５は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等である。

　記憶装置２０５には、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）も記憶されている。
　そして、ＯＳの少なくとも一部がプロセッサ２０２により実行される。
　プロセッサ２０２はＯＳの少なくとも一部を実行しながら、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能を実現するプログラムを実行する。
　プロセッサ２０２がＯＳを実行することで、タスク管理、メモリ管理、ファイル管理、通信制御等が行われる。
　また、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の処理の結果を示す情報、データ、信号値及び変数値の少なくともいずれかが、記憶装置２０５、プロセッサ２０２内のレジスタ及びキャッシュメモリの少なくともいずれかに記憶される。
　また、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の機能を実現するプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ等の可搬記憶媒体に記憶されてもよい。

　また、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４の「部」を、「回路」又は「工程」又は「手順」又は「処理」に読み替えてもよい。
　また、画像処理装置１００は、ロジックＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＧＡ（Ｇａｔｅ　Ａｒｒａｙ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）といった電子回路により実現されてもよい。
　この場合は、エッジ抽出部１０１、背景差分部１０２、解像度圧縮部１０３及び被写体推定部１０４は、それぞれ電子回路の一部として実現される。
　なお、プロセッサ及び上記の電子回路を総称してプロセッシングサーキットリーともいう。

　１００　画像処理装置、１０１　エッジ抽出部、１０２　背景差分部、１０３　解像度圧縮部、１０４　被写体推定部、１０４１　ラベリング部、１０４２　極値抽出部、１０４３　人位置判定部、１０４４　密度推定部、２０１　撮影画像インタフェース、２０２　プロセッサ、２０３　表示装置、２０４　ユーザーインタフェース、２０５　記憶装置。

Claims

　前景に１つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画像を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第１の変換部と、
　前記第１の変換部により画素値が前記前景エッジ画素値に変換された領域である第１の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第２の領域として抽出し、抽出した前記第２の領域内の画素の画素値を前記前景エッジ画素値に変換する第２の変換部と、
　前記第２の変換部により前記第２の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定部とを有する画像処理装置。
　前記被写体推定部は、
　前記前景エッジ画素値領域の輪郭と前記被写体の輪郭のテンプレートとを比較して、前記撮影画像に表される前記被写体の数を推定する請求項１に記載の画像処理装置。
　前記被写体推定部は、
　前記前景エッジ画素値領域の輪郭と前記被写体の輪郭のテンプレートとを比較して、前記撮影画像に表される前記被写体の位置を推定する請求項１に記載の画像処理装置。
　前記被写体推定部は、
　推定した前記被写体の数に基づいて、前記撮影画像に表される空間における前記被写体の密度を推定する請求項１に記載の画像処理装置。
　前記被写体推定部は、
　前記被写体として人が表される撮影画像に表される人の数を推定する請求項１に記載の画像処理装置。
　前記被写体推定部は、
　前記前景エッジ画素値領域内で人の頭に相当する部分と足に相当する部分を抽出して、前記撮影画像に表される人の数を推定する請求項５に記載の画像処理装置。
　コンピュータが、前景に１つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画素を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換し、
　前記コンピュータが、画素値が前記前景エッジ画素値に変換された領域である第１の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第２の領域として抽出し、抽出した前記第２の領域内の画素の画素値を前記前景エッジ画素値に変換し、
　前記コンピュータが、前記第２の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する画像処理方法。
　前景に１つ以上の被写体が表される矩形の撮影画像へのエッジ解析及び背景差分により得られた前記被写体のエッジである前景エッジが表される矩形の前景エッジ画像を水平方向で分割して、矩形の複数の分割領域を取得し、取得した前記複数の分割領域の各々を走査して前記前景エッジを構成する前景エッジ画素を抽出し、抽出した前記前景エッジ画素と前記水平方向で同一線上にある画素の画素値を、分割領域の単位で、前記前景エッジ画素の画素値である前景エッジ画素値に変換する第１の変換処理と、
　前記第１の変換処理により画素値が前記前景エッジ画素値に変換された領域である第１の領域に挟まれている、画素値が前記前景エッジ画素値に変換されていない領域を、前記分割領域の単位で、第２の領域として抽出し、抽出した前記第２の領域内の画素の画素値を前記前景エッジ画素値に変換する第２の変換処理と、
　前記第２の変換処理により前記第２の領域内の画素値が前記前景エッジ画素値に変換された後に前記前景エッジ画像に含まれる前記前景エッジ画素値の領域である前景エッジ画素値領域を用いて、前記撮影画像に表される前記被写体の数を推定する被写体推定処理とをコンピュータに実行させる画像処理プログラム。