WO2017221643A1

WO2017221643A1 - 画像処理装置、画像処理システム、および画像処理方法、並びにプログラム

Info

Publication number: WO2017221643A1
Application number: PCT/JP2017/020052
Authority: WO
Inventors: 和博嶋内; 小橋　貴志; 正和海老原; 優嗣小野; 秀敏永野
Original assignee: ソニー株式会社
Priority date: 2016-06-22
Filing date: 2017-05-30
Publication date: 2017-12-28
Also published as: JPWO2017221643A1; US10867166B2; US20190258852A1; CN109313805A; JP6904346B2

Abstract

画像からの人検出処理を軽量な演算で高精度に実行する装置、方法を提供する。画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内画像が人であるか否かを判定し、人と判定したウィンドウに人候補点１を設定する。さらに、人候補点１、またはその周辺画素を含む人判定検出枠を設定し、人判定検出枠内の画像特徴量に基づく人判定処理を実行し、人であると判定した場合、人判定検出枠内に人候補点２を設定する。さらに、人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、人判定検出枠内の画像が人であるか否かを最終判定する。

Description

画像処理装置、画像処理システム、および画像処理方法、並びにプログラム

　本開示は、画像処理装置、画像処理システム、および画像処理方法、並びにプログラムに関する。さらに詳細には、画像からの人検出処理を実行する画像処理装置、画像処理システム、および画像処理方法、並びにプログラムに関する。

　昨今、駅、ビル、公道、その他の様々な場所に監視カメラが設置されている。これら監視カメラの撮影画像は、例えばネットワークを介してサーバに送信され、データベース等の記憶手段に記憶され、サーバ、あるいはネットワーク接続された情報端末を適用した様々なデータ処理に利用される。
　サーバや情報端末が実行するデータ処理は、例えば、特定人物の検索、追跡処理等である。

　このような監視カメラを用いた監視システムでは、撮影画像データから人物等の特定オブジェクトを検出するための処理として、動体検出や、顔検出、あるいは人検出等、様々な種類の検出処理を組み合わせて実行する。
　カメラ撮影画像からの人等の検出、追跡処理は、例えば、様々な事件の不審者や犯人捜査に活用されている。

　画像から人を検出する処理は、一般的に演算量が多く監視カメラ内で実行することが困難である。多くの現行の監視システムでは、監視カメラの撮影画像を、ネットワークを介してサーバに送信し、サーバ側で蓄積した画像を利用して人検出処理を実行する構成となっている。

　例えば、特許文献１（特開２０１１－２０９７９４号公報）では、複数台のカメラと、温度検出センサ等のセンサがネットワークを介して接続され、これらの各機器から得られた画像やセンサ情報をサーバに集約し、人体検出処理を行う構成を開示している。
　しかし、多台数の監視カメラの映像を集中的に処理することはサーバにとっても負荷が大きく、映像解析コストが膨大になり、大規模なシステムを用いる必要性が発生し、結果として、例えば、犯人検出に要する処理時間が長引くといった問題を発生させる。

　特許文献２（特許第５１７９１３２号公報）は、このようなサーバ負荷の増大を解決する一つの構成例を開示している。
　具体的には、各監視カメラの撮影画像に基づいて、各監視カメラ内で人検出処理を実行し、その結果のみをサーバに送信する。サーバは各監視カメラから受信する人検出結果のみを用いて、例えば特定の服装等、特定の特徴を持つ人物を抽出するといった分散処理型システムである。

　しかし、各監視カメラ内で実行可能なデータ処理量には限界がある。特許文献２に記載の構成は、各監視カメラにおいて、動体が所定数の複数フレームで連続検出された場合に人とみなす人検出処理を行なう構成としている。
　しかし、このような人検出処理では、車や動物等、人でない動体についても、全て人とみなす誤検出が多発してしまう。
　この結果、多くの誤検出結果がサーバに集積し、サーバは、正しい人の検出結果データと誤検出結果データとの判別処理を実行しなければならなくなるという新たな負荷が発生する。

　さらに、特許文献３（特開２０１０－０６２９４２号公報）は、各監視カメラにおいて、動体検出と顔検出を組み合わせた人検出を実行し、この組み合わせ処理によって人が検出された場合に、ネットワーク接続されたサーバ側に異常検知信号を出力する構成を開示している。

　しかし、この特許文献３に記載の構成では、人検出の判断に、顔検出がなされることが条件であり、この結果、人の後ろ向きの画像等、顔が含まれない画像の場合、その画像に人が含まれていても人検出ができないという問題がある。
　なお、特許文献３では、顔検出回路を人体検出回路に置き換えてもよいとしているが、その場合の具体的な人検出構成についての言及はない。

特開２０１１－２０９７９４号公報特許第５１７９１３２号公報特開２０１０－０６２９４２号公報

　本開示は、例えば、上述の問題点に鑑みてなされたものであり、演算量を削減した高精度な人検出処理を実現する画像処理装置、画像処理システム、および画像処理方法、並びにプログラムを提供する。

　本開示の一実施例においては、例えばサーバとネットワーク接続された監視カメラ各々において、演算量を削減した高精度な人検出処理を実行し、その人検出結果をサーバ等に送信可能とした画像処理装置、画像処理システム、および画像処理方法、並びにプログラムを提供する。

　本開示の第１の側面は、
　画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理装置にある。

　さらに、本開示の第２の側面は、
　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバを有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する画像処理システムにある。

　さらに、本開示の第３の側面は、
　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバと情報端末を有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して、撮影画像に併せて前記サーバに送信し、
　前記サーバは、前記カメラから受信する撮影画像とメタデータを記憶部に格納し、
　前記情報端末からの処理要求に応じて、記憶部に格納した撮影画像とメタデータを適用したオブジェクト検索または追跡処理を実行する画像処理システムにある。

　さらに、本開示の第４の側面は、
　画像処理装置において実行する画像処理方法であり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理方法にある。

　さらに、本開示の第５の側面は、
　画像処理装置において画像処理を実行させるプログラムであり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記プログラムは、前記データ処理部に、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１と、
　前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な画像処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、画像処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、画像からの人検出処理を軽量な演算で高精度に実行する装置、方法が実現される。
　具体的には、画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内画像が人であるか否かを判定し、人と判定したウィンドウに人候補点１を設定する。さらに、人候補点１、またはその周辺画素を含む人判定検出枠を設定し、人判定検出枠内の画像特徴量に基づく人判定処理を実行し、人であると判定した場合、人判定検出枠内に人候補点２を設定する。さらに、人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、人判定検出枠内の画像が人であるか否かを最終判定する。
　本構成により、画像からの人検出処理を軽量な演算で高精度に実行する装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

本開示の画像処理が適用可能な画像処理システムの一例について説明する図である。画像処理装置（カメラ）の生成するメタデータについて説明する図である。画像処理システムの実行する処理シーケンスについて説明するフローチャートを示す図である。画像処理システムの実行する処理シーケンスについて説明するフローチャートを示す図である。画像処理装置（カメラ）の構成例について説明する図である。画像処理装置の実行する処理の処理シーケンスについて説明するフローチャートを示す図である。動体検出処理例について説明する図である。画像処理装置の実行する処理の処理シーケンスについて説明するフローチャートを示す図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。分割小領域設定ウィンドウを適用した人検出処理例について説明する図である。人候補点１リストの例について説明する図である。人候補点１リストの例について説明する図である。画像処理装置の実行する処理の処理シーケンスについて説明するフローチャートを示す図である。人判定検出枠を適用した人判定処理例について説明する図である。人判定検出枠を適用した人判定処理例について説明する図である。人判定検出枠を適用した人判定処理例について説明する図である。人判定検出枠を適用した人判定処理例について説明する図である。人判定検出枠を適用した人判定処理例について説明する図である。人候補点２リストの例について説明する図である。人判定検出枠や人候補点２のマージ処理例について説明する図である。画像処理装置の実行する処理の処理シーケンスについて説明するフローチャートを示す図である。画像処理装置の実行する人判定の最終検証処理の一例について説明する図である。画像処理装置の実行する人判定の最終検証処理の一例について説明する図である。

　以下、図面を参照しながら本開示の画像処理装置、画像処理システム、および画像処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．本開示の処理の適用可能な画像処理システムの構成例について
　２．画像処理装置の構成例について
　３．画像処理装置の実行する具体的な処理について
　４．画像処理装置の実行する人検出処理１の詳細について
　５．画像処理装置の実行する人検出処理２の詳細について
　６．画像処理装置の実行する最終検証処理とメタデータ生成処理の詳細について
　７．その他の実施例について
　８．本開示の構成のまとめ

　　［１．本開示の処理の適用可能な画像処理システムの構成例について］
　まず、本開示の処理の適用可能な画像処理システムの構成例について説明する。
　図１は本開示の処理の適用可能な画像処理システムの一構成例を示す図である。

　図１に示す画像処理システムは、少なくとも１台以上のカメラ１０－１～ｎとサーバ２０、情報端末３０がネットワーク４０を介して接続されている。
　各カメラ１０－１～ｎは、映像の撮影・記録・解析を行い、ネットワーク４０を介して、映像データと映像の解析結果として得られる情報（メタデータ）を生成して出力する。

　サーバ２０は、ネットワーク４０を介して、各カメラ１０から撮影画像（映像）と、画像対応メタデータを受信し、記憶部（データベース）に蓄積するとともに、情報端末３０からの検索要求等のユーザ指示を、入力し、データ処理を行なう。
　サーバ２０は、例えば、情報端末３０から入力するユーザ指示に応じて、各カメラ１０－１～ｎから受信した撮影画像とメタデータを用いて、画像内の特定のオブジェクト、例えば特定の人物の検索処理や、追跡処理等のデータ処理を実行する。

　情報端末３０は、ユーザからの指示、例えば特定人物の検索要求等の指示情報を入力し、入力した指示情報を、ネットワーク４０を介してサーバ２０へ送信する。また、サーバ２０からの検索結果や追跡結果としての画像や検索・追跡結果情報等を受信し、ディスプレイへ出力する処理などを実行する。

　なお、図１では、サーバ２０と、情報端末３０を個別の構成とした例を示しているが、情報端末３０とサーバ２０の機能を持つ１つの情報処理装置を設定した構成としてもよい。
　また、図１では、サーバ２０、情報端末３０を各々１台のみ示しているが、これらの機器を、複数、ネットワーク４０に接続し、各サーバ、各情報端末において、様々な情報処理を実行し、処理結果を相互に送受信する構成とするなど、様々な構成が可能である。

　次に、図２を参照して、カメラ１０－１～ｎ各々が、サーバ２０に送信するデータの例について説明する。
　なお、、カメラ１０－１～ｎは、サーバ２０に限らず、情報端末３０に対してデータ送信を行うことも可能である。

　図２に示すように、カメラ１０は、メタデータと画像データを送信する。
　画像データは、カメラ１０の撮影する画像、具体的には、動画像を構成する画像フレームである。メタデータは、各画像フレーム対応のデータであり、画像フレーム単位で設定される。
　メタデータは、対応付けられた画像フレームに関する様々な情報によって構成される。

　図２に示すように、メタデータは、先頭にヘッダが記録され、その後に画像フレームからの検出情報、具体的には、人やその他の動体オブジェクトに関する情報等を記録したペイロードが設定される。

　図２に示すように、ヘッダには、画像から検出されたオブジェクトデータを読み込むために必要な情報、例えば、記録されているオブジェクトの数や、すべてのオブジェクトに共通の情報、例えば、記録時刻情報等が含まれる。

　また、メタデータのペイロードには、図２に示すように、メタデータに対応付けられた画像フレームから検出された検出オブジェクト単位のデータ、具体的には、例えば、以下のオブジェクト対応データが記録される。
　（１）オブジェクトの種類（人、人以外）
　（２）オブジェクト位置（ｘ，ｙ座標情報）
　（３）オブジェクトサイズ（ｗｉｄｔｈ、ｈｅｉｇｈｔ）
　例えば、これらのオブジェクト情報が、画像フレームから検出されたオブジェクト単位で記録される。

　本開示の画像処理装置の一例であるカメラ１０は、画像を撮影し、図２に示すような撮影画像に関するメタデータを生成して、画像とともにサーバ等に送信する処理を行なう。
　すなわち、本開示の画像処理システムでは、画像を撮影するカメラ各々が、撮影画像に関する画像解析を実行し、解析結果に基づくメタデータを生成して送信する。

　なお、カメラ１０の実行する画像解析処理は、以下の各処理を含む解析処理である。
　（ａ）撮影画像に動体が含まれるか否かの動体検出処理
　（ｂ）検出動体が人であるか、人以外（例えば車等）であるかを判別する人判別処理、
　これらの具体的な処理例については、後段で説明する。

　図３に示すフローチャートは、図１に示す画像処理システムの実行する処理の処理シーケンスの一例を説明するフローチャートである。
　各ステップの処理について説明する。

　　（ステップＳ１１）
　まず、ネットワーク４０に接続されたカメラ１０－１～ｎの各々が、画像を撮影し、撮影画像の解析処理を実行する。
　上述したように、例えば以下の画像解析処理を実行する。
　（ａ）撮影画像に動体が含まれるか否かの動体検出処理
　（ｂ）検出動体が人であるか人以外（例えば車等）であるかを判別する人判別処理、

　　（ステップＳ１２）
　さらに、カメラ１０－１～ｎは、カメラ撮影画像と、撮影画像に基づく解析結果を含むメタデータを、ネットワーク４０を介してサーバ２０に送信する。

　　（ステップＳ１３）
　サーバ２０は、カメラ１０－１～ｎから受信した画像データ、および画像に対応付けられたメタデータをサーバ２０内の記憶部に格納する。

　　（ステップＳ１４）
　次に、情報端末３０は、サーバ２０に蓄積された画像、および画像解析結果を含むメタデータを取得し、表示部に表示する。
　具体的には、例えばカメラの撮影画像の表示に合わせて、表示画像に含まれる各オブジェクトについて、動体であるか否かの識別情報、さらに、オブジェクトが動体である場合、その動体オブジェクトが人であるか否かを識別可能とした表示情報の表示処理が実行される。

　なお、サーバ２０や、情報端末３０も必要に応じて画像とメタデータの解析を行うことが可能である。例えば、各カメラ１０で行われなかった解析処理や各カメラ１０で実施した解析を補う処理、ユーザにとって有用な情報の抽出、あるいは画像にメタデータの情報を可視化して重畳させて表示するといった処理を行なう構成としてもよい。例えば、オブジェクト種別が人であるオブジェクトに枠を重畳するといった表示処理等である。

　また、サーバ２０は、記憶部に蓄積した画像や、解析結果としてのオブジェクト種別等の情報を可視化して画像に重畳した表示データを、ネットワーク４０を介して情報端末３０に送信する構成としてもよい。
　情報端末３０は、これらサーバ２０から受信するデータを選択的に、または、すべて取得して描画し、ディスプレイ等へ出力することが可能である。
　情報端末３０は、メタデータやユーザにとって有用な情報、例えば撮影時刻や解析結果の統計情報などをサーバ２０から選択的に、または、すべて受け取って、情報端末で必要な加工・処理を行い、ディスプレイに出力することが可能である。

　図４に示すフローチャートは、情報端末３０からサーバ２０に処理要求を送信してサーバにおいてデータ処理を実行する処理の一処理例を説明するフローチャートである。
　各ステップの処理について説明する。

　　（ステップＳ２１）
　ステップＳ２１において、情報端末３０は、サーバ２０から取得した画像と、画像解析結果に基づいて、特定オブジェクト、例えば特定の人物の検索、あるいは追跡処理要求をサーバ２０に送信する。

　　（ステップＳ２２）
　情報端末３０からの処理要求を受信したサーバ２０は、ステップＳ２２において、特定オブジェクト、例えば特定の人物の検索、あるいは追跡処理を実行し、その処理結果を情報端末３０に送信する。

　　（ステップＳ２３）
　サーバ情報２０から処理結果を受信した情報端末３０は、ステップＳ２３において、処理結果として取得した特定オブジェクト、例えば特定の人物の検索、あるいは追跡処理結果をディスプレイに表示する。
　例えば追跡対象とした特定人物のみに識別枠を設定した画像の表示処理を実行する。

　　［２．画像処理装置の構成例について］
　次に、図５を参照して、本開示の画像処理装置の一例であるカメラの構成例について説明する。
　図５は、本開示の画像処理装置（カメラ）１００の一構成例を示すブロック図である。画像処理装置（カメラ）１００は、図１に示すカメラ１０に相当する。

　図５に示すように、画像処理装置（カメラ）１００は、レンズ１０１、イメージセンサ１０２、画像処理部１０３、センサ１０４、メモリ１０５、通信部１０６、駆動部１０７、ＣＰＵ１０８、ＧＰＵ１０９、ＤＳＰ１１０を有する。

　撮影画像は、レンズ１０１を介してイメージセンサ１０２に撮り込まれる。
　イメージセンサ１０２は、例えばＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅｓ）イメージセンサやＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）イメージセンサなどである。

　画像処理部１０３は、イメージセンサ１０２から出力される画像データ（ＲＡＷ画像）を入力し、入力したＲＡＷ画像に含まれるノイズを低減するノイズ低減処理の他、ＲＡＷ画像の各画素位置にＲＧＢの全色に対応する画素値を設定するデモザイク処理や、ホワイトバランス（ＷＢ）調整、ガンマ補正等、一般的なカメラにおける信号処理を実行する。
　センサ１０４は、画像撮影を最適な設定で行うためのセンサ、例えば輝度センサ等であり、センサ１０４の検出情報に応じて画像撮影の撮影態様が制御される。

　メモリ１０６は、撮影画像の格納、画像処理装置１００において実行する処理プログラム、各種パラメータ等の格納領域として利用されるＲＡＭ，ＲＯＭ等によって構成されるメモリである。
　通信部１０６は、図１に示すサーバ２０や、情報端末３０とのネットワーク４０を介した通信処理に利用する通信部である。

　駆動部１０７は、画像撮影のためのレンズ駆動、絞り制御等、画像撮影に必要となる様々な駆動処理を行なう。この駆動処理は、例えばセンサ１０４の検出情報を用いて、ＣＰＵ１０８の制御の下に実行される。
　ＣＰＵ１０８は、画像処理装置（カメラ）１００の実行する画像撮影、画像解析、メタデータ生成、通信処理等の様々な処理の制御を実行する。メモリ１０５に格納されたデータ処理プログラムに従って様々な処理を実行するデータ処理部として機能する。

　ＧＰＵ（グラフィックプロセッサユニツト）１０９、および、ＤＳＰ（デジタルシグナルプロセッサ）１１０は、例えば撮影画像に対する画像処理等を実行するプロセッサであり、撮影画像の解析処理等に利用される。ＣＰＵ１０８と同様、メモリ１０５に格納されたデータ処理プログラムに従って様々な画像処理を実行するデータ処理部として機能する。

　なお、本開示の画像処理装置（カメラ）１００は、撮影画像からの動体検出処理や人検出処理を行なう。
　これらのデータ処理は、データ処理部として機能する画像処理部１０３、ＣＰＵ１０８、ＧＰＵ１０９、ＤＳＰ１１０等を適用して実行される。このデータ処理に適用する処理プログラムはメモリ１０５に格納される。
　なお、例えば、画像処理部１０３内に専用のハードウェア回路を実装し、専用ハードウェアを適用して動体検出や人検出処理を実行する構成としてもよい。
　さらに、専用ハードウェアによる処理とプログラムに従ったソフトウェア適用処理を適宜、組み合わせて処理を実行する構成としてもよい。

　　［３．画像処理装置の実行する具体的な処理について］
　次に、画像処理装置（カメラ）の実行する具体的な処理について説明する。
　図６は、画像処理装置（カメラ）の実行する撮影画像からの人検出処理の処理シーケンスを示すフローチャートである。

　本開示の人検出処理は、データ処理機能の高いＰＣ等の情報処理装置でなく、比較的、データ処理機能が低いカメラ等でも、画像の解析による人検出を可能とするため、人検出処理に必要となる演算量の大幅な削減を実現している。

　例えばカメラの撮影画像から人検出を行なおうとする場合、従来の一般的な処理においては、画像を構成する各画素について、特徴量を算出し、算出した特徴量と、人の画像の特徴データを登録した学習辞書との照合処理を行なう。
　この特徴量算出処理と辞書照合処理は、画像内のすべての画素、または、動体が検出された画素すべてに対して行うのが一般的であり、処理負荷が増大する要因となっている。

　さらに、撮影画像には、カメラからの距離に応じて異なる大きさの人が撮影されている。これらの様々なサイズの人の画像領域を検出するためには、画像を複数の異なる解像度の画像に変換し、異なる解像度の画像各々について、階層的に辞書との照合処理を行なわなければならない。
　これらの処理により、特徴量算出処理、辞書照合処理も複数回、行なう必要があり、さらに処理負荷が増大してしまう。

　このような従来の人検出処理の過大な処理負荷を軽減するため、本開示の処理においては、予め、演算量の少ない簡易な「人検出処理１」を実行し、撮影画像から人と推定される画素領域、すなわち人候補点１を絞り込む処理を行なう。
　その後、その人候補点１と周辺の画素領域のみを処理対象とした特徴量算出と辞書照合処理を「人検出処理２」として実行する。
　このような２段階の処理を行なうことで、従来の人検出処理よりも必要とする処理量を低減し、さらに、誤検出についも低減可能とした構成を実現している。

　以下、本開示の人検出処理の詳細について説明する。
　図６は、本開示の画像処理装置（カメラ）の実行する撮影画像からの人検出処理の全体シーケンスを示すフローチャートである。
　以下、フローの各ステップの処理について説明する。

　　（ステップＳ１０１）
　画像処理装置（カメラ）は、まず、ステップＳ１０１において、撮影画像からの動体検出処理を実行し、動体と背景の分離処理を行なう。
　動体検出には、例えば背景差分方式など、従来から知られる一般的な技術が適用可能である。画像に対する動体検出処理を実行した結果のデータ例を図７に示す。

　動体検出処理の結果として、図７に示すように、画素単位での動体のシルエットを得ることができる。
　また、動体に外接する枠、すなわち動体検出枠も得ることができる。
　図７には、４個の動体検出枠１，１４１～動体検出枠４，１４４を示している。

　ここで、これらの動体はあくまで動く何らかのオブジェクトであって、人であったり、車であったり、草木の揺れの誤検出であったりし、その種別までは特定できない。
　また、複数の動体が隣接、または、重なり合ってシルエットがつながり、ひとつの動体オブジェクトとみなされることもある。

　　（ステップＳ１０２）
　ステップＳ１０１における動体検出処理の後、ステップＳ１０２において、動体検出結果を用いて、「人検出処理１」を実行する。

　前述の通り、従来の人検出処理の過大な処理負荷を軽減するため、本開示の処理においては、予め、演算量の少ない簡易な「人検出処理１」を実行し、撮影画像から人と推定される画素領域、すなわち「人候補点１」を絞り込む処理を行なう。
　その後、その「人候補点１」と周辺の画素領域のみを処理対象とした特徴量算出と辞書照合処理を「人検出処理２」として実行する。

　ステップＳ１０２の人検出処理１は、上記の人候補点絞り込み処理に相当する。
　ステップＳ１０３の人検出処理２が、候補点と周辺の画素領域のみを処理対象とした特徴量算出と辞書照合処理に対応する。

　ステップＳ１０２で実行する人検出処理１は、ステップＳ１０３において実行する人検出処理２よりも軽量な演算によって実行することが可能である。
　なお、この人検出処理１の詳細については、後段で説明する。

　ステップＳ１０２では、人検出処理１を実行し、人の候補となる点（人候補点１）が、１つ以上検出された場合、検出された「人候補点１」の座標位置情報等を記録した「人候補点１リスト」を生成する。
　このリストの詳細については後述する。

　　（ステップＳ１０３）
　ステップＳ１０１における動体検出処理、ステップＳ１０２における「人検出処理１」の後、ステップＳ１０３において、「人検出処理２」を実行する。
　この処理は、ステップＳ１０２で検出した「人候補点１」に対応する画素と、その周辺の画素領域のみを処理対象とした特徴量算出と、算出した特徴量と、辞書に登録された人画像の登録特徴量とを比較照合する辞書照合処理である。

　ステップＳ１０３で実行する「人検出処理２」は、一般的な辞書ベースの人検出方法を用いればよい。
　なお、この「人検出処理２」の詳細についても、後段で説明する。

　このステップＳ１０３における「人検出処理２」は、前述の通り、「人候補点１とその周辺画素」のみを処理対象として、特徴量算出と辞書照合処理を実行するものであり、画像全体の画素を処理対象とする従来の処理に比較すると、処理量を大きく削減することができる。
　「人検出処理２」を実行し、人の候補となる点（人候補点２）が、１つ以上検出された場合、検出された「人候補点２」の座標位置情報等を記録した「人候補点２リスト」を生成する。

　　（ステップＳ１０４）
　最後に、ステップＳ１０１で実行した動体検出処理の結果得られた動体検出枠と、ステップＳ１０３における「人検出処理２」の結果として得られた「人候補点２」の各情報を用いて最終検証処理と、メタデータ生成処理を実行する。
　この最終検証処理は、ステップＳ１０３における「人検出処理２」の結果として得られた「人候補点２」が設定された動体が本当に「人」であるか否かを再検証する処理であり、例えば、誤検出データの検出および除去処理や、前後の撮影画像フレームを用いた検証処理を行なう。

　監視カメラの設置状況は、人検出にとって必ずしも好条件であるとは限らない。例えば、暗所や日照・天候変化のある場所で人の姿がクリアに撮影できない環境であることがある。また、人とカメラの間に障害物が映り込み、カメラの撮影できないオクルージョン領域が発生することもある。カメラの俯角、人の映る向きなど、人の判別が困難になる状況が多々、発生する。

　これらの外的要因により、ステップＳ１０３における「人検出処理２」の結果として得られた「人候補点２」には、実際は人ではない誤検出点が含まれることがある。また、本来、人候補点２として検出されるべき点が未検出となったりすることがある。
　そこで、ステップＳ１０４において、ステップＳ１０３で検出した「人候補点２」の再検証を行い、最終的に動体検出枠内のオブジェクトが人であるか否かを最終判断する処理を行なう。

　この最終判断の結果として得られた結果に基づいて、メタデータ、すなわち、先に図２を参照して説明したメタデータに、オブジェクト種類として「人」、または「人以外」のデータを記録する。

　　［４．画像処理装置の実行する人検出処理１の詳細について］
　次に、図６のフローチャートを参照して説明したステップＳ１０２の「人検出処理１」の詳細について、図８以下を参照して説明する。

　図８は、図６のフローチャートを参照して説明したステップＳ１０２の「人検出処理１」の詳細シーケンスについて説明するフローチャートである。
　以下、図８に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ２０１）
　まず、画像処理装置（カメラ）は、ステップＳ２０１において、撮影画像の画像フレームから処理対象とする動体検出枠を選択する。
　動体検出枠は、先に説明した図６に示すフローのステップＳ１０１において検出した動体検出枠である。
　図６に示すフローのステップＳ１０１において、例えば、図７に示すように、画像に複数の動体検出枠が設定される。
　ステップＳ２０１では、まず、処理対象とする１つの動体検出枠を選択する。

　　（ステップＳ２０２）
　次に、処理対象として選択した動体検出枠を処理領域として、動体検出枠内に、分割小領域設定ウィンドウを移動させて、小領域単位の動体画素数をカウントする処理を実行する。

　この処理の詳細について、図９を参照して説明する。
　図９には、ステップＳ２０２の処理において適用する「分割小領域設定ウィンドウ１５１」と、２つの動体検出枠に対するウィンドウの設定、移動例を示している。

　分割小領域設定ウィンドウ１５１は、例えば、図９に示すように、複数の矩形型の小領域に分割された矩形型のウィンドウである。
　図９に示す例において、小領域はａ～ｈの８つの小領域によって構成される。
　これらの小領域に分割されたウィンドウを、動体検出枠内に設定し、その設定位置において、ウィンドウ内の小領域ａ～ｇ各々に含まれる動体画素数をカウントする。

　なお、ウィンドウ１５１は、動体検出枠内のすべての設定可能な位置に設定して、各位置において小領域単位の動体画素数のカウント処理を実行する。

　例えば、図９（ａ）には、図７に示す動体検出枠３，１４３に対応する動体検出枠の図を示している。
　図９（ａ）に示す動体検出枠３，１４３内の白で示す画素領域が動体画素である。黒で示す領域は、動きのない画素、すなわち非動体画素である。

　分割小領域設定ウィンドウ１５１は、まず、図９（ａ）に示す動体検出枠３，１４３の左上端に設定される。図９に示すウィンドウ開始位置１５２Ｓである。
　この位置において、分割小領域設定ウィンドウ１５１内の各小領域ａ～ｇ各々について、各小領域に含まれる動体画素数（＝白で示す領域の画素数）をカウントする。

　この図９に示すウィンドウ開始位置１５２Ｓにおいて、小領域ａ～ｇの動体画素数のカウントが終了すると、そのカウント値をメモリに記憶し、分割小領域設定ウィンドウ１５１を右に１画素移動させる。
　この移動位置において、同様に、小領域ａ～ｇの動体画素数のカウントを実行してカウント値をメモリに格納する。
　さらに、右に１画素移動させて同様の処理を実行する。ウィンドウが動体検出枠の右端に到達したら、次に、ウィンドウを下に１画素ずらして、同様の処理を実行し、次に、ウィンドウを左に１画素、ずらして同様の処理を実行する。

　このようにウィンドウの移動処理と小領域単位の動画素カウント処理を、繰り返し実行し、分割小領域設定ウィンドウ１５１が、図９（ａ）に示す動体検出枠３，１４３の右下端のウィンドウ終了位置１５２Ｅに到達して、動体画素数カウント処理が終了すると、この１つの動体検出枠に対する小領域単位の動体画素数カウント処理を終了する。

　図９（ｂ）は、図７に示す動体検出枠４，１４４に対する分割小領域設定ウィンドウ１５１を適用した小領域単位の動体画素数カウント処理例を示す図である。
　図９（ｂ）に示す例では、ウィンドウの横幅が、動体検出枠４，１４４の横幅に一致しているため、ウィンドウ１５１は、動体検出枠の上端をウィンドウ開始位置１５３Ｓとして、小領域単位の動体画素数のカウントを開始し、カウント終了後、ウィンドウ１５１を下に１画素ずらして、その位置でのカウント処理を行なう。

　その後、ウィンドウを順次、１画素ずつ下にずらして、小領域単位の動体画素数カウント処理を繰り返し、図９（ｂ）に示すように、分割小領域設定ウィンドウ１５１が、図９（ｂ）に示す動体検出枠の下端のウィンドウ終了位置１５３Ｅに到達して、動体画素数カウント処理が終了すると、この１つの動体検出枠に対する小領域単位の動体画素数カウント処理を終了する。
　なお、図９（ａ），（ｂ）に示す例においては、いずれも、分割小領域設定ウィンドウの開始位置と終了位置を動体検出枠に内接する設定としているが、これは一例であり、分割小領域設定ウィンドウの開始位置と終了位置は様々な設定が可能である。例えば、動体検出枠の外側領域に一部はみ出した位置に分割小領域設定ウィンドウの開始位置と終了位置を設定するなど、様々な設定が可能である。

　　（ステップＳ２０３）
　次に、ステップＳ２０３において、各ウィンドウ設定位置における小領域単位の動体画素数のカウント値を用いて、その動体検出枠の動体が人であるか否かを判定する処理を行なう。
　各小領域単位の動体画素比率と、あらかじめ規定した小領域単位のしきい値とを比較し、比較結果に基づいて、ウィンドウを設定した動体検出枠内の動体が人であるか否かを判定する。

　この具体的処理例について、図１０を参照して説明する。
　図１０には、図９（ｂ）を参照して説明した動体検出枠４，１４４と同様の図と、動体検出枠４，１４４の上端に設定した小領域設定ウィンドウ１５１を示している。
　図１０に示すように、分割小領域設定ウィンドウ　　１５１は、８つの小領域ａ～ｇに分割されている。ステップＳ２０２において、これら分割小領域の動体画素数（＝白画素領域）がカウント済みであり、カウントデータが、例えば、図１０（１）分割小領域単位動体画素数としてメモリに格納されている。

　分割小領域設定ウィンドウ１５１に設定される分割小領域の各々については、予めしきい値が設定され、メモリに格納されている。
　このしきい値は、ウィンドウ内の画像が人であるか人でないかを判別するためのしきい値である。
　図１０（２）にこのしきい値の一例を示す。
　図１０（２）分割小領域単位動体画像比率しきい値は、分割小領域設定ウィンドウ１５１に設定される分割小領域の各々について予め規定されたしきい値の例である。
　各小領域の総画素数中、何％の画素が動体画素であれば人であると判定するかを規定したしきい値である。

　この図１０（２）に示すしきい値は、ウィンドウ内の動体画素が、人の上半身（頭から胸）領域に相当するか否かを判定するためのしきい値の例である。
　図１０（２）に示す例では、以下のようなしきい値が設定されている。
　小領域ａ，ｄのしきい値は、動体画素比率０～５％、
　小領域ｂ，ｃのしきい値は、動体画素比率４０～６０％、
　小領域ｅ，ｈのしきい値は、動体画素比率５～２５％、
　小領域ｆ，ｇのしきい値は、動体画素比率６０～１００％、

　図１０（１）に示すウィンドウ１５１を設定してカウントされた動体画素数を適用して算出した各小領域単位の動体画素-比率と、図１０（２）に示す予め規定されたしきい値とを比較して、ウィンドウ１５１内の動体が人であるか否かを判定する。
　具体的な判定処理例を図１１に示す。

　図１１には、動体検出枠４，１４４の上端に設定した分割小領域設定ウィンドウ１５１を用いて算出されるデータ等、以下の各データを示している。
　（１）小領域単位の動体画素カウント数
　（２）小領域単位の動体画素比率
　（３）小領域単位の動体画素比率しきい値
　（４）判定結果（小領域単位の動体画素比率が、しきい値範囲内にあるか否かの判定結果）
　なお、図１１に示す例は、各小領域の総画素数＝５０００とした例である。

　この図１１に示す例において、図１１（２）に記載のウィンドウ内の小領域ａ～ｈの動体画素比率と、図１１（３）に記載のしきい値と比較すると、小領域ａ～ｈの動体画素比率は、すべてしきい値の範囲内にあり、（４）の判定結果はすべて「Ｙｅｓ」と判定されている。
　このような場合は、ウィンドウの設定された動体検出枠内の動体は人であると判定する。

　なお、図１１に示す例は、小領域ａ～ｇの動体画素比率が、すべてがしきい値内にあり、すべての小領域の判定結果が「Ｙｅｓ」と判定された例であるが、
　動体検出枠内の動体が人であると判定する条件は、様々な設定が可能であり、小領域の動体画素比率が、すべてがしきい値内にあることを必須とするものではない。
　例えば、小領域ａ～ｇの動体画素比率の２／３以上が、しきい値内にあれば、人であると判定する等、様々な設定が可能である。

　また、図９～図１１に示す分割小領域設定ウィンドウ１５１は、各小領域の動体画素に基づいて、ウィンドウ設定領域の動体が、人の上半身（顔～胸）に相当するか否かを判定するための８分割型ウィンドウであるが、このウィンドウの設定や分割数は、人判定に用いる１つの代表例を示すものである。

　この図９～図１１に示す分割小領域設定ウィンドウ１５１以外にも、例えば頭から足先までをカバーするウィンドウ等、様々なタイプのウィンドウが設定可能であり、また、各ウィンドウタイプに応じた様々な分割小領域の設定が可能である。

　図８のフローチャートに戻り、図６のフローのステップＳ１０２の「人検出処理１」の詳細シーケンスについての説明を続ける。
　図８に示すフローチャートのステップＳ２０３では、図９～図１１を参照して説明したように、各ウィンドウ設定位置における小領域単位の動体画素数のカウント値を用いて、その動体検出枠の動体が人であるか否かを判定する。すなわち、図１１に示すように、各小領域単位の動体画素比率と、あらかじめ規定した小領域単位のしきい値とを比較し、比較結果に基づいて、ウィンドウを設定した動体検出枠内の動体が人であるか否かを判定する。

　　（ステップＳ２０４）
　ステップＳ２０４は、ステップＳ２０３の判定処理においてウィンドウ内の動体を人であると判定したか否かに応じた分岐処理である。
　ステップＳ２０３の判定処理においてウィンドウ内の動体を人であると判定した場合は、ステップＳ２０４の判定が（Ｙｅｓ）となり、ステップＳ２０５に進む。
　一方、ステップＳ２０３の判定処理においてウィンドウ内の動体を人でないと判定した場合は、ステップＳ２０４の判定が（Ｎｏ）となり、ステップＳ２０６に進む。

　　（ステップＳ２０５）
　ステップＳ２０５の処理は、ステップＳ２０３の判定処理においてウィンドウ内の動体を人であると判定した場合に実行される処理である。
　この場合、ステップＳ２０５において、ウィンドウ内に「人候補点１」を設定し、人候補点１リストに「人候補点１」の座標情報等を記録する。

　この処理について、図１２を参照して説明する。
　図１２には、図９～図１１を参照して説明したと同様、動体検出枠４，１４４と、動体検出枠４，１４４の上端に設定された分割小領域設定ウィンドウ１５１を示している。

　分割小領域設定ウィンドウ１５１が、動体検出枠４，１４４の上端に設定された位置で、このウィンドウ内の動体が人であると判定されたものとする。
　この場合、ステップＳ２０５において、ウィンドウ内に「人候補点１」を設定し、人候補点リストに座標情報等を記録する。
　図１２に示すように人候補点１，１６１を設定し、この人候補点１，１６１の座標情報（ｘ，ｙ）等を「人候補点１リスト」に登録する。
　なお、人候補点１，１６１は、例えば人と判定された位置の分割小領域設定ウィンドウ１５１の中心位置に設定する。

　　（ステップＳ２０６）
　ステップＳ２０５において、「人候補点１」の設定と、リスト登録処理が完了した場合、あるいは、ステップＳ２０４において、ウィンドウ内の動体が人と判定されなかった場合は、ステップＳ２０６に進む。
　ステップＳ２０６では、処理対象としている画像フレーム内の動体検出枠に対する処理がすべて完了したか否かを判定する。

　処理が完了している場合は、ステップＳ２０７に進む。
　処理が完了していない場合は、ステップＳ２０１に戻り、未処理の動体検出枠に対する処理を実行する。

　　（ステップＳ２０７～Ｓ２０８）
　ステップＳ２０６において、処理対象としている画像フレーム内の動体検出枠に対する処理がすべて完了したと判定した場合は、次に、ステップＳ２０７において、規定階層の縮小画像適用処理を全て完了したか否かを判定する。
　全て完了したと判定した場合は、処理を終了する。

　規定階層の縮小画像適用処理が完了していないと判定した場合は、ステップＳ２０８に進み、画像の縮小処理を実行して、ステップＳ２０１に戻り、縮小画像を適用したステップＳ２０１以下の処理を実行する。

　このステップＳ２０７～Ｓ２０８の処理例について、図１３、図１４を参照して説明する。
　ステップＳ２０７～Ｓ２０８において実行する画像縮小処理は、ステップＳ２０２～Ｓ２０３における分割小領域設定ウィンドウに基づく動体画素カウント処理を、縮小画像を利用して実行させるための処理である。
　例えば、図１３に示すように、画像Ｒ_０を縮小処理の施されていないオリジナル画像の画像サイズとする。

　図８に示すフローチャートのステップＳ２０１～Ｓ２０５の処理は、まず、このオリジナル画像Ｒ_０を用いて実行する。すなわち、分割小領域設定ウィンドウに基づく動体画素カウント処理をオリジナル画像Ｒ_０を用いて実行する。

　このオリジナル画像Ｒ_０に対する処理が完了すると、ステップＳ２０８において、オリジナル画像Ｒ_０の画像縮小処理を実行する。例えば、縦、横の長さを１／２に設定した縮小画像Ｒ_１を生成する。
　この縮小画像Ｒ_１を用いて、図８に示すフローチャートのステップＳ２０１～Ｓ２０５の処理を繰り返し実行する。
　以下、同様に、縮小画像Ｒ_２～Ｒ_６を、順次、生成し、縮小画像Ｒ_２～Ｒ_６を用いて、図８に示すフローチャートのステップＳ２０１～Ｓ２０５の処理を繰り返し実行する。
　なお、これらの繰り返し処理において、分割縮小領域設定ウィンドウのサイズは縮小することなく、元のサイズのままとする。

　このように、複数の縮小画像を用いた処理を繰り返し実行する理由について、図１４を参照して説明する。
　図１４には、オリジナルサイズの画像Ｒ_０と、縮小画像Ｒ_５を用いて、同一サイズの分割縮小領域設定ウィンドウを用いた小領域単位の動画素数カウント処理例を示している。

　画像を縮小することで、動体検出枠内の画像も縮小される。
　画像に撮り込まれている人物のサイズは、カメラに近ければ大きくなり、カメラから遠い場合は、小さいサイズとなる。
　すなわち、画像に撮り込まれている人物のサイズは、様々なサイズとなる。

　このような様々なサイズの人物に対して、図９～図１１を参照して説明した分割小領域設定ウィンドウ１５１を適用した人検出を行うと、ウィンドウサイズに適応したサイズの人物領域は検出できるが、適応しないサイズの人物は検出できない。
　このようなサイズの不適合による検出ミスを防止するため、複数の縮小画像を生成し、同一サイズウィンドウを適用して人検出処理を行なう。
　このように、複数の縮小画像を適用して人検出処理を繰り返し、実行することで、様々なサイズの人領域を検出することが可能となる。

　図８に示すフローチャートのステップＳ２０７～Ｓ２０８の縮小画像生成処理は、このように、画像フレームに含まれる様々なサイズの人を検出可能とするための処理である。
　例えば、図１３～図１４に示すように、画像Ｒ_０～画像Ｒ_６まで、複数の異なる縮小率の画像を生成し、これらの複数の画像を用いて、ステップＳ２０１以下の処理を繰り返し行う。

　図８に示すフローチャートのステップＳ２０７において、すべての規定した縮小画像を用いた処理が完了したと判定すると、処理を終了する。

　この図８に示すフローチャートに従って実行されるステップＳ２０５において、人と判定された人候補点１のリストが生成される。
　人候補点１リストの具体例について、図１５、図１６を参照して説明する。

　図１５には、人候補点１リストの一例を示している。
　図１５に示す人候補点１リストには、識別子０～４の５エントリが登録されている。
　これらの５つの登録データ（エントリ）は、図８に示すフローを実行して得られた人と判定された動体に対して設定された「人候補点１」に対応する登録データである。
　具体的には、たとえば図１２に示すような人候補点１，１６１の各々に対応する登録データ（エントリ）である。

　なお、「人候補点１」は、分割小領域設定ウィンドウの１つの設定位置に対応して１つ検出され、「人候補点１」の設定された１つのウィンドウに隣接する多数のウィンドウにも「人候補点１」が設定される。
　これらは、いずれも画像から検出される１人の人に対応する検出点と判断され、これら近接位置の「人候補点１」は、１つのデータにマージしてリストに登録する構成としてもよい。

　なお、近接する座標位置にある複数の点を１つの点にマージするためのマージ手法としては、従来から知られるマージ手法を適用する。
　具体的には、例えば「ＭｅａｎＳｈｉｆｔ法」を用いて、近接領域にある複数の人候補点１を探索し、次に、「Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法」を適用して、ユークリッド距離が規定しきい値以下の人候補点１のマージ処理、すなわち複数点を１つの代表点に集約するマージ処理を実行する。

　リストには、このマージ結果として得られる代表点のみの情報を登録する設定としもよい。
　図１５に示す「人候補点１リスト」の例は、登録データとして、人候補点１識別子（ＩＤ）に対応付けた以下のデータを記録した例である。
　（１）ｘ，ｙ座標
　（２）ウィンドウの幅と高さ
　これらの各データは、縮小処理の施されていないオリジナルサイズの画像、すなわち、図１３、図１４に示すオリジナル画像Ｒ_０における座標と、ウィンドウサイズとして記録する。

　なお、図１５に示す例では、ウィンドウサイズは、
　４０×４０（画素）
　である。これは、オリジナル画像Ｒ_０におけるウィンドウサイズである。

　図１５に示す人候補点識別子０，２，３は、登録データ中のウィンドウの幅と高さが４０×４０であり、これらのエントリは、いずれもオリジナル画像Ｒ_０を用いて検出された「人候補点１」であると判断される。

　一方、図１５に示す人候補点識別子１は、登録データ中のウィンドウの幅と高さが８０×８０であり、このエントリは、オリジナル画像Ｒ_０を、縦、横とも１／２に設定した縮小画像Ｒ_１を用いて検出された「人候補点１」であると判断される。
　また、図１５に示す人候補点識別子４は、登録データ中のウィンドウの幅と高さが１６０×１６０であり、このエントリは、オリジナル画像Ｒ_０を、縦、横とも１／４に設定した縮小画像Ｒ_２を用いて検出された「人候補点１」であると判断される。

　このように、人候補点１リストには、人候補点の設定座標位置と、その「人候補点１」を検出した際に用いられたウィンドウのサイズが、いずれも縮小なしのオリジナル画像Ｒ_０に対応する換算値として登録される。

　図１６には、図１５に示す例とは異なるデータ設定を持つ「人候補点１リスト」のもう１つの例を示している。
　図１６に示す人候補点１リストにも、識別子０～４の５エントリが登録されている。
　これらの５つの登録データ（エントリ）は、図８に示すフローを実行して、得られた人と判定された動体に対して設定された「人候補点１」に対応する登録データである。
　具体的には、たとえば図１２に示すような人候補点１，１６１の各々に対応する登録データ（エントリ）である。

　図１６に示す例では、各登録データは、人候補点１識別子（ＩＤ）に対応付けられた以下の各データを記録している。
　（１）ｘ，ｙ座標
　（２）検出した階層画像（Ｒ_０～Ｒ_６）
　ｘ，ｙ座標は、縮小処理の施されていないオリジナルサイズの画像、すなわち、図１３、図１４に示すオリジナル画像Ｒ_０における座標として記録される。

　図１６に示す例は、図１５に示すリストに登録されていたウィンドウサイズの代わりに、人候補点１を検出した階層画像、すなわち、図１３、図１４に示す画像Ｒ_０～Ｒ_６のいずれにおいて人候補点１が検出されたかを示す人候補点１検出階層画像情報を登録する設定としている。

　図１６に示す人候補点識別子０，２，３は、いずれもオリジナル画像Ｒ_０を用いて検出された「人候補点１」であることが記録される。
　一方、図１６に示す人候補点識別子１は、縮小画像Ｒ_１を用いて検出された「人候補点１」であることが記録される。
　さらに、図１６に示す人候補点識別子４は、縮小画像Ｒ_２を用いて検出された「人候補点１」であることが記録される。
　このように、図１６に示す人候補点１リストは、人候補点の設定座標位置と、その「人候補点１」を検出した際に用いられた画像の識別情報を登録した例である。

　なお、図１５、図１６を参照して説明した人候補点１リストの他にも、様々な登録情報を設定したリストを利用可能である。
　ただし、「人候補点１」の設定位置を示す座標情報は不可欠であり、縮小なしのオリジナル画像における座標位置が算出可能なデータが必要である。

　　［５．画像処理装置の実行する人検出処理２の詳細について］
　次に、先に図６のフローチャートを参照して説明したステップＳ１０３の「人検出処理２」の詳細について、図１７以下を参照して説明する。
　図６のフローにおけるステップＳ１０３の「人検出処理２」は、先に説明したように、ステップＳ１０２で検出した「人候補点１」に対応する画素と、その周辺の画素領域のみを処理対象とした特徴量算出と辞書照合処理である。

　図１７は、図６のフローチャートを参照して説明したステップＳ１０３の「人検出処理２」の詳細シーケンスについて説明するフローチャートである。
　以下、図１７に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ３０１）
　まず、画像処理装置（カメラ）は、ステップＳ３０１において、撮影画像フレームから処理対象とする人候補点１を選択する。
　人候補点１は、先に図１５、図１６を参照して説明した人候補点１リストに登録され、メモリに格納されている。
　画像処理装置（カメラ）は、ステップＳ３０１において、人候補点１リストに登録された登録データ（エントリ）を１つ選択し、これを処理対象とする。さらに、リストに登録された座標データに基づいて、画像フレームから処理対象とする人候補点１の座標位置を決定する。

　　（ステップＳ３０２）
　次に、ステップＳ３０２において、処理対象とした「人候補点１」を含む人判定検出枠を設定し、設定した人検出枠の枠内画像から人判定用特徴量を抽出する。

　「人候補点１」を含む人判定検出枠の設定例について、図１８以下を参照して説明する。
　図１８には、先説明した図８に示すフローに従って検出された人候補点１，１６１を含む動体検出枠４，１４４を示している。
　人候補点１，１６１は、人候補点１リストに登録された座標位置（ｘ，ｙ）の位置に設定されている。

　人判定検出枠は、この人候補点１，１６１、またはその周囲画素を含む所定面積を持つ枠として、１つ以上、設定し、各設定枠の各々について、特徴量抽出処理を行う。
　図１８に示す例では、人候補点１，１６１を含むｎ個の人判定検出枠１７１－１～ｎを示している。

　人候補点１またはその周囲画素を含む複数の人判定検出枠の具体的設定例について図１９を参照して説明する。
　図１９は、人候補点１またはその周囲画素を含む９個の人判定検出枠の具体的設定例を説明する図である。
　図１９の例は、人候補点１，１８０を中心とする３×３画素領域１８１を構成する９個の画素を中心とした９個のＮ×Ｎ画像を設定して、これらの人判定検出枠１８５－１～９をそれぞれ特徴量抽出領域とした処理を行なう例である。

　図１９（１）に示す人判定検出枠設定例１は、
　人候補点１，１８０を中心とする３×３画素領域１８１を構成する９画素中の中心画素を中心とするＮ×Ｎ画素領域からなる人判定検出枠１８５－１を示している。
　図１９（２）に示す人判定検出枠設定例２は、
　人候補点１，１８０を中心とする３×３画素領域１８１を構成する９画素中の左上画素を中心とするＮ×Ｎ画素領域からなる人判定検出枠１８５－２を示している。
　図１９（９）に示す人判定検出枠設定例２は、
　人候補点１，１８０を中心とする３×３画素領域１８１を構成する９画素中の右下画素を中心とするＮ×Ｎ画素領域からなる人判定検出枠１８５－９を示している。

　図１９には、１８０を中心とする３×３画素領域１８１を構成する９画素中の３画素を利用して、これらの画素を中心とするＮ×Ｎ画素の人判定検出枠１８５－１，２，９を示しているが、これらの他、３×３画素領域１８１を構成する９画素各々を中心とするＮ×Ｎ画素の人判定検出枠１８５－１～９を順次、設定し、これら９個の人判定検出枠１８５－１～９の各々から人判定用の特徴量抽出を行う。

　図２０は、図１９を参照して説明した人判定検出枠の設定例と異なる人判定検出枠１９５－１～ｍの設定例を示す図である。

　図２０に示す人判定検出枠の設定例は、人候補点１，１８０を中心とする所定範囲の領域、例えば半径Ｒの画素領域１９１を設定し、この画素領域からｍ個の画素を選択し、選択したｍ個の画素の各々を中心とするＮ×Ｎのｍ個の画素領域を人判定検出枠１９５－１～ｍとして設定した例である。
　これらｍ個の人判定検出枠１９５－１～ｍの各々から人判定用の特徴量抽出を行う。

　図１７のフローのステップＳ３０２では、例えば図１９、図２０を参照して説明したように、人候補点１を含む人判定用検出枠を設定して、その設定検出枠から、人判定用特徴量を抽出する。
　なお、特徴量は、例えば、人の顔の特徴を示す眼、鼻、口等の画像特徴量、人体形状を示す特徴量であり、画像からの人検出処理に適用される既存の様々な特徴量が利用可能である。
　なお、画像から抽出された特徴量は、画像処理装置の記憶部であるメモリに登録された辞書登録特徴量と比較され、近似度が高いと判定されると人と判定される。

　　（ステップＳ３０３～Ｓ３０４）
　次に、ステップＳ３０３～Ｓ３０４において、人判定検出枠内画像から抽出した人判定用特徴量と、人判定特徴量を登録した辞書の登録データとの照合処理に基づく人判定処理を実行する。

　図１８～図２０を参照して説明した人判定検出枠内の画素値に基づいて抽出された特徴量と、画像処理装置の記憶部であるメモリに登録された辞書登録特徴量との比較照合処理をし実行し、抽出特徴量が辞書登録特徴量に一致、または類似度が高いと判定した場合は、人検出枠に撮り込まれた画像が人であると判定する。
　この場合、ステップＳ３０４の判定が（Ｙｅｓ）となり、ステップＳ３０５に進む。

　一方、抽出特徴量が辞書登録特徴量に一致せず、類似度が低いと判定した場合は、人検出枠に撮り込まれた画像が人でないと判定する。
　この場合、ステップＳ３０４の判定が（Ｎｏ）となり、ステップＳ３０６に進む。

　　（ステップＳ３０５）
　ステップＳ３０５の処理は、ステップＳ３０３の判定処理において人判定検出枠内の動体を人であると判定した場合に実行される処理である。
　この場合、ステップＳ３０５において、人判定検出枠内に人候補点２を設定し、人候補点２リストに座標情報等を記録する。

　この処理について、図２１を参照して説明する。
　図２１には、図１８を参照して説明したと同様、動体検出枠４，１４４と、動体検出枠４，１４４に設定された人候補点１，１６１と、人候補点１，１６１を含む複数の人判定検出枠２０１－１，２、および、人判定検出枠２０１－１，２の各々に対して設定された人候補点２，２１１－１～２を示している。

　なお、「人候補点２」は、１つの人判定検出枠に対応して１つ設定される。例えば、人判定検出枠の中心位置に「人候補点２」を設定する。
　図１８～図２０を参照して説明したように、１つの「人候補点１」に対して複数の人判定検出枠を設定して、各枠から特徴量抽出、辞書照合を実行して各枠対応の「人候補点２」を設定する処理を実行するので、設定した人判定検出枠の数に応じた複数の「人候補点２」が設定される場合がある。
　近接位置の複数の「人候補点２」は、画像から検出される１人の人に対応する検出点と判断され、これら近接位置の「人候補点２」は、１つのデータにマージしてリストに登録する設定としてもよい。
　「人候補点２」のマージ処理と人候補点２リストの具体例については後述する。

　　（ステップＳ３０６）
　ステップＳ３０５において、「人候補点２」の設定と、リスト登録処理が完了した場合、あるいは、ステップＳ３０４において、人判定検出枠内の動体が人と判定されなかった場合は、ステップＳ３０６に進む。
　ステップＳ３０６では、処理対象としている画像フレーム内の全ての人候補点１に対する処理がすべて完了したか否かを判定する。

　処理が完了している場合は、ステップＳ３０７に進む。
　処理が完了していない場合は、ステップＳ３０１に戻り、未処理の人候補点１に対する処理を実行する。

　　（ステップＳ３０７～Ｓ３０８）
　ステップＳ３０６において、処理対象としている画像フレーム内の全ての「人候補点１」に対する処理がすべて完了したと判定した場合は、次に、ステップＳ３０７において、規定階層の縮小画像適用処理を全て完了したか否かを判定する。
　全て完了したと判定した場合は、処理を終了する。

　規定階層の縮小画像適用処理が完了していないと判定した場合は、ステップＳ３０８に進み、画像の縮小処理を実行して、ステップＳ３０１に戻り、縮小画像を適用したステップＳ３０１以下の処理を実行する。

　このステップＳ３０７～Ｓ３０８の処理例について、図２２を参照して説明する。
　ステップＳ３０７～Ｓ３０８において実行する画像縮小処理は、先に図８を参照して説明したステップＳ２０７～Ｓ２０８の処理と同様の処理である。
　すなわち、ステップＳ３０２～Ｓ３０３における人判定検出枠を利用した特徴量抽出と辞書照合処理を、縮小画像を利用して実行させるための処理である。
　例えば、図２２に示すように、画像Ｒ_０をオリジナル画像の画像サイズとする。

　図１７に示すフローチャートのステップＳ３０１～Ｓ３０５の処理は、まず、このオリジナル画像Ｒ_０を用いて実行する。すなわち、人判定検出枠を利用した特徴量抽出と辞書照合処理を、縮小されていないオリジナル画像Ｒ_０を用いて実行する。

　このオリジナル画像Ｒ_０に対する処理が完了すると、ステップＳ３０８において、オリジナル画像Ｒ_０の画像縮小処理を実行する。例えば、縦、横の長さを１／２に設定した縮小画像Ｒ_１を生成する。
　この縮小画像Ｒ_１を用いて、図１７に示すフローチャートのステップＳ３０１～Ｓ３０５の処理を繰り返し実行する。
　以下、同様に、縮小画像Ｒ_２～Ｒ_６を、順次、生成し、縮小画像Ｒ_２～Ｒ_６を用いて、図１７に示すフローチャートのステップＳ３０１～Ｓ３０５の処理を繰り返し実行する。
　なお、これらの繰り返し処理において、人判定検出枠のサイズは縮小することなく、元のサイズのままとする。

　このように、複数の縮小画像を用いた処理を繰り返し実行する理由は、画像に撮り込まれている人物のサイズに適応した人検出処理を行なうためである。
　前述したように、画像内の人のサイズは、カメラに近ければ大きくなり、カメラから遠い場合は、小さいサイズとなる。

　このような様々なサイズの人物に対して、人判定検出枠を適用した特徴量抽出を行うと、人判定検出枠サイズに適応したサイズの人領域は検出できるが、適応しないサイズの人物は検出できない。
　このようなサイズの不適合による検出ミスを防止するため、複数の縮小画像を生成し、同一サイズ人判定検出枠を適用して人検出処理を行なう。
　このように、複数の縮小画像を適用して人検出処理を繰り返し、実行することで、様々なサイズの人画像領域を検出することが可能となる。

　図１７に示すフローチャートのステップＳ３０７～Ｓ３０８の縮小画像生成処理は、このように、画像フレームに含まれる様々なサイズの人を検出可能とするための処理である。
　例えば、図２２に示すように、画像Ｒ_０～画像Ｒ_６まで、複数の縮小画像を生成し、これらの複数の縮小画像を用いて、ステップＳ３０１以下の処理を繰り返し行う。

　図１７に示すフローチャートのステップＳ３０７において、すべての規定した縮小画像を用いた処理が完了したと判定すると、処理を終了する。

　この図１７に示すフローチャートに従って実行されるステップＳ３０５において、人と判定された「人候補点２」のリストが生成される。
　人候補点２リストの具体例について、図２３を参照して説明する。

　図２３には、人候補点２リストの一例を示している。
　図２３に示す人候補点２リストには、識別子０～４の５エントリが登録されている。
　これらの５つの登録データ（エントリ）は、図１７に示すフローを実行して、得られた人と判定された動体に対して設定された「人候補点２」に対応する登録データである。

　なお、「人候補点２」は、前述したように、１つの人判定検出枠に対応して１つ設定され、複数の近接する人判定検出枠に対して、複数の近接する「人候補点２」が設定される場合がある。
　近接位置の複数の「人候補点２」は、画像から検出される１人の人に対応する検出点と判断され、これら近接位置の「人候補点２」は、１つのデータにマージしてリストに登録する設定としてもよい。

　近接座標位置にある複数の点を１つの点にマージするためのマージ手法としては、従来から知られるマージ手法を適用する。適用するマージ手法は、前述したマージ手法と同様である。
　例えば「ＭｅａｎＳｈｉｆｔ法」を用いて、近接領域にある複数の「人候補点２」を探索し、次に、「Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ法」を適用して、ユークリッド距離が規定しきい値以下の「人候補点２の」マージ処理、すなわち複数点を１つの代表点に集約するマージ処理を実行する。

　図２４は、マージ処理によって複数の人判定検出枠２０１－１～ｎと、これらの複数枠に対応して設定された「人候補点２」を１つの人判定検出枠２５１と、１つの人候補点２，２７１に集約した処理例を示す図である。

　図２３に示す人候補点２リストには、例えばこのマージ処理によってえられたマージ結果のみを登録する。
　図２３に示す例では、各登録データは、人候補点２識別子（ＩＤ）に対応付けられた以下の各データを記録している。
　（１）ｘ，ｙ座標
　（２）検出した階層画像（Ｒ_０～Ｒ_６）
　ｘ，ｙ座標は、縮小処理の施されていないオリジナルサイズの画像、すなわち、図２２に示すオリジナル画像Ｒ_０における座標として記録される。

　さらに、「人候補点２」を検出した階層画像、すなわち、図２２に示す画像Ｒ_０～Ｒ_６のいずれにおいて「人候補点２」が検出されたかを示す人候補点２検出階層画像情報を登録する設定としている。

　図２３に示す人候補点識別子０，２，３は、いずれもオリジナル画像Ｒ_０を用いて検出された「人候補点２」であることが記録される。
　一方、図２３に示す人候補点識別子１は、縮小画像Ｒ_１を用いて検出された「人候補点２」であることが記録される。
　さらに、図２３に示す人候補点識別子４は、縮小画像Ｒ_２を用いて検出された「人候補点２」であることが記録される。
　このように、図２３に示す人候補点２リストは、人候補点の設定座標位置と、その「人候補点２」を検出した際に用いられた画像の識別情報を登録した例である。

　なお、図２３を参照して説明した人候補点２リストの他にも、様々な登録情報を設定したリストを利用可能である。
　ただし、「人候補点２」の設定位置を示す座標情報は不可欠であり、縮小なしのオリジナル画像における座標位置が算出可能なデータが必要である。

　　［６．画像処理装置の実行する最終検証処理とメタデータ生成処理の詳細について］
　次に、先に図６のフローチャートを参照して説明したステップＳ１０４の「最終検証処理とメタデータ生成処理」の詳細について、図２５以下を参照して説明する。
　図６のフローにおけるステップＳ１０４の「最終検証処理とメタデータ生成処理」は、先に説明したように、ステップＳ１０３における人検出処理２の結果として得られた「人候補点２」が設定された動体が本当に人であるか否かを再検証する処理であり、例えば、前後の撮影画像フレームを用いた検証処理が行われる。

　これらの外的要因により、ステップＳ１０３における人検出処理２の結果として得られた人候補点２には、実際は人ではない誤検出点が含まれることもあり、また、本来、人候補点２として検出されるべき点が未検出となったりすることがある。
　そこで、ステップＳ１０４において、ステップＳ１０３の検出点等の再検証を行い、最終的に動体検出枠内のオブジェクトが人であるか否かを最終判断する処理を行なう。

　この最終判断の結果として得られた結果に基づいて、メタデータ、すなわち、先に図２を参照して説明したメタデータに、オブジェクト種類として人、または人以外のデータを記録する。
　以下、このステップＳ１０４の「最終検証処理とメタデータ生成処理」の詳細について、図２５以下を参照して説明する。

　図２５は、図６のフローチャートを参照して説明したステップＳ１０４の「最終検証処理とメタデータ生成処理」の詳細シーケンスについて説明するフローチャートである。
　以下、図２５に示すフローの各ステップの処理について、順次、説明する。

　　（ステップＳ４０１）
　まず、画像処理装置（カメラ）は、ステップＳ４０１において、撮影画像フレームから処理対象とする動体検出枠を選択する。
　動体検出枠は、先に説明した図６に示すフローのステップＳ１０１において検出した動体検出枠である。
　図６に示すフローのステップＳ１０１において、例えば、図７に示すように、画像に複数の動体検出枠が設定される。
　ステップＳ４０１では、まず、処理対象とする１つの動体検出枠を選択する。

　　（ステップＳ４０２）
　次に、ステップＳ４０２において、ステップＳ４０１で選択した動体検出枠内に「人候補点２」が設定されているか否かを判定する。
　「人候補点２」は、図６に示すフローのステップＳ１０３、すなわち、図１７を参照して説明したフローに従って設定される「人候補点２」である。

　この「人候補点２」の座標位置は、先に図２３を参照して説明した人候補点２リストに登録され、メモリに格納されている。
　画像処理装置（カメラ）は、ステップＳ４０２において、ステップＳ４０１で選択した動体検出枠内の座標位置に対応する座標位置情報を持つ登録データ（エントリ）が、人候補点２リストに登録されているか否かを確認する。

　人候補点２リストに登録されている場合は、処理対象とした動体検出枠内に「人候補点２」があると判定し、ステップＳ４０３に進む。
　一方、人候補点２リストに登録されていない場合は、処理対象とした動体検出枠内に「人候補点２」がないと判定し、ステップＳ４０５に進む。

　　（ステップＳ４０３～Ｓ４０４）
　ステップＳ４０２において、動体検出枠内に「人候補点２」があると判定した場合、ステップＳ４０３～Ｓ４０４において、その動体検出枠内の動体が本当に人であるか否かの再検証処理を行なう。

　具体的には、ステップＳ４０３において、以下の処理を実行する。
　（ａ）人候補点２を含む人判定検出枠と、
　（ｂ）人判定検出枠が設定された動体検出枠
　上記（ａ），（ｂ）２つの検出枠の位置関係を解析する。
　ステップＳ４０４では、この解析結果、すなわち、２つの検出枠の位置関係解析結果に基づいて、人候補点２が設定された動体検出枠内の動体が人であるか否かを再判定する。
　このステップＳ４０３～Ｓ４０４の処理は、主として、「人候補点２」が誤検出、すなわち、人でない動体を「人候補点２」と判定している誤検出点を除去する処理として実行される。

　この誤検出除去処理の具体例について、図２６以下を参照して説明する。
　図２６には、「人候補点２」が検出された判定検出枠が設定された複数の動体検出枠の例を示している。
　人判定検出枠は、図６のフローのステップＳ１０３の処理、すなわち、図１７に示すフローに従って実行される人検出処理２において設定される枠である。図１８～図２０を参照して説明した人判定検出枠である。

　図２６には、先のに図７を参照して説明した画像中の動体検出枠２，１４２～動体検出枠４，１４４において「人候補点２」が検出された人判定検出枠を示している。
　なお、これらの人検出枠は、マージ処理前の人判定検出枠である。

　図１７に示すフローに従った処理において、「人候補点２」が検出された人判定検出枠は、その動体が人である場合、水平方向に密な複数の枠として設定される可能性が高い。
　一方、動体が人でない場合、「人候補点２」が検出された人判定検出枠は、水平方向に密な複数の枠として設定されず、単独、または少数の枠として出現する可能性が高い。

　これは、動体が人である場合、人であることを示す特徴量が、枠が水平方向にずれた位置でも検出される可能性が高いが、動体が人でない場合、人であることを示す特徴量は、枠が水平方向にずれた位置では検出されにくくなるという現象に基づくものである。
　なお、この現象は、動体枠内に人が一人であっても、複数人であっても同様である。

　図２６に示す動体検出枠２，１４２と、動体検出枠４，１４４は、動体検出枠内の動体が人である場合の例である。
　動体検出枠２，１４２には、人候補点２が設定された動体検出枠３１１－１～ｎが水平方向に密に設定される。
　同様に、動体検出枠４，１４４には、人候補点２が設定された動体検出枠３２１－１～ｎが水平方向に密に設定される。

　一方、図２６に示す動体検出枠３，１４３は、動体検出枠内の動体が人でない場合の例である。
　動体検出枠３，１４３には、人候補点２が設定された動体検出枠３３１－１が１つのみ設定されているが、水平方向に密には設定されていない。

　このように、動体が人である場合、「人候補点２」が検出された動体検出枠は水平方向に密に設定され、動体が人でない場合、「人候補点２」が検出された動体検出枠は水平方向に密に設定されないという違いが発生する。

　ステップＳ３０３～Ｓ３０４の誤検出除去処理は、この違いに基づいて、誤検出された「人候補点２」を削除する処理として実行される。

　図２７を参照して、この誤検出の検出および削除処理を実現する軽量な演算処理について説明する。
　図２７には、処理対象とする動体検出枠３５０と、「人候補点２」が検出されたと仮定した複数の判定検出枠の例、人判定検出枠ｐ１，３７１～人判定検出枠ｐ５，３７５を示している。

　人判定検出枠３７１～３７５は、図６のフローのステップＳ１０３の処理、すなわち、図１７に示すフローに従って実行される人検出処理２において設定される枠である。図１８～図２０を参照して説明した人判定検出枠である。

　図２７に示すように、動体検出枠３５０上端部より、動体検出枠高さ（ｈｅｉｇｈｔ）に対してａ％下部の位置からｂ％の高さの範囲について、人候補点２が設定された人判定検出枠が水平方向に存在するか否かを調べる。
　例えばａ％＝３～１０％、ｂ％＝５～６０％、これらの値を適用する。

　このような、動体検出枠３５０のおよそ半分の上部領域に、人候補点２が設定された人判定検出枠が密に存在しているか否かを判定する。
　具体的処理としては、例えば、図２７の下部に示すように、動体検出枠横幅（ｗｉｄｔｈ）に対する上部領域（上端からａ％～ｂ％）に存在する人判定検出枠の領域（ｘ＋ｙ）占有率を算出する処理を行なう。

　図２７に示す例では、上部領域（上端からａ％～ｂ％）に存在する人判定検出枠は、人判定検出枠ｐ１，３７１、人判定検出枠ｐ２，３７２、および人判定検出枠ｐ３，３７３である。

　人判定検出枠ｐ１，３７１と、人判定検出枠ｐ３，３７３からなる画像領域の水平方向の長さ、例えば画素数をｘとする。
　また、人判定検出枠ｐ２，３７２からなる画像領域の水平方向の長さ、例えば画素数をｙとする。
　動体検出枠３５０の幅の水平方向の長さ、例えば画素数をｗｉｄｔｈとする。
　この設定で、動体検出枠横幅（ｗｉｄｔｈ）に対する上部領域（上端からａ％～ｂ％）に存在する人判定検出枠の領域（ｘ＋ｙ）占有率を、以下の式（式１）によって算出する。
　人判定検出枠占有率＝（ｘ＋ｙ）／（ｗｉｄｔｈ）・・・（式１）

　さらに上記（式１）によって算出した人判定検出枠占有率と、予め設定した占有率しきい値（Ｔｈ１＝ｃ％）とを比較する。しきい値ｃ％は例えば３０％等の値を利用する。
　人判定検出枠占有率≧Ｔｈ１・・・（式２）
　上記（式２）の判定式が成立すれば、人候補点２の設定された人判定検出枠内の動体が人であると判定する。
　一方、上記（式２）の判定式が成立しない場合は、人候補点２の設定された人判定検出枠内の動体が人でないと判定する。すなわち、「人候補点２」は誤検出であったと判定する。

　なお、図２７に示す例は、人と判定する人判定検出枠の領域を動体検出枠の高さ方向（ａ％の高さからｂ％）に制限する例である。
　これは、先に図１８を参照して説明したように、人の上半身を示す特徴量を検出する人検出方法を用いた場合、人候補点２が設定される人判定検出枠は、動体検出枠の上部に現れやすく、下部は誤検知の可能性が高いという理由からである。
　従って、人の全体の特徴量検出処理等、他の人検出手法を用いる場合や、カメラの設置状況（俯角が付くなど）、人の状態（影を伴う場合や自転車に乗っている場合など）によって、上記の占有率を算出するための範囲やしきい値は、変更される。

　具体的には、例えば、人に影が伴う場合や、人が自転車に乗っている場合、動体枠が水平方向に広がる可能性がある。これらを正しく人と判断するために、例えば、影や自転車に乗った人を検出した場合は、しきい値ｃ％の値を比較的低めにする処理や、人判定検出枠の占有率算出範囲を広げたりする調整処理を行なうことが好ましい。
　また、人判定検出枠の占有率算出範囲の規定ラインは、水平方向や斜め方向など、様々な設定が可能であり、その形状、大きさも状況に応じて変更し得る。

　図２５に示すフローチャートの説明に戻る。
　ステップＳ４０２において、動体検出枠内に「人候補点２」があると判定した場合、ステップＳ４０３～Ｓ４０４において、その動体検出枠内の動体が本当に人であるか否かの再検証処理を行なう。

　具体的には、図２６、図２７を参照して説明したように、ステップＳ４０３において、以下の処理を実行する。
　（ａ）人候補点２を含む人判定検出枠と、
　（ｂ）人判定検出枠が設定された動体検出枠
　上記（ａ），（ｂ）２つの検出枠の位置関係を解析する。
　ステップＳ４０４では、この解析結果、すなわち、２つの検出枠の位置関係解析結果に基づいて、人候補点２が設定された動体検出枠内の動体が人であるか否かを再判定する。
　前述したように、このステップＳ４０３～Ｓ４０４の処理は、主として、「人候補点２」が誤検出、すなわち、人でない動体を「人候補点２」と判定している誤検出点を除去する処理として実行される。

　ステップＳ４０４において、人候補点２が設定された動体検出枠内の動体が人であると判定した場合は、ステップＳ４０６に進む。
　一方、ステップＳ４０４において、人候補点２が設定された動体検出枠内の動体が人でないと判定した場合は、ステップＳ４０５に進む。

　　（ステップＳ４０５）
　ステップＳ４０２において、動体検出枠内に人候補点２がないと判定した場合、あるいは、ステップＳ４０４において、人候補点２が設定された動体検出枠内の動体が人でないと判定した場合は、ステップＳ４０５に進む。

　ステップＳ４０５では、人候補点２が設定された動体検出枠の動体を人ではないと判定し、メタデータに記録する。
　すなわち、先に図２を参照して説明したメタデータに、人候補点２が設定された動体検出枠のオブジェクトのオブジェクト種別を「人以外」として記録する。

　　（ステップＳ４０６～Ｓ４０８）
　一方、ステップＳ４０４において、「人候補点２」が設定された動体検出枠内の動体が人であると判定した場合は、ステップＳ４０６に進む。
　ステップＳ４０６では、現処理フレームと、予め規定した前後の複数フレームの処理が完了したか否かを判定する。

　現処理フレームと、予め規定した前後の複数フレームの処理が完了していない場合は、ステップＳ４０７において、予め規定した範囲の連続フレームから未処理フレームを取得し、ステップＳ４０１以下の処理を未処理フレームについて実行する。

　ステップＳ４０６で、現処理フレームと、予め規定した前後の複数フレームの処理が完了したと判定した場合は、ステップＳ４０８に進む。
　ステップＳ４０８では、規定の連続複数フレームにおいて、「人候補点２」の設定された動体が人である判定したか否かを判定する。

　規定の連続複数フレームにおいて、「人候補点２」の設定された動体が人であると判定した場合は、ステップＳ４０９に進む。
　一方、規定の連続複数フレームにおいて、「人候補点２」の設定された動体が人であると判定されなかった場合は、ステップＳ４０５に進む。

　これらステップＳ４０６～Ｓ４０８の処理は、誤検出除去の従来から知られる一般的な処理の適用である。例えば、連続フレームにおいて、同一の動体オブジェクトに対して共通にすべて人と判定された場合は、そのオブジェクトを人とする最終判定を行なう。
　一方、規定の連続複数フレームにおいて、「人候補点２」の設定された動体が人であるとする共通判定が得られなかった場合は、「人候補点２」の設定オブジェクトは人でないとの最終判定を行なう。

　さらに、これらの処理に加えて、動体や人枠の大きさや位置、オブジェクトの輝度や色、特徴が大きく変動する場合に、誤検知とみなす処理を実行する構成としてもよい。

　ステップＳ４０８の判定処理において、規定の連続複数フレームにおいて、「人候補点２」の設定された動体が人であると判定されなかった場合は、ステップＳ４０５に進む。
　ステップＳ４０５では、前述したように、「人候補点２」が設定された動体検出枠の動体を人ではないと判定し、メタデータに記録する。
　すなわち、先に図２を参照して説明したメタデータに、「人候補点２」が設定された動体検出枠のオブジェクトのオブジェクト種別を「人以外」として記録する。

　　（ステップＳ４０９）
　一方、ステップＳ４０８の判定処理において、規定の連続複数フレームにおいて、人候補点２の設定された動体が人であると判定された場合は、ステップＳ４０９に進む。
　ステップＳ４０９では、「人候補点２」が設定された動体検出枠の動体を人であると判定し、メタデータに記録する。
　すなわち、先に図２を参照して説明したメタデータに、「人候補点２」が設定された動体検出枠のオブジェクトのオブジェクト種別を「人」として記録する。

　　（ステップＳ４１０）
　ステップＳ４０５、あるいはステップＳ４０９のメタデータ記録処理の後、ステップＳ４１０に進む。
　ステップＳ４１０では、画像フレーム内の全ての動体検出枠についての処理が完了したか否かを判定する。
　未処理の動体検出枠がある場合は、その動体検出枠について、ステップＳ４０１以下の処理を繰り返す。
　全ての動体検出枠に対する処理が完了すると処理を終了する。

　これらの処理によって、画像フレームから検出された動体各々について、人であるか人でないかの結果が得られ、この結果に応じたメタデータ、すなわち、図２を参照して説明したオブジェクト情報を記録したメタデータが生成されて画像処理装置（カメラ）からサーバや情報端末に送信される。

　　［７．その他の実施例について］
　先に説明した図２５に示すフローにおいて、ステップＳ４０６～Ｓ４０８の処理は、誤検出除去処理であり、予め既定した範囲の連続フレームにおいて、同一の動体オブジェクトに対して共通にすべて人と判定された場合は、そのオブジェクトを人とする最終判定を行なう処理として説明した。

　上述した実施例では、既定の連続フレームにおいて、全て人と判定されれば、最終判定を人とする判定を行なうとして説明したが、例えば、所定期間内の連続フレームにおいて、人と判断される頻度に応じて、人か否かの最終判断を行う構成としてもよい。

　例えば、ｎ枚のフレームの間でｍ枚以上のフレームで同一の人が検出されていれば、人らしいと判断する（ｎ≧ｍ）。このことにより、人候補点２が時間方向に断続的にしか検出されなかったとしても未検出が補填される。
　一方、検出頻度が低いものは、誤検出である可能性が高く、人でないとの最終判断を行う。

　パラメータであるｎとｍの決め方は任意に決めても良いし、自動的に決める設定としてもよい。
　例えば、人を検出しにくい暗所での検出感度を高めるために、映像の輝度レベルが低い時にはｎを大きく、ｍを小さくする、などである。ここで、フレーム間に渡って頻度を計測する対象は、人候補点２や人判定検出枠単位であってもよいし、オブジェクトデータ（動体検出枠単位）であってもよい。

　前者の場合は、フレーム間に渡って人候補点２を任意の方法でトラッキングしておく。例えば、フレーム間で一定範囲内に存在する人候補点２の要素同士を同一とみなす。
　また、後者の場合は、オブジェクトデータのＩＤを確認することによってフレーム間でのオブジェクトの対応付けが可能である。各フレームで人として検出されたか否かは、オブジェクトデータの種別に人と記録されているか否かを見ればわかる。

　なお、本開示の処理において、図６のステップＳ１０２の「人検出処理１」で検出される「人候補点１」は、ある画像領域内に密に検出されることがある。
　これらの点は、前述したように予め規定したルールに基づいて、候補点の間引き、または、候補点同士のマージを行う構成とすることが好ましい。「人候補点１」の数を低減することにより、「人検出処理２」以降の処理負荷をさらに軽減することが可能さなる。「人候補点２」についても同様の間引きやマージを実行することが好ましい。

　上述したように、本開示の処理では、図６に示すフローのステップＳ１０２において、軽量な処理として実行可能な「人検出処理１」を実行して「人候補点１」を検出し、その後のステップＳ１０３の演算量を必要とする辞書ベースの「人検出処理２」を、ステップＳ１０２で検出された「人候補点１」の近傍領域に限定して実行することで、総演算量を大幅に削減することがを実現している。

　これらの処理は、カメラに搭載可能なレベルの演算量で実現できるため、各カメラで人検出処理を分散処理でき、サーバへの集中不可を軽減することができる。すなわち、大規模なシステムを設置するコストを削減でき、例えば、追跡対象とする犯人等のオブジェクトを短い時間で捜査することも可能となる。

　また、図６のフローのステップＳ１０２の「人検出処理１」によって人らしいと推定された範囲のみについて、ステップＳ１０３で「人検出処理２」を行う構成であるため、「人検出処理２」での誤検出可能性が大きく低減される。
　さらに、「人検出処理２」の後のステップＳ１０４で、誤検出データの削除等、最終検証処理を行なう構成としたので、「人検出処理２」の性能が発揮しにくい場面でも安定した検出処理が実現される。

　　［８．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理装置。

　（２）　前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行する（１）に記載の画像処理装置。

　（３）　前記データ処理部は、
　前記人検出処理１において、前記分割小領域単位の全画素数に対する動体画素数の比率と、予め規定したしきい値を比較し、比較結果に基づいてウィンドウ内の画像が人であるか否かを判定する（１）または（２）に記載の画像処理装置。

　（４）　前記データ処理部は、
　画像に対して複数の異なる縮小率で縮小した複数の縮小画像を生成し、生成した複数の縮小画像に対して、縮小なしの同一サイズのウィンドウを適用して前記人検出処理１を実行する（１）～（３）いずれかに記載の画像処理装置。

　（５）　前記データ処理部は、
　縮小なしのオリジナル画像、および、複数の異なる縮小率で縮小した複数の縮小画像に対する人検出処理１の結果として得られた人候補点１の位置を示す座標情報を登録した人候補点１リストを生成する（４）に記載の画像処理装置。

　（６）　前記データ処理部は、
　人候補点１の位置を示す座標情報として、縮小なしのオリジナル画像における座標情報と、人候補点１の設定処理を実行した画像の縮小レベルが識別可能な情報を記録した人候補点１リストを生成する（５）に記載の画像処理装置。

　（７）　前記データ処理部は、
　前記人検出処理２において、
　前記人判定検出枠内の画像特徴量を算出し、算出した特徴量と、予め登録された人判定用特徴量との照合処理である辞書照合処理を実行して、照合結果に基づいて人判定検出枠内の画像が人であるか否かを判定する（１）～（６）いずれかに記載の画像処理装置。

　（８）　前記データ処理部は、
　前記人検出処理２において、
　前記人候補点１を中心画素とする所定領域の画素の各々を中心とする複数の人判定検出枠を設定し、各々の人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する（１）～（７）いずれかに記載の画像処理装置。

　（９）　前記データ処理部は、
　画像に対して複数の異なる縮小率で縮小した複数の縮小画像を生成し、生成した複数の縮小画像に対して、縮小なしの同一サイズの人判定検出枠を適用して前記人検出処理２を実行する（１）～（８）いずれかに記載の画像処理装置。

　（１０）　前記データ処理部は、
　縮小なしのオリジナル画像、および、複数の異なる縮小率で縮小した複数の縮小画像に対する人検出処理２の結果として得られた人候補点２の位置を示す座標情報を登録した人候補点２リストを生成する（９）に記載の画像処理装置。

　（１１）　前記データ処理部は、
　人候補点２の位置を示す座標情報として、縮小なしのオリジナル画像における座標情報と、人候補点２の設定処理を実行した画像の縮小レベルが識別可能な情報を記録した人候補点２リストを生成する（１０）に記載の画像処理装置。

　（１２）　前記データ処理部は、
　前記最終判定処理において、
　動体検出枠内特定領域における、前記人候補点２の設定された人判定検出枠の占有率を算出し、
　前記占有率がしきい値以上である場合に、前記人判定検出枠内の画像が人であると最終判定する（２）に記載の画像処理装置。

　（１３）　前記データ処理部は、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成する（１）～（１２）いずれかに記載の画像処理装置。

　（１４）　前記画像処理装置は、
　前記データ処理部の生成したメタデータを、通信部を介して送信する（１３）に記載の画像処理装置。

　（１５）　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバを有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する画像処理システム。

　（１６）　前記カメラの前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行し、
　前記最終判定処理の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する（１５）に記載の画像処理システム。

　（１７）　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバと情報端末を有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して、撮影画像に併せて前記サーバに送信し、
　前記サーバは、前記カメラから受信する撮影画像とメタデータを記憶部に格納し、
　前記情報端末からの処理要求に応じて、記憶部に格納した撮影画像とメタデータを適用したオブジェクト検索または追跡処理を実行する画像処理システム。

　（１８）　前記カメラの前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行し、
　前記最終判定処理の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する（１７）に記載の画像処理システム。

　（１９）　画像処理装置において実行する画像処理方法であり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理方法。

　（２０）　画像処理装置において画像処理を実行させるプログラムであり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記プログラムは、前記データ処理部に、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１と、
　前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、画像からの人検出処理を軽量な演算で高精度に実行する装置、方法が実現される。
　具体的には、画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内画像が人であるか否かを判定し、人と判定したウィンドウに人候補点１を設定する。さらに、人候補点１、またはその周辺画素を含む人判定検出枠を設定し、人判定検出枠内の画像特徴量に基づく人判定処理を実行し、人であると判定した場合、人判定検出枠内に人候補点２を設定する。さらに、人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、人判定検出枠内の画像が人であるか否かを最終判定する。
　本構成により、画像からの人検出処理を軽量な演算で高精度に実行する装置、方法が実現される。

　　１０　カメラ
　　２０　サーバ
　　３０　情報端末
　　４０　ネットワーク
　１００　画像処理装置（カメラ）
　１０１　レンズ
　１０２　イメージセンサ
　１０３　画像処理部
　１０４　センサ
　１０５　メモリ
　１０６　通信部
　１０７　駆動部
　１０８　ＣＰＵ
　１０９　ＧＰＵ
　１１０　ＤＳＰ
　１４１～１４４　動体検出枠
　１５１　分割小領域設定ウィンドウ
　１６１　人候補点１
　１７１　人判定検出枠
　２０１　人判定検出枠
　２１１　人候補点２
　２５１　人判定検出枠
　２７１　人候補点２
　３５０　動体検出枠
　３７１～３７５　人判定検出枠

Claims

　画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理装置。
　前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行する請求項１に記載の画像処理装置。
　前記データ処理部は、
　前記人検出処理１において、前記分割小領域単位の全画素数に対する動体画素数の比率と、予め規定したしきい値を比較し、比較結果に基づいてウィンドウ内の画像が人であるか否かを判定する請求項１に記載の画像処理装置。
　前記データ処理部は、
　画像に対して複数の異なる縮小率で縮小した複数の縮小画像を生成し、生成した複数の縮小画像に対して、縮小なしの同一サイズのウィンドウを適用して前記人検出処理１を実行する請求項１に記載の画像処理装置。
　前記データ処理部は、
　縮小なしのオリジナル画像、および、複数の異なる縮小率で縮小した複数の縮小画像に対する人検出処理１の結果として得られた人候補点１の位置を示す座標情報を登録した人候補点１リストを生成する請求項４に記載の画像処理装置。
　前記データ処理部は、
　人候補点１の位置を示す座標情報として、縮小なしのオリジナル画像における座標情報と、人候補点１の設定処理を実行した画像の縮小レベルが識別可能な情報を記録した人候補点１リストを生成する請求項５に記載の画像処理装置。
　前記データ処理部は、
　前記人検出処理２において、
　前記人判定検出枠内の画像特徴量を算出し、算出した特徴量と、予め登録された人判定用特徴量との照合処理である辞書照合処理を実行して、照合結果に基づいて人判定検出枠内の画像が人であるか否かを判定する請求項１に記載の画像処理装置。
　前記データ処理部は、
　前記人検出処理２において、
　前記人候補点１を中心画素とする所定領域の画素の各々を中心とする複数の人判定検出枠を設定し、各々の人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する請求項１に記載の画像処理装置。
　前記データ処理部は、
　画像に対して複数の異なる縮小率で縮小した複数の縮小画像を生成し、生成した複数の縮小画像に対して、縮小なしの同一サイズの人判定検出枠を適用して前記人検出処理２を実行する請求項１に記載の画像処理装置。
　前記データ処理部は、
　縮小なしのオリジナル画像、および、複数の異なる縮小率で縮小した複数の縮小画像に対する人検出処理２の結果として得られた人候補点２の位置を示す座標情報を登録した人候補点２リストを生成する請求項９に記載の画像処理装置。
　前記データ処理部は、
　人候補点２の位置を示す座標情報として、縮小なしのオリジナル画像における座標情報と、人候補点２の設定処理を実行した画像の縮小レベルが識別可能な情報を記録した人候補点２リストを生成する請求項１０に記載の画像処理装置。
　前記データ処理部は、
　前記最終判定処理において、
　動体検出枠内特定領域における、前記人候補点２の設定された人判定検出枠の占有率を算出し、
　前記占有率がしきい値以上である場合に、前記人判定検出枠内の画像が人であると最終判定する請求項２に記載の画像処理装置。
　前記データ処理部は、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成する請求項１に記載の画像処理装置。
　前記画像処理装置は、
　前記データ処理部の生成したメタデータを、通信部を介して送信する請求項１３に記載の画像処理装置。
　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバを有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する画像処理システム。
　前記カメラの前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行し、
　前記最終判定処理の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する請求項１５に記載の画像処理システム。
　画像を撮影するカメラと、
　前記カメラとネットワーク接続されたサーバと情報端末を有する画像処理システムであり、
　前記カメラは、
　撮影画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　撮影画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行し、
　前記人検出処理２の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して、撮影画像に併せて前記サーバに送信し、
　前記サーバは、前記カメラから受信する撮影画像とメタデータを記憶部に格納し、
　前記情報端末からの処理要求に応じて、記憶部に格納した撮影画像とメタデータを適用したオブジェクト検索または追跡処理を実行する画像処理システム。
　前記カメラの前記データ処理部は、
　前記人検出処理２において、人判定検出枠内の画像が人であると判定した場合、前記人判定検出枠内に人候補点２を設定し、
　さらに、前記人候補点２の設定された人判定検出枠の動体検出枠内における分布状況を解析し、解析結果に基づいて、前記人判定検出枠内の画像が人であるか否かを最終判定する最終判定処理を実行し、
　前記最終判定処理の結果として得られる動体が人であるか否かを示すオブジェクト種類情報を記録したメタデータを生成して前記サーバに送信する請求項１７に記載の画像処理システム。
　画像処理装置において実行する画像処理方法であり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記データ処理部は、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１を実行し、
　さらに、前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行する画像処理方法。
　画像処理装置において画像処理を実行させるプログラムであり、
　前記画像処理装置は、画像からの人検出処理を実行するデータ処理部を有し、
　前記プログラムは、前記データ処理部に、
　画像から検出した動体領域を囲む動体検出枠内に、分割小領域設定ウィンドウを設定し、分割小領域単位の動体画素数に基づいて、ウィンドウ内の画像が人であるか否かを判定し、人であると判定した場合、ウィンドウ内に人候補点１を設定する人検出処理１と、
　前記人候補点１、または人候補点１周辺画素を含む人判定検出枠を設定して、人判定検出枠内の画像特徴量に基づいて、人判定検出枠内の画像が人であるか否かを判定する人検出処理２を実行させるプログラム。