WO2014207991A1

WO2014207991A1 - 教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム

Info

Publication number: WO2014207991A1
Application number: PCT/JP2014/002670
Authority: WO
Inventors: 浩雄池田
Original assignee: 日本電気株式会社
Priority date: 2013-06-28
Filing date: 2014-05-21
Publication date: 2014-12-31
Also published as: EP3016069A4; US20210350191A1; US9875431B2; JP6008045B2; US10776674B2; US20190102660A1; US20230351259A1; JPWO2014207991A1; EP3312770B1; US11132587B2; HK1250542A1; CN105593901B; US20190102661A1; US20170330061A1; HK1257339A1; US11836586B2; US20200090013A1; CN108647631B; EP3312770A1; HK1220795A1

Abstract

　群衆状態を認識するための識別器の辞書を機械学習する際に用いる多くの教師データを容易に生成することができる教師データ生成装置を提供する。人物状態決定部７２は、複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、その複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する。群衆状態画像合成部７３は、背景抽出部７１によって得られた所定サイズの画像に対して、人物状態決定部７２が決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定する。

Description

教師データ生成装置、方法、プログラム、および群衆状態認識装置、方法、プログラム

　本発明は、教師データを生成する教師データ生成装置、教師データ生成方法、教師データ生成プログラム、および、画像中の群衆の状態を認識する群衆状態認識装置、群衆状態認識方法、群衆状態認識プログラムに関する。

　画像中の群衆の状態（以下、群衆状態と記す。）の認識技術が種々提案されている（特許文献１～３参照）。

　特許文献１に記載された人物行動判定装置は、映像から、背景差分等により、差分が生じた変化領域を抽出し、その変化領域から特徴量を算出する。そして、この人物行動判定装置は、特徴量を機械学習した人物識別器を用いて、その変化領域が人物領域であるか否かを判定し、人物領域を検出する。さらに、この人物行動判定装置は、検出した人物領域を、距離や色ヒストグラムを考慮してフレーム間で対応付けを行い、所定のフレーム数に渡って人物領域を追跡する。そして、この人物行動判定装置は、追跡で得られた人物軌跡から、平均速度、追跡時間、移動方向等の人物軌跡の特徴量を算出し、人物軌跡の特徴量に基づいて人物の行動を判定する。

　特許文献２に記載された人数計測装置は、人混みを撮影した映像から、人の数を計測する。この人数計測装置は、頭部モデルに基づいて、画像に含まれる人の頭部を抽出する。そして、この人数計測装置は、位置情報や色分布等の特徴量を用いて、フレーム間で同一の人物と判断される頭部位置を連結して、その連結結果（人物の追跡結果）から、人の人数を計測する。

　特許文献３に記載されたシステムは、群衆の映像から、定常（例えば、人の主流な流れ）／非定常（例えば、主流な流れに対する逆行）等の状態を検出する。このシステムは、判定の単位となる判定ブロックに対して、オプティカルフローの属性を集計し、オプティカルフローの定常度を評価するための評価値を算出する。そして、このシステムは、その評価値から判定ブロックの状態を判定する。

特開２０１１－１００１７５号公報（段落００２８－００３０）特開２０１０－１９８５６６号公報（段落００４６－００５１）特開２０１２－２２３７０号公報（段落０００９）

　特許文献１～３に記載された技術では、低フレームレートの映像に関しては、判定性能が低下する。特に、静止画像に関しては、特許文献１～３に記載された技術では、画像中の群衆状態を判定できない。

　その理由は、特許文献１～３に記載された技術は、映像の各フレームを利用していて、状態判定の性能がフレームの間隔に依存するためである。例えば、特許文献１に記載の技術では、人物領域をフレーム間で対応付けし、人物軌跡を得る。また、特許文献２に記載の技術では、フレーム間で頭部位置を連結し、その結果を人物の追跡結果とする。このような軌跡や追跡結果を得る場合、人物領域や頭部位置を、フレーム間で対応付ける必要がある。このとき、フレームレートが低いと、人物の移動量が大きくなり、それに伴い、人物領域や頭部位置の変化や形状（姿勢）の変化が増大する。また、照明等の外乱の影響も増大する。そのため、人物領域や頭部位置を、フレーム間で対応付けることが難しくなる。この結果、人物軌跡等の精度が低下し、画像中の群衆状態の判定精度が低下する。また、特許文献３に記載の技術においても、低フレームレートでは、オプティカルフローを正しく求めにくくなり、その結果、集計した属性の精度が低下し、状態の判定性能が低下する。

　また、例えば、画像中の群衆状態を認識する場合、学習された辞書による識別器を用いた方法が考えられる。辞書は群衆状態を示す画像等の教師データで学習される。しかし、辞書の学習のために用いる教師データ（学習用データ）を大量に集める必要がある。例えば、人物の配置（人物同士の重なり方や、人物の位置の偏り方）、人物の方向、密度（単位領域当たりの人数）を、様々な状態に定め、さらに、各状態で、撮影角度、背景、照明、人物の服装や姿勢等を種々に変化させた画像を大量に集める必要がある。これらの画像を用いて機械学習を行うことで、識別器の辞書が得られる。しかし、このような教師データを大量に集める場合、教師データ収集の作業負担が大きくなる。

　そこで、本発明は、群衆状態を認識するための識別器の辞書を機械学習する際に用いる多くの教師データを容易に生成することができる教師データ生成装置、教師データ生成方法、教師データ生成プログラムを提供することを目的とする。

　また、本発明は、フレームレートに依存せずに、良好に画像中の群衆状態を認識できる群衆状態認識装置、群衆状態認識方法、群衆状態認識プログラムを提供することを目的とする。

　本発明による教師データ生成装置は、予め用意された複数の背景画像から背景画像を選択し、その背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出手段と、複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、その複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定手段と、背景抽出手段によって得られた所定サイズの画像に対して、人物状態決定手段が決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成手段とを備えることを特徴とする。

　また、本発明による群衆状態認識装置は、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、群衆状態を表した所定サイズの画像であって、所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段と、与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、その辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識手段とを備えることを特徴とする。

　また、本発明による教師データ生成方法は、予め用意された複数の背景画像から背景画像を選択し、その背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出ステップと、複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、その複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定ステップと、背景抽出ステップで得られた所定サイズの画像に対して、人物状態決定ステップで決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成ステップとを含むことを特徴とする。

　また、本発明による群衆状態認識方法は、矩形領域群記憶手段が、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶し、群衆状態認識辞書記憶手段が、群衆状態を表した所定サイズの画像であって、所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、その辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識ステップを含むことを特徴とする。

　また、本発明による教師データ生成プログラムは、コンピュータに、予め用意された複数の背景画像から背景画像を選択し、その背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出処理、複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、その複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定処理、および、背景抽出処理で得られた所定サイズの画像に対して、人物状態決定処理で決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成処理を実行させることを特徴とする。

　また、本発明による群衆状態認識プログラムは、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、群衆状態を表した所定サイズの画像であって、所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段とを備えたコンピュータに、与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、その辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識処理を実行させることを特徴とする。

　本発明の教師データ生成装置、教師データ生成方法および教師データ生成プログラムによれば、群衆状態を認識するための識別器の辞書を機械学習する際に用いる多くの教師データを容易に生成することができる。

　また、本発明の群衆状態認識装置、群衆状態認識方法および群衆状態認識プログラムによれば、フレームレートに依存せずに、良好に画像中の群衆状態を認識できる。

本発明の教師データ生成装置の構成例を示すブロック図である。群衆状態制御指示記憶手段が記憶する情報の例を示す模式図である。人物状態制御指示記憶手段が記憶する情報の例を示す模式図である。人物画像記憶手段に記憶されている人物画像と、その人物画像に対応する人物領域画像の例を示す図である。背景の人物状態の条件を満たしている例を示す模式図である。前景の人物状態の条件を満たしている例を示す模式図である。本発明の群衆状態認識装置の構成例を示すブロック図である。混雑度（人数）を認識する例を示す模式図である。群衆の方向を認識する例を示す模式図である。非異常群衆か異常群衆かを認識する例を示す模式図である。無秩序状態か秩序状態かを認識する例を示す模式図である。教師データ生成装置の処理経過の例を示すフローチャートである。ステップＳ１の処理経過の例を示すフローチャートである。ステップＳ２の処理経過の例を示すフローチャートである。ステップＳ３の処理経過の例を示すフローチャートである。ステップＳ４の処理経過の例を示すフローチャートである。群衆状態認識装置の処理経過の例を示すフローチャートである。本発明の教師データ生成装置の具体的な構成の一例を示すブロック図である。本発明の群衆状態認識装置の具体的な構成の一例を示すブロック図である。本発明の教師データ生成装置の主要部を示すブロック図である。本発明の群衆状態認識装置の主要部を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

　図１は、本発明の教師データ生成装置の構成例を示すブロック図である。本発明の教師データ生成装置１０は、画像内の群衆状態を機械学習するための教師データを生成する。具体的には、教師データ生成装置１０は、群衆状態の局所画像と、その局所画像に対応する教師ラベルの組を複数作成する。ここで、「局所」とは、群衆状態の認識対象となる画像（後述の画像取得装置３（図７参照）が取得する画像）の領域よりも小さな領域であることを意味する。そして、群衆状態の局所画像とは、そのような領域内に、群衆を構成する人物の部位であって、基準となる部位（以下、基準部位と記す。）の集合を表している画像である。本実施形態では、基準部位として、頭部を用いる場合を例にして説明するが、頭部以外を基準部位としてもよい。また、群衆状態の局所画像を、群衆パッチと記す。群衆パッチには、基準部位（本例では頭部）以外の人物の部位が表されていてもよい。

　教師データ生成装置１０は、プログラム制御によって動作するデータ処理装置１と、情報を記憶する記憶装置２とを備える。

　記憶装置２は、背景画像記憶手段２１と、学習用局所画像情報記憶手段２２と、群衆状態制御指示記憶手段２３と、人物状態制御指示記憶手段２４と、人物画像記憶手段２５と、人物領域画像記憶手段２６とを備える。

　背景画像記憶手段２１は、群衆パッチで背景として用いられる複数の背景画像（背景画像群）を記憶する。この背景画像には、人物は含まれていない。群衆状態の認識対象となる画像を撮影する現地の画像を背景画像として用いてもよい。また、ＣＧ（Computer Graphics ）等を用いて生成した背景画像を用いてもよい。

　学習用局所画像情報記憶手段２２は、群衆パッチ（機械学習に用いられる群衆状態の局所画像）のサイズと、その群衆パッチに対する、人物の基準部位のサイズを記憶する。例えば、群衆パッチのサイズが、縦ｈピクセル、横ｗピクセルと決められているとする。そして、群衆パッチに写る群衆を構成する人物の基準部位（本例では頭部）の縦サイズが群衆パッチの縦サイズの１／α倍、すなわち、ｈ／αピクセルであると定められているとする。この場合、縦ｈピクセル、横ｗピクセルを群衆パッチのサイズとして学習用局所画像情報記憶手段２２に記憶させておく。また、縦ｈ／αピクセルを、人物の基準部位のサイズとして学習用局所画像情報記憶手段２２に記憶させておく。ここでは、基準部位のサイズとして縦サイズを記憶させておく場合を例にしたが、記憶させる基準部位のサイズは縦サイズに限定されない。例えば、人物の基準部位の横サイズが群衆パッチの横サイズの１／α倍、すなわち、ｗ／αピクセルであると定められているとする。この場合、縦ｈピクセル、横ｗピクセルを群衆パッチのサイズとして学習用局所画像情報記憶手段２２に記憶させるとともに、横ｗ／αピクセルを人物の基準部位のサイズとして学習用局所画像情報記憶手段２２に記憶させておけばよい。実際の利用時において、人物の基準部位のサイズは、縦サイズまたは横サイズのどちらか一方を決めて利用すればよい。また、群衆パッチのサイズと人物の基準部位のサイズとの関係が分かればよいので、対角サイズ等を利用してもよい。

　ここで、人物の基準部位のサイズとは、群衆パッチ内で人物の基準部位がそのサイズと同程度のサイズで写っていれば、その人物を、人物として認めることになるサイズである。例えば、群衆パッチ内で、人物の基準部位が極端に大きく写っている場合や、逆に極端に小さく写っている場合、その人物は、群衆を構成している人物ではあるものの、単なる背景とみなす。

　群衆状態制御指示記憶手段２３は、群衆パッチ内に複数の人物画像を合成する際における、複数の人物に関係する人物の状態の指示情報（以下、複数人物状態制御指示と記す。）を記憶する。複数人物状態制御指示は、事前に、教師データ生成装置１０の操作者によって定められ、群衆状態制御指示記憶手段２３に記憶される。複数人物状態制御指示は、複数の人物画像を合成する際の人物の重なり具合、位置の偏り具合等の人物の配置関係に関する項目「人物の配置」や、人物同士の向きに関する項目「人物の方向」や、人数や密度に関する項目「人数」等の項目毎に定められる。複数人物状態制御指示が定められる項目はこれらの項目に限定されない。図２は、群衆状態制御指示記憶手段２３が記憶する情報の例を示す模式図である。図２では、「人物の配置」、「人物の方向」、「人数」という項目に対して定められた複数人物状態制御指示を例示している。

　複数人物状態制御指示の態様には、「所定の状態」、「ランダム」、「所定のルール」等がある。

　「所定の状態」とは、対応する項目に関して、具体的な状態を指示する指示態様である。図２に示す例では、「人数」という項目に対して定められた「３人」が、「所定の状態」に該当する。この例では、「人数」を「３人」として、具体的に指示している。「所定の状態」の他の例として、例えば、「人物の方向」という項目に関して、「全員右方向」と指示すること等が挙げられる。

　「ランダム」とは、対応する項目に関して任意に状態を定めてよいことを意味する。図２に示す例では、「人物の配置」および「人物の方向」に関して「ランダム」という複数人物状態制御指示が定められている。

　また、「所定のルール」とは、操作者が指定したルールを満足する範囲内で、対応する項目の状態を定めてよいことを指示する指示態様である。例えば、「人物の配置」という項目に関し、「人物同士を５０％重ねて配置する。」というルールが定められている場合、人物の配置に関して、少なくとも、そのルールを満たすように人物の状態を定めることを指示していることになる。また、例えば、「人物の方向」に関して、「群衆パッチの中心より右側に配置された人物は右方向を向き、中心より左側に配置された人物は左方向を向く。」というルールが定められている場合、人物の方向に関して、少なくとも、そのルールを満たすように人物の状態を定めることを指示していることになる。

　また、群衆状態制御指示記憶手段２３は、項目毎に、教師ラベルの指定の有無を記憶する。図２に示す例では、“○”が教師ラベルの指定ありという情報を表し、“×”が教師ラベルの指定なしという情報を表している。この点は、後述の図３でも同様である。

　操作者は、複数人物状態制御指示が定められる各項目のうち、教師ラベルを指定する項目を１つ以上選択する。また、操作者は、教師ラベルを指定する項目であるか否かによらず、各項目に対して複数人物状態制御指示を定める。図２に示す例では、教師ラベルの指定なしの項目「人物の配置」、「人物の方向」に関しても、複数人物状態制御指示（本例では、ランダムという指示）が定められている。ただし、操作者は、教師ラベルを指定する項目に関しては、複数人物状態制御指示の態様を「所定の状態」とする。図２に示す例では、教師ラベルの指定ありの項目である「人数」に関して、３人という具体的な状態が指示されている。群衆状態制御指示記憶手段２３には、項目毎に操作者が定めた複数人物状態制御指示、および、教師ラベルの指定有無を記憶させておく。

　図２では、「人物の配置」、「人物の方向」、「人数」という項目を例示しているが、操作者が複数人物状態制御指示および教師ラベルの指定の有無を定める項目は、これらの項目に限定されない。本実施形態では、群衆状態制御指示記憶手段２３が、少なくとも、「人物の配置」、「人物の方向」、「人数」という項目に関し、操作者によって定められた複数人物状態制御指示と、教師ラベルの指定の有無を記憶している場合を例にして説明する。

　人物状態制御指示記憶手段２４は、群衆パッチ内に複数の人物画像を合成する際における、各人物の状態を指示する情報（以下、個別人物状態制御指示と記す。）を記憶する。前述の「複数人物状態制御指示」が、複数の人物に関係する人物の状態を指示するのに対し、「個別人物状態制御指示」は、その複数の人物群に属する個別の人物の状態を指示する。個別人物状態制御指示は、事前に、教師データ生成装置１０の操作者によって定められ、人物状態制御指示記憶手段２４に記憶される。個別人物状態制御指示は、「人物の撮影角度」、「人物への照明」、「人物の姿勢」、「人物の服装」、「人物の体型」、「人物の髪型」、「群衆パッチに合成するときの人物サイズ」等の項目毎に定められる。個別人物状態制御指示が定められる項目はこれらの項目に限定されない。図３は、人物状態制御指示記憶手段２４が記憶する情報の例を示す模式図である。図３では、「人物の撮影角度」、「人物への照明」、「人物の姿勢」という項目に対して定められた個別人物状態制御指示を例示している。

　個別人物状態制御指示の態様にも、複数人物状態制御指示と同様に、「所定の状態」、「ランダム」、「所定のルール」等がある。

　「所定の状態」は、複数人物状態制御指示で説明した場合と同様に、対応する項目に関して、具体的な状態を指示する指示態様である。図３に示す例では、「人物の姿勢」という項目に関して定められた「歩行」が、「所定の状態」に該当する。この例では、「人物の姿勢」を歩行姿勢として、具体的に指示している。

　「ランダム」は、複数人物状態制御指示で説明した場合と同様に、対応する項目に関して任意に状態を定めてよいことを意味する。図３に示す例では、「人物への照明」に「ランダム」という個別人物状態制御指示が定められている。

　「所定のルール」は、複数人物状態制御指示で説明した場合と同様に、操作者が指定したルールを満足する範囲内で、対応する項目の状態を定めることを指示する指示態様である。図３に示す例では、「人物の撮影角度」に関して、所定のルールが定められている。本例では、合成時の人物配置からカメラパラメータに基づく式を用いて、人物の撮影角度を算出し、その撮影角度に応じて人物の状態を定めることを指示している。また、例えば、「群衆パッチに合成するときの人物サイズ」に関して、「合成時の人物配置と学習用局所画像情報記憶手段２２に記憶された基準部位のサイズに基づいて、合成時の人物サイズを決定する。」というルールが定められている場合、少なくとも、そのルールを満たすように、人物のサイズを定めることを指示していることになる。

　人物状態制御指示記憶手段２４も、項目毎に、教師ラベルの指定の有無を記憶する。

　操作者は、複数人物状態制御指示が定められる項目だけでなく、個別人物状態制御指示が定められる項目に関しても、教師ラベルを指定する項目を１つまたは複数選択してよい。この場合においても、操作者は、教師ラベルを指定する項目であるか否かによらず、各項目に対して個別人物状態制御指示を定める。図３に示す例では、教師ラベルの指定なしの項目「人物の撮影角度」、「人物への照明」に関しても、個別人物状態制御指示が定められている。ただし、操作者は、教師ラベルを指定する項目に関しては、個別人物状態制御指示の態様を「所定の状態」とする。図３に示す例では、教師ラベルの指定ありの項目である「人物の姿勢」に関して、歩行という具体的な状態が指示されている。人物状態制御指示記憶手段２４には、項目毎にユーザが定めた個別人物状態制御指示、および、教師ラベルの指定有無を記憶させておく。

　操作者は、個別人物状態制御指示が定められる項目に関しては、全ての項目に関して、教師ラベルの指定なしとしてもよい。ただし、前述のように、複数人物状態制御指示が定められる項目に関しては、操作者は、１つ以上の項目を、教師ラベルを指定する項目として定める。

　本実施形態では、人物状態制御指示記憶手段２４が、少なくとも、「人物の撮影角度」、「人物への照明」、「人物の姿勢」、「人物の服装」、「人物の体型」、「人物の髪型」、「群衆パッチに合成するときの人物サイズ」という項目に関し、操作者によって定められた個別人物状態制御指示と、教師ラベルの指定の有無を記憶している場合を例にして説明する。

　教師ラベルの指定ありとされた項目に関して定められた複数人物状態制御指示の内容が、群衆状態制御指示記憶手段２３が記憶する情報に従って生成された群衆パッチに対応する教師ラベルとなる。同様に、教師ラベルの指定ありとされた項目に関して定められた個別人物状態制御指示の内容が、人物状態制御指示記憶手段２４が記憶する情報に従って生成された群衆パッチに対応する教師ラベルとなる。なお、複数人物状態制御指示に基づく教師ラベルが主な教師ラベルであると言え、個別人物状態制御指示に基づく教師ラベルは、その教師ラベルに対する補足的な教師ラベルであると言える。

　具体的には、データ処理装置１（図１参照）が、群衆状態制御指示記憶手段２３に記憶された各項目の複数人物状態制御指示、および、人物状態制御指示記憶手段２４に記憶された各項目の個別人物状態制御指示に従って、人物の状態を決定し、それらの人物を合成した群衆パッチを生成する。データ処理装置１は、その群衆パッチに対して、教師ラベルの指定ありとされた項目に関して定められた複数人物状態制御指示および個別人物状態制御指示の内容を教師ラベルとして定める。例えば、図２、図３に例示するそれぞれの複数人物状態制御指示および個別人物状態制御指示に応じて、データ処理装置１が群衆パッチを生成したとする。この場合、その群衆パッチには、３人が歩行している状態が写っている。データ処理装置１は、その群衆パッチの教師ラベルとして、「３人、歩行」という教師ラベルを定める。

　なお、人物状態制御指示記憶手段２４に記憶される項目に「群衆パッチに合成するときの人物サイズ」がある。群衆パッチ内で、人として認めるべき人物を合成する場合には、例えば、「群衆パッチに合成するときの人物サイズ」の個別人物状態制御指示として、学習用局所画像情報記憶手段２２に記憶された人物の基準部位のサイズを指定したり、あるいは、ランダムを指定したりしてもよい。なお、ランダムを指定した結果、学習用局所画像情報記憶手段２２に記憶された人物の基準部位のサイズと大きく異なる基準部位のサイズで人物の状態が仮決定された場合には、人物の状態の仮決定をやり直せばよい。群衆パッチ内で、背景となるべき人物を合成する場合には、例えば、「群衆パッチに合成するときの人物サイズ」の個別人物状態制御指示として、学習用局所画像情報記憶手段２２に記憶された人物の基準部位のサイズとは、大きく異なるサイズを指定したり、ランダムを指定したりしてもよい。なお、ランダムを指定した結果、背景に該当しないような人物の状態が仮決定された場合には、人物の状態の仮決定をやり直せばよい。

　また、後述するように、本実施形態では、データ処理装置１は、人として認めるべき人物（以下、前景の人物と記す場合がある。）の状態の決定と、背景の人物の状態の決定とをそれぞれ行う。前景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示と、背景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示とが操作者によって別々に定められていてもよい。その場合、群衆状態制御指示記憶手段２３は、前景の人物状態の決定のための複数人物状態制御指示と、背景の人物状態の決定のための複数人物状態制御指示とをそれぞれ記憶する。また、人物状態制御指示記憶手段２４は、前景の人物状態の決定のための個別人物状態制御指示と、背景の人物状態の決定のための個別人物状態制御指示とをそれぞれ記憶する。また、複数人物状態制御指示および個別人物状態制御指示が、前景の人物状態の決定用と、背景の人物状態の決定用とに分けられていなくてもよい。

　人物画像記憶手段２５は、人物の方向、人物の撮影角度、人物への照明、人物の姿勢、服装、体型、髪型等の人物の状態の情報を人物画像毎に付加した複数の人物画像（人物画像群）を記憶する。すなわち、データ処理装置１は、決定した状態に合致する人物画像を人物画像記憶手段２５から読み込むことができる。

　人物領域画像記憶手段２６は、人物画像記憶手段２５に記憶されている人物画像群に対応した人物領域画像群を記憶している。人物領域画像は、人物画像記憶手段２５に記憶されている人物画像における人物の領域を示した画像である。図４は、人物画像記憶手段２５に記憶されている人物画像と、その人物画像に対応する人物領域画像の例を示す図である。図４では、人物画像および人物領域画像の例を４組、例示している。人物領域画像は、例えば、人物画像に映された人物の領域を単色（図４に示す例では白色）で表し、人物以外の領域を別の単色（図４に示す例では黒色）で表した画像であってもよい。ただし、人物領域画像は、そのような例に限定されない。人物領域画像は、人物画像における人物の領域を特定できる画像であればよい。

　人物領域画像は、対応する人物画像から、人物のみを切り出す（換言すれば、人物の領域のみを切り出す）ために用いられる。

　なお、種々の人物画像群を予め用意して人物画像記憶手段２５に記憶させておく構成ではなく、データ処理装置１が、決定した人物状態に合致する人物画像をＣＧ等で生成する人物画像生成手段（図示せず）を備える構成であってもよい。

　データ処理装置１は、背景抽出手段１１と、人物状態決定手段１５と、群衆状態画像合成手段１４と、制御手段１６とを備える。

　背景抽出手段１１は、背景画像記憶手段２１に記憶されている背景画像群から背景画像を選択する。また、背景抽出手段１１は、学習用局所画像情報記憶手段２２に記憶されている群衆パッチサイズのアスペクト比を算出する。背景抽出手段１１は、そのアスペクト比を満足するように、選択した背景画像から適当な位置、適当な大きさの背景を仮抽出する。さらに、背景抽出手段１１は、仮抽出した背景を、学習用局所画像情報記憶手段２２に記憶されている群衆パッチサイズに合致するように拡大または縮小する。このように、画像から抽出した領域を、群衆パッチサイズに合致するように拡大または縮小することを正規化と記す場合がある。

　背景抽出手段１１が適当な位置、適当な大きさの背景を仮抽出する場合には、アスペクト比を満足するようにして、ランダムな位置でランダムな大きさの領域を抽出してもよい。また、画像中の各位置における人物の基準部位のサイズが既知であることを前提として、背景抽出手段１１が、画像中の各位置の既知となっている基準部位のサイズに合わせて、学習用局所画像情報記憶手段２２に記憶されている人物の基準部位のサイズを拡大または縮小したときの拡大率または縮小率で群衆パッチを拡大または縮小したときのサイズを求めてもよい。そして、背景抽出手段１１が、画像中の任意の位置に対して求めたサイズの領域を抽出してもよい。背景抽出手段１１が、選択した背景画像から領域を仮抽出する方法は、他の方法であってもよい。

　人物状態決定手段１５は、群衆状態制御指示記憶手段２３に記憶されている複数人物状態制御指示と、人物状態制御指示記憶手段２４に記憶されている個別人物状態制御指示に基づいて人物状態を仮決定しながら、群衆パッチサイズに対する人物の基準部位のサイズおよび基準部位の表れ方に関する条件に基づいて最終的な人物状態を決定する。

　ここで、複数人物状態制御指示および個別人物状態制御指示を満たす人物の状態を決定した場合、それらの指示の中には「ランダム」等の指示もあり得るので、適切な人物の状態が得られない場合もある。その場合には、複数人物状態制御指示および個別人物状態制御指示を満たす人物の状態の決定をやり直す。そして、適切な人物の状態が得られた場合には、その人物の状態を最終的に決定する。このように、人物の状態の決定をやり直す事があり得るので、「仮決定」という表現を用いる場合がある。

　また、本実施形態では、人物状態決定手段１５は、前景の人物状態の決定と、背景の人物状態の決定とを行う。このとき、人物状態決定手段１５は、仮決定された前景の人物状態が適切か否かを判定する場合、群衆パッチサイズに対する人物の基準部位のサイズと同程度の基準部位のサイズが得られているかや、基準部位の表れ方に基づいて、判定を行う。また、人物状態決定手段１５は、仮決定された背景の人物状態が適切か否かを判定する場合、群衆パッチサイズに対する人物の基準部位のサイズとは大きく異なる基準部位のサイズが得られているかや、基準部位の表れ方に基づいて、判定を行う。

　以下、人物状態決定手段１５について、より詳細に説明する。人物状態決定手段１５は、背景人物状態決定手段１２と、前景人物状態決定手段１３とを備える。

　背景人物状態決定手段１２は、群衆状態制御指示記憶手段２３に記憶されている複数人物状態制御指示および、人物状態制御指示記憶手段２４に記憶されている個別人物状態制御指示に従って、人物の配置、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆パッチに合成するときの人物サイズ等を定め、背景に該当する人物の状態を仮決定する。そして、背景人物状態決定手段１２は、仮決定した人物の状態が、背景の人物状態の条件を満たしているか否かを判定し、背景の人物状態の条件を満たしていなければ、人物の状態の仮決定を再度実行する。また、仮決定した人物の状態がその条件を満たしていれば、背景人物状態決定手段１２は、仮決定した人物の状態を、背景に該当する人物の状態として最終的に決定する。

　背景の人物状態の条件とは、例えば、人物の基準部位が群衆パッチ内に納まらないような人物の配置状態になっていること、あるいは、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズに対して、合成時の人物の基準部位のサイズが極端に大きいか、あるいは、極端に小さいことのいずれかに該当することである。このような条件を用いることで、群衆パッチサイズに対する人物の基準部位のサイズや基準部位の表れ方に基づいて、背景に該当する人物の状態を最終的に決定していると言える。ただし、ここで挙げた条件は例示であり、背景の人物状態の条件として、他の条件を用いてもよい。

　ここで、人物の基準部位が群衆パッチ内に納まるとは、その人物の基準部位を表す領域のうち、所定割合以上の領域が群衆パッチ内に写ることになる状態を言う。逆に、人物の基準部位が群衆パッチ内に納まらないとは、その人物の基準部位を表す領域のうち、所定割合未満の領域が群衆パッチ内に写ることになる状態を言う。例えば、所定割合が８０％として予め定められているとする。この場合、例えば、基準部位を表す領域の８５％が群衆パッチ内に写ることになる状態であれば、人物の基準部位が群衆パッチ内に納まると言える。また、例えば、基準部位を表す領域の２０％のみが群衆パッチ内に写ることになる状態であれば、人物の基準部位が群衆パッチ内に納まっていないと言える。なお、上記の８０％は例示であり、上記の所定割合として、８０％以外の値が定められていてもよい。

　また、本実施形態では、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズよりも大きなサイズを表す第１の閾値と、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズよりも小さなサイズを表す第２の閾値とが、予め定められる。学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズに対して、合成時の人物の基準部位のサイズが同程度になっているとは、合成時の人物の基準部位のサイズが、第２の閾値以上、第１の閾値以下であることを意味する。そして、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズに対して、合成時の人物の基準部位のサイズが極端に大きいとは、合成時の人物の基準部位のサイズが、第１の閾値よりも大きいことを意味する。また、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズに対して、合成時の人物の基準部位のサイズが極端に小さいとは、合成時の人物の基準部位のサイズが、第２の閾値未満であることを意味する。

　図５は、背景の人物状態の条件を満たしている例を示す模式図である。本例では、人物の基準部位（本例では、頭部）の縦方向のサイズが群衆パッチの縦サイズｈピクセルの１／α倍（すなわち、ｈ／αピクセル）として、学習用局所画像情報記憶手段２２に記憶されているものとする。図５（ａ），（ｂ）に例示する人物状態は、人物の基準部位が群衆パッチ内に表れない配置状態となっているので、背景の人物状態の条件を満たしている。図５（ｃ）に例示する人物状態は、基準部位のサイズが、定められた基準部位のサイズに対して極端に小さいので、背景の人物状態の条件を満たしている。図５（ｄ）に例示する人物状態は、基準部位のサイズが、定められた基準部位のサイズに対して極端に大きいので、背景の人物状態の条件を満たしている。

　前景人物状態決定手段１３は、群衆状態制御指示記憶手段２３に記憶されている複数人物状態制御指示および、人物状態制御指示記憶手段２４に記憶されている個別人物状態制御指示に従って、人物の配置、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆パッチに合成するときの人物サイズ等を定め、前景に該当する人物の状態を仮決定する。そして、前景人物状態決定手段１３は、仮決定した人物の状態が、前景の人物状態の条件を満たしているか否かを判定し、前景の人物状態の条件を満たしていなければ、人物の状態の仮決定を再度実行する。また、仮決定した人物の状態がその条件を満たしていれば、前景人物状態決定手段１３は、仮決定した人物の状態を、前景に該当する人物の状態として最終的に決定する。

　前景の人物状態の条件とは、例えば、人物の基準部位が群衆パッチ内に納まるような配置状態になっていて、かつ、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズに対して、合成時の人物の基準部位のサイズが同程度になっていることである。このような条件を用いることで、群衆パッチサイズに対する人物の基準部位のサイズや基準部位の表れ方に基づいて、前景に該当する人物の状態を最終的に決定していると言える。ただし、ここで挙げた条件は例示であり、前景の人物状態の条件として、他の条件を用いてもよい。

　図６は、前景の人物状態の条件を満たしている例を示す模式図である。図５で説明した場合と同様に、人物の基準部位（本例では、頭部）の縦方向のサイズが群衆パッチの縦サイズｈピクセルの１／α倍（すなわち、ｈ／αピクセル）として、学習用局所画像情報記憶手段２２に記憶されているものとする。図６（ａ）～（ｄ）に示すいずれの人物状態も、人物の基準部位が群衆パッチ内に納まっていて、基準部位のサイズが、学習用局所画像情報記憶手段２２に記憶されている基準部位のサイズと同程度になっている。従って、図６（ａ）～（ｄ）に示すいずれの人物状態も、前景の人物状態の条件を満たしている。

　なお、既に説明したように、前景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示と、背景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示とが操作者によって別々に定められていてもよい。この場合、背景人物状態決定手段１２は、背景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示に従って、人物の状態を仮決定すればよい。そして、前景人物状態決定手段１３は、前景の人物状態の決定のための複数人物状態制御指示および個別人物状態制御指示に従って、人物の状態を仮決定すればよい。このように、複数人物状態制御指示および個別人物状態制御指示を、前景の人物状態の決定用と、背景の人物状態の決定用とに分けてそれぞれ定めておいた場合には、前景人物の人数と背景人物の人数とを変えること等が可能となる。

　群衆状態画像合成手段１４は、背景人物状態決定手段１２が最終的に決定した人物状態（人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型等）を満たす人物画像を人物画像記憶手段２５から読み込み、さらに、その人物画像に対応する人物領域画像を、人物領域画像記憶手段２６から読み込む。そして、群衆状態画像合成手段１４は、その人物領域画像を用いて、人物画像から、人物部分のみの画像を切り出す（換言すれば、人物の領域のみを切り出す）。同様に、群衆状態画像合成手段１４は、前景人物状態決定手段１３が最終的に決定した人物状態を満たす人物画像を人物画像記憶手段２５から読み込み、さらに、その人物画像に対応する人物領域画像を、人物領域画像記憶手段２６から読み込む。そして、群衆状態画像合成手段１４は、その人物領域画像を用いて、人物画像から、人物部分のみの画像を切り出す。

　群衆状態画像合成手段１４は、上記のように切り出した人物部分のみの画像を、背景画像に合成する。このとき、背景人物状態決定手段１２が最終的に決定した人物状態に基づいて切り出した人物部分のみの画像に関しては、群衆状態画像合成手段１４は、背景人物状態決定手段１２が決定した「人物の配置」、「群衆パッチに合成するときの人物サイズ」に合わせて、背景画像に合成する。また、前景人物状態決定手段１３が最終的に決定した人物状態に基づいて切り出した人物部分のみの画像に関しては、群衆状態画像合成手段１４は、前景人物状態決定手段１３が決定した「人物の配置」、「群衆パッチに合成するときの人物サイズ」に合わせて、背景画像に合成する。ここで、この背景画像は、背景抽出手段１１による正規化後の画像である。この合成の結果が、群衆パッチとなる。

　群衆状態画像合成手段１４は、人物部分のみの画像を背景画像に合成する場合には、カメラからより遠い配置位置に該当する人物の画像から順に、重ねて合成する。例えば、画像の上部ほどカメラから遠い場合には、群衆状態画像合成手段１４は、画面上部の人物の画像から順に重ねて合成する。また、カメラキャリブレーションの情報が与えられている場合には、群衆状態画像合成手段１４は、人物の画像の３次元位置を考慮してカメラから遠い順に、人物の画像を重ねて合成する。

　また、上記の例では、群衆状態画像合成手段１４が、人物領域画像を用いて、人物画像から、人物部分のみの画像を切り出し、その人物部分のみの画像を背景画像に合成する場合を例に説明した。群衆状態画像合成手段１４は、人物画像記憶手段２５から読み込んだ人物画像に対して、その人物画像に対応する人物領域画像に基づいて、人物の領域と、それ以外の領域とに分け、人物の領域と、それ以外の領域に対して重み付けを行い、その重みに従って、人物画像をブレンディングして合成を行ってもよい。この場合、人物の領域の重みは、それ以外の領域の重みよりも大きくする。また、領域内で重みを変化させてもよい。

　また、既に説明したように、データ処理装置１が、指定された人物状態に合致する人物画像をＣＧ等で生成する人物画像生成手段（図示せず）を備える構成であってもよい。この場合、背景人物状態決定手段１２が決定した人物状態や、前景人物状態決定手段１３が決定した人物状態に合致する人物画像を人物画像生成手段（図示せず）が生成し、群衆状態画像合成手段１４は、その人物画像を合成することで群衆パッチを生成してもよい。

　また、群衆状態画像合成手段１４は、群衆パッチを生成したときに、群衆状態制御指示記憶手段２３および人物状態制御指示記憶手段２４から教師ラベルを読み込む。すなわち、群衆状態画像合成手段１４は、教師ラベルの指定ありに該当する項目の複数人物状態制御指示の内容を群衆状態制御指示記憶手段２３から読み込み、また、教師ラベルの指定ありに該当する項目の個別人物状態制御指示の内容を人物状態制御指示記憶手段２４から読み込む。そして、群衆状態画像合成手段１４は、群衆パッチおよび教師ラベルの組を出力する。群衆パッチおよび教師ラベルは、画像内の群衆状態を認識するための機械学習の教師データとして用いられる。

　制御手段１６は、背景抽出手段１１、人物状態決定手段１５（具体的には、背景人物状態決定手段１２および前景人物状態決定手段１３）および群衆状態画像合成手段１４による一連の処理を、繰り返させる。この結果、データ処理装置１は、群衆パッチおよび教師ラベルの組を大量に出力する。

　操作者が、人物状態の指示や、教師ラベルを変更する場合には、複数人物状態制御指示、個別人物状態制御指示、および教師ラベルの指定の有無を再設定することによって、データ処理装置１は、その設定に応じた群衆パッチおよび教師ラベルの組を大量に出力する。従って、操作者は、所望の教師データを大量に得ることができる。

　図７は、本発明の群衆状態認識装置の構成例を示すブロック図である。本発明の群衆状態認識装置３０は、与えられた画像内の群衆状態を認識する。群衆状態認識装置３０は、画像取得装置３と、プログラム制御によって動作するデータ処理装置４と、情報を記憶する記憶装置５とを備える。

　画像取得装置３は、群衆状態の認識対象となる画像を取得するカメラである。

　記憶装置５は、探索窓記憶手段５１と、群衆状態認識辞書記憶手段５２とを備える。

　探索窓記憶手段５１は、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する。この矩形領域を探索窓と記す場合もある。矩形領域群は、画像取得装置３の位置・姿勢・焦点距離・レンズ歪みを示すカメラパラメータと、群衆パッチサイズに対応する基準部位のサイズ（学習用局所画像情報記憶手段２２に記憶された基準部位のサイズ）に基づき、画像上の位置に応じて群衆パッチのサイズを変更した大きさを定めることで、設定してもよい。例えば、上記のようなカメラパラメータから、画像内に写る人物の基準部位のサイズを導出することができる。この基準部位のサイズに合わせて、学習用局所画像情報記憶手段２２に記憶されている人物の基準部位のサイズを拡大または縮小したときの拡大率または縮小率で群衆パッチのサイズを拡大または縮小することで、矩形領域の大きさを設定してもよい。また、画像上の位置を網羅するように矩形領域群を設定してもよい。矩形領域群は、これらの方法に限らず、自由に設定してもよい。また、矩形領域群は、重ねて設定されてもよい。

　群衆状態認識辞書記憶手段５２は、図１に示す教師データ生成装置１０によって生成される教師データ（群衆パッチと教師ラベルの大量の組）で学習した識別器の辞書を記憶する。識別器は、群衆状態を認識するためのアルゴリズムであり、識別器の辞書は、そのアルゴリズムに従って群衆状態の認識処理を行う際に用いる辞書である。群衆状態認識辞書記憶手段５２に記憶される識別器の辞書は、例えば、教師データ生成装置１０によって生成される群衆パッチと教師ラベルの大量の組を用いて、機械学習をすることによって得られる。この機械学習は、公知の機械学習でよい。

　データ処理装置４は、群衆状態認識手段４１を備える。

　群衆状態認識手段４１は、画像取得装置３が取得する画像から、探索窓記憶手段５１に記憶されている矩形領域群に該当する局所領域画像を抽出し、抽出した局所領域画像を、群衆パッチサイズに合致するように正規化する。そして、群衆状態認識手段４１は、群衆状態を認識アルゴリズム（すなわち、識別器）に従い、群衆状態認識辞書記憶手段５２に記憶された識別器の辞書を用いて、正規化した局所領域画像内の群衆状態を認識する（判定する）。

　図１に示す教師データ生成装置１０は、操作者が意図する教師データ（群衆パッチおよび教師ラベルの組）を大量に生成することができる。そのような教師データを用いて機械学習した結果得られる識別器の辞書を用いて、群衆状態認識手段４１は、局所領域画像内の群衆状態を認識する。従って、群衆状態認識装置３０は、多様な群衆状態を認識できる。

　図８は、画像内の群衆状態として、混雑度（人数）を認識する例を示す模式図である。例えば、教師データ生成装置１０の操作者が、主に「人数」を段階的に制御して、大量の群衆パッチおよび教師ラベルを得たとする（図８の上段参照）。そして、その教師データから機械学習によって得た識別器の辞書を、群衆状態認識辞書記憶手段５２に記憶させたとする。図８に示す画像６１において、局所領域画像を抽出する矩形領域を破線で示す。また、その矩形領域に合わせて抽出した局所領域画像に関する群衆状態の認識結果を、破線で示した領域と対応させて表している。この点は、後述の図９ないし図１１においても同様である。また、実際の矩形領域は、基本的には、画面全体に網羅的に設定されるが、ここでは、認識結果を分かりやすく示すために、数カ所のみの矩形領域を例として示している。本例では、群衆状態認識手段４１は、図８に示すように、画像６１内の種々の領域における人数（混雑度）を認識することができる。

　図９は、画像内の群衆状態として、群衆の方向を認識する例を示す模式図である。例えば、教師データ生成装置１０の操作者が、主に「人物の方向」を制御して、大量の群衆パッチおよび教師ラベルを得たとする（図９の上段を参照）。そして、その教師データから機械学習によって得た識別器の辞書を、群衆状態認識辞書記憶手段５２に記憶させたとする。本例では、群衆状態認識手段４１は、図９に示すように、画像６２内の種々の領域における群衆の方向を認識することができる。

　図１０は、画像内の群衆状態として、非異常群衆（極端に混雑していない群衆）か異常群衆（極端に混雑した群衆）かを認識する例を示す模式図である。例えば、教師データ生成装置１０の操作者が、主に「人数」を制御して、大量の群衆パッチおよび教師ラベルを得たとする。ここでは、人数がｎ人未満という場合と、人数がｎ人以上という場合の２クラスに分けて、大量の教師データを得たとする（図１０の上段を参照）。そして、その教師データから機械学習によって得た識別器の辞書を、群衆状態認識辞書記憶手段５２に記憶させたとする。本例では、群衆状態認識手段４１は、図１０に示すように、画像６３内の種々の領域における群衆状態が、非異常群衆であるか、異常群衆であるかを認識することができる。

　図１１は、画像内の群衆状態として、無秩序状態（人物の方向が統一されていない状態）か、秩序状態（人物の方向が統一されている状態）かを認識する例を示す模式図である。例えば、教師データ生成装置１０の操作者が、「人物の方向」を統一した場合と、統一しない場合の２クラスに分けて、大量の教師データを得たとする（図１１の上段を参照）。そして、その教師データから機械学習によって得た識別器の辞書を、群衆状態認識辞書記憶手段５２に記憶させたとする。本例では、群衆状態認識手段４１は、図１１に示すように、画像６４内の種々の領域における群衆状態が、無秩序状態であるか、秩序状態であるかを認識することができる。

　操作者が意図する教師データを大量に生成することができるので、図８ないし図１１に例示した場合の外にも、群衆状態認識手段４１が、群衆が散らばって逃げるような離散状態、群衆が１箇所に集合してくるような集合状態、群衆が何かを避けるような回避状態、特殊な群衆の塊を示すたむろ状態や行列状態等、種々の状態を認識できるようにすることができる。

　次に、本発明の教師データ生成装置１０の処理経過を説明する。図１２は、教師データ生成装置１０の処理経過の例を示すフローチャートである。

　背景抽出手段１１は、背景画像記憶手段２１に記憶されている背景画像群から背景画像を選択し、群衆パッチの背景として用いる画像を抽出する（ステップＳ１）。

　図１３は、ステップＳ１の処理経過の例を示すフローチャートである。背景抽出手段１１は、ステップＳ１において、まず、背景画像記憶手段２１に記憶されている背景画像群から背景画像を１枚選択する（ステップＳ１０１）。この選択方法は、特に限定されない。例えば、背景抽出手段１１は、背景画像群から、任意に一枚の背景画像を選択してもよい。

　次に、背景抽出手段１１は、学習用局所画像情報記憶手段２２に記憶されている群衆パッチサイズのアスペクト比を算出し、そのアスペクト比を満足するように、選択した背景画像から適当な位置、適当な大きさの背景を仮抽出する（ステップＳ１０２）。

　背景抽出手段１１は、仮抽出した背景の画像を、群衆パッチサイズに合致するように拡大または縮小する（換言すれば、正規化する）ことによって、群衆パッチの背景となる画像を得る（ステップＳ１０３）。以上でステップＳ１が終了する。

　ステップＳ１の後、背景人物状態決定手段１２は、背景に該当する人物の状態を決定する（ステップＳ２）。

　図１４は、ステップＳ２の処理経過の例を示すフローチャートである。背景人物状態決定手段１２は、群衆状態制御指示記憶手段２３に記憶されている複数人物状態制御指示および、人物状態制御指示記憶手段２４に記憶されている個別人物状態制御指示に従って、人物の配置、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆パッチに合成するときの人物サイズ等を定め、背景に該当する人物の状態を仮決定する（ステップＳ２０１）。

　次に、背景人物状態決定手段１２は、ステップＳ２０１で仮決定した人物の状態が、背景の人物状態の条件を満たしているか否かを判定する（ステップＳ２０２）。なお、この条件については既に説明したので、ここでは説明を省略する。

　複数人物状態制御指示や個別人物状態制御指示には、「ランダム」等の指示も含まれ得るので、ステップＳ２０１で仮決定した状態が、背景の人物状態の条件を満たしていない場合もある。このような場合（ステップＳ２０２のＮｏ）、背景人物状態決定手段１２は、ステップＳ２０１以降の処理を繰り返す。

　そして、ステップＳ２０１で仮決定した状態が、背景の人物状態の条件を満たしている場合には（ステップＳ２０２のＹｅｓ）、背景人物状態決定手段１２は、直近のステップＳ２０１で仮決定した人物の状態を、背景に該当する人物の状態として確定する（ステップＳ２０３）。以上でステップＳ２が終了する。

　ステップＳ２の後、前景人物状態決定手段１３は、前景に該当する人物の状態を決定する（ステップＳ３）。

　図１５は、ステップＳ３の処理経過の例を示すフローチャートである。前景人物状態決定手段１３は、群衆状態制御指示記憶手段２３に記憶されている複数人物状態制御指示および、人物状態制御指示記憶手段２４に記憶されている個別人物状態制御指示に従って、人物の配置、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆パッチに合成するときの人物サイズ等を定め、前景に該当する人物の状態を仮決定する（ステップＳ３０１）。

　次に、前景人物状態決定手段１３は、ステップＳ３０１で仮決定した人物の状態が、前景の人物状態の条件を満たしているか否かを判定する（ステップＳ３０２）。なお、この条件については既に説明したので、ここでは説明を省略する。

　複数人物状態制御指示や個別人物状態制御指示には、「ランダム」等の指示も含まれ得るので、ステップＳ３０１で仮決定した状態が、前景の人物状態の条件を満たしていない場合もある。このような場合（ステップＳ３０２のＮｏ）、前景人物状態決定手段１３は、ステップＳ３０１以降の処理を繰り返す。

　そして、ステップＳ３０１で仮決定した状態が、前景の人物状態の条件を満たしている場合には（ステップＳ３０２のＹｅｓ）、前景人物状態決定手段１３は、直近のステップＳ３０１で仮決定した人物の状態を、前景に該当する人物の状態として確定する（ステップＳ３０３）。以上でステップＳ３が終了する。

　ステップＳ３の後、群衆状態画像合成手段１４は、ステップＳ２，Ｓ３で決定された人物の状態に基づいて、群衆パッチを生成し、その群衆パッチに対応する教師ラベルを読み込み、群衆パッチおよび教師ラベルの組を出力する（ステップＳ４）。

　図１６は、ステップＳ４の処理経過の例を示すフローチャートである。群衆状態画像合成手段１４は、ステップＳ２，Ｓ３で決定した人物状態（人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型等）を満たす人物画像を人物画像記憶手段２５内の人物画像群から選択し、読み込む（ステップＳ４０１）。

　そして、群衆状態画像合成手段１４は、ステップＳ４０１で選択した各人物画像に対応する各人物領域画像を人物領域画像記憶手段２６から読み込む。群衆状態画像合成手段１４は、人物画像毎に、人物画像に対応する人物領域画像を用いて、人物部分のみの画像を切り出す（ステップＳ４０２）。

　群衆状態画像合成手段１４は、ステップＳ４０２で生成した人物部分のみの各画像について、ステップＳ２，Ｓ３で決定された「人物の配置」、「群衆パッチに合成するときの人物サイズ」に合わせて、配置状態を決定する（ステップＳ４０３）。そして、群衆状態画像合成手段１４は、その配置状態に合わせて、人物部分のみの各画像を、ステップＳ１で得られた背景画像に合成することによって、群衆パッチを生成する（ステップＳ４０４）。

　そして、群衆状態画像合成手段１４は、その群衆パッチに該当する教師ラベルを取得する（ステップＳ４０５）。すなわち、群衆状態画像合成手段１４は、教師ラベルの指定ありに該当する項目の複数人物状態制御指示の内容を群衆状態制御指示記憶手段２３から読み込み、また、教師ラベルの指定ありに該当する項目の個別人物状態制御指示の内容を人物状態制御指示記憶手段２４から読み込む。これらの読み込んだ内容が、教師ラベルに相当する。

　群衆状態画像合成手段１４は、ステップＳ４０４で生成した群衆パッチと、ステップＳ４０５で取得した教師ラベルの組を出力する（ステップＳ４０６）。以上でステップＳ４を終了する。

　ステップＳ４の後、制御手段１６は、ステップＳ１～Ｓ４の処理の繰り返し数が所定回数に達したか否かを判定する（ステップＳ５）。ステップＳ１～Ｓ４の処理の繰り返し数が所定回数に達していない場合（ステップＳ５のＮｏ）、制御手段１６は、背景抽出手段１１、人物状態決定手段１５（具体的には、背景人物状態決定手段１２および前景人物状態決定手段１３）および群衆状態画像合成手段１４に、ステップＳ１～Ｓ４の処理を再度実行させる。

　ステップＳ１～Ｓ４の処理の繰り返し数が所定回数に達した場合（ステップＳ５のＹｅｓ）、処理を終了する。

　ステップＳ１～Ｓ４の処理を１回行うことで、群衆パッチと教師ラベルの組が１組得られる。よって、データ処理装置１が、ステップＳ１～Ｓ４の処理を所定回数繰り返すことで、大量の教師データが得られる。例えば、所定回数を１０００００回に定めておけば、複数人物状態制御指示および個別人物状態制御指示に合致する群衆パッチと教師ラベルの組が１０００００組得られる。

　なお、図１２に示すフローチャートにおいて、ステップＳ１，Ｓ２，Ｓ３の順番は、入れ替えてもよい。

　次に、本発明の群衆状態認識装置３０の処理経過を説明する。図１７は、群衆状態認識装置３０の処理経過の例を示すフローチャートである。

　画像取得装置３が、群衆状態の認識対象となる画像を取得し、その画像を群衆状態認識手段４１に入力する（ステップＳ２１）。

　すると、群衆状態認識手段４１は、探索窓記憶手段５１に記憶されている矩形領域群を全て選択済みであるか否かを判定する（ステップＳ２２）。

　探索窓記憶手段５１に記憶されている矩形領域群のうち、未選択の矩形領域がある場合（ステップＳ２２のＮｏ）、群衆状態認識手段４１は、その矩形領域群のうち、未選択の矩形領域を１つ選択する（ステップＳ２３）。

　次に、群衆状態認識手段４１は、ステップＳ２１で入力された画像から、選択した矩形領域に該当する局所領域画像を抽出する（ステップＳ２４）。そして、群衆状態認識手段４１は、その局所領域画像を群衆パッチサイズに合致するように正規化する（ステップＳ２５）。

　次に、群衆状態認識手段４１は、群衆状態認識辞書記憶手段５２に記憶された識別器の辞書を用いて、正規化後の局所領域画像内の群衆状態を認識する（ステップＳ２６）。

　ステップＳ２６の後、群衆状態認識手段４１は、ステップＳ２２以降の処理を繰り返す。そして、群衆状態認識手段４１は、矩形領域群を全て選択済みと判定した場合（ステップＳ２２のＹｅｓ）、処理を終了する。

　本発明の教師データ生成装置によれば、操作者によって定められた複数人物状態制御指示（「人物の配置」、「人物の方向」、「人数」等の複数の人物に関する状態指示）と、個別人物状態制御指示（「人物の撮影角度」、「人物への照明」、「人物の姿勢」、「人物の服装」、「人物の体型」、「人物の髪型」、「群衆パッチに合成するときの人物サイズ」等の個別の人物に関する状態指示）に応じて、人物状態決定手段１５が、群衆を構成する人物の状態を決定する。そして、群衆状態画像合成手段１４が、決定された状態の人物の画像を合成することによって群衆パッチを生成し、その群衆パッチに対応する教師ラベルを読み込む。そして、人物の状態の決定、群衆パッチの生成、教師ラベルの特定といった処理を定められた回数繰り返すので、操作者が意図する群衆状態の教師データ（群衆パッチと教師ラベルの組）を、多様に大量に自動生成することができる。

　さらに、そのような大量の教師データが得られれば、その教師データから識別器の辞書を機械学習することができる。そして、群衆状態認識装置３０は、その辞書を用いることによって、静止画像内の複雑な群衆状態を容易に認識することができる。

　また、群衆を表した群衆パッチと、その群衆パッチに対応する教師ラベルとに基づいて学習された辞書を用いて、群衆状態認識装置３０の群衆状態認識手段４１は、与えられた画像内の群衆状態を認識する。従って、群衆状態認識手段４１は、人物の頭部や、人物という単体ではなく、基準部位が写った人物の集合である群衆という大きな単位で、群衆状態の認識を行う。よって、頭部認識や、個別の人物認識等を行えないような小さなサイズの領域における群衆状態の認識も行える。

　また、本発明の群衆状態認識装置３０によれば、群衆状態認識手段４１は、上記のような辞書（識別器の辞書）を用いて群衆状態を認識する。従って、群衆状態の認識精度は、フレームレートに依存しない。よって、本発明の群衆状態認識装置は、フレームレートに依存せずに、良好に画像中の群衆状態を認識できる。例えば、本発明の群衆状態認識装置３０は、一枚の静止画像であっても、静止画像内の群衆状態を良好に認識できる。

　また、上記の実施形態の教師データ生成装置１０は、人物の重なり具合等の「人物の配置」に関する人物状態も、複数人物状態制御指示によって決定し、そのような人物の状態を表す群衆パッチを生成する。このような群衆パッチを用いて機械学習を行えば、人物同士のオクルージョンを含む状態も学習される。よって、その学習の結果得られた辞書を用いることで、群衆状態認識装置３０は、頭部認識や人物認識では認識が難しい人物同士の重なり（オクルージョン）が生じている場合であっても、群衆状態を良好に認識できる。

　また、上記の実施形態の教師データ生成装置１０は、複数人にまたがる人物状態を指示する情報（複数人物状態制御指示）と、各人物の人物状態を指示する情報（個別人物状態制御指示）とに従って、人物の状態を決定し、その状態の人物を写した群衆パッチを生成するとともに、その群衆パッチに対応する教師ラベルを特定する。従って、操作者は、複数人物状態制御指示や個別人物状態制御指示を定めることで、異なる性質の群衆状態を認識するための教師データを簡単に得ることができる。そして、それらの教師データを機械学習することで異なる性質の群衆状態を認識する群衆状態認識装置３０を簡単に作ることができる。

　また、上記の実施形態において、群衆を撮影する環境における画像取得装置（カメラ）３の位置・姿勢・焦点距離・レンズ歪みを示すカメラパラメータが入手できれば、カメラパラメータを用いて、その環境に限定した形で、複数人物状態制御指示や個別人物状態制御指示を定めることができる。教師データ生成装置１０が、そのような複数人物状態制御指示や個別人物状態制御指示によって人物状態を決定し、教師データを生成すれば、群衆を撮影する環境に適した識別器の辞書を学習することができる。その結果、群衆状態認識装置３０は、静止画像等における複雑な群衆状態の認識を高精度に実現することができる。

　また、上記の実施形態では、認識環境における画像取得装置３の位置・姿勢・焦点距離・レンズ歪みを示すカメラパラメータが入手できれば、画像上の局所領域毎に、複数の人物に関係する人物の状態と、各人物の人物状態を制御できる。そして、制御された人物状態に基づく人物画像の合成によって、操作者が意図する群衆パッチと、その群衆パッチに対応した教師ラベルとを大量に自動生成できる。そして、その群衆パッチと教師ラベルに基づいて、画像上の局所領域毎の識別器の辞書を学習でき、画像上の領域毎の複数の識別器の辞書を用いて、複雑な群衆状態の認識精度を上げることができる。

　次に、本発明の教師データ生成装置および群衆状態認識装置の具体的な構成の例について説明する。図１８は、本発明の教師データ生成装置の具体的な構成の一例を示すブロック図である。図１に示す要素と同様の要素については、図１と同一の符号を付し、詳細な説明を省略する。図１８に示す構成例では、背景画像記憶手段２１と、学習用局所画像情報記憶手段２２と、群衆状態制御指示記憶手段２３と、人物状態制御指示記憶手段２４と、人物画像記憶手段２５と、人物領域画像記憶手段２６とを含む記憶装置２が、コンピュータ１００に接続されている。また、教師データ生成プログラム１０１を記憶するコンピュータ可読記憶媒体１０２もコンピュータ１００に接続されている。

　コンピュータ可読記憶媒体１０２は、例えば、磁気ディスクや半導体メモリ等で実現される。コンピュータ１００は、例えば、起動時等に、コンピュータ可読記憶媒体１０２から教師データ生成プログラム１０１を読み取る。そして、コンピュータ１００は、教師データ生成プログラム１０１に従って、図１に示すデータ処理装置１内の背景抽出手段１１、人物状態決定手段１５（より具体的には、背景人物状態決定手段１２および前景人物状態決定手段１３）、群衆状態画像合成手段１４および制御手段１６として動作する。

　図１９は、本発明の群衆状態認識装置の具体的な構成の一例を示すブロック図である。図７に示す要素と同様の要素については、図７と同一の符号を付し、詳細な説明を省略する。図１９に示す構成例では、探索窓記憶手段５１と、群衆状態認識辞書記憶手段５２とを含む記憶装置５が、コンピュータ１５０に接続されている。また、群衆状態認識プログラム１０３を記憶するコンピュータ可読記憶媒体１０４もコンピュータ１５０に接続されている。

　コンピュータ可読記憶媒体１０４は、例えば、磁気ディスクや半導体メモリ等で実現される。コンピュータ１５０は、例えば、起動時等に、コンピュータ可読記憶媒体１０４から群衆状態認識プログラム１０３を読み取る。そして、コンピュータ１５０は、群衆状態認識プログラム１０３に従って、図７に示すデータ処理装置４内の群衆状態認識手段４１として動作する。

　なお、上記の実施形態において、群衆状態認識辞書記憶手段５２（図７参照）が、教師データ生成装置１０（図１参照）に生成された教師データを用いた学習によって得られた辞書を記憶する場合を例に説明した。換言すれば、上記の実施形態では、所望の状態に制御された人物の状態に合致する人物の画像を合成することによって得られた群衆パッチと、群衆パッチに対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた辞書を群衆状態認識辞書記憶手段５２に記憶させる場合を示した。

　群衆状態認識辞書記憶手段５２は、教師データ生成装置１０が生成した教師データ以外のデータを教師データとして用いて機械学習によって得られた辞書を記憶していてもよい。教師データ生成装置１０が生成した教師データ以外の教師データであっても、群衆パッチのサイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む群衆パッチと、その群衆パッチに対する教師ラベルの組を複数用意し、それらを教師データとしてもよい。すなわち、そのような群衆パッチおよび教師ラベルの複数の組を用いて機械学習した結果得られた識別器の辞書を、群衆状態認識辞書記憶手段５２に記憶させてもよい。そのような場合であっても、フレームレートに依存せずに、良好に画像中の群衆状態を認識できるという効果が得られる。

　以下、本発明の主要部について説明する。図２０は、本発明の教師データ生成装置の主要部を示すブロック図である。本発明の教師データ生成装置は、背景抽出部７１と、人物状態決定部７２と、群衆状態画像合成部７３とを備える。

　背景抽出部７１（例えば、背景抽出手段１１）は、予め用意された複数の背景画像から背景画像を選択し、その背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する。

　人物状態決定部７２（例えば、人物状態決定手段１５）は、複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、その複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する。

　群衆状態画像合成部７３は、背景抽出部７１によって得られた所定サイズの画像に対して、人物状態決定部７２が決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像（例えば、群衆パッチ）を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する。

　そして、例えば、背景抽出部７１、人物状態決定部７２および群衆状態画像合成部７３は、順に、動作を繰り返す。ただし、背景抽出部７１、人物状態決定部７２および群衆状態画像合成部７３の動作は順になっていなくてもよい。例えば、背景抽出部７１および人物状態決定部７２が並列に動作を行ってもよい。

　そのような構成によって、群衆状態を認識するための識別器の辞書を機械学習する際に用いる多くの教師データを容易に生成することができる。

　図２１は、本発明の群衆状態認識装置の主要部を示すブロック図である。本発明の群衆状態認識装置は、矩形領域群記憶部８１と、群衆状態認識辞書記憶部８２と、群衆状態認識部８３とを備える。

　矩形領域群記憶部８１（例えば、探索窓記憶手段５１）は、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する。

　群衆状態認識辞書記憶部８２（例えば、群衆状態認識辞書記憶手段５２）は、群衆状態を表した所定サイズの画像であって、その所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像（例えば、群衆パッチ）と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する。

　群衆状態認識部８３（例えば、群衆状態認識手段４１）は、与えられた画像から、矩形領域群記憶部８１に記憶される矩形領域群が示す領域をそれぞれ抽出し、辞書に基づいて、抽出した画像に写っている群衆の状態を認識する。

　そのような構成によって、フレームレートに依存せずに、良好に画像中の群衆状態を認識できる。

　上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。

（付記１）
　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出手段と、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定手段と、
　背景抽出手段によって得られた所定サイズの画像に対して、人物状態決定手段が決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成手段とを備えることを特徴とする教師データ生成装置。

（付記２）
　人物状態決定手段は、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆の人物状態を仮決定し、仮決定した人物状態が、所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する条件を満たしている場合に、仮決定した人物状態を群衆の人物状態として決定し、仮決定した人物状態が前記条件を満たしていない場合に、再度群衆の人物状態を仮決定することを繰り返す
　付記１に記載の教師データ生成装置。

（付記３）
　項目毎に定められた複数人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する群衆状態制御指示記憶手段と、
　項目毎に定められた個別人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する人物状態制御指示記憶手段とを備え、
　人物状態決定手段は、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定し、
　群衆状態画像合成手段は、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込み、教師ラベルの指定ありと定められた項目の個別人物状態制御指示を人物状態制御指示記憶手段から読み込むことによって、教師ラベルを特定する
　付記１または付記２に記載の教師データ生成装置。

（付記４）
　群衆状態制御指示記憶手段は、
　少なくとも１つの項目について、教師ラベルの指定をありとして記憶し、
　群衆状態画像合成手段は、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込む
　付記３に記載の教師データ生成装置。

（付記５）
　群衆状態制御指示記憶手段は、人物の配置、人物の方向、および人数に関する項目毎に、複数人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する複数人物状態制御指示を、具体的な状態を指示する第１の態様、任意の状態に定めてよい旨を指示する第２の態様、定められたルールの範囲内で状態を定めてよいことを指示する第３の態様のいずれかの態様で記憶し、
　人物状態制御指示記憶手段は、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆状態画像に合成するときの人物サイズに関する項目毎に、個別人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する個別人物状態制御指示を、前記第１の態様、前記第２の態様、前記第３の態様のいずれかの態様で記憶し、
　人物状態決定手段は、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定する
　付記３または付記４に記載の教師データ生成装置。

（付記６）
　群衆状態画像合成手段は、人物の状態として決定された、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型に合致する人物画像を、予め用意された人物画像群の中から選択し、選択した人物画像の中から、人物の領域を切り出すことによって、人物部分のみの画像を生成し、人物の状態として決定された人物の配置、および群衆状態画像に合成するときの人物サイズに合わせて、前記人物部分のみを画像を、背景抽出手段によって得られた所定サイズの画像に対して合成する
　付記１から付記５のうちのいずれかに記載の教師データ生成装置。

（付記７）
　群衆状態画像合成手段は、カメラからより遠い配置位置に該当する人物部分のみの画像から順に、背景抽出手段によって得られた所定サイズの画像に対して合成する
　付記６に記載の教師データ生成装置。

（付記８）
　人物状態決定手段は、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で背景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第１の条件を満たしている場合に、仮決定した人物状態を背景となる群衆の人物状態として決定し、仮決定した人物状態が前記第１の条件を満たしていない場合に、再度、背景となる群衆の人物状態を仮決定することを繰り返す背景人物状態決定手段と、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で前景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第２の条件を満たしている場合に、仮決定した人物状態を前景となる群衆の人物状態として決定し、仮決定した人物状態が前記第２の条件を満たしていない場合に、再度、前景となる群衆の人物状態を仮決定することを繰り返す前景人物状態決定手段とを含む
　付記１から付記７のうちのいずれかに記載の教師データ生成装置。

（付記９）
　第１の条件は、人物の基準部位が群衆状態画像に納まらない状態であること、あるいは、所定サイズに対して定められた人物の基準部位のサイズに対して、基準部位のサイズが極端に大きいか、または、極端に小さい状態であることのいずれかに該当することであり、
　第２の条件は、人物の基準部位が群衆状態画像に納まり、かつ、前記基準部位のサイズが、所定サイズに対して定められた人物の基準部位のサイズと同程度であることである
　付記８に記載の教師データ生成装置。

（付記１０）
　画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、
　群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段と、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識手段とを備える
　ことを特徴とする群衆状態認識装置。

（付記１１）
　群衆状態認識辞書記憶手段は、所望の状態に制御された人物の状態に合致する人物の画像を合成することによって得られた群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の状態を認識する
　付記１０に記載の群衆状態認識装置。

（付記１２）
　矩形領域群記憶手段は、画像を取得する画像取得装置の位置、姿勢、焦点距離、レンズ歪みを示すカメラパラメータと、所定サイズに対して定められた人物の基準部位のサイズとに基づいて、サイズが定められた矩形領域群を記憶し、
　群衆状態認識手段は、与えられた画像から、前記矩形領域群が示す領域をそれぞれ抽出する
　付記１０または付記１１に記載の群衆状態認識装置。

（付記１３）
　群衆状態認識辞書記憶手段は、群衆状態画像に表される人物の人数を変えて、人数毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の人数を認識する
　付記１０から付記１２のうちのいずれかに記載の群衆状態認識装置。

（付記１４）
　群衆状態認識辞書記憶手段は、群衆状態画像に表される人物の方向を変えて、人物の方向毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の方向を認識する
　付記１０から付記１３のうちのいずれかに記載の群衆状態認識装置。

（付記１５）
　群衆状態認識辞書記憶手段は、極端に混雑していない群衆と、極端に混雑した群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆が極端に混雑しているか否かを認識する
　付記１０から付記１４のうちのいずれかに記載の群衆状態認識装置。

（付記１６）
　群衆状態認識辞書記憶手段は、人物の方向が統一されている群衆と、人物の方向が統一されていない群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆内で人物の方向が統一されているか否かを認識する
　付記１０から付記１５のうちのいずれかに記載の群衆状態認識装置。

（付記１７）
　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出ステップと、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定ステップと、
　背景抽出ステップで得られた所定サイズの画像に対して、人物状態決定ステップで決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成ステップとを含むことを特徴とする教師データ生成方法。

（付記１８）
　人物状態決定ステップで、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆の人物状態を仮決定し、仮決定した人物状態が、所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する条件を満たしている場合に、仮決定した人物状態を群衆の人物状態として決定し、仮決定した人物状態が前記条件を満たしていない場合に、再度群衆の人物状態を仮決定することを繰り返す
　付記１７に記載の教師データ生成方法。

（付記１９）
　群衆状態制御指示記憶手段が、項目毎に定められた複数人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶し、
　人物状態制御指示記憶手段が、項目毎に定められた個別人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶し、
　人物状態決定ステップで、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定し、
　群衆状態画像合成ステップで、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込み、教師ラベルの指定ありと定められた項目の個別人物状態制御指示を人物状態制御指示記憶手段から読み込むことによって、教師ラベルを特定する
　付記１７または付記１８に記載の教師データ生成方法。

（付記２０）
　群衆状態制御指示記憶手段が、少なくとも１つの項目について、教師ラベルの指定をありとして記憶し、
　群衆状態画像合成ステップで、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込む
　付記１９に記載の教師データ生成方法。

（付記２１）
　群衆状態制御指示記憶手段が、人物の配置、人物の方向、および人数に関する項目毎に、複数人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する複数人物状態制御指示を、具体的な状態を指示する第１の態様、任意の状態に定めてよい旨を指示する第２の態様、定められたルールの範囲内で状態を定めてよいことを指示する第３の態様のいずれかの態様で記憶し、
　人物状態制御指示記憶手段が、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆状態画像に合成するときの人物サイズに関する項目毎に、個別人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する個別人物状態制御指示を、前記第１の態様、前記第２の態様、前記第３の態様のいずれかの態様で記憶し、
　人物状態決定ステップで、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定する
　付記１９または付記２０に記載の教師データ生成方法。

（付記２２）
　群衆状態画像合成ステップで、人物の状態として決定された、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型に合致する人物画像を、予め用意された人物画像群の中から選択し、選択した人物画像の中から、人物の領域を切り出すことによって、人物部分のみの画像を生成し、人物の状態として決定された人物の配置、および群衆状態画像に合成するときの人物サイズに合わせて、前記人物部分のみを画像を、背景抽出手段によって得られた所定サイズの画像に対して合成する
　付記１７から付記２１のうちのいずれかに記載の教師データ生成方法。

（付記２３）
　群衆状態画像合成ステップで、カメラからより遠い配置位置に該当する人物部分のみの画像から順に、背景抽出手段によって得られた所定サイズの画像に対して合成する
　付記２２に記載の教師データ生成方法。

（付記２４）
　人物状態決定ステップは、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で背景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第１の条件を満たしている場合に、仮決定した人物状態を背景となる群衆の人物状態として決定し、仮決定した人物状態が前記第１の条件を満たしていない場合に、再度、背景となる群衆の人物状態を仮決定することを繰り返す背景人物状態決定ステップと、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で前景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第２の条件を満たしている場合に、仮決定した人物状態を前景となる群衆の人物状態として決定し、仮決定した人物状態が前記第２の条件を満たしていない場合に、再度、前景となる群衆の人物状態を仮決定することを繰り返す前景人物状態決定ステップとを含む
　付記１７から付記２３のうちのいずれかに記載の教師データ生成方法。

（付記２５）
　第１の条件は、人物の基準部位が群衆状態画像に納まらない状態であること、あるいは、所定サイズに対して定められた人物の基準部位のサイズに対して、基準部位のサイズが極端に大きいか、または、極端に小さい状態であることのいずれかに該当することであり、
　第２の条件は、人物の基準部位が群衆状態画像に納まり、かつ、前記基準部位のサイズが、所定サイズに対して定められた人物の基準部位のサイズと同程度であることである
　付記２４に記載の教師データ生成方法。

（付記２６）
　矩形領域群記憶手段が、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶し、
　群衆状態認識辞書記憶手段が、群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識ステップを含む
　ことを特徴とする群衆状態認識方法。

（付記２７）
　群衆状態認識辞書記憶手段が、所望の状態に制御された人物の状態に合致する人物の画像を合成することによって得られた群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識ステップで、前記辞書に基づいて、画像に写っている群衆の状態を認識する
　付記２６に記載の群衆状態認識方法。

（付記２８）
　矩形領域群記憶手段が、画像を取得する画像取得装置の位置、姿勢、焦点距離、レンズ歪みを示すカメラパラメータと、所定サイズに対して定められた人物の基準部位のサイズとに基づいて、サイズが定められた矩形領域群を記憶し、
　群衆状態認識ステップで、与えられた画像から、前記矩形領域群が示す領域をそれぞれ抽出する
　付記２６または付記２７に記載の群衆状態認識方法。

（付記２９）
　群衆状態認識辞書記憶手段が、群衆状態画像に表される人物の人数を変えて、人数毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識ステップで、前記辞書に基づいて、画像に写っている群衆の人数を認識する
　付記２６から付記２８のうちのいずれかに記載の群衆状態認識方法。

（付記３０）
　群衆状態認識辞書記憶手段が、群衆状態画像に表される人物の方向を変えて、人物の方向毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識ステップで、前記辞書に基づいて、画像に写っている群衆の方向を認識する
　付記２６から付記２９のうちのいずれかに記載の群衆状態認識方法。

（付記３１）
　群衆状態認識辞書記憶手段が、極端に混雑していない群衆と、極端に混雑した群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識ステップで、前記辞書に基づいて、画像に写っている群衆が極端に混雑しているか否かを認識する
　付記２６から付記３０のうちのいずれかに記載の群衆状態認識方法。

（付記３２）
　群衆状態認識辞書記憶手段が、人物の方向が統一されている群衆と、人物の方向が統一されていない群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識ステップで、前記辞書に基づいて、画像に写っている群衆内で人物の方向が統一されているか否かを認識する
　付記２６から付記３１のうちのいずれかに記載の群衆状態認識方法。

（付記３３）
　コンピュータに、
　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出処理、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定処理、および、
　背景抽出処理で得られた所定サイズの画像に対して、人物状態決定処理で決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成処理を実行させる
　ための教師データ生成プログラム。

（付記３４）
　コンピュータに、
　人物状態決定処理で、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆の人物状態を仮決定させ、仮決定した人物状態が、所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する条件を満たしている場合に、仮決定した人物状態を群衆の人物状態として決定させ、仮決定した人物状態が前記条件を満たしていない場合に、再度群衆の人物状態を仮決定することを繰り返させる
　付記３３に記載の教師データ生成プログラム。

（付記３５）
　項目毎に定められた複数人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する群衆状態制御指示記憶手段と、項目毎に定められた個別人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する人物状態制御指示記憶手段とを備えたコンピュータに、
　人物状態決定処理で、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定させ、
　群衆状態画像合成処理で、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込み、教師ラベルの指定ありと定められた項目の個別人物状態制御指示を人物状態制御指示記憶手段から読み込むことによって、教師ラベルを特定させる
　付記３３または付記３４に記載の教師データ生成プログラム。

（付記３６）
　少なくとも１つの項目について、教師ラベルの指定をありとして記憶する群衆状態制御指示記憶手段を備えたコンピュータに、
　群衆状態画像合成処理で、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込ませる
　付記３５に記載の教師データ生成プログラム。

（付記３７）
　人物の配置、人物の方向、および人数に関する項目毎に、複数人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する複数人物状態制御指示を、具体的な状態を指示する第１の態様、任意の状態に定めてよい旨を指示する第２の態様、定められたルールの範囲内で状態を定めてよいことを指示する第３の態様のいずれかの態様で記憶する群衆状態制御指示記憶手段と、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆状態画像に合成するときの人物サイズに関する項目毎に、個別人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する個別人物状態制御指示を、前記第１の態様、前記第２の態様、前記第３の態様のいずれかの態様で記憶する人物状態制御指示記憶手段とを備えたコンピュータに、
　人物状態決定処理で、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定させる
　付記３５または付記３６に記載の教師データ生成プログラム。

（付記３８）
　コンピュータに、
　群衆状態画像合成処理で、人物の状態として決定された、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型に合致する人物画像を、予め用意された人物画像群の中から選択させ、選択した人物画像の中から、人物の領域を切り出すことによって、人物部分のみの画像を生成させ、人物の状態として決定された人物の配置、および群衆状態画像に合成するときの人物サイズに合わせて、前記人物部分のみを画像を、背景抽出処理によって得られた所定サイズの画像に対して合成させる
　付記３３から付記３７のうちのいずれかに記載の教師データ生成プログラム。

（付記３９）
　コンピュータに、
　群衆状態画像合成処理で、カメラからより遠い配置位置に該当する人物部分のみの画像から順に、背景抽出処理で得られた所定サイズの画像に対して合成させる
　付記３８に記載の教師データ生成プログラム。

（付記４０）
　コンピュータに、
　人物状態決定処理で、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で背景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第１の条件を満たしている場合に、仮決定した人物状態を背景となる群衆の人物状態として決定し、仮決定した人物状態が前記第１の条件を満たしていない場合に、再度、背景となる群衆の人物状態を仮決定することを繰り返す背景人物状態決定処理、および、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で前景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第２の条件を満たしている場合に、仮決定した人物状態を前景となる群衆の人物状態として決定し、仮決定した人物状態が前記第２の条件を満たしていない場合に、再度、前景となる群衆の人物状態を仮決定することを繰り返す前景人物状態決定処理
　を実行させる付記３３から付記３９のうちのいずれかに記載の教師データ生成プログラム。

（付記４１）
　第１の条件は、人物の基準部位が群衆状態画像に納まらない状態であること、あるいは、所定サイズに対して定められた人物の基準部位のサイズに対して、基準部位のサイズが極端に大きいか、または、極端に小さい状態であることのいずれかに該当することであり、
　第２の条件は、人物の基準部位が群衆状態画像に納まり、かつ、前記基準部位のサイズが、所定サイズに対して定められた人物の基準部位のサイズと同程度であることである
　付記４０に記載の教師データ生成プログラム。

（付記４２）
　画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段とを備えたコンピュータに、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識処理を実行させる
　ための群衆状態認識プログラム。

（付記４３）
　所望の状態に制御された人物の状態に合致する人物の画像を合成することによって得られた群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段を備えたコンピュータに、
　群衆状態認識処理で、前記辞書に基づいて、画像に写っている群衆の状態を認識させる
　付記４２に記載の群衆状態認識プログラム。

（付記４４）
　画像を取得する画像取得装置の位置、姿勢、焦点距離、レンズ歪みを示すカメラパラメータと、所定サイズに対して定められた人物の基準部位のサイズとに基づいて、サイズが定められた矩形領域群を記憶する矩形領域群記憶手段を備えたコンピュータに、
　群衆状態認識処理で、与えられた画像から、前記矩形領域群が示す領域をそれぞれ抽出させる
　付記４２または付記４３に記載の群衆状態認識プログラム。

（付記４５）
　群衆状態画像に表される人物の人数を変えて、人数毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段を備えたコンピュータに、
　群衆状態認識処理で、前記辞書に基づいて、画像に写っている群衆の人数を認識させる
　付記４２から付記４４のうちのいずれかに記載の群衆状態認識プログラム。

（付記４６）
　群衆状態画像に表される人物の方向を変えて、人物の方向毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段を備えたコンピュータに、
　群衆状態認識処理で、前記辞書に基づいて、画像に写っている群衆の方向を認識させる
　付記４２から付記４５のうちのいずれかに記載の群衆状態認識プログラム。

（付記４７）
　極端に混雑していない群衆と、極端に混雑した群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段を備えたコンピュータに、
　群衆状態認識処理で、前記辞書に基づいて、画像に写っている群衆が極端に混雑しているか否かを認識させる
　付記４２から付記４６のうちのいずれかに記載の群衆状態認識プログラム。

（付記４８）
　人物の方向が統一されている群衆と、人物の方向が統一されていない群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段を備えたコンピュータに、
　群衆状態認識処理で、前記辞書に基づいて、画像に写っている群衆内で人物の方向が統一されているか否かを認識させる
　付記４２から付記４７のうちのいずれかに記載の群衆状態認識プログラム。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１３年６月２８日に出願された日本特許出願２０１３－１３５９１５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

産業上の利用の可能性

　本発明は、群衆状態の認識に用いる識別器の辞書を学習する際の教師データを生成する教師データ生成装置に好適に適用可能である。

　本発明は、画像内の群衆状態を認識する群衆状態認識装置に好適に適用される。特に、静止画像や、フレームレートの低い画像内の群衆状態の認識に好適に利用できる。また、フレームレートが安定せず、時間情報を用いた群衆状態認識処理を行えない場合にも、好適に利用できる。また、人物同士の重なりを含む複雑な群衆状態を静止画像から認識する処理に好適に利用できる。また、本発明は、カメラによって得られた画像から群衆状態を認識する監視分野において、不審者認識、不審物の置き去り認識、ゲートの共連れ認識、異常状態認識、異常行動認識等にも利用可能である。さらに、画像内の群衆状態の認識結果を、群衆の位置（２次元位置あるいは３次元位置）とともに、他のシステムに出力する用途に利用してもよい。また、画像内の群衆状態の認識結果と、群衆の位置（２次元位置あるいは３次元位置）とを取得し、その取得をトリガとして、映像検索を行う用途に利用することもできる。

　１１　背景抽出手段
　１２　背景人物状態決定手段
　１３　前景人物状態決定手段
　１４　群衆状態画像合成手段
　１５　人物状態決定手段
　１６　制御手段
　２１　背景画像記憶手段
　２２　学習用局所画像情報記憶手段
　２３　群衆状態制御指示記憶手段
　２４　人物状態制御指示記憶手段
　２５　人物画像記憶手段
　２６　人物領域画像記憶手段
　４１　群衆状態認識手段
　５１　探索窓記憶手段
　５２　群衆状態認識辞書記憶手段

Claims

　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出手段と、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定手段と、
　背景抽出手段によって得られた所定サイズの画像に対して、人物状態決定手段が決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成手段とを備える
　ことを特徴とする教師データ生成装置。
　人物状態決定手段は、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆の人物状態を仮決定し、仮決定した人物状態が、所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する条件を満たしている場合に、仮決定した人物状態を群衆の人物状態として決定し、仮決定した人物状態が前記条件を満たしていない場合に、再度群衆の人物状態を仮決定することを繰り返す
　請求項１に記載の教師データ生成装置。
　項目毎に定められた複数人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する群衆状態制御指示記憶手段と、
　項目毎に定められた個別人物状態制御指示を記憶するとともに、前記項目毎に定められた教師ラベルの指定の有無を記憶する人物状態制御指示記憶手段とを備え、
　人物状態決定手段は、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定し、
　群衆状態画像合成手段は、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込み、教師ラベルの指定ありと定められた項目の個別人物状態制御指示を人物状態制御指示記憶手段から読み込むことによって、教師ラベルを特定する
　請求項１または請求項２に記載の教師データ生成装置。
　群衆状態制御指示記憶手段は、
　少なくとも１つの項目について、教師ラベルの指定をありとして記憶し、
　群衆状態画像合成手段は、
　教師ラベルの指定ありと定められた項目の複数人物状態制御指示を群衆状態制御指示記憶手段から読み込む
　請求項３に記載の教師データ生成装置。
　群衆状態制御指示記憶手段は、人物の配置、人物の方向、および人数に関する項目毎に、複数人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する複数人物状態制御指示を、具体的な状態を指示する第１の態様、任意の状態に定めてよい旨を指示する第２の態様、定められたルールの範囲内で状態を定めてよいことを指示する第３の態様のいずれかの態様で記憶し、
　人物状態制御指示記憶手段は、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型、群衆状態画像に合成するときの人物サイズに関する項目毎に、個別人物状態制御指示および教師ラベルの指定の有無を記憶するとともに、各項目に対応する個別人物状態制御指示を、前記第１の態様、前記第２の態様、前記第３の態様のいずれかの態様で記憶し、
　人物状態決定手段は、群衆状態制御指示記憶手段に記憶された複数人物状態制御指示および人物状態制御指示記憶手段に記憶された個別人物状態制御指示に従って、群衆の人物状態を決定する
　請求項３または請求項４に記載の教師データ生成装置。
　群衆状態画像合成手段は、人物の状態として決定された、人物の方向、人数、人物の撮影角度、人物への照明、人物の姿勢、人物の服装、人物の体型、人物の髪型に合致する人物画像を、予め用意された人物画像群の中から選択し、選択した人物画像の中から、人物の領域を切り出すことによって、人物部分のみの画像を生成し、人物の状態として決定された人物の配置、および群衆状態画像に合成するときの人物サイズに合わせて、前記人物部分のみを画像を、背景抽出手段によって得られた所定サイズの画像に対して合成する
　請求項１から請求項５のうちのいずれか１項に記載の教師データ生成装置。
　群衆状態画像合成手段は、カメラからより遠い配置位置に該当する人物部分のみの画像から順に、背景抽出手段によって得られた所定サイズの画像に対して合成する
　請求項６に記載の教師データ生成装置。
　人物状態決定手段は、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で背景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第１の条件を満たしている場合に、仮決定した人物状態を背景となる群衆の人物状態として決定し、仮決定した人物状態が前記第１の条件を満たしていない場合に、再度、背景となる群衆の人物状態を仮決定することを繰り返す背景人物状態決定手段と、
　複数人物状態制御指示と個別人物状態制御指示とに従って、群衆状態画像で前景となる群衆の人物状態を仮決定し、仮決定した人物状態が、群衆状態画像のサイズである所定サイズに対して定められた人物の基準部位のサイズおよび前記基準部位の表れ方に関する第２の条件を満たしている場合に、仮決定した人物状態を前景となる群衆の人物状態として決定し、仮決定した人物状態が前記第２の条件を満たしていない場合に、再度、前景となる群衆の人物状態を仮決定することを繰り返す前景人物状態決定手段とを含む
　請求項１から請求項７のうちのいずれか１項に記載の教師データ生成装置。
　第１の条件は、人物の基準部位が群衆状態画像に納まらない状態であること、あるいは、所定サイズに対して定められた人物の基準部位のサイズに対して、基準部位のサイズが極端に大きいか、または、極端に小さい状態であることのいずれかに該当することであり、
　第２の条件は、人物の基準部位が群衆状態画像に納まり、かつ、前記基準部位のサイズが、所定サイズに対して定められた人物の基準部位のサイズと同程度であることである
　請求項８に記載の教師データ生成装置。
　画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、
　群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段と、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識手段とを備える
　ことを特徴とする群衆状態認識装置。
　群衆状態認識辞書記憶手段は、所望の状態に制御された人物の状態に合致する人物の画像を合成することによって得られた群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の状態を認識する
　請求項１０に記載の群衆状態認識装置。
　矩形領域群記憶手段は、画像を取得する画像取得装置の位置、姿勢、焦点距離、レンズ歪みを示すカメラパラメータと、所定サイズに対して定められた人物の基準部位のサイズとに基づいて、サイズが定められた矩形領域群を記憶し、
　群衆状態認識手段は、与えられた画像から、前記矩形領域群が示す領域をそれぞれ抽出する
　請求項１０または請求項１１に記載の群衆状態認識装置。
　群衆状態認識辞書記憶手段は、群衆状態画像に表される人物の人数を変えて、人数毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の人数を認識する
　請求項１０から請求項１２のうちのいずれか１項に記載の群衆状態認識装置。
　群衆状態認識辞書記憶手段は、群衆状態画像に表される人物の方向を変えて、人物の方向毎に複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆の方向を認識する
　請求項１０から請求項１３のうちのいずれか１項に記載の群衆状態認識装置。
　群衆状態認識辞書記憶手段は、極端に混雑していない群衆と、極端に混雑した群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆が極端に混雑しているか否かを認識する
　請求項１０から請求項１４のうちのいずれか１項に記載の群衆状態認識装置。
　群衆状態認識辞書記憶手段は、人物の方向が統一されている群衆と、人物の方向が統一されていない群衆とについてそれぞれ複数組用意された群衆状態画像と教師ラベルとの組を用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　群衆状態認識手段は、前記辞書に基づいて、画像に写っている群衆内で人物の方向が統一されているか否かを認識する
　請求項１０から請求項１５のうちのいずれか１項に記載の群衆状態認識装置。
　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出ステップと、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定ステップと、
　背景抽出ステップで得られた所定サイズの画像に対して、人物状態決定ステップで決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成ステップとを含む
　ことを特徴とする教師データ生成方法。
　矩形領域群記憶手段が、画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶し、
　群衆状態認識辞書記憶手段が、群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶し、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識ステップを含む
　ことを特徴とする群衆状態認識方法。
　コンピュータに、
　予め用意された複数の背景画像から背景画像を選択し、前記背景画像中の領域を抽出し、抽出した領域に該当する画像を、所定サイズの画像に拡大または縮小する背景抽出処理、
　複数の人物に関係する人物の状態の指示情報である複数人物状態制御指示と、前記複数の人物中の個別の人物の状態の指示情報である個別人物状態制御指示とに従って、群衆の人物状態を決定する人物状態決定処理、および、
　背景抽出処理で得られた所定サイズの画像に対して、人物状態決定処理で決定した人物状態に該当する人物の画像を合成した画像である群衆状態画像を生成し、当該群衆状態画像に対する教師ラベルを特定し、群衆状態画像および教師ラベルの組を出力する群衆状態画像合成処理を実行させる
　ための教師データ生成プログラム。
　画像上の群衆状態の認識対象箇所を示す矩形領域群を記憶する矩形領域群記憶手段と、群衆状態を表した所定サイズの画像であって、前記所定サイズに対して定められた人物の基準部位のサイズと同程度のサイズで基準部位が表されている人物を含む画像である群衆状態画像と、当該群衆状態画像に対する教師ラベルとの組を複数組用いて機械学習を行うことによって得られた識別器の辞書を記憶する群衆状態認識辞書記憶手段とを備えたコンピュータに、
　与えられた画像から、矩形領域群記憶手段に記憶される矩形領域群が示す領域をそれぞれ抽出し、前記辞書に基づいて、抽出した画像に写っている群衆の状態を認識する群衆状態認識処理を実行させる
　ための群衆状態認識プログラム。