JPWO2014174760A1

JPWO2014174760A1 - 行動解析装置、行動解析方法および行動解析プログラム

Info

Publication number: JPWO2014174760A1
Application number: JP2015513507A
Authority: JP
Inventors: 亮磨大網; 博義宮野; 孝文越仲; 宝珠山　治; 治宝珠山; 真宏谷
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-04-26
Filing date: 2014-03-26
Publication date: 2017-02-23
Anticipated expiration: 2034-03-26
Also published as: WO2014174760A1; US9761248B2; JP6344383B2; US20160078883A1

Abstract

入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部１と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部２と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する行動解析部３とを含む。

Description

本発明は、映像情報と音響情報とを用いて映像監視を行う行動解析装置、行動解析方法および行動解析プログラムに関する。

音響情報と映像情報とを用いて、人物等を監視する技術がある。例えば、音声信号から特定の音声パターンを検知して、当該音声信号が取得された周辺の画像を取得し、拡大、フィルタリング、補間等の処理をしたり、当該音声信号が取得された周辺の立体画像を生成したりすることにより、異常の特定を容易にする方法がある（例えば、特許文献１参照。）。また、音響センサおよび画像センサを用いて、監視領域内で発生する音、および主要な場所の画像を収録し、音響データの解析によって特定の事象（イベント）を検知し、検知結果に基づいて移動体を追跡し、移動体の画像データを取得し、画像解析を行う方法がある（例えば、特許文献２参照。）。特許文献１および特許文献２に記載された方法は、どちらも音声または音響をトリガにして、別の画像処理を実行する技術である。

これらの方法は、群衆の行動（以下、群衆行動という。）を解析する目的では用いられていない。ここで、群衆とは、行動解析の対象とする個の集合である。群衆行動の解析を目的とする方法として、音響解析と画像解析とを用いて、単独かグループかの判定、およびその事象（喧嘩、犯罪など）の判定を行う方法がある（例えば、特許文献３参照。）。

特開２０００−２１７０９５号公報特開２００２−３１４９８７号公報特許第４５０６３８１号公報

特許文献３に記載された方法では、音響解析と画像解析とを独立に行い、音響事象と映像事象との時間差を考慮せずに、両解析結果を統合する。ここで、音響事象とは、マイクロフォンが入力する音声または音響から抽出される事象である。音響事象は、例えば、爆発音や銃声などの衝撃音や、人の叫び声である。映像事象とは、カメラの映像から抽出される事象である。映像事象は、例えば、群衆の動きである。

このため、特許文献３に記載された方法では、音響事象と映像事象とが同時に起こる場合には、音響解析結果と画像解析結果とを統合できる。しかし、音響事象と映像事象との間に時間差が生じるような場合には、両解析結果を正しく統合できず、群衆の行動などを正しく分析することができない可能性がある。例えば、衝撃音が発生し、少し経ってから群衆が逃げるといったようなケースでは、音響事象と映像事象との間に時間差が生じる。従って、特許文献３に記載された方法では、そのようなケースにおける群衆の行動を効果的に分析することが難しい。

そこで、本発明は、音響事象と映像事象との間に時間差が生じる場合であっても、群衆の行動をより正確に分析することができる行動解析装置、行動解析方法および行動解析プログラムを提供することを目的とする。

本発明による行動解析装置は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する行動解析部とを含むことを特徴とする。

本発明による行動解析方法は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析することを特徴とする。

本発明による行動解析プログラムは、コンピュータに、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する処理とを実行させることを特徴とする。

本発明によれば、音響事象と映像事象との間に時間差が生じる場合であっても、群衆の行動をより正確に分析することができる。

本発明による行動解析装置の第１の実施形態の構成を示すブロック図である。第１の実施形態の群衆行動解析部の構成を示すブロック図である。第２の実施形態の群衆行動解析部の構成を示すブロック図である。本発明による行動解析装置の概要を示すブロック図である。

実施形態１．
以下、本発明の第１の実施形態を図面を参照して説明する。

図１は、本発明による行動解析装置の第１の実施形態の構成を示すブロック図である。

図１に示すように、行動解析装置は、音声・音響解析部１０と、時間差判定部２０と、群衆行動解析部３０とを含む。

音声・音響解析部１０は、音声・音響情報（以下、単に音響情報という。）を入力する。音響情報は、人の音声や周囲から伝わる音響を含む情報である。本実施形態では、音声・音響解析部１０は、マイクロフォンを介して音声・音響信号（以下、単に音響信号という。）を入力する。なお、マイクロフォンは行動解析装置にいくつ接続されていてもよい。

音声・音響解析部１０は、音響信号を解析する。音声・音響解析部１０は、音響信号の解析結果、例えば、音響信号から抽出される特徴量（以下、音響特徴量という。）を示す音声・音響解析情報（以下、単に音響解析情報という。）を生成する。

時間差判定部２０は、音声・音響解析部１０から音響解析情報を入力する。

時間差判定部２０は、マイクロフォンとカメラの位置、および、音響事象と映像事象との時間差を判定し、当該時間差を示す時間差情報を生成する。

群衆行動解析部３０は、映像情報を入力する。本実施形態では、群衆行動解析部３０は、カメラを介して映像情報を入力する。なお、カメラは行動解析装置にいくつ接続されていてもよい。また、群衆行動解析部３０は、１つのカメラから複数の映像情報を入力してもよい。

群衆行動解析部３０は、カメラから入力した映像情報と、時間差判定部２０から入力した時間差情報と、音声・音響解析部１０から入力した音響解析情報とをもとに、群衆行動を解析し、解析結果（以下、群衆行動判定結果という。）を生成する。行動解析の対象とする群衆には、単体の人だけでなく、例えば、車やバイク、自転車等に乗って移動する人なども含まれる。

群衆行動解析部３０は、本実施形態では、図２に示すように、映像群衆行動解析部３１と、解析結果統合部３２とを含む。図２は、第１の実施形態の群衆行動解析部の構成を示すブロック図である。

映像群衆行動解析部３１は、カメラが撮影した映像から群衆行動を解析し、解析結果、例えば、映像から抽出される特徴量（以下、映像特徴量という。）を示す映像解析情報を生成する。

解析結果統合部３２は、時間差情報で与えられる時間差を考慮して、音響解析情報と映像解析情報とを統合し、統合した結果をもとに群衆行動を判定する。

解析結果統合部３２は、判定結果を含む群衆行動判定結果を生成し、出力する。

なお、音声・音響解析部１０、時間差判定部２０および群衆行動解析部３０は、例えば、行動解析プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが行動解析プログラムを読み込み、そのプログラムに従って、音声・音響解析部１０、時間差判定部２０および群衆行動解析部３０として動作する。また、音声・音響解析部１０、時間差判定部２０および群衆行動解析部３０が別々のハードウェアで実現されていてもよい。

次に、本実施形態の動作を説明する。

音声・音響解析部１０は、マイクロフォンから入力した音響信号を解析する。ここでは、音声・音響解析部１０は、音響特徴、例えば音の大きさや音の種類を解析する。音声・音響解析部１０は、解析結果を含む音響解析情報を時間差判定部２０に出力する。

時間差判定部２０は、音響解析情報を入力すると、音響解析情報が示す音響特徴量から特定される音響事象と、映像事象とのタイムラグ（時間差）を判定する。つまり、時間差判定部２０は、音響情報で生じる異常性の検知時刻と映像情報で生じる異常性の検知時刻との時間差を判定する。

具体的には、まず、時間差判定部２０は、音響事象が生じた位置と、映像事象が特定される位置との距離を判定する。本実施形態では、「音響事象が生じた位置」を、音響情報を取得した位置、つまりマイクロフォンの設置位置とする。また、「映像事象が特定される位置」を、カメラの撮影区域、具体的にはカメラが監視している位置とする。以下、音響事象が生じた位置と映像事象が特定される位置との距離を、単にマイクロフォンとカメラとの距離と表現する。

時間差判定部２０は、マイクロフォンとカメラとの距離を判定した後、当該距離をもとに、音響情報と映像情報とで生じる異常性の時間差を判定し、当該時間差を示す時間差情報を生成する。

時間差判定部２０は、時間差モデル化情報を予め保持する。ここで、時間差モデル化情報は、音響事象が生じてからカメラの映像にその影響が生じするまでにかかる時間差（つまり、音響事象が生じてから映像事象が生じるまでにかかる時間差）を、マイクロフォンとカメラとの距離に応じてモデル化した情報である。

時間差モデル化情報には、マイクロフォンとカメラとの距離から予め想定される時間差を設定しておく。なお、過去に起きた事象などから学習した時間差を時間差モデル化情報に設定するようにしてもよい。また、ヒューリスティックに定めた時間差を時間差モデル化情報に設定するようにしてもよい。時間差モデル化情報は、例えば、距離に応じて時間差を求める算出式のパラメータや、距離と時間差との関係をテーブルで記述したルックアップテーブルである。

なお、距離だけでなく、音響の大きさや周波数といった音響特徴も加味して時間差をモデル化するようにしてもよい。例えば、時間差をモデル化する際に、爆発音などの音の大きさや周波数から、音が直接聞こえる範囲を推定し、マイクロフォンとカメラとの距離がその範囲内である場合には、時間差を短くし、それよりも遠い場合には、時間差を長くするようにモデル化してもよい。例えば、マイクロフォンが入力した音が、爆発音のように大きな音で遠くに伝わるような音である場合や、高周波数成分を多く含み、遠くまで響く音である場合、時間差判定部２０は、マイクロフォンとカメラとの距離から判定した時間差をそれよりも短い値に設定する。この場合、時間差モデル化情報は、距離と音響特徴とを入力変数とする算出式（または数理モデル）のパラメータとなる。そのような形態によれば、時間差判定部２０は、音響事象と映像事象との間の時間差を、音響解析情報が示す音の大きさや種類に基づいて、より精度良く求めることができる。つまり、時間差判定部２０は、マイクロフォンが入力した音の大きさや種類を考慮した時間差を求めることができる。

また、時間差判定部２０は、時間差を、一つの値ではなく、一定の幅をもった分布として算出するようしてもよい。これは、時間差の推定値には、ある程度のばらつきが生じ得るためである。具体的には、例えば、音響の大きさが大きい時には、時間差の推定の確度が高くなるため、時間差の推定幅が短くなる。また、音響の大きさが小さい時には、推定の確度が下がり、時間差の推定幅が大きくなる傾向にある。また、時間差の推定の確度は、カメラとマイクロフォンの距離が離れるにつれ、下がる傾向にある。時間差判定部２０は、このような傾向を考慮し、時間差を分布として出力する。例えば、時間差判定部２０は、時間差τの分布をｑ（τ）とし、ｑ（τ）の分布を記述する（表す）情報を時間差情報として生成する。例えば、ｑ（τ）が正規分布で近似できる場合には、時間差判定部２０は、τの期待値（平均値）と分散の値を時間差情報として出力する。なお、ｑ（τ）の分布形状は、正規分布に限らず、ｑ（τ）には、ＢＰＴ（ＢｒｏｗｎｉａｎＰａｓｓａｇｅＴｉｍｅ）分布などの分布を用いるようにしてもよい。

このように、時間差判定部２０は、マイクロフォンとカメラとの距離と、音響解析の結果との両方を用いて時間差を決定する。時間差判定部２０は、時間差情報を群衆行動解析部３０の解析結果統合部３２に出力する。

解析結果統合部３２は、音声・音響解析部１０から、音響の異常状態を解析するのに用いる音響特徴量を入力する。また、解析結果統合部３２は、映像群衆行動解析部３１から、映像から群衆の異常な状態を解析するのに用いる映像特徴量を入力する。解析結果統合部３２は、当該音響特徴量と当該映像特徴量とを、時間差情報が示す時間差を考慮して統合する。

例えば、音響特徴量が示す音響特徴から求まる確率として、ある事象が時刻ｔに起こる確率をＰａ（ｔ）とする。Ｐａ（ｔ）の値は、用いられる音響特徴量の数をＮ、ｉ番目の音響特徴量の時刻ｔにおける値をａ_ｉ（ｔ）（ｉ＝１，…，Ｎ）とすると、以下のように定式化できる。

ここで、関数Ｇ_ａは、各音響特徴量の値から事象が起こる確率を推定する関数である。関数Ｇ_ａは、検出対象となる異常音とそれ以外の音の両方のデータから抽出される各音響特徴量を学習することによりモデル化できる。あるいは、ヒューリスティックに関数Ｇ_ａのモデルを決めてもよい。同様に、映像特徴量が示す映像特徴から求まる確率として、ある事象が時刻ｔに起こる確率をＰｖ（ｔ）とする。Ｐｖ（ｔ）の値は、用いられる映像特徴量の数をＭ、ｊ番目の音響特徴量の時刻ｔにおける値をｖ_ｊ（ｔ）（ｊ＝１，…，Ｍ）とすると、以下のように定式化できる。

ここで、関数Ｇ_ｖは、各映像特徴量の値から事象が起こる確率を推定する関数である。関数Ｇ_ｖは、検出対象となる異常状態の映像データとそれ以外の映像データの両方のデータから抽出される各映像特徴量を学習することによりモデル化できる。あるいは、ヒューリスティックに関数Ｇ_ｖのモデルを決めてもよい。この場合、解析結果統合部３２は、時刻ｔにある事象が起こったと考えられる確率Ｐ（ｔ）を、以下の式により算出する。

ここで、τは、時間差情報が示す時間差、つまり、音響事象と映像事象との間のタイムラグを表す。このように、解析結果統合部３２は、時間差情報が示す時間差を考慮して、Ｐａ（ｔ）とＰｖ（ｔ）とを統合する。あるいは、解析結果統合部３２は、Ｐａ（ｔ）とＰｖ（ｔ）を求めないで、音響特徴量、映像特徴量の値から直接Ｐ（ｔ）の値を、以下の式を用いて算出してもよい。

ここで、関数Ｇは、各音響特徴量、各映像特徴量の値から事象が起こる確率を推定する関数である。あるいは、時間差τの分布ｑ（τ）が与えられた場合には、時刻ｔにある事象が起こる確率は、以下の式で与えられる。

この場合も、解析結果統合部３２は、Ｐａ（ｔ）とＰｖ（ｔ）を求めないで、Ｐ（ｔ）の値を、以下の式を用いて直接算出してもよい。

音響特徴量としては、音響信号を変換することにより抽出されるＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）、ＦＦＴ（高速フーリエ変換）、ウェーブレット（Ｗａｖｅｌｅｔ）変換係数などがある。ほかにも、音響特徴量として、音量の絶対値、音の変化量（二次差分）、音の到来方向、特定キーワードの音声認識結果（認識の確からしさや認識の頻度、特定キーワードを発した話者の数など）などがある。

映像特徴量としては、映像中のオプティカルフロー（見かけの動きを示す情報）とそれを集計して得られる方向や強度のヒストグラム、または、それらを様々な時間幅で集計し多重化したヒストグラム、つまり多重時間解像度で算出したヒストグラム、人物検出結果などがある。

解析結果統合部３２は、音響特徴量と映像特徴量とを統合した結果から、群衆の異常状態を検知する。例えば、解析結果統合部３２は、Ｐ（ｔ）の値が、予め設定された閾値を超えたときに、群衆の異常状態が発生したと判断する。なお、異常状態とは、定常でない状態をいう。

解析結果統合部３２は、群衆行動判定結果を出力する。本実施形態では、解析結果統合部３２は、群衆行動判定結果を、平常時には出力せず、予め定めた検知すべき状態、つまり異常な事態を検知したときのみ出力する。あるいは、解析結果統合部３２は、平常時に、平常であること、つまり異常な状態を検知していないことを示す群衆行動判定結果を出力するようにしてもよい。

群衆行動判定結果は、例えば、群衆の異常行動が検知された場所（例えば、カメラが監視している位置）、検知時刻、異常行動の種類を表す情報（例えば、事前に定めたイベントＩＤ）、異常行動の程度を表す値、イベント判定の確からしさを表すイベント判定スコア（尤度）を含む。なお、異常行動を検知したときの映像や、映像中でイベントが検知された領域（例えば、特定の人物が疾走している場合には、その人物が映っている場所）の情報を、群衆行動判定結果に含ませるようにしてもよい。

ここで、異常行動の種類としては、例えば、
（１）爆発、火事などの異常事態発生
（２）窃盗、傷害などの事件発生
（３）その他
がある。

異常行動の種類が上記（１）の場合、解析結果統合部３２は、さらに、音声認識の結果や音響種別の判定結果を利用して、爆発、火事、通り魔、それ以外の凶悪事件などに異常行動を再分類する。

異常行動の種類が上記（２）の場合、解析結果統合部３２は、さらに、音声認識の結果を利用して、窃盗、傷害などに異常行動を再分類する。

上記（３）が示す異常行動は、何らかの異常事態は検知されたが、（１）や（２）に該当しない異常行動である。本実施形態では、予め、異常行動の程度として、事態の深刻さを示す指標、例えば、レベルを決めておく。そして、解析結果統合部３２は、人物の移動速度、逃げる人物の数、または、その時に発する声の大きさなどから、そのレベルを判定し、その判定結果を群衆行動判定結果に含ませる。また、入力される各特徴量の値からレベル値を出力する判定器を回帰学習等により予め生成しておき、解析結果統合部３２は、その判定器を使ってレベルを判定するようにしてもよい。

なお、解析結果統合部３２は、イベントの種類に応じた付加情報を、群衆行動判定結果に含ませるようにしてもよい。例えば、異常行動の種類が上記（１）の場合、解析結果統合部３２は、群衆の移動方向や混雑状況の情報を群衆行動判定結果に含ませるようにしてもよい。異常行動の種類が上記（２）の場合、解析結果統合部３２は、異常行動をとっている犯人候補の人物特徴（例えば、服などの特徴）、移動方向、速度を群衆行動判定結果に含ませるようにしてもよい。また、解析結果統合部３２は、画角から外れたときにはその時刻と方向を群衆行動判定結果に含ませるようにしてもよい。

また、解析結果統合部３２は、群衆行動判定結果を、アラートとして警備室に通報するようにしてもよい。また、解析結果統合部３２は、群衆行動判定結果に、予め定めたオペレーションを実行させるための指示を含ませるようにしてもよい。そのような形態によれば、例えば、上記（１）の異常事態発生時には、解析結果統合部３２が、非常扉を制御する装置等に群衆行動判定結果を出力することにより、非常口を開放したり、非常口への経路誘導のサインを出したりすることができる。また、上記（２）の事件発生時には、解析結果統合部３２が、移動方向、速度、画角から外れた時刻などから、次に犯人候補の人物が映りそうなカメラを予測し、当該カメラに群衆行動判定結果を出力することにより、当該カメラの画像を警備室の表示装置に出力させることができる。また、解析結果統合部３２は、犯人候補の人物の顔をより撮影しやすいように、当該カメラの向きやズーム率等を制御することができる。また、解析結果統合部３２は、犯人の可能性がある人物が現れたときに、人物特徴による照合を行い、当該人物が犯人と同一人物である可能性が高いと判断した場合には、当該カメラに追跡を継続させることができる。

以上に説明したように、本実施形態では、解析結果統合部３２が音響解析結果と映像解析結果とを時間差を考慮して統合した結果から、群衆の異常状態を判定する。従って、音響情報で異常性が検知される時刻と映像情報で異常性が検知される時刻とが異なる場合であっても、群衆の異常行動を確実に検知することができる。よって、群衆の行動をより正確に分析することが可能となる。

例えば、爆発や銃声といった衝撃音は、映像による群衆の異常状態の検知よりも先に検知される。そのような場合でも、本実施形態によれば、群衆の異常状態を正確に検知することができる。一方、特許文献３に記載された方法のように、音響解析結果と映像解析結果とを時間差を考慮せずに統合する方法では、正しく群衆行動の異常判定をすることができない可能性がある。

また、本実施形態では、時間差判定部２０が音響イベントと映像イベントの時間差を判定する際に、マイクロフォンとカメラの位置を考慮する。例えば、音響解析のマイクロフォンと、群衆行動解析のカメラとがある程度離れている場合には、その間の移動にかかる時間を当該時間差に加算することができる。それにより、マイクロフォンおよびカメラの設置位置によらずに、群衆の異常行動を正確に検知することができる。

また、本実施形態では、時間差判定部２０が音響イベントと映像イベントの時間差を判定する際に、マイクロフォンが入力した音の大きさや種類を考慮する。従って、マイクロフォンとカメラとの距離から判定した時間差を、音の大きさや種類をもとにより最適な値に更新することができる。

実施形態２．
以下、本発明の第２の実施形態を図面を参照して説明する。

行動解析装置の第２の実施形態の構成は、第１の実施形態と同様である。

一方、本実施形態では、図３に示すように、群衆行動解析部３０は、映像群衆行動解析部３１と解析結果統合部３２に加えて、事象分類部３３を含む。図３は、第２の実施形態の群衆行動解析部の構成を示すブロック図である。

事象分類部３３は、音響解析情報を入力する。事象分類部３３は、音響解析情報をもとに、事象の分類を行い、分類結果を含む事象分類情報を生成する。事象分類情報は、映像群衆行動解析部３１における映像群衆行動解析の制御に用いられる。

映像群衆行動解析部３１は、事象分類部３３が生成した事象分類情報に基づいて、映像群衆行動解析のパラメータの調整やアルゴリズムの切り替えを行う。その際、映像群衆行動解析部３１は、時間差判定部２０が判定した時間差を考慮して、当該パラメータの調整や当該アルゴリズムの切り替えを行う。映像群衆行動解析部３１は、音響事象が生じてから映像事象が生じるまでの間に、パラメータの調整やアルゴリズムの切り替えを完了させる必要がある。従って、例えば、映像群衆行動解析部３１は、時間差判定部２０が判定した時間差内に、パラメータの調整やアルゴリズムの切り替えを実行することができないと判断した場合、パラメータの調整やアルゴリズムの切り替えを簡略化したり実行しないようにしたりする。例えば、最初にある程度の画像の学習が必要なアルゴリズムに切り替える場合に、映像群衆行動解析部３１は、当該学習に要する時間が、上記時間差以内に終わらないと判断した場合には、当該アルゴリズムへの切り替えを行わないようにする。あるいは、映像群衆行動解析部３１は、複数のカメラ間で計算リソースの分配を決定し、実際に計算リソースの割り当てを変更するのに必要な時間が上記時間差以上であると判断した場合には、計算リソースの割り当てを変更しないようにしたり、より簡略な計算リソースの調整を行うようにしたりする。

映像群衆行動解析部３１は、調整後のパラメータや切り替え後のアルゴリズムを用いて、映像中の群衆行動の解析を行う。映像群衆行動解析部３１は、解析により得られた情報を、映像解析情報として出力する。

解析結果統合部３２は、第１の実施形態と同様に、音響解析情報と、映像解析情報とを時間差を考慮して統合し、統合した結果をもとに群衆行動を判定する。

次に、本実施形態の動作を説明する。

映像群衆行動解析部３１は、時間差情報を入力すると、音響情報から異常が検知されたと判断する。つまり、本実施形態では、音声・音響解析部１０は、音響情報から異常を検知したときに、音響解析情報を時間差判定部２０に出力する。そして、音響解析情報を入力した時間差判定部２０が、時間差情報を映像群衆行動解析部３１に出力する。

音声・音響解析部１０は、同時に、音響解析情報を事象分類部３３に出力する。

事象分類部３３は、群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、映像群衆行動解析部３１に出力する。

映像を用いて群衆行動を解析する場合、解析対象とする群衆行動には、テロのように一般の人が集団で逃げる状況（ケースＡとする。）や、ひったくりのように、特定の人物（犯人）が群衆の合間を縫って逃げる状況（ケースＢとする。）がある。事象分類部３３は、音響情報を用いてこれらのケースを分類し、映像群衆行動解析部３１が、その情報に基づいて、映像による群衆行動解析を制御する。なお、解析対象とする群衆行動は、ケースＡおよびケースＢに限定されない。また、解析対象とする群衆行動のケースの種類は、いくつあってもよい。

例えば、ある事象が起こった際、現場の人の叫び声の特徴を分析した結果、複数の人物が叫び声をあげていることが分かった場合には、事象分類部３３は、ケースＡと判定する。また、例えば、一人または少数の人物が叫び声をあげていることが分かった場合には、事象分類部３３は、ケースＢと判定する。

なお、音声・音響解析部１０が叫び声に対して音声認識を行い、事象分類部３３が発話内容を分析することによって両者を区別するようにしてもよい。また、破裂音や銃声が検知された場合には、事象分類部３３は、ケースＡと判断するようにしてもよい。また、この判定は二者択一である必要はなく、例えば、事象分類部３３は、ケースＡらしさ、ケースＢらしさを表す尤度指標を算出するようにしてもよい。

映像群衆行動解析部３１は、映像による群衆解析において、例えば、事象分類情報に基づいて、映像解析のパラメータやアルゴリズムの調整または切り替えを行う。具体的には、映像群衆行動解析部３１は、群衆の動きを解析するパラメータやアルゴリズムの調整または切り替えを行う。

ケースＡの場合には、集団で離散する動きを検知する必要がある。この場合、映像群衆行動解析部３１は、例えば、離散する動きのパターンを検知する識別器を用いて、集団で離散する動きを判定する。ケースＡでは、全体的な場の動きの傾向が判定できればよく、個々の人物の動きはそれほど重要ではない。そのため、映像群衆行動解析部３１は、全体的な動きの傾向を分析するように、映像解析のパラメータを調整する。例えば、映像群衆行動解析部３１は、動き解析の空間解像度（ｓｐａｔｉａｌｒｅｓｏｌｕｔｉｏｎ）を下げ、画面全体を満遍なく解析できるようにする。なお、映像群衆行動解析部３１は、計算リソースに応じて、動き解析を粗い解像度から徐々に細かくしていってもよい。また、ケースＡのような状況では、周囲の多くのカメラにおいて異常状態が撮影される。従って、平常時に比べ、行動解析装置は、計算リソースをより多く必要とする。よって、映像群衆行動解析部３１は、特定のカメラの処理のみに計算リソースが割かれて、他のカメラの映像が解析できないような状況にならないように、各カメラの映像解析に割り当てる計算リソースを調整する。映像群衆行動解析部３１は、例えば、各カメラの解析のフレームレートを落とす。

一方、ケースＢの場合には、逆走、または疾走する犯人の動きを検知し、追跡する必要がある。このため、映像群衆行動解析部３１は、個々の人物の動きが正確に追えるように、映像解析のパラメータを調整する。映像群衆行動解析部３１は、例えば、フレームレートや空間解像度を上げて、抽出される動きの信頼度が高くなるようにする。なお、他と違う動きをしている部分が検出された場合には、映像群衆行動解析部３１は、検出された部分を解析するための処理を行うモジュールを起動し、その部分のみをより詳細に解析するようにしてもよい。

一方、事象分類部３３からケースＡとケースＢとのそれぞれの尤度情報が入力される場合には、映像群衆行動解析部３１は、尤度情報に基づいて、動き解析のパラメータを両ケースの尤度に応じた値に設定するようにしてもよい。映像群衆行動解析部３１は、例えば、動き解析の時空間の解像度を尤度情報によって制御するようにしてもよい。

ここで、ケースＡとケースＢの尤度に応じたパラメータ調整の具体例を説明する。

映像群衆行動解析部３１は、ケースＡ、ケースＢの尤度に応じて、オプティカルフローを算出する空間解像度（画像の大きさ）や、密度や、フレームレートを調整する。密度は、オプティカルフローを画素単位で求めるのか、数画素おきに求めるのかを決定するために用いられるパラメータである。また、映像群衆行動解析部３１は、ケースＡ、ケースＢの尤度に応じて、オプティカルフローの算出に用いるアルゴリズムを切り替える。

例えば、映像群衆行動解析部３１は、映像解析のパラメータを以下のように調整する。

全体の異常な動きのパターンを検知するケースＡの場合には、映像群衆行動解析部３１は、以下のような方針に基づいて、パラメータを決定する。
（１）オプティカルフローを全体的に満遍なく見る。
（２）時間解像度、空間解像度を上げない。
（３）過負荷な場合には、フレームレートを落とす。

特定の異常な動きをする人物を追跡するケースＢの場合には、映像群衆行動解析部３１は、以下のような方針に基づいて、パラメータを決定する。
（１）時間解像度、空間解像度をともに上げる。
（２）ただし、オプティカルフローを全体的に見る必要はなく、マイクロフォンがある方向（つまり、音響イベントが検知された方向）から来る人物の動きを検知できればよい。従って、その方向を特に細かく解析できるように時間解像度、空間解像度を上げる。

映像群衆行動解析部３１は、上記の方針に合わせて、予めそれぞれのケースのパラメータ値を決めておき、ケースＡ、ケースＢの尤度に応じてパラメータを以下のように調整する。

通常状態では、映像群衆行動解析部３１は、空間解像度をもとの画像のα_０倍とし、ｎ_０画素ごとにフローを算出するとする。また、通常状態におけるフレームレートはｆ_０であるとする。

ケースＡと判定された場合のこれらのパラメータを、α_Ａ，ｎ_Ａ，ｆ_Ａで表し、ケースＢと判定された場合のこれらのパラメータを、α_Ｂ，ｎ_Ｂ，ｆ_Ｂで表す。ケースＡ、ケースＢの尤度がそれぞれｐ_Ａ，ｐ_Ｂ（ただし，０≦ｐ_Ａ≦１，０≦ｐ_Ｂ≦１）であるとき、映像群衆行動解析部３１は、各パラメータを例えば以下のように算出する。

［空間解像度］

［オプティカルフローを求める画素の間隔］

なお、ケースＢの尤度に応じて、密度に偏りを持たせるようにしてもよい。

［フレームレート］

また、算出アルゴリズムを何段階か設けて、映像群衆行動解析部３１が、ｐ_Ａ，ｐ_Ｂの値に応じて、算出アルゴリズムの段階を切り替えるようにしてもよい。

なお、ここでは、線形な制御について説明したが、映像群衆行動解析部３１は、非線形な制御を行ってもよい。一般化すると、例えばフレームレートの場合は、以下のように表すことができる。

ここで、Ｆ（ｐ_Ａ，ｐ_Ｂ）は、フレームレートを算出する関数である。Ｆ（ｐ_Ａ，ｐ_Ｂ）には、線形な関数に限らず、様々な関数を用いることができる。

また、映像群衆行動解析部３１は、群衆行動のケースの種類に応じて、抽出する特徴量を変更して、例えば動き以外の特徴量を抽出するようにしてもよい。また、映像群衆行動解析部３１は、識別器が有する辞書（検知対象とする動きのパターン）を変更するようにしてもよい。

以上に説明したように、本実施形態では、事象分類部３３が、群衆行動の事象のタイプを分類し、映像群衆行動解析部３１が、その分類結果に基づいて、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行う。それにより、より正確に群衆行動を解析することができる。また、計算リソースを効率的に利用することができる。また、カメラが複数台ある場合でも、各カメラの映像解析に割り当てる計算リソースを適切に分配することが可能となる。一方、特許文献３に記載された方法では、音響解析と画像解析とを独立に行うので、音響解析結果を用いて画像解析のパラメータを変更することができない。そのため、計算リソースを必要以上に消費する可能性がある。また、特許文献３に記載された方法では、特定のカメラの処理のみに計算リソースが割かれて、他のカメラの映像が解析できないような状況が発生する可能性がある。

次に、本発明の概要を説明する。図４は、本発明による行動解析装置の概要を示すブロック図である。図４に示すように、行動解析装置は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部１（図１に示す音声・音響解析部１０に相当。）と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する時間差判定部２（図１に示す時間差判定部２０に相当。）と、入力映像と、音響解析情報と、時間差情報とを用いて、音響事象に対応する群衆行動を解析する行動解析部３（図１に示す群衆行動解析部３０に相当。）とを含む。

また、時間差情報は、時間差判定部により判定された時間差の分布を表す情報であってもよい。そのような形態によれば、時間差が一つの値ではなく、一定の幅をもった分布として算出されるようなケース、つまり、時間差判定部２が判定した時間差（推定値）にばらつきが生じるような場合であっても、群衆行動を解析することができる。

また、行動解析部３は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析してもよい。そのような構成によれば、音響情報で異常性が検知される時刻と映像情報で異常性が検知される時刻とが異なる場合であっても、群衆の異常行動をより確実に検知することができる。

また、行動解析部３は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定してもよい。そのような構成によれば、音響解析結果と映像解析結果とを時間差を考慮して統合した結果から、群衆の異常状態を判定することができる。例えば、算出した各確率を統合した値と、予め設定された閾値とを用いて、群衆行動に異常があったか否かを判定することにより、群衆行動の異常判定をより正確に行うことが可能となる。

また、時間差判定部２は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定してもよい。そのような構成によれば、マイクロフォンやカメラの位置に応じて、音響事象と映像事象との時間差を求めることができる。

また、時間差判定部２は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出してもよい。そのような構成によれば、音響事象と映像事象との間の時間差を、音響解析情報が示す音の大きさや種類に基づいて、より精度良く求めることができる。つまり、時間差判定部２は、マイクロフォンが入力した音の大きさや種類を考慮した時間差を求めることができる。

また、行動解析部３（図３に示す群衆行動解析部３０に相当。）は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行うようにしてもよい。そのような構成によれば、群衆行動の事象のタイプに応じて、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行うことができる。それにより、より正確に群衆行動を解析することができる。また、計算リソースを効率的に利用することができる。また、カメラが複数台ある場合でも、各カメラの映像解析に割り当てる計算リソースを適切に分配することが可能となる。

また、行動解析部３は、特定の事象らしさを表す尤度を事象分類情報として算出してもよい。そのような構成によれば、群衆行動の事象のタイプの切り分けができない場合であっても、群衆行動の事象に応じた、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行うことができる。

また、行動解析部３は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を所定の装置に出力してもよい。そのような構成によれば、例えば、警備室にアラートを通報することができる。また、非常扉を制御する装置等に群衆行動判定結果を出力することにより、非常口を開放することができる。また、犯人候補の人物が映りそうなカメラの画像を警備室の表示装置に出力させることができる。また、犯人候補の人物の顔をより撮影しやすいように、当該カメラの向きやズーム率等を制御することができる。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。

（付記１）入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する時間差判定部と、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析する行動解析部とを含むことを特徴とする行動解析装置。

（付記２）時間差情報は、時間差判定部により判定された時間差の分布を表す情報である付記１に記載の行動解析装置。

（付記３）行動解析部は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する付記１または付記２に記載の行動解析装置。

（付記４）行動解析部は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する付記１から付記３のうちのいずれか１つに記載の行動解析装置。

（付記５）時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する付記１から付記４のうちのいずれか１つに記載の行動解析装置。

（付記６）時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する付記１から付記５のうちのいずれか１つに記載の行動解析装置。

（付記７）行動解析部は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う付記１から付記６のうちのいずれか１つに記載の行動解析装置。

（付記８）行動解析部は、特定の事象らしさを表す尤度を事象分類情報として算出する付記７に記載の行動解析装置。

（付記９）行動解析部は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する付記１から付記８のうちのいずれか１つに記載の行動解析装置。

（付記１０）入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成し、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析することを特徴とする行動解析方法。

（付記１１）時間差情報は、判定された時間差の分布を表す情報である付記１０に記載の行動解析方法。

（付記１２）音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する付記１０または付記１１に記載の行動解析方法。

（付記１３）音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する
付記１０から付記１２のうちのいずれか１つに記載の行動解析方法。

（付記１４）音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する付記１０から付記１３のうちのいずれか１つに記載の行動解析方法。

（付記１５）音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する付記１０から付記１４のうちのいずれか１つに記載の行動解析方法。

（付記１６）音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う付記１０から付記１５のうちのいずれか１つに記載の行動解析方法。

（付記１７）特定の事象らしさを表す尤度を事象分類情報として算出する付記１６に記載の行動解析方法。

（付記１８）群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する付記１０から付記１７のうちのいずれか１つに記載の行動解析方法。

（付記１９）コンピュータに、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する処理と、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析する処理とを実行させるための行動解析プログラム。

（付記２０）時間差情報は、判定された時間差の分布を表す情報である付記１９に記載の行動解析プログラム。

（付記２１）コンピュータに、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する処理を実行させる付記１９または付記２０に記載の行動解析プログラム。

（付記２２）コンピュータに、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する処理を実行させる付記１９から付記２１のうちのいずれか１つに記載の行動解析プログラム。

（付記２３）コンピュータに、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理を実行させる付記１９から付記２２のうちのいずれか１つに記載の行動解析プログラム。

（付記２４）コンピュータに、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する処理を実行させる付記１９から付記２３のうちのいずれか１つに記載の行動解析プログラム。

（付記２５）コンピュータに、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う処理を実行させる付記１９から付記２４のうちのいずれか１つに記載の行動解析プログラム。

（付記２６）コンピュータに、特定の事象らしさを表す尤度を事象分類情報として算出する処理を実行させる付記２５に記載の行動解析プログラム。

（付記２７）コンピュータに、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する処理を実行させる付記１９から付記２６のうちのいずれか１つに記載の行動解析プログラム。

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１３年４月２６日に出願された日本特許出願２０１３−０９３２１５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

１音響解析部
２、２０時間差判定部
３行動解析部
１０音声・音響解析部
３０群衆行動解析部
３１映像群衆行動解析部
３２解析結果統合部
３３事象分類部

Claims

入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、
前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部と、
前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する行動解析部とを含む
ことを特徴とする行動解析装置。
時間差判定部は、判定された時間差の分布を表す情報である時間差情報を生成し、
行動解析部は、入力映像と、音響解析情報と、前記時間差情報とを用いて、音響事象に対応する群集行動を解析する
請求項１に記載の行動解析装置。
行動解析部は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する
請求項１または請求項２に記載の行動解析装置。
行動解析部は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する
請求項１から請求項３のうちのいずれか１項に記載の行動解析装置。
時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する
請求項１から請求項４のうちのいずれか１項に記載の行動解析装置。
時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する
請求項１から請求項５のうちのいずれか１項に記載の行動解析装置。
行動解析部は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う
請求項１から請求項６のうちのいずれか１項に記載の行動解析装置。
行動解析部は、特定の事象らしさを表す尤度を事象分類情報として算出する
請求項７に記載の行動解析装置。
行動解析部は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する
請求項１から請求項８のうちのいずれか１項に記載の行動解析装置。
入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、
前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、
前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する
ことを特徴とする行動解析方法。
コンピュータに、
入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、
前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理と、
前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する処理とを実行させる
ための行動解析プログラム。