JPWO2014174760A1 - 行動解析装置、行動解析方法および行動解析プログラム - Google Patents

行動解析装置、行動解析方法および行動解析プログラム Download PDF

Info

Publication number
JPWO2014174760A1
JPWO2014174760A1 JP2015513507A JP2015513507A JPWO2014174760A1 JP WO2014174760 A1 JPWO2014174760 A1 JP WO2014174760A1 JP 2015513507 A JP2015513507 A JP 2015513507A JP 2015513507 A JP2015513507 A JP 2015513507A JP WO2014174760 A1 JPWO2014174760 A1 JP WO2014174760A1
Authority
JP
Japan
Prior art keywords
acoustic
information
event
time difference
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015513507A
Other languages
English (en)
Other versions
JP6344383B2 (ja
Inventor
亮磨 大網
亮磨 大網
博義 宮野
博義 宮野
孝文 越仲
孝文 越仲
宝珠山 治
治 宝珠山
真宏 谷
真宏 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014174760A1 publication Critical patent/JPWO2014174760A1/ja
Application granted granted Critical
Publication of JP6344383B2 publication Critical patent/JP6344383B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)
  • Closed-Circuit Television Systems (AREA)
  • Image Analysis (AREA)

Abstract

入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部1と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部2と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する行動解析部3とを含む。

Description

本発明は、映像情報と音響情報とを用いて映像監視を行う行動解析装置、行動解析方法および行動解析プログラムに関する。
音響情報と映像情報とを用いて、人物等を監視する技術がある。例えば、音声信号から特定の音声パターンを検知して、当該音声信号が取得された周辺の画像を取得し、拡大、フィルタリング、補間等の処理をしたり、当該音声信号が取得された周辺の立体画像を生成したりすることにより、異常の特定を容易にする方法がある(例えば、特許文献1参照。)。また、音響センサおよび画像センサを用いて、監視領域内で発生する音、および主要な場所の画像を収録し、音響データの解析によって特定の事象(イベント)を検知し、検知結果に基づいて移動体を追跡し、移動体の画像データを取得し、画像解析を行う方法がある(例えば、特許文献2参照。)。特許文献1および特許文献2に記載された方法は、どちらも音声または音響をトリガにして、別の画像処理を実行する技術である。
これらの方法は、群衆の行動(以下、群衆行動という。)を解析する目的では用いられていない。ここで、群衆とは、行動解析の対象とする個の集合である。群衆行動の解析を目的とする方法として、音響解析と画像解析とを用いて、単独かグループかの判定、およびその事象(喧嘩、犯罪など)の判定を行う方法がある(例えば、特許文献3参照。)。
特開2000−217095号公報 特開2002−314987号公報 特許第4506381号公報
特許文献3に記載された方法では、音響解析と画像解析とを独立に行い、音響事象と映像事象との時間差を考慮せずに、両解析結果を統合する。ここで、音響事象とは、マイクロフォンが入力する音声または音響から抽出される事象である。音響事象は、例えば、爆発音や銃声などの衝撃音や、人の叫び声である。映像事象とは、カメラの映像から抽出される事象である。映像事象は、例えば、群衆の動きである。
このため、特許文献3に記載された方法では、音響事象と映像事象とが同時に起こる場合には、音響解析結果と画像解析結果とを統合できる。しかし、音響事象と映像事象との間に時間差が生じるような場合には、両解析結果を正しく統合できず、群衆の行動などを正しく分析することができない可能性がある。例えば、衝撃音が発生し、少し経ってから群衆が逃げるといったようなケースでは、音響事象と映像事象との間に時間差が生じる。従って、特許文献3に記載された方法では、そのようなケースにおける群衆の行動を効果的に分析することが難しい。
そこで、本発明は、音響事象と映像事象との間に時間差が生じる場合であっても、群衆の行動をより正確に分析することができる行動解析装置、行動解析方法および行動解析プログラムを提供することを目的とする。
本発明による行動解析装置は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する行動解析部とを含むことを特徴とする。
本発明による行動解析方法は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析することを特徴とする。
本発明による行動解析プログラムは、コンピュータに、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理と、入力映像と、音響解析情報と、時間差とを用いて、音響事象に対応する群衆行動を解析する処理とを実行させることを特徴とする。
本発明によれば、音響事象と映像事象との間に時間差が生じる場合であっても、群衆の行動をより正確に分析することができる。
本発明による行動解析装置の第1の実施形態の構成を示すブロック図である。 第1の実施形態の群衆行動解析部の構成を示すブロック図である。 第2の実施形態の群衆行動解析部の構成を示すブロック図である。 本発明による行動解析装置の概要を示すブロック図である。
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
図1は、本発明による行動解析装置の第1の実施形態の構成を示すブロック図である。
図1に示すように、行動解析装置は、音声・音響解析部10と、時間差判定部20と、群衆行動解析部30とを含む。
音声・音響解析部10は、音声・音響情報(以下、単に音響情報という。)を入力する。音響情報は、人の音声や周囲から伝わる音響を含む情報である。本実施形態では、音声・音響解析部10は、マイクロフォンを介して音声・音響信号(以下、単に音響信号という。)を入力する。なお、マイクロフォンは行動解析装置にいくつ接続されていてもよい。
音声・音響解析部10は、音響信号を解析する。音声・音響解析部10は、音響信号の解析結果、例えば、音響信号から抽出される特徴量(以下、音響特徴量という。)を示す音声・音響解析情報(以下、単に音響解析情報という。)を生成する。
時間差判定部20は、音声・音響解析部10から音響解析情報を入力する。
時間差判定部20は、マイクロフォンとカメラの位置、および、音響事象と映像事象との時間差を判定し、当該時間差を示す時間差情報を生成する。
群衆行動解析部30は、映像情報を入力する。本実施形態では、群衆行動解析部30は、カメラを介して映像情報を入力する。なお、カメラは行動解析装置にいくつ接続されていてもよい。また、群衆行動解析部30は、1つのカメラから複数の映像情報を入力してもよい。
群衆行動解析部30は、カメラから入力した映像情報と、時間差判定部20から入力した時間差情報と、音声・音響解析部10から入力した音響解析情報とをもとに、群衆行動を解析し、解析結果(以下、群衆行動判定結果という。)を生成する。行動解析の対象とする群衆には、単体の人だけでなく、例えば、車やバイク、自転車等に乗って移動する人なども含まれる。
群衆行動解析部30は、本実施形態では、図2に示すように、映像群衆行動解析部31と、解析結果統合部32とを含む。図2は、第1の実施形態の群衆行動解析部の構成を示すブロック図である。
映像群衆行動解析部31は、カメラが撮影した映像から群衆行動を解析し、解析結果、例えば、映像から抽出される特徴量(以下、映像特徴量という。)を示す映像解析情報を生成する。
解析結果統合部32は、時間差情報で与えられる時間差を考慮して、音響解析情報と映像解析情報とを統合し、統合した結果をもとに群衆行動を判定する。
解析結果統合部32は、判定結果を含む群衆行動判定結果を生成し、出力する。
なお、音声・音響解析部10、時間差判定部20および群衆行動解析部30は、例えば、行動解析プログラムに従って動作するコンピュータによって実現される。この場合、CPUが行動解析プログラムを読み込み、そのプログラムに従って、音声・音響解析部10、時間差判定部20および群衆行動解析部30として動作する。また、音声・音響解析部10、時間差判定部20および群衆行動解析部30が別々のハードウェアで実現されていてもよい。
次に、本実施形態の動作を説明する。
音声・音響解析部10は、マイクロフォンから入力した音響信号を解析する。ここでは、音声・音響解析部10は、音響特徴、例えば音の大きさや音の種類を解析する。音声・音響解析部10は、解析結果を含む音響解析情報を時間差判定部20に出力する。
時間差判定部20は、音響解析情報を入力すると、音響解析情報が示す音響特徴量から特定される音響事象と、映像事象とのタイムラグ(時間差)を判定する。つまり、時間差判定部20は、音響情報で生じる異常性の検知時刻と映像情報で生じる異常性の検知時刻との時間差を判定する。
具体的には、まず、時間差判定部20は、音響事象が生じた位置と、映像事象が特定される位置との距離を判定する。本実施形態では、「音響事象が生じた位置」を、音響情報を取得した位置、つまりマイクロフォンの設置位置とする。また、「映像事象が特定される位置」を、カメラの撮影区域、具体的にはカメラが監視している位置とする。以下、音響事象が生じた位置と映像事象が特定される位置との距離を、単にマイクロフォンとカメラとの距離と表現する。
時間差判定部20は、マイクロフォンとカメラとの距離を判定した後、当該距離をもとに、音響情報と映像情報とで生じる異常性の時間差を判定し、当該時間差を示す時間差情報を生成する。
時間差判定部20は、時間差モデル化情報を予め保持する。ここで、時間差モデル化情報は、音響事象が生じてからカメラの映像にその影響が生じするまでにかかる時間差(つまり、音響事象が生じてから映像事象が生じるまでにかかる時間差)を、マイクロフォンとカメラとの距離に応じてモデル化した情報である。
時間差モデル化情報には、マイクロフォンとカメラとの距離から予め想定される時間差を設定しておく。なお、過去に起きた事象などから学習した時間差を時間差モデル化情報に設定するようにしてもよい。また、ヒューリスティックに定めた時間差を時間差モデル化情報に設定するようにしてもよい。時間差モデル化情報は、例えば、距離に応じて時間差を求める算出式のパラメータや、距離と時間差との関係をテーブルで記述したルックアップテーブルである。
なお、距離だけでなく、音響の大きさや周波数といった音響特徴も加味して時間差をモデル化するようにしてもよい。例えば、時間差をモデル化する際に、爆発音などの音の大きさや周波数から、音が直接聞こえる範囲を推定し、マイクロフォンとカメラとの距離がその範囲内である場合には、時間差を短くし、それよりも遠い場合には、時間差を長くするようにモデル化してもよい。例えば、マイクロフォンが入力した音が、爆発音のように大きな音で遠くに伝わるような音である場合や、高周波数成分を多く含み、遠くまで響く音である場合、時間差判定部20は、マイクロフォンとカメラとの距離から判定した時間差をそれよりも短い値に設定する。この場合、時間差モデル化情報は、距離と音響特徴とを入力変数とする算出式(または数理モデル)のパラメータとなる。そのような形態によれば、時間差判定部20は、音響事象と映像事象との間の時間差を、音響解析情報が示す音の大きさや種類に基づいて、より精度良く求めることができる。つまり、時間差判定部20は、マイクロフォンが入力した音の大きさや種類を考慮した時間差を求めることができる。
また、時間差判定部20は、時間差を、一つの値ではなく、一定の幅をもった分布として算出するようしてもよい。これは、時間差の推定値には、ある程度のばらつきが生じ得るためである。具体的には、例えば、音響の大きさが大きい時には、時間差の推定の確度が高くなるため、時間差の推定幅が短くなる。また、音響の大きさが小さい時には、推定の確度が下がり、時間差の推定幅が大きくなる傾向にある。また、時間差の推定の確度は、カメラとマイクロフォンの距離が離れるにつれ、下がる傾向にある。時間差判定部20は、このような傾向を考慮し、時間差を分布として出力する。例えば、時間差判定部20は、時間差τの分布をq(τ)とし、q(τ)の分布を記述する(表す)情報を時間差情報として生成する。例えば、q(τ)が正規分布で近似できる場合には、時間差判定部20は、τの期待値(平均値)と分散の値を時間差情報として出力する。なお、q(τ)の分布形状は、正規分布に限らず、q(τ)には、BPT(Brownian Passage Time)分布などの分布を用いるようにしてもよい。
このように、時間差判定部20は、マイクロフォンとカメラとの距離と、音響解析の結果との両方を用いて時間差を決定する。時間差判定部20は、時間差情報を群衆行動解析部30の解析結果統合部32に出力する。
解析結果統合部32は、音声・音響解析部10から、音響の異常状態を解析するのに用いる音響特徴量を入力する。また、解析結果統合部32は、映像群衆行動解析部31から、映像から群衆の異常な状態を解析するのに用いる映像特徴量を入力する。解析結果統合部32は、当該音響特徴量と当該映像特徴量とを、時間差情報が示す時間差を考慮して統合する。
例えば、音響特徴量が示す音響特徴から求まる確率として、ある事象が時刻tに起こる確率をPa(t)とする。Pa(t)の値は、用いられる音響特徴量の数をN、i番目の音響特徴量の時刻tにおける値をa(t)(i=1,…,N)とすると、以下のように定式化できる。
Figure 2014174760
ここで、関数Gは、各音響特徴量の値から事象が起こる確率を推定する関数である。関数Gは、検出対象となる異常音とそれ以外の音の両方のデータから抽出される各音響特徴量を学習することによりモデル化できる。あるいは、ヒューリスティックに関数Gのモデルを決めてもよい。同様に、映像特徴量が示す映像特徴から求まる確率として、ある事象が時刻tに起こる確率をPv(t)とする。Pv(t)の値は、用いられる映像特徴量の数をM、j番目の音響特徴量の時刻tにおける値をv(t)(j=1,…,M)とすると、以下のように定式化できる。
Figure 2014174760
ここで、関数Gは、各映像特徴量の値から事象が起こる確率を推定する関数である。関数Gは、検出対象となる異常状態の映像データとそれ以外の映像データの両方のデータから抽出される各映像特徴量を学習することによりモデル化できる。あるいは、ヒューリスティックに関数Gのモデルを決めてもよい。この場合、解析結果統合部32は、時刻tにある事象が起こったと考えられる確率P(t)を、以下の式により算出する。
Figure 2014174760
ここで、τは、時間差情報が示す時間差、つまり、音響事象と映像事象との間のタイムラグを表す。このように、解析結果統合部32は、時間差情報が示す時間差を考慮して、Pa(t)とPv(t)とを統合する。あるいは、解析結果統合部32は、Pa(t)とPv(t)を求めないで、音響特徴量、映像特徴量の値から直接P(t)の値を、以下の式を用いて算出してもよい。
Figure 2014174760
ここで、関数Gは、各音響特徴量、各映像特徴量の値から事象が起こる確率を推定する関数である。あるいは、時間差τの分布q(τ)が与えられた場合には、時刻tにある事象が起こる確率は、以下の式で与えられる。
Figure 2014174760
この場合も、解析結果統合部32は、Pa(t)とPv(t)を求めないで、P(t)の値を、以下の式を用いて直接算出してもよい。
Figure 2014174760
音響特徴量としては、音響信号を変換することにより抽出されるMFCC(Mel−Frequency Cepstrum Coefficients)、FFT(高速フーリエ変換)、ウェーブレット(Wavelet)変換係数などがある。ほかにも、音響特徴量として、音量の絶対値、音の変化量(二次差分)、音の到来方向、特定キーワードの音声認識結果(認識の確からしさや認識の頻度、特定キーワードを発した話者の数など)などがある。
映像特徴量としては、映像中のオプティカルフロー(見かけの動きを示す情報)とそれを集計して得られる方向や強度のヒストグラム、または、それらを様々な時間幅で集計し多重化したヒストグラム、つまり多重時間解像度で算出したヒストグラム、人物検出結果などがある。
解析結果統合部32は、音響特徴量と映像特徴量とを統合した結果から、群衆の異常状態を検知する。例えば、解析結果統合部32は、P(t)の値が、予め設定された閾値を超えたときに、群衆の異常状態が発生したと判断する。なお、異常状態とは、定常でない状態をいう。
解析結果統合部32は、群衆行動判定結果を出力する。本実施形態では、解析結果統合部32は、群衆行動判定結果を、平常時には出力せず、予め定めた検知すべき状態、つまり異常な事態を検知したときのみ出力する。あるいは、解析結果統合部32は、平常時に、平常であること、つまり異常な状態を検知していないことを示す群衆行動判定結果を出力するようにしてもよい。
群衆行動判定結果は、例えば、群衆の異常行動が検知された場所(例えば、カメラが監視している位置)、検知時刻、異常行動の種類を表す情報(例えば、事前に定めたイベントID)、異常行動の程度を表す値、イベント判定の確からしさを表すイベント判定スコア(尤度)を含む。なお、異常行動を検知したときの映像や、映像中でイベントが検知された領域(例えば、特定の人物が疾走している場合には、その人物が映っている場所)の情報を、群衆行動判定結果に含ませるようにしてもよい。
ここで、異常行動の種類としては、例えば、
(1)爆発、火事などの異常事態発生
(2)窃盗、傷害などの事件発生
(3)その他
がある。
異常行動の種類が上記(1)の場合、解析結果統合部32は、さらに、音声認識の結果や音響種別の判定結果を利用して、爆発、火事、通り魔、それ以外の凶悪事件などに異常行動を再分類する。
異常行動の種類が上記(2)の場合、解析結果統合部32は、さらに、音声認識の結果を利用して、窃盗、傷害などに異常行動を再分類する。
上記(3)が示す異常行動は、何らかの異常事態は検知されたが、(1)や(2)に該当しない異常行動である。本実施形態では、予め、異常行動の程度として、事態の深刻さを示す指標、例えば、レベルを決めておく。そして、解析結果統合部32は、人物の移動速度、逃げる人物の数、または、その時に発する声の大きさなどから、そのレベルを判定し、その判定結果を群衆行動判定結果に含ませる。また、入力される各特徴量の値からレベル値を出力する判定器を回帰学習等により予め生成しておき、解析結果統合部32は、その判定器を使ってレベルを判定するようにしてもよい。
なお、解析結果統合部32は、イベントの種類に応じた付加情報を、群衆行動判定結果に含ませるようにしてもよい。例えば、異常行動の種類が上記(1)の場合、解析結果統合部32は、群衆の移動方向や混雑状況の情報を群衆行動判定結果に含ませるようにしてもよい。異常行動の種類が上記(2)の場合、解析結果統合部32は、異常行動をとっている犯人候補の人物特徴(例えば、服などの特徴)、移動方向、速度を群衆行動判定結果に含ませるようにしてもよい。また、解析結果統合部32は、画角から外れたときにはその時刻と方向を群衆行動判定結果に含ませるようにしてもよい。
また、解析結果統合部32は、群衆行動判定結果を、アラートとして警備室に通報するようにしてもよい。また、解析結果統合部32は、群衆行動判定結果に、予め定めたオペレーションを実行させるための指示を含ませるようにしてもよい。そのような形態によれば、例えば、上記(1)の異常事態発生時には、解析結果統合部32が、非常扉を制御する装置等に群衆行動判定結果を出力することにより、非常口を開放したり、非常口への経路誘導のサインを出したりすることができる。また、上記(2)の事件発生時には、解析結果統合部32が、移動方向、速度、画角から外れた時刻などから、次に犯人候補の人物が映りそうなカメラを予測し、当該カメラに群衆行動判定結果を出力することにより、当該カメラの画像を警備室の表示装置に出力させることができる。また、解析結果統合部32は、犯人候補の人物の顔をより撮影しやすいように、当該カメラの向きやズーム率等を制御することができる。また、解析結果統合部32は、犯人の可能性がある人物が現れたときに、人物特徴による照合を行い、当該人物が犯人と同一人物である可能性が高いと判断した場合には、当該カメラに追跡を継続させることができる。
以上に説明したように、本実施形態では、解析結果統合部32が音響解析結果と映像解析結果とを時間差を考慮して統合した結果から、群衆の異常状態を判定する。従って、音響情報で異常性が検知される時刻と映像情報で異常性が検知される時刻とが異なる場合であっても、群衆の異常行動を確実に検知することができる。よって、群衆の行動をより正確に分析することが可能となる。
例えば、爆発や銃声といった衝撃音は、映像による群衆の異常状態の検知よりも先に検知される。そのような場合でも、本実施形態によれば、群衆の異常状態を正確に検知することができる。一方、特許文献3に記載された方法のように、音響解析結果と映像解析結果とを時間差を考慮せずに統合する方法では、正しく群衆行動の異常判定をすることができない可能性がある。
また、本実施形態では、時間差判定部20が音響イベントと映像イベントの時間差を判定する際に、マイクロフォンとカメラの位置を考慮する。例えば、音響解析のマイクロフォンと、群衆行動解析のカメラとがある程度離れている場合には、その間の移動にかかる時間を当該時間差に加算することができる。それにより、マイクロフォンおよびカメラの設置位置によらずに、群衆の異常行動を正確に検知することができる。
また、本実施形態では、時間差判定部20が音響イベントと映像イベントの時間差を判定する際に、マイクロフォンが入力した音の大きさや種類を考慮する。従って、マイクロフォンとカメラとの距離から判定した時間差を、音の大きさや種類をもとにより最適な値に更新することができる。
実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
行動解析装置の第2の実施形態の構成は、第1の実施形態と同様である。
一方、本実施形態では、図3に示すように、群衆行動解析部30は、映像群衆行動解析部31と解析結果統合部32に加えて、事象分類部33を含む。図3は、第2の実施形態の群衆行動解析部の構成を示すブロック図である。
事象分類部33は、音響解析情報を入力する。事象分類部33は、音響解析情報をもとに、事象の分類を行い、分類結果を含む事象分類情報を生成する。事象分類情報は、映像群衆行動解析部31における映像群衆行動解析の制御に用いられる。
映像群衆行動解析部31は、事象分類部33が生成した事象分類情報に基づいて、映像群衆行動解析のパラメータの調整やアルゴリズムの切り替えを行う。その際、映像群衆行動解析部31は、時間差判定部20が判定した時間差を考慮して、当該パラメータの調整や当該アルゴリズムの切り替えを行う。映像群衆行動解析部31は、音響事象が生じてから映像事象が生じるまでの間に、パラメータの調整やアルゴリズムの切り替えを完了させる必要がある。従って、例えば、映像群衆行動解析部31は、時間差判定部20が判定した時間差内に、パラメータの調整やアルゴリズムの切り替えを実行することができないと判断した場合、パラメータの調整やアルゴリズムの切り替えを簡略化したり実行しないようにしたりする。例えば、最初にある程度の画像の学習が必要なアルゴリズムに切り替える場合に、映像群衆行動解析部31は、当該学習に要する時間が、上記時間差以内に終わらないと判断した場合には、当該アルゴリズムへの切り替えを行わないようにする。あるいは、映像群衆行動解析部31は、複数のカメラ間で計算リソースの分配を決定し、実際に計算リソースの割り当てを変更するのに必要な時間が上記時間差以上であると判断した場合には、計算リソースの割り当てを変更しないようにしたり、より簡略な計算リソースの調整を行うようにしたりする。
映像群衆行動解析部31は、調整後のパラメータや切り替え後のアルゴリズムを用いて、映像中の群衆行動の解析を行う。映像群衆行動解析部31は、解析により得られた情報を、映像解析情報として出力する。
解析結果統合部32は、第1の実施形態と同様に、音響解析情報と、映像解析情報とを時間差を考慮して統合し、統合した結果をもとに群衆行動を判定する。
次に、本実施形態の動作を説明する。
映像群衆行動解析部31は、時間差情報を入力すると、音響情報から異常が検知されたと判断する。つまり、本実施形態では、音声・音響解析部10は、音響情報から異常を検知したときに、音響解析情報を時間差判定部20に出力する。そして、音響解析情報を入力した時間差判定部20が、時間差情報を映像群衆行動解析部31に出力する。
音声・音響解析部10は、同時に、音響解析情報を事象分類部33に出力する。
事象分類部33は、群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、映像群衆行動解析部31に出力する。
映像を用いて群衆行動を解析する場合、解析対象とする群衆行動には、テロのように一般の人が集団で逃げる状況(ケースAとする。)や、ひったくりのように、特定の人物(犯人)が群衆の合間を縫って逃げる状況(ケースBとする。)がある。事象分類部33は、音響情報を用いてこれらのケースを分類し、映像群衆行動解析部31が、その情報に基づいて、映像による群衆行動解析を制御する。なお、解析対象とする群衆行動は、ケースAおよびケースBに限定されない。また、解析対象とする群衆行動のケースの種類は、いくつあってもよい。
例えば、ある事象が起こった際、現場の人の叫び声の特徴を分析した結果、複数の人物が叫び声をあげていることが分かった場合には、事象分類部33は、ケースAと判定する。また、例えば、一人または少数の人物が叫び声をあげていることが分かった場合には、事象分類部33は、ケースBと判定する。
なお、音声・音響解析部10が叫び声に対して音声認識を行い、事象分類部33が発話内容を分析することによって両者を区別するようにしてもよい。また、破裂音や銃声が検知された場合には、事象分類部33は、ケースAと判断するようにしてもよい。また、この判定は二者択一である必要はなく、例えば、事象分類部33は、ケースAらしさ、ケースBらしさを表す尤度指標を算出するようにしてもよい。
映像群衆行動解析部31は、映像による群衆解析において、例えば、事象分類情報に基づいて、映像解析のパラメータやアルゴリズムの調整または切り替えを行う。具体的には、映像群衆行動解析部31は、群衆の動きを解析するパラメータやアルゴリズムの調整または切り替えを行う。
ケースAの場合には、集団で離散する動きを検知する必要がある。この場合、映像群衆行動解析部31は、例えば、離散する動きのパターンを検知する識別器を用いて、集団で離散する動きを判定する。ケースAでは、全体的な場の動きの傾向が判定できればよく、個々の人物の動きはそれほど重要ではない。そのため、映像群衆行動解析部31は、全体的な動きの傾向を分析するように、映像解析のパラメータを調整する。例えば、映像群衆行動解析部31は、動き解析の空間解像度(spatial resolution)を下げ、画面全体を満遍なく解析できるようにする。なお、映像群衆行動解析部31は、計算リソースに応じて、動き解析を粗い解像度から徐々に細かくしていってもよい。また、ケースAのような状況では、周囲の多くのカメラにおいて異常状態が撮影される。従って、平常時に比べ、行動解析装置は、計算リソースをより多く必要とする。よって、映像群衆行動解析部31は、特定のカメラの処理のみに計算リソースが割かれて、他のカメラの映像が解析できないような状況にならないように、各カメラの映像解析に割り当てる計算リソースを調整する。映像群衆行動解析部31は、例えば、各カメラの解析のフレームレートを落とす。
一方、ケースBの場合には、逆走、または疾走する犯人の動きを検知し、追跡する必要がある。このため、映像群衆行動解析部31は、個々の人物の動きが正確に追えるように、映像解析のパラメータを調整する。映像群衆行動解析部31は、例えば、フレームレートや空間解像度を上げて、抽出される動きの信頼度が高くなるようにする。なお、他と違う動きをしている部分が検出された場合には、映像群衆行動解析部31は、検出された部分を解析するための処理を行うモジュールを起動し、その部分のみをより詳細に解析するようにしてもよい。
一方、事象分類部33からケースAとケースBとのそれぞれの尤度情報が入力される場合には、映像群衆行動解析部31は、尤度情報に基づいて、動き解析のパラメータを両ケースの尤度に応じた値に設定するようにしてもよい。映像群衆行動解析部31は、例えば、動き解析の時空間の解像度を尤度情報によって制御するようにしてもよい。
ここで、ケースAとケースBの尤度に応じたパラメータ調整の具体例を説明する。
映像群衆行動解析部31は、ケースA、ケースBの尤度に応じて、オプティカルフローを算出する空間解像度(画像の大きさ)や、密度や、フレームレートを調整する。密度は、オプティカルフローを画素単位で求めるのか、数画素おきに求めるのかを決定するために用いられるパラメータである。また、映像群衆行動解析部31は、ケースA、ケースBの尤度に応じて、オプティカルフローの算出に用いるアルゴリズムを切り替える。
例えば、映像群衆行動解析部31は、映像解析のパラメータを以下のように調整する。
全体の異常な動きのパターンを検知するケースAの場合には、映像群衆行動解析部31は、以下のような方針に基づいて、パラメータを決定する。
(1)オプティカルフローを全体的に満遍なく見る。
(2)時間解像度、空間解像度を上げない。
(3)過負荷な場合には、フレームレートを落とす。
特定の異常な動きをする人物を追跡するケースBの場合には、映像群衆行動解析部31は、以下のような方針に基づいて、パラメータを決定する。
(1)時間解像度、空間解像度をともに上げる。
(2)ただし、オプティカルフローを全体的に見る必要はなく、マイクロフォンがある方向(つまり、音響イベントが検知された方向)から来る人物の動きを検知できればよい。従って、その方向を特に細かく解析できるように時間解像度、空間解像度を上げる。
映像群衆行動解析部31は、上記の方針に合わせて、予めそれぞれのケースのパラメータ値を決めておき、ケースA、ケースBの尤度に応じてパラメータを以下のように調整する。
通常状態では、映像群衆行動解析部31は、空間解像度をもとの画像のα倍とし、n画素ごとにフローを算出するとする。また、通常状態におけるフレームレートはfであるとする。
ケースAと判定された場合のこれらのパラメータを、α,n,fで表し、ケースBと判定された場合のこれらのパラメータを、α,n,fで表す。ケースA、ケースBの尤度がそれぞれp,p(ただし,0≦p≦1,0≦p≦1)であるとき、映像群衆行動解析部31は、各パラメータを例えば以下のように算出する。
[空間解像度]
Figure 2014174760
[オプティカルフローを求める画素の間隔]
Figure 2014174760
なお、ケースBの尤度に応じて、密度に偏りを持たせるようにしてもよい。
[フレームレート]
Figure 2014174760
また、算出アルゴリズムを何段階か設けて、映像群衆行動解析部31が、p,pの値に応じて、算出アルゴリズムの段階を切り替えるようにしてもよい。
なお、ここでは、線形な制御について説明したが、映像群衆行動解析部31は、非線形な制御を行ってもよい。一般化すると、例えばフレームレートの場合は、以下のように表すことができる。
Figure 2014174760
ここで、F(p,p)は、フレームレートを算出する関数である。F(p,p)には、線形な関数に限らず、様々な関数を用いることができる。
また、映像群衆行動解析部31は、群衆行動のケースの種類に応じて、抽出する特徴量を変更して、例えば動き以外の特徴量を抽出するようにしてもよい。また、映像群衆行動解析部31は、識別器が有する辞書(検知対象とする動きのパターン)を変更するようにしてもよい。
以上に説明したように、本実施形態では、事象分類部33が、群衆行動の事象のタイプを分類し、映像群衆行動解析部31が、その分類結果に基づいて、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行う。それにより、より正確に群衆行動を解析することができる。また、計算リソースを効率的に利用することができる。また、カメラが複数台ある場合でも、各カメラの映像解析に割り当てる計算リソースを適切に分配することが可能となる。一方、特許文献3に記載された方法では、音響解析と画像解析とを独立に行うので、音響解析結果を用いて画像解析のパラメータを変更することができない。そのため、計算リソースを必要以上に消費する可能性がある。また、特許文献3に記載された方法では、特定のカメラの処理のみに計算リソースが割かれて、他のカメラの映像が解析できないような状況が発生する可能性がある。
次に、本発明の概要を説明する。図4は、本発明による行動解析装置の概要を示すブロック図である。図4に示すように、行動解析装置は、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部1(図1に示す音声・音響解析部10に相当。)と、音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する時間差判定部2(図1に示す時間差判定部20に相当。)と、入力映像と、音響解析情報と、時間差情報とを用いて、音響事象に対応する群衆行動を解析する行動解析部3(図1に示す群衆行動解析部30に相当。)とを含む。
また、時間差情報は、時間差判定部により判定された時間差の分布を表す情報であってもよい。そのような形態によれば、時間差が一つの値ではなく、一定の幅をもった分布として算出されるようなケース、つまり、時間差判定部2が判定した時間差(推定値)にばらつきが生じるような場合であっても、群衆行動を解析することができる。
また、行動解析部3は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析してもよい。そのような構成によれば、音響情報で異常性が検知される時刻と映像情報で異常性が検知される時刻とが異なる場合であっても、群衆の異常行動をより確実に検知することができる。
また、行動解析部3は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定してもよい。そのような構成によれば、音響解析結果と映像解析結果とを時間差を考慮して統合した結果から、群衆の異常状態を判定することができる。例えば、算出した各確率を統合した値と、予め設定された閾値とを用いて、群衆行動に異常があったか否かを判定することにより、群衆行動の異常判定をより正確に行うことが可能となる。
また、時間差判定部2は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定してもよい。そのような構成によれば、マイクロフォンやカメラの位置に応じて、音響事象と映像事象との時間差を求めることができる。
また、時間差判定部2は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出してもよい。そのような構成によれば、音響事象と映像事象との間の時間差を、音響解析情報が示す音の大きさや種類に基づいて、より精度良く求めることができる。つまり、時間差判定部2は、マイクロフォンが入力した音の大きさや種類を考慮した時間差を求めることができる。
また、行動解析部3(図3に示す群衆行動解析部30に相当。)は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行うようにしてもよい。そのような構成によれば、群衆行動の事象のタイプに応じて、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行うことができる。それにより、より正確に群衆行動を解析することができる。また、計算リソースを効率的に利用することができる。また、カメラが複数台ある場合でも、各カメラの映像解析に割り当てる計算リソースを適切に分配することが可能となる。
また、行動解析部3は、特定の事象らしさを表す尤度を事象分類情報として算出してもよい。そのような構成によれば、群衆行動の事象のタイプの切り分けができない場合であっても、群衆行動の事象に応じた、映像群衆行動解析のパラメータやアルゴリズムの調整または切り替えを行うことができる。
また、行動解析部3は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を所定の装置に出力してもよい。そのような構成によれば、例えば、警備室にアラートを通報することができる。また、非常扉を制御する装置等に群衆行動判定結果を出力することにより、非常口を開放することができる。また、犯人候補の人物が映りそうなカメラの画像を警備室の表示装置に出力させることができる。また、犯人候補の人物の顔をより撮影しやすいように、当該カメラの向きやズーム率等を制御することができる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
(付記1)入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する時間差判定部と、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析する行動解析部とを含むことを特徴とする行動解析装置。
(付記2)時間差情報は、時間差判定部により判定された時間差の分布を表す情報である付記1に記載の行動解析装置。
(付記3)行動解析部は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する付記1または付記2に記載の行動解析装置。
(付記4)行動解析部は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する付記1から付記3のうちのいずれか1つに記載の行動解析装置。
(付記5)時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する付記1から付記4のうちのいずれか1つに記載の行動解析装置。
(付記6)時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する付記1から付記5のうちのいずれか1つに記載の行動解析装置。
(付記7)行動解析部は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う付記1から付記6のうちのいずれか1つに記載の行動解析装置。
(付記8)行動解析部は、特定の事象らしさを表す尤度を事象分類情報として算出する付記7に記載の行動解析装置。
(付記9)行動解析部は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する付記1から付記8のうちのいずれか1つに記載の行動解析装置。
(付記10)入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成し、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析することを特徴とする行動解析方法。
(付記11)時間差情報は、判定された時間差の分布を表す情報である付記10に記載の行動解析方法。
(付記12)音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する付記10または付記11に記載の行動解析方法。
(付記13)音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する
付記10から付記12のうちのいずれか1つに記載の行動解析方法。
(付記14)音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する付記10から付記13のうちのいずれか1つに記載の行動解析方法。
(付記15)音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する付記10から付記14のうちのいずれか1つに記載の行動解析方法。
(付記16)音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う付記10から付記15のうちのいずれか1つに記載の行動解析方法。
(付記17)特定の事象らしさを表す尤度を事象分類情報として算出する付記16に記載の行動解析方法。
(付記18)群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する付記10から付記17のうちのいずれか1つに記載の行動解析方法。
(付記19)コンピュータに、入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、当該時間差を表す時間差情報を生成する処理と、前記入力映像と、前記音響解析情報と、前記時間差情報とを用いて、前記音響事象に対応する群衆行動を解析する処理とを実行させるための行動解析プログラム。
(付記20)時間差情報は、判定された時間差の分布を表す情報である付記19に記載の行動解析プログラム。
(付記21)コンピュータに、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する処理を実行させる付記19または付記20に記載の行動解析プログラム。
(付記22)コンピュータに、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する処理を実行させる付記19から付記21のうちのいずれか1つに記載の行動解析プログラム。
(付記23)コンピュータに、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理を実行させる付記19から付記22のうちのいずれか1つに記載の行動解析プログラム。
(付記24)コンピュータに、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する処理を実行させる付記19から付記23のうちのいずれか1つに記載の行動解析プログラム。
(付記25)コンピュータに、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う処理を実行させる付記19から付記24のうちのいずれか1つに記載の行動解析プログラム。
(付記26)コンピュータに、特定の事象らしさを表す尤度を事象分類情報として算出する処理を実行させる付記25に記載の行動解析プログラム。
(付記27)コンピュータに、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する処理を実行させる付記19から付記26のうちのいずれか1つに記載の行動解析プログラム。
以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2013年4月26日に出願された日本特許出願2013−093215を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 音響解析部
2、20 時間差判定部
3 行動解析部
10 音声・音響解析部
30 群衆行動解析部
31 映像群衆行動解析部
32 解析結果統合部
33 事象分類部

Claims (11)

  1. 入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する音響解析部と、
    前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する時間差判定部と、
    前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する行動解析部とを含む
    ことを特徴とする行動解析装置。
  2. 時間差判定部は、判定された時間差の分布を表す情報である時間差情報を生成し、
    行動解析部は、入力映像と、音響解析情報と、前記時間差情報とを用いて、音響事象に対応する群集行動を解析する
    請求項1に記載の行動解析装置。
  3. 行動解析部は、音響事象が生じてから時間差に相当する時間が経過した後の入力映像をもとに、群衆行動を解析する
    請求項1または請求項2に記載の行動解析装置。
  4. 行動解析部は、音響解析情報をもとにある事象が生じる確率を算出し、当該音響事象が生じてから時間差が示す時間が経過した後の入力映像をもとに当該ある事象が生じる確率を算出し、算出した各確率をもとに群衆行動に異常が生じたか否かを判定する
    請求項1から請求項3のうちのいずれか1項に記載の行動解析装置。
  5. 時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離に基づいて、音響事象が生じてから、入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する
    請求項1から請求項4のうちのいずれか1項に記載の行動解析装置。
  6. 時間差判定部は、音響情報を取得した位置と入力映像の撮影区域との間の距離と、音響解析情報が示す音響特徴とに基づいて、時間差を算出する
    請求項1から請求項5のうちのいずれか1項に記載の行動解析装置。
  7. 行動解析部は、音響解析情報をもとに群衆行動の事象のタイプを分類し、分類結果を示す事象分類情報を生成し、前記事象分類情報に基づいて、群衆行動解析に用いるパラメータの調整と、アルゴリズムの切り替えのうち少なくとも一方の処理を行う
    請求項1から請求項6のうちのいずれか1項に記載の行動解析装置。
  8. 行動解析部は、特定の事象らしさを表す尤度を事象分類情報として算出する
    請求項7に記載の行動解析装置。
  9. 行動解析部は、群衆行動の解析結果とともに、予め定めたオペレーションを所定の装置に実行させるための指示を群衆行動判定結果に格納し、当該群衆行動判定結果を前記所定の装置に出力する
    請求項1から請求項8のうちのいずれか1項に記載の行動解析装置。
  10. 入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成し、
    前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定し、
    前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する
    ことを特徴とする行動解析方法。
  11. コンピュータに、
    入力した音響情報を解析し、当該音響情報の特徴を表す音響解析情報を生成する処理と、
    前記音響解析情報により特定される音響事象が生じてから、群衆が撮影された入力映像に当該音響事象に対応する事象が生じるまでにかかる時間差を判定する処理と、
    前記入力映像と、前記音響解析情報と、前記時間差とを用いて、前記音響事象に対応する群衆行動を解析する処理とを実行させる
    ための行動解析プログラム。
JP2015513507A 2013-04-26 2014-03-26 行動解析装置、行動解析方法および行動解析プログラム Active JP6344383B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013093215 2013-04-26
JP2013093215 2013-04-26
PCT/JP2014/001745 WO2014174760A1 (ja) 2013-04-26 2014-03-26 行動解析装置、行動解析方法および行動解析プログラム

Publications (2)

Publication Number Publication Date
JPWO2014174760A1 true JPWO2014174760A1 (ja) 2017-02-23
JP6344383B2 JP6344383B2 (ja) 2018-06-20

Family

ID=51791350

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015513507A Active JP6344383B2 (ja) 2013-04-26 2014-03-26 行動解析装置、行動解析方法および行動解析プログラム

Country Status (3)

Country Link
US (1) US9761248B2 (ja)
JP (1) JP6344383B2 (ja)
WO (1) WO2014174760A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6808358B2 (ja) * 2016-05-27 2021-01-06 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
EP3504691B1 (en) * 2016-08-29 2021-03-31 Johnson Controls Fire Protection LP System and method for acoustically identifying gunshots fired indoors
JP2018092468A (ja) * 2016-12-06 2018-06-14 株式会社村田製作所 防犯監視システム及びその制御方法並びにコンピュータプログラム
CN108182950B (zh) * 2017-12-28 2021-05-28 重庆大学 改进的经验小波变换的公共场所异常声音特征分解与提取方法
TW201931863A (zh) * 2018-01-12 2019-08-01 圓剛科技股份有限公司 多媒體訊號的同步設備及其同步方法
US11100918B2 (en) * 2018-08-27 2021-08-24 American Family Mutual Insurance Company, S.I. Event sensing system
US11228791B1 (en) * 2018-10-25 2022-01-18 Amazon Technologies, Inc. Automatically processing inputs to generate content
JP2021002229A (ja) * 2019-06-21 2021-01-07 株式会社Polyphonie 情報処理装置、情報処理方法、及びプログラム
CN111062337B (zh) * 2019-12-19 2023-08-04 北京迈格威科技有限公司 人流方向检测方法及装置、存储介质和电子设备
JP2022133547A (ja) * 2021-03-02 2022-09-14 株式会社日立製作所 映像解析システム、及び映像解析方法
US20240087328A1 (en) * 2021-07-20 2024-03-14 Nec Corporation Monitoring apparatus, monitoring system, monitoring method, and non-transitory computer-readable medium storing program
US20240135713A1 (en) * 2021-08-26 2024-04-25 Nec Corporation Monitoring device, monitoring system, monitoring method, and non-transitory computer-readable medium storing program

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000217095A (ja) * 1999-01-20 2000-08-04 Mitsubishi Electric Corp 画像表示装置
WO2002021441A1 (fr) * 2000-09-06 2002-03-14 Hitachi, Ltd. Detecteur de comportement anormal
JP2002314987A (ja) * 2001-04-16 2002-10-25 Hitachi Ltd 監視システム
JP2004139261A (ja) * 2002-10-16 2004-05-13 Matsushita Electric Ind Co Ltd 監視モニター装置
JP2006092396A (ja) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd 単独行動者及びグループ行動者検知装置
JP2007228459A (ja) * 2006-02-27 2007-09-06 Ikegami Tsushinki Co Ltd 監視システム
JP2010232888A (ja) * 2009-03-26 2010-10-14 Ikegami Tsushinki Co Ltd 監視装置
JP2013131153A (ja) * 2011-12-22 2013-07-04 Welsoc Co Ltd 自律型防犯警戒システム及び自律型防犯警戒方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0418396B1 (en) * 1989-03-16 1998-06-03 Fujitsu Limited Video/audio multiplex transmission system
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US8009966B2 (en) * 2002-11-01 2011-08-30 Synchro Arts Limited Methods and apparatus for use in sound replacement with automatic synchronization to images
AU2003211073A1 (en) * 2003-02-14 2004-09-09 Thomson Licensing S.A. Automatic synchronization of audio and video based media services of media content
US20050219366A1 (en) * 2004-03-31 2005-10-06 Hollowbush Richard R Digital audio-video differential delay and channel analyzer
EP2408192A3 (en) * 2004-04-16 2014-01-01 James A. Aman Multiple view compositing and object tracking system
US20090207277A1 (en) * 2008-02-20 2009-08-20 Kabushiki Kaisha Toshiba Video camera and time-lag correction method
US8342966B2 (en) * 2008-10-24 2013-01-01 Cfph, Llc Wager market creation and management
US20130212507A1 (en) * 2010-10-11 2013-08-15 Teachscape, Inc. Methods and systems for aligning items of evidence to an evaluation framework
IT1403658B1 (it) * 2011-01-28 2013-10-31 Universal Multimedia Access S R L Procedimento e mezzi per scandire e/o sincronizzare eventi audio/video
US8704904B2 (en) * 2011-12-23 2014-04-22 H4 Engineering, Inc. Portable system for high quality video recording
JP5308598B1 (ja) * 2012-01-06 2013-10-09 旭化成株式会社 撮像装置及び情報処理装置
KR101932535B1 (ko) * 2012-08-27 2018-12-27 한화테크윈 주식회사 실내 감시 시스템 및 실내 감시 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000217095A (ja) * 1999-01-20 2000-08-04 Mitsubishi Electric Corp 画像表示装置
WO2002021441A1 (fr) * 2000-09-06 2002-03-14 Hitachi, Ltd. Detecteur de comportement anormal
JP2002314987A (ja) * 2001-04-16 2002-10-25 Hitachi Ltd 監視システム
JP2004139261A (ja) * 2002-10-16 2004-05-13 Matsushita Electric Ind Co Ltd 監視モニター装置
JP2006092396A (ja) * 2004-09-27 2006-04-06 Oki Electric Ind Co Ltd 単独行動者及びグループ行動者検知装置
JP2007228459A (ja) * 2006-02-27 2007-09-06 Ikegami Tsushinki Co Ltd 監視システム
JP2010232888A (ja) * 2009-03-26 2010-10-14 Ikegami Tsushinki Co Ltd 監視装置
JP2013131153A (ja) * 2011-12-22 2013-07-04 Welsoc Co Ltd 自律型防犯警戒システム及び自律型防犯警戒方法

Also Published As

Publication number Publication date
WO2014174760A1 (ja) 2014-10-30
US9761248B2 (en) 2017-09-12
JP6344383B2 (ja) 2018-06-20
US20160078883A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
JP6344383B2 (ja) 行動解析装置、行動解析方法および行動解析プログラム
US9451214B2 (en) Indoor surveillance system and indoor surveillance method
Crocco et al. Audio surveillance: A systematic review
JP6532106B2 (ja) 監視装置、監視方法および監視用プログラム
JP5560397B2 (ja) 自律型防犯警戒システム及び自律型防犯警戒方法
US10614693B2 (en) Dangerous situation notification apparatus and method
Andersson et al. Fusion of acoustic and optical sensor data for automatic fight detection in urban environments
JP6682222B2 (ja) 検知装置及びその制御方法、コンピュータプログラム
JP5047382B2 (ja) ビデオ監視時に移動物体を分類するシステムおよび方法
WO2011025460A1 (en) Method and system for event detection
WO2014174737A1 (ja) 監視装置、監視方法および監視用プログラム
KR101736466B1 (ko) 음향 정보 기반 상황 인식 장치 및 방법
Potharaju et al. Classification of ontological violence content detection through audio features and supervised learning
Park et al. Sound learning–based event detection for acoustic surveillance sensors
Varghese et al. Video anomaly detection in confined areas
KR101407952B1 (ko) 엘리베이터 방범시스템 및 방법
JP2007114885A (ja) 画像の類似性による分類方法及び装置
JP4175180B2 (ja) 監視通報システム
EP4367653A1 (en) Threat assessment system
JP4859130B2 (ja) 監視システム
Dedeoglu et al. Surveillance using both video and audio
WO2023002563A1 (ja) 監視装置、監視システム、監視方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
Lee et al. Acoustic and visual signal based violence detection system for indoor security application
WO2023026437A1 (ja) 監視装置、監視システム、監視方法、及びプログラムが格納された非一時的なコンピュータ可読媒体
Doukas et al. Emergency incidents detection in assisted living environments utilizing sound and visual perceptual components

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180424

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180507

R150 Certificate of patent or registration of utility model

Ref document number: 6344383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150