WO2023112213A1 - 特定行動検出装置、方法およびプログラム - Google Patents
特定行動検出装置、方法およびプログラム Download PDFInfo
- Publication number
- WO2023112213A1 WO2023112213A1 PCT/JP2021/046298 JP2021046298W WO2023112213A1 WO 2023112213 A1 WO2023112213 A1 WO 2023112213A1 JP 2021046298 W JP2021046298 W JP 2021046298W WO 2023112213 A1 WO2023112213 A1 WO 2023112213A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- behavior
- processing unit
- feature
- action
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
この発明の一態様は、対象領域を撮像した映像データを取得し、取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する。そして、複数の前記フレームを含む第1の区間ごとに、当該第1の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第2の区間を対象として構造化して第1の行動特徴情報を生成する。続いて、生成された前記第1の行動特徴情報と予め用意された前記物体に関連する複数の第2の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第2の行動特徴情報を検索行動情報として検出し、検出された前記検索行動情報を出力する。
Description
この発明の一態様は、例えば映像データ等のメディアデータから人の特定の行動を検出する特定行動検出装置、方法およびプログラムに関する。
近年、高精細カメラの普及に伴い、撮影した映像をもとに人物の行動を解析する技術が種々提案されている。例えば、監視カメラの映像をもとに犯罪行動を検出したり、工事現場における異常な行動を検出する技術がある。
ところで、人の行動を精度良く検出するには、大量の映像を観察する必要がある。その場合、人手による検出は時間的および人的コストがかかるため、異常行動を自動的に検出するアルゴリズムを用いる技術が研究されている。例えば、ニューラルネットワークを用いて映像をクラスタリングすることにより、異常行動を高精度に検出する技術等である。しかしながら、現在提案されているこの種の技術では、大量に存在する正常行動の中から稀な異常行動を検出する場合に、十分な識別性能が得られない。加えて、異常行動自体がどのような行動かわからないシーンも多く存在し、正常と異常とのラベリングを行うことも困難なケースがある。
そこで、例えば非特許文献1に記載されるように、ユーザに異常行動をクエリとして指定してもらい、指定されたクエリを用いて異常行動を検出する技術が提案されている。
D. Dwibedi et al. "Temporal Cycle Consistency Learning." CVPR2019.
ところが、非特許文献1に記載された技術では、人物の動作の時間的な特徴を考慮せずに、映像の全フレームを考慮して、つまり映像の各フレームから抽出される特徴量を漏れなく対象として、異常行動を検出するものとなっている。このため、クエリ映像の長さが短く映像が長期間にわたった場合に、計算コストが非常に大きくなる。
この発明は上記事情に着目してなされたもので、計算コストを抑えた上で、人物の動作特徴の時間的な構造を考慮した特定行動検出を可能にする技術を提供しようとするものである。
上記課題を解決するためにこの発明に係る特定行動検出装置または方法の一態様は、対象領域を撮像した映像データを取得する第1の処理部または過程と、取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する第2の処理部または過程と、複数の前記フレームを含む第1の区間ごとに、当該第1の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第2の区間を対象として構造化することで第1の行動特徴情報を生成する第3の処理部または過程と、生成された前記第1の行動特徴情報と予め用意された前記物体に関連する複数の第2の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第2の行動特徴情報を検索行動情報として検出する第4の処理部または過程と、検出された前記検索行動情報を出力する第5の処理部とを具備するものである。
この発明の一態様によれば、例えば人物の行動特徴情報の検索処理が、複数フレームの区間を単位として構造化された第1の行動特徴情報と、予め用意された複数の第2の行動特徴情報とを比較することで行われる。このため、映像データのフレームごとに、それに写っている人物の行動特徴情報を検索対象の行動特徴情報と比較する場合に比べ、検索処理に要する時間を大幅に短縮することができ、また検索処理に掛かる特定行動検出装置の処理負荷を軽減することが可能となる。
すなわちこの発明の一態様によれば、計算コストを抑えた上で、人物の動作特徴の時間的な構造を考慮した特定行動検出を可能にした技術を提供することができる。
以下、図面を参照してこの発明に係わる実施形態を説明する。
[第1の実施形態]
(構成例)
図1はこの発明の第1の実施形態に係る特定行動検出装置のハードウェア構成の一例をその周辺デバイスと共に示したブロック図、図2は上記特定行動検出装置のソフトウェア構成の一例を示すブロック図である。
(構成例)
図1はこの発明の第1の実施形態に係る特定行動検出装置のハードウェア構成の一例をその周辺デバイスと共に示したブロック図、図2は上記特定行動検出装置のソフトウェア構成の一例を示すブロック図である。
特定行動検出装置BDは、例えばサーバコンピュータまたはパーソナルコンピュータ等の情報処理装置からなり、この特定行動検出装置BDには信号ケーブルまたは図示しないネットワークを介して、カメラCMおよび端末MTが接続されている。
カメラCMは、例えば監視対象エリアを撮像可能な天井や壁面等に設置され、上記監視対象エリアに存在または侵入した検出対象となる人物の全身または一部を、その周辺領域と共に撮影し、時系列の映像データを特定行動検出装置BDへ送信する。
なお、カメラCMにより撮像された映像データは、カメラCMから特定行動検出装置BDへ直接送信されてもよいが、図示しない映像データベースに一旦蓄積されたのち特定行動検出装置BDへ送られるようにしてもよい。また、カメラCMは1台に限らず複数台であってもよい。
端末MTは、例えばシステム管理者または人物の特定行動を監視する監視者が使用するもので、パーソナルコンピュータ等の情報処理端末により構成される。端末MTは、例えば特定行動検出装置BDから出力される特定行動の検出情報を受信し、表示する機能を備える。また端末MTは、特定行動検出装置BDが機械学習モデルを備える場合に、機械学習モデルの学習に必要な学習データを特定行動検出装置BDに入力する機能を備えていてもよい。
特定行動検出装置BDは、中央処理ユニット(Central Processing Unit:CPU)および画像処理ユニット(Graphics Processing Unit:GPU)等のハードウェアプロセッサを使用した制御部1を備え、制御部1に対し、バス5を介して、プログラム記憶部2およびデータ記憶部3を有する記憶ユニットと、入出力インタフェース(以後インタフェースをI/Fと略称する)部4を接続したものとなっている。なお、制御部1は、PLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等を用いて構成されてもよい。
入出力I/F部4は、通信インタフェース機能を有し、信号ケーブルまたはネットワークを介して、上記カメラCMおよび端末MTとの間で映像データおよび各入出力データの送受信を行う。
プログラム記憶部2は、例えば、記憶媒体としてSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリと、ROM(Read Only Memory)等の不揮発性メモリとを組み合わせて構成したもので、OS(Operating System)等のミドルウェアに加えて、第1の実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後OSと各アプリケーション・プログラムとをまとめてプログラムと称する。
データ記憶部3は、例えば、記憶媒体として、SSD等の随時書込みおよび読出しが可能な不揮発性メモリと、RAM(Random Access Memory)等の揮発性メモリと組み合わせたもので、第1の実施形態を実施するために必要な主たる記憶部として、映像データ記憶部31と、行動特徴情報記憶部32とを備えている。
映像データ記憶部31は、カメラCMから送信される時系列の映像データを、特定行動検出処理のため一旦記憶するために使用される。
行動特徴情報記憶部32は、検出対象となる人物が取り得る複数の特定行動の特徴を表す情報を、参照行動特徴情報群として記憶する。
制御部1は、第1の実施形態を実施するために必要な処理機能として、映像データ取得処理部11と、人物関連領域映像検出処理部12と、行動特徴抽出処理部13と、行動検索処理部14と、検索行動ランキング処理部15と、行動評価処理部16とを備える。上記処理部11~16は、何れもプログラム記憶部2に格納されたアプリケーション・プログラムを、制御部1のハードウェアプロセッサに実行させることにより実現される。
映像データ取得処理部11は、カメラCMから出力される時系列の映像データを入出力I/F部4を介して取得し、取得された上記各映像データを映像データ記憶部31に一旦記憶させる処理を行う。
人物関連領域映像検出処理部12は、上記映像データ記憶部31から映像データをフレームごとに読み込み、この映像データのフレーム画像を事前に学習された物体検出モデルに入力することで、当該機械学習モデルにより上記フレーム画像に写っている人物のクラスと位置を表す人物関連領域映像情報を出力する。
行動特徴抽出処理部13は、上記人物関連領域映像検出処理部12から出力される人物関連領域映像情報を、事前に学習された動作認識モデルに入力する。そして、当該動作認識モデルにより、複数のフレームをまとめて1単位としたセグメントごとに、当該セグメントに含まれる人物関連領域映像群に対応する、人物の動きに関する特徴ベクトルを抽出する。そして、抽出された上記人物の行動ベクトル群を、時間的に構造化された行動特徴情報として出力する。この人物特徴情報の抽出処理については、動作例においてさらに詳しく説明する。
行動検索処理部14は、上記行動特徴抽出処理部13から上記抽出された行動特徴情報を受け取ると共に、行動特徴情報記憶部32から検出対象となる人物に対応付けられた参照行動特徴情報群を読み込む。そして行動検索処理部14は、上記抽出された行動特徴情報と、上記読み込まれた参照行動特徴情報群に含まれる各参照行動特徴情報とをそれぞれ比較して中間ノードの置換コストを算出し、算出された置換コストが所定の条件を満たす参照行動特徴情報を検索行動情報に含めて出力する。この行動検索処理についても、動作例においてさらに詳しく説明する。
検索行動ランキング処理部15は、上記行動検索処理部14から出力される検索行動情報を、事前に学習されたランキングモデルに入力する。そして、ランキングモデルにより例えば置換コスト順にランキング付けされた検索行動情報を出力する。
行動評価処理部16は、上記検索行動ランキング処理部15によりランキング付けされた検索行動情報をもとに検索結果の評価値を求め、この評価値とユーザが入力する評価値とに基づいて、行動特徴情報記憶部32に記憶されている参照行動特徴情報を更新する処理を行う。
なお、上記人物関連領域映像検出処理部12、行動特徴抽出処理部13、行動検索処理部14および検索行動ランキング処理部15で用いられる機械学習モデルは、例えば畳み込みニューラルネットワークにより構成されるが、ニューラルネットワークの種類については適宜選択して使用可能である。
(動作例)
次に、以上のように構成された特定行動検出装置BDの動作例を説明する。
なお、上記人物関連領域映像検出処理部12、行動特徴抽出処理部13、行動検索処理部14および検索行動ランキング処理部15で用いられる機械学習モデルは、事前に学習されているものとして以後の説明を行う。
次に、以上のように構成された特定行動検出装置BDの動作例を説明する。
なお、上記人物関連領域映像検出処理部12、行動特徴抽出処理部13、行動検索処理部14および検索行動ランキング処理部15で用いられる機械学習モデルは、事前に学習されているものとして以後の説明を行う。
図3は、特定行動検出装置BDの制御部1が実行する特定行動検出処理の全体の処理手順と処理内容の一例を示すフローチャートである。
(1)映像データの取得
特定行動検出装置BDの制御部1は、映像データ取得処理部11の制御の下、ステップS10において、カメラCMにより監視対象エリアを撮像して得られた時系列の映像データを、入出力I/F部4を介して取得する。そして、取得された上記映像データを映像データ記憶部31に一旦保存する。
特定行動検出装置BDの制御部1は、映像データ取得処理部11の制御の下、ステップS10において、カメラCMにより監視対象エリアを撮像して得られた時系列の映像データを、入出力I/F部4を介して取得する。そして、取得された上記映像データを映像データ記憶部31に一旦保存する。
(2)人物関連領域映像の検出
上記映像データが一定時間分取得されると、特定行動検出装置BDの制御部1は、人物関連領域映像検出処理部12の制御の下、ステップS20において、映像データから人物関連領域の映像を検出する処理を以下のように行う。
上記映像データが一定時間分取得されると、特定行動検出装置BDの制御部1は、人物関連領域映像検出処理部12の制御の下、ステップS20において、映像データから人物関連領域の映像を検出する処理を以下のように行う。
すなわち、人物関連領域映像検出処理部12は、上記映像データ記憶部31から映像データをフレームごとに読み込み、読み込まれた映像データのフレーム画像を物体検出モデルに入力する。そして、この物体検出モデルにより上記フレーム画像に写っている人物のクラスと位置を表す情報を取得する。
例えば、人物関連領域映像検出処理部12は、上記映像データの各フレーム画像から人物が写っている映像区間を検出し、人物が写っている領域を人物トラッキング手法を用いて人物ごとに切り出す。そして、同一人物が一定区間連続して検出された場合に、当該人物を識別する人物IDを付した人物関連領域映像情報を出力する。
(3)行動特徴情報の抽出
特定行動検出装置BDの制御部1は、次にステップS30において、行動特徴抽出処理部13の制御の下、上記人物関連領域映像情報から人物の行動の特徴を以下のように抽出する。
特定行動検出装置BDの制御部1は、次にステップS30において、行動特徴抽出処理部13の制御の下、上記人物関連領域映像情報から人物の行動の特徴を以下のように抽出する。
図4は、行動特徴抽出処理部13が実行する行動特徴抽出処理の処理手順と処理内容の一例を示すフローチャートである。
すなわち、行動特徴抽出処理部13は、先ずステップS31により、上記人物関連領域映像検出処理部12から人物関連領域映像情報を受け取る。そして、ステップS32により、受け取った上記人物関連領域映像情報を学習済の動作認識モデルに入力する。動作認識モデルは、上記人物関連領域映像情報の複数のフレームをまとめて1つのセグメントとし、セグメントごとに当該セグメントに含まれる人物関連領域映像群に対応する、人物の動きに関する特徴量である特徴ベクトルを抽出する。
例えば、行動特徴抽出処理部13は、32フレームをまとめて1セグメントとし、この32フレームの人物関連領域映像群から特徴ベクトルを抽出する。この結果、同一の人物に係る1セグメントの人物関連領域映像群に対応する特徴ベクトルが抽出される。すなわち、この処理により人物ごとに32フレームの区間における当該人物の動きの特徴を表す情報が抽出される。
行動特徴抽出処理部13は、次にステップS33において、人物ごとに抽出された上記特徴ベクトル群を時間的に構造化して行動特徴情報を生成する。ここで、構造化とは、ある人物の特徴ベクトル群(u_1,u_2,…,u_N)について、一定の区間TでグラフUを構築することである。ここで、Tはグラフのノード数に相当し、1つのノードは特徴ベクトルu_iに対応する。なお、グラフとしてはここでは完全グラフを例にとるが、必要に応じてリンクが縮小されてもよい。但し、ノード数Tは事前に決定される。
行動特徴抽出処理部13は、続いてステップS34により、上記時間的に構造化された行動特徴情報Uを行動検索処理部14に出力する。
(4)検索行動情報の生成
特定行動検出装置BDの制御部1は、次にステップS40において、行動検索処理部14の制御の下、人物の行動を検索する処理を以下のように行う。
特定行動検出装置BDの制御部1は、次にステップS40において、行動検索処理部14の制御の下、人物の行動を検索する処理を以下のように行う。
図5は、行動検索処理部14が実行する行動検索処理の処理手順と処理内容の一例を示すフローチャートである。
すなわち、行動検索処理部14は、先ずステップS41において、上記行動特徴抽出処理部13から行動特徴情報を受け取ると共に、行動特徴情報記憶部32から同一の人物に対応する参照行動特徴情報群を読み込む。そして行動検索処理部14は、ステップS42により、上記参照行動特徴情報群から参照行動特徴情報を1つ選択し、選択された参照行動特徴情報と上記抽出された行動特徴情報とをステップS43により比較する。そして、両者間の中間ノードの置換コストを評価する。
例えば、行動検索処理部14は、上記抽出された行動特徴情報をU、選択された上記参照行動特徴情報をVとすると、両者の中間ノードu_{T/2}とv_{T/2}とを置換する。そして、この中間ノードの基点として、v_{T/2}と、上記u_{T/2}を除いた各ノードu_jとのコサイン類似度を計算し、このコサイン類似度の総和C_{uv}を算出する。一方、上記v_{T/2}と、v_{i/2}を除いた各ノードv_jとのコサイン類似度についてはあらかじめ計算し、その総和C_vを保持しておく。そして、行動検索処理部14は、総和C_{uv}とC_vとの差分を計算し、計算された差分値を置換コストとする。
なお、上記置換コストの逆パターンであるC_{vu}とC_uとの比較など、グラフ構造の類似性を判定できる指標であれば他の指標であってもよい。また、u_{T/2}とv_{T/2}とのコサイン類似度sを組み合わせてもよい。この手法によれば、グラフすべての計算を行わずとも、コサイン類似度sの高いグラフとのみ比較するといった手法により、計算コストを削減することが可能である。
なお、置換コストを、T/2に限らず、例えばT/2+1、T/2-1の位置にあるノードを基点として、その和もしくは重みづけ和等を取ることで計算するようにしてもよい。
行動検索処理部14は、上記中間ノードの置換コストが計算されると、続いてステップS44において上記置換コストを予め設定された閾値THと比較し、置換コストが閾値THより小さいか否かを判定する。この判定の結果、置換コストが閾値THより小さければ、ステップS45により、比較対象とした上記参照行動特徴情報Vを検索行動情報に加える。
行動検索処理部14は、続いてステップS46において、参照行動特徴情報に対する検索終了条件を満たしたか否かを判定する。例えば、すべての参照行動特徴情報との比較処理が終了したか否かを判定する。この判定の結果、未選択の参照行動特徴情報が残っていれば、ステップS43に戻って次の参照行動特徴情報を選択し、選択された上記参照行動特徴情報についてステップS43~S46による処理を行う。
以後同様に行動検索処理部14は、未選択の各参照行動特徴情報について、順次上記ステップS43~S46による処理を繰り返し実行する。そして、すべての参照行動特徴情報について上記処理が終了すると、行動検索処理部14は、ステップS47に移行して、最終的に得られた検索行動情報を検索行動ランキング処理部15へ出力する。
なお、上記行動特徴情報の検索処理に先立ち、参照行動特徴情報群についてv_{T/2}をクラスタリングしておき、vのセントロイドc_kを構築しておくことよい。このようにすると、セントロイドc_kの検索から各参照行動特徴情報v_iの検索を行うというように、階層的な検索処理を実行することが可能となる。
上記セントロイドc_kのコストは、例えば当該セントロイドc_kに属する参照行動特徴情報v_iのコストの平均に設定される。この場合、セントロイドc_kは、抽出された行動特徴情報の中間ノードu_{T/2}と置換したときのコストC_{cu}と比較される。この比較の結果、セントロイドc_kと比較したコストが閾値より大きければ、他のノードとの比較処理は省略され、検索処理は終了する。
(5)検索行動のランキング付け
特定行動検出装置BDの制御部1は、次にステップS50において、検索行動ランキング処理部15の制御の下、検索行動情報に対しランキング付けを行う。
特定行動検出装置BDの制御部1は、次にステップS50において、検索行動ランキング処理部15の制御の下、検索行動情報に対しランキング付けを行う。
図6は、検索行動ランキング処理部15が実行する検索行動ランキング処理の処理手順と処理内容の一例を示すフローチャートである。
すなわち、検索行動ランキング処理部15は、先ずステップS51において、上記行動検索処理部14から検索行動情報を受け取る。続いてステップS52において、受け取った上記検索行動情報をランキングモデルに入力する。そして、ステップS53により、上記ランキングモデルにより例えば置換コスト順にランキング付けがなされた検索行動情報を出力し、このランキング付けされた検索行動情報を、ステップS54により入出力I/F部4から端末MTへ出力する。
なお、ランキングモデルは、検索結果を表示する順序を決めるモデルであればどのように構築されたものであってもよい。例えば、コスト差分を昇順にならべたものでもよいし、ランキング学習などを用いてランキング評価値を出力するように構築されたモデルであってもよい。
検索行動ランキング処理部15は、上記ランキング付けされた検索行動情報を行動評価処理部16に与える。行動評価処理部16は、上記ランキング付けされた検索行動情報をもとに検索結果の評価値を求め、この評価値をもとに行動特徴情報記憶部32に記憶されている参照行動特徴情報を更新する。
(作用・効果)
以上述べたように第1の実施形態では、先ず、映像データのフレームごとに検出された同一人物が写っている領域の映像をもとに、行動特徴抽出処理部13により、複数フレームからなるセグメントごとに、複数フレームの区間における人物の動きの特徴を表すベクトルを抽出し、抽出された上記特徴ベクトル群について所定の区間Tに対応するグラフUを構築することで、上記特徴ベクトル群を時間的に構造化する。次に、行動検索処理部14により、構造化された上記抽出行動特徴情報を、行動特徴情報記憶部32に記憶された対応する人物の複数の参照行動特徴情報とそれぞれ比較して、両者間の中間ノードの置換コストを算出し、算出された置換コストが閾値THより小さい参照行動特徴情報を検索行動情報とする。最後に、検索行動ランキング処理部15により、上記検索行動情報に含まれる各参照行動特徴情報を例えば置換コスト順にランキング付けし、出力するようにしている。
以上述べたように第1の実施形態では、先ず、映像データのフレームごとに検出された同一人物が写っている領域の映像をもとに、行動特徴抽出処理部13により、複数フレームからなるセグメントごとに、複数フレームの区間における人物の動きの特徴を表すベクトルを抽出し、抽出された上記特徴ベクトル群について所定の区間Tに対応するグラフUを構築することで、上記特徴ベクトル群を時間的に構造化する。次に、行動検索処理部14により、構造化された上記抽出行動特徴情報を、行動特徴情報記憶部32に記憶された対応する人物の複数の参照行動特徴情報とそれぞれ比較して、両者間の中間ノードの置換コストを算出し、算出された置換コストが閾値THより小さい参照行動特徴情報を検索行動情報とする。最後に、検索行動ランキング処理部15により、上記検索行動情報に含まれる各参照行動特徴情報を例えば置換コスト順にランキング付けし、出力するようにしている。
従って、第1の実施形態によれば、人物の行動特徴情報の検索処理が、複数フレームの区間を単位として構造化された抽出行動特徴情報と、複数の参照行動特徴情報とを比較することで行われる。このため、映像データのフレームごとに、それに写っている人物の行動特徴情報を参照行動特徴情報と比較する場合に比べ、検索処理に要する時間を大幅に短縮することができ、また検索処理に掛かる特定行動検出装置の処理負荷を軽減することが可能となる。すなわち、特定行動検出装置の検索処理に要する計算コストを抑えることが可能となる。
[第2の実施形態]
この発明の第2の実施形態は、人物関連領域映像を人物の動きを顕著に表す特定部位とその周辺の領域を対象として検出し、検出された人物関連領域映像をもとに人物の行動の特徴を抽出するようにしたものである。なお、本実施形態においても、第1の実施形態で用いた図をそのまま引用して説明を行う。
この発明の第2の実施形態は、人物関連領域映像を人物の動きを顕著に表す特定部位とその周辺の領域を対象として検出し、検出された人物関連領域映像をもとに人物の行動の特徴を抽出するようにしたものである。なお、本実施形態においても、第1の実施形態で用いた図をそのまま引用して説明を行う。
すなわち、人物関連領域映像検出処理部12は、検出対象となる人物の動きを顕著に表す部位として例えば手に着目し、この手と当該手が操作している対象物を含む矩形領域を人物関連領域映像として検出する。行動特徴抽出処理部13は、上記矩形領域を複数フレームまとめて動作認識モデルに入力し、これにより手とその手が操作する物体の動き特徴ベクトルを得て、この特徴ベクトルを用いて行動特徴情報を構成する。
なお、上記矩形領域を検出する際には、同一人物の手であることの時間的な整合性を取ることが望ましい。例えば、時刻tの手の位置から一定の距離以内にある時刻t+1の手の位置があれば同一人物の手と見なす。また、人物全体の領域から構成される特徴ベクトルと、手とこの手が操作している物体とを包含する領域から構成される特徴ベクトルとの両方を一つのノードとして保持し、行動特徴情報を構成してもよい。その際に、行動特徴情報には重み付け和や連結、加算といった操作を施してもよい。
[第3の実施形態]
前記第1の実施形態では、行動検索処理部14において、置換コストが閾値THより小さいことを検索行動情報への追加の条件としている。これに対し第3の実施形態は、置換コストが閾値より大きいことを条件にして検索を行うことにより、人物の希な異常行動を検出するようにしたものである。なお、第3の実施形態においても、第1の実施形態で用いた図を引用して説明を行う。
前記第1の実施形態では、行動検索処理部14において、置換コストが閾値THより小さいことを検索行動情報への追加の条件としている。これに対し第3の実施形態は、置換コストが閾値より大きいことを条件にして検索を行うことにより、人物の希な異常行動を検出するようにしたものである。なお、第3の実施形態においても、第1の実施形態で用いた図を引用して説明を行う。
行動検索処理部14は、例えば抽出された行動特徴情報をU、選択された参照行動特徴情報をVとするとき、両者の中間ノードu_{T/2}とv_{T/2}とを置換する。そして、この中間ノードの基点として、v_{T/2}と、上記u_{T/2}を除いた各ノードu_jとのコサイン類似度を計算し、このコサイン類似度の総和C_{uv}を算出する。一方、上記v_{T/2}と、v_{i/2}を除いた各ノードv_jとのコサイン類似度についてはあらかじめ計算し、その総和C_vを保持しておく。そして、行動検索処理部14は、総和C_{uv}とC_vとの差分を計算し、計算された差分値を置換コストとする。
なお、置換コストを、T/2に限らず、例えばT/2+1、T/2-1の位置にあるノードを基点として、その和もしくは重みづけ和等を取ることで計算するようにしてもよい。
行動検索処理部14は、上記中間ノードの置換コストが計算されると、続いて上記置換コストを予め設定された閾値TH2と比較し、置換コストが閾値TH2より大きいか否かを判定する。この判定の結果、置換コストが閾値TH2より大きければ、比較対象とした上記参照行動特徴情報Vを検索行動情報に加える。
また、上記行動特徴情報の検索処理に先立ち、参照行動特徴情報群についてv_{T/2}をクラスタリングしてvのセントロイドc_kを構築しておいて、階層的な検索処理を実行する際に、セントロイドc_kを、抽出された行動特徴情報の中間ノードu_{T/2}と置換したときのコストC_{cu}と比較する。そして、この比較の結果、セントロイドc_kと比較したコストが閾値より小さければ、他のノードとの比較処理は省略されて、検索処理は終了する。
[その他の実施形態]
前記第1の実施形態では、特定行動検出装置BDの機能を、カメラCMおよび端末MTとは独立して設けられるサーバコンピュータやパーソナルコンピュータ等の情報処理装置に備えた場合を例にとって説明した。しかし、この発明はそれに限らず、特定行動検出装置BDの機能のすべてまたは一部を、カメラCMおよび端末MTに備えるようにしてもよい。
前記第1の実施形態では、特定行動検出装置BDの機能を、カメラCMおよび端末MTとは独立して設けられるサーバコンピュータやパーソナルコンピュータ等の情報処理装置に備えた場合を例にとって説明した。しかし、この発明はそれに限らず、特定行動検出装置BDの機能のすべてまたは一部を、カメラCMおよび端末MTに備えるようにしてもよい。
また、前記第1の実施形態では人物の特定行動を検出する場合を例にとって説明したが、検出対象は人物に限らず、動物やロボット等であってもよい。その他、特定行動検出装置の種類や構成、各処理部の処理手順と処理内容等については、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。
要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
BD…特定行動検出装置
CM…カメラ
MT…端末
1…制御部
2…プログラム記憶部
3…データ記憶部
4…入出力I/F部
5…バス
11…映像データ取得処理部
12…人物関連領域映像検出処理部
13…行動特徴抽出処理部
14…行動検索処理部
15…検索行動ランキング処理部
16…行動評価処理部
31…映像データ記憶部
32…行動特徴情報記憶部
CM…カメラ
MT…端末
1…制御部
2…プログラム記憶部
3…データ記憶部
4…入出力I/F部
5…バス
11…映像データ取得処理部
12…人物関連領域映像検出処理部
13…行動特徴抽出処理部
14…行動検索処理部
15…検索行動ランキング処理部
16…行動評価処理部
31…映像データ記憶部
32…行動特徴情報記憶部
Claims (8)
- 対象領域を撮像した映像データを取得する第1の処理部と、
取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する第2の処理部と、
複数の前記フレームを含む第1の区間ごとに、当該第1の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報を抽出し、抽出された複数の前記特徴量情報を第2の区間において構造化して第1の行動特徴情報を生成する第3の処理部と、
生成された前記第1の行動特徴情報と、予め用意された前記物体に関連する複数の第2の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第2の行動特徴情報を検索行動情報として検出する第4の処理部と、
検出された前記検索行動情報を出力する第5の処理部と
を具備する特定行動検出装置。 - 前記第2の処理部は、検出対象となる前記物体の動作部位と当該動作部位が操作対象とする周辺物体とを含む領域の映像を、前記部分領域映像として検出する、請求項1に記載の特定行動検出装置。
- 前記第3の処理部は、抽出された複数の前記特徴量情報の各々を、前記第2の区間に対応する数のノードにそれぞれ割り当てたグラフを構築することで、複数の前記特徴量情報を構造化する、請求項1に記載の特定行動検出装置。
- 前記第4の処理部は、
前記第1の行動特徴情報と、複数の前記第2の行動特徴情報の各々との間で、それぞれの第1の中間ノードと第2の中間ノードとを相互に置換する処理と、
置換された前記第2または第1の中間ノードと前記第1または第2の行動特徴情報の他の各ノードとの類似度の総和を表す第1の類似度情報を算出する処理と、
前記第2または第1の行動特徴情報の前記第2または第1の中間ノードと、前記第2または第1の行動特徴情報の他の各ノードとの類似度の総和を表す第2の類似度情報を算出する処理と、
前記第1の類似度情報と前記第2の類似度情報との差分を置換コストとして算出する処理と、
前記置換コストが予め設定された条件を満たす前記第2の行動特徴情報を、前記検索行動情報として検出する処理と
を備える、請求項3に記載の特定行動検出装置。 - 前記第4の処理部は、前記コストを予め設定された閾値と比較し、前記コストが前記閾値より小さい前記第2の行動特徴情報、または前記コストが前記閾値より大きい前記第2の行動特徴情報を、前記検索行動情報として検出する、請求項1に記載の特定行動検出装置。
- 前記第5の処理部は、前記検索行動情報を前記コストに基づいてランキング付けする処理を備える、請求項1に記載の特定行動検出装置。
- 情報処理装置が実行する特定行動検出方法であって、
対象領域を撮像した映像データを取得する過程と、
取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する過程と、
複数の前記フレームを含む第1の区間ごとに、当該第1の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第2の区間において構造化して第1の行動特徴情報を生成する過程と、
生成された前記第1の行動特徴情報と、予め用意された前記物体に関連する複数の第2の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第2の行動特徴情報を検索行動情報として検出する過程と、
検出された前記検索行動情報を出力する過程と
を具備する特定行動検出方法。 - 請求項1乃至請求項6のいずれかに記載の特定行動検出装置が具備する前記第1の処理部乃至前記第5の処理部の少なくとも1つが行う処理を、前記特定行動検出装置が備えるプロセッサに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/046298 WO2023112213A1 (ja) | 2021-12-15 | 2021-12-15 | 特定行動検出装置、方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/046298 WO2023112213A1 (ja) | 2021-12-15 | 2021-12-15 | 特定行動検出装置、方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023112213A1 true WO2023112213A1 (ja) | 2023-06-22 |
Family
ID=86773840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/046298 WO2023112213A1 (ja) | 2021-12-15 | 2021-12-15 | 特定行動検出装置、方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023112213A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011100175A (ja) * | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | 人物行動判定装置及びそのプログラム |
JP2017525070A (ja) * | 2014-06-17 | 2017-08-31 | ナント ホールディングス アイピー, エルエルシー | 行動認識システム及び方法 |
-
2021
- 2021-12-15 WO PCT/JP2021/046298 patent/WO2023112213A1/ja unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011100175A (ja) * | 2009-11-04 | 2011-05-19 | Nippon Hoso Kyokai <Nhk> | 人物行動判定装置及びそのプログラム |
JP2017525070A (ja) * | 2014-06-17 | 2017-08-31 | ナント ホールディングス アイピー, エルエルシー | 行動認識システム及び方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Villegas et al. | Learning to generate long-term future via hierarchical prediction | |
Odena et al. | Conditional image synthesis with auxiliary classifier gans | |
JP6388356B2 (ja) | 行動認識システム及び方法 | |
JP4368767B2 (ja) | 異常動作検出装置および異常動作検出方法 | |
Lao et al. | Automatic video-based human motion analyzer for consumer surveillance system | |
JP6161257B2 (ja) | イベント検出装置及びその方法、動作認識装置及びその方法、プログラム | |
US9665777B2 (en) | System and method for object and event identification using multiple cameras | |
JP4208898B2 (ja) | 対象物追跡装置および対象物追跡方法 | |
US7995843B2 (en) | Monitoring device which monitors moving objects | |
US8213681B2 (en) | Moving object detection method and moving object detection apparatus | |
JP4643766B1 (ja) | 移動体検出装置及び移動体検出方法 | |
US11527000B2 (en) | System and method for re-identifying target object based on location information of CCTV and movement information of object | |
US8363902B2 (en) | Moving object detection method and moving object detection apparatus | |
US20200279124A1 (en) | Detection Apparatus and Method and Image Processing Apparatus and System | |
Baskurt et al. | Video synopsis: A survey | |
CN110399908B (zh) | 基于事件型相机的分类方法和装置、存储介质、电子装置 | |
JP2021533506A (ja) | ビデオ異常検出のためのシステム及び方法並びに記憶媒体 | |
KR101917369B1 (ko) | 컨볼루션 신경망을 이용한 영상 검색 방법 및 그 장치 | |
KR101996371B1 (ko) | 영상 캡션 생성 시스템과 방법 및 이를 위한 컴퓨터 프로그램 | |
Simon et al. | Visual event recognition using decision trees | |
WO2023112213A1 (ja) | 特定行動検出装置、方法およびプログラム | |
JP2022104178A (ja) | 画像フレーム抽出装置、画像フレーム抽出方法およびプログラム | |
CN113657200A (zh) | 一种基于掩码r-cnn的视频行为动作识别方法及系统 | |
CN111488887B (zh) | 基于人工智能的图像处理方法、装置 | |
EP3543902B1 (en) | Image processing apparatus and method and storage medium storing instructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21968128 Country of ref document: EP Kind code of ref document: A1 |