WO2023112213A1

WO2023112213A1 - 特定行動検出装置、方法およびプログラム

Info

Publication number: WO2023112213A1
Application number: PCT/JP2021/046298
Authority: WO
Inventors: 基宏高木; 重邦近藤; 裕司青野
Original assignee: 日本電信電話株式会社
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-06-22

Abstract

この発明の一態様は、対象領域を撮像した映像データを取得し、取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する。そして、複数の前記フレームを含む第１の区間ごとに、当該第１の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第２の区間を対象として構造化して第１の行動特徴情報を生成する。続いて、生成された前記第１の行動特徴情報と予め用意された前記物体に関連する複数の第２の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第２の行動特徴情報を検索行動情報として検出し、検出された前記検索行動情報を出力する。

Description

特定行動検出装置、方法およびプログラム

　この発明の一態様は、例えば映像データ等のメディアデータから人の特定の行動を検出する特定行動検出装置、方法およびプログラムに関する。

　近年、高精細カメラの普及に伴い、撮影した映像をもとに人物の行動を解析する技術が種々提案されている。例えば、監視カメラの映像をもとに犯罪行動を検出したり、工事現場における異常な行動を検出する技術がある。

　ところで、人の行動を精度良く検出するには、大量の映像を観察する必要がある。その場合、人手による検出は時間的および人的コストがかかるため、異常行動を自動的に検出するアルゴリズムを用いる技術が研究されている。例えば、ニューラルネットワークを用いて映像をクラスタリングすることにより、異常行動を高精度に検出する技術等である。しかしながら、現在提案されているこの種の技術では、大量に存在する正常行動の中から稀な異常行動を検出する場合に、十分な識別性能が得られない。加えて、異常行動自体がどのような行動かわからないシーンも多く存在し、正常と異常とのラベリングを行うことも困難なケースがある。

　そこで、例えば非特許文献１に記載されるように、ユーザに異常行動をクエリとして指定してもらい、指定されたクエリを用いて異常行動を検出する技術が提案されている。

D. Dwibedi et al. "Temporal Cycle Consistency Learning." CVPR2019.

　ところが、非特許文献１に記載された技術では、人物の動作の時間的な特徴を考慮せずに、映像の全フレームを考慮して、つまり映像の各フレームから抽出される特徴量を漏れなく対象として、異常行動を検出するものとなっている。このため、クエリ映像の長さが短く映像が長期間にわたった場合に、計算コストが非常に大きくなる。

　この発明は上記事情に着目してなされたもので、計算コストを抑えた上で、人物の動作特徴の時間的な構造を考慮した特定行動検出を可能にする技術を提供しようとするものである。

　上記課題を解決するためにこの発明に係る特定行動検出装置または方法の一態様は、対象領域を撮像した映像データを取得する第１の処理部または過程と、取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する第２の処理部または過程と、複数の前記フレームを含む第１の区間ごとに、当該第１の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第２の区間を対象として構造化することで第１の行動特徴情報を生成する第３の処理部または過程と、生成された前記第１の行動特徴情報と予め用意された前記物体に関連する複数の第２の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第２の行動特徴情報を検索行動情報として検出する第４の処理部または過程と、検出された前記検索行動情報を出力する第５の処理部とを具備するものである。

　この発明の一態様によれば、例えば人物の行動特徴情報の検索処理が、複数フレームの区間を単位として構造化された第１の行動特徴情報と、予め用意された複数の第２の行動特徴情報とを比較することで行われる。このため、映像データのフレームごとに、それに写っている人物の行動特徴情報を検索対象の行動特徴情報と比較する場合に比べ、検索処理に要する時間を大幅に短縮することができ、また検索処理に掛かる特定行動検出装置の処理負荷を軽減することが可能となる。

　すなわちこの発明の一態様によれば、計算コストを抑えた上で、人物の動作特徴の時間的な構造を考慮した特定行動検出を可能にした技術を提供することができる。

図１は、この発明の第１の実施形態に係る特定行動検出装置のハードウェア構成の一例をその周辺部の構成と共に示したブロック図である。図２は、この発明の第１の実施形態に係る特定行動検出装置のソフトウェア構成の一例を示すブロック図である。図３は、図２に示した特定行動検出装置の制御部が実行する特定行動検出処理の処理手順と処理内容の一例を示すフローチャートである。図４は、図３に示した特定行動検出処理のうち行動特徴抽出処理の処理手順と処理内容の一例を示すフローチャートである。図５は、図３に示した特定行動検出処理のうち行動検索処理の処理手順と処理内容の一例を示すフローチャートである。図６は、図３に示した特定行動検出処理のうち検索行動ランキング処理の処理手順と処理内容の一例を示すフローチャートである。

　以下、図面を参照してこの発明に係わる実施形態を説明する。

　［第１の実施形態］
　（構成例）
　図１はこの発明の第１の実施形態に係る特定行動検出装置のハードウェア構成の一例をその周辺デバイスと共に示したブロック図、図２は上記特定行動検出装置のソフトウェア構成の一例を示すブロック図である。

　特定行動検出装置ＢＤは、例えばサーバコンピュータまたはパーソナルコンピュータ等の情報処理装置からなり、この特定行動検出装置ＢＤには信号ケーブルまたは図示しないネットワークを介して、カメラＣＭおよび端末ＭＴが接続されている。

　カメラＣＭは、例えば監視対象エリアを撮像可能な天井や壁面等に設置され、上記監視対象エリアに存在または侵入した検出対象となる人物の全身または一部を、その周辺領域と共に撮影し、時系列の映像データを特定行動検出装置ＢＤへ送信する。

　なお、カメラＣＭにより撮像された映像データは、カメラＣＭから特定行動検出装置ＢＤへ直接送信されてもよいが、図示しない映像データベースに一旦蓄積されたのち特定行動検出装置ＢＤへ送られるようにしてもよい。また、カメラＣＭは１台に限らず複数台であってもよい。

　端末ＭＴは、例えばシステム管理者または人物の特定行動を監視する監視者が使用するもので、パーソナルコンピュータ等の情報処理端末により構成される。端末ＭＴは、例えば特定行動検出装置ＢＤから出力される特定行動の検出情報を受信し、表示する機能を備える。また端末ＭＴは、特定行動検出装置ＢＤが機械学習モデルを備える場合に、機械学習モデルの学習に必要な学習データを特定行動検出装置ＢＤに入力する機能を備えていてもよい。

　特定行動検出装置ＢＤは、中央処理ユニット（Central Processing Unit：ＣＰＵ）および画像処理ユニット（Graphics Processing Unit：ＧＰＵ）等のハードウェアプロセッサを使用した制御部１を備え、制御部１に対し、バス５を介して、プログラム記憶部２およびデータ記憶部３を有する記憶ユニットと、入出力インタフェース（以後インタフェースをＩ／Ｆと略称する）部４を接続したものとなっている。なお、制御部１は、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等を用いて構成されてもよい。

　入出力Ｉ／Ｆ部４は、通信インタフェース機能を有し、信号ケーブルまたはネットワークを介して、上記カメラＣＭおよび端末ＭＴとの間で映像データおよび各入出力データの送受信を行う。

　プログラム記憶部２は、例えば、記憶媒体としてＳＳＤ（Solid State Drive）等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＯＭ（Read Only Memory）等の不揮発性メモリとを組み合わせて構成したもので、ＯＳ（Operating System）等のミドルウェアに加えて、第１の実施形態に係る各種制御処理を実行するために必要なアプリケーション・プログラムを格納する。なお、以後ＯＳと各アプリケーション・プログラムとをまとめてプログラムと称する。

　データ記憶部３は、例えば、記憶媒体として、ＳＳＤ等の随時書込みおよび読出しが可能な不揮発性メモリと、ＲＡＭ（Random Access Memory）等の揮発性メモリと組み合わせたもので、第１の実施形態を実施するために必要な主たる記憶部として、映像データ記憶部３１と、行動特徴情報記憶部３２とを備えている。

　映像データ記憶部３１は、カメラＣＭから送信される時系列の映像データを、特定行動検出処理のため一旦記憶するために使用される。

　行動特徴情報記憶部３２は、検出対象となる人物が取り得る複数の特定行動の特徴を表す情報を、参照行動特徴情報群として記憶する。

　制御部１は、第１の実施形態を実施するために必要な処理機能として、映像データ取得処理部１１と、人物関連領域映像検出処理部１２と、行動特徴抽出処理部１３と、行動検索処理部１４と、検索行動ランキング処理部１５と、行動評価処理部１６とを備える。上記処理部１１～１６は、何れもプログラム記憶部２に格納されたアプリケーション・プログラムを、制御部１のハードウェアプロセッサに実行させることにより実現される。

　映像データ取得処理部１１は、カメラＣＭから出力される時系列の映像データを入出力Ｉ／Ｆ部４を介して取得し、取得された上記各映像データを映像データ記憶部３１に一旦記憶させる処理を行う。

　人物関連領域映像検出処理部１２は、上記映像データ記憶部３１から映像データをフレームごとに読み込み、この映像データのフレーム画像を事前に学習された物体検出モデルに入力することで、当該機械学習モデルにより上記フレーム画像に写っている人物のクラスと位置を表す人物関連領域映像情報を出力する。

　行動特徴抽出処理部１３は、上記人物関連領域映像検出処理部１２から出力される人物関連領域映像情報を、事前に学習された動作認識モデルに入力する。そして、当該動作認識モデルにより、複数のフレームをまとめて１単位としたセグメントごとに、当該セグメントに含まれる人物関連領域映像群に対応する、人物の動きに関する特徴ベクトルを抽出する。そして、抽出された上記人物の行動ベクトル群を、時間的に構造化された行動特徴情報として出力する。この人物特徴情報の抽出処理については、動作例においてさらに詳しく説明する。

　行動検索処理部１４は、上記行動特徴抽出処理部１３から上記抽出された行動特徴情報を受け取ると共に、行動特徴情報記憶部３２から検出対象となる人物に対応付けられた参照行動特徴情報群を読み込む。そして行動検索処理部１４は、上記抽出された行動特徴情報と、上記読み込まれた参照行動特徴情報群に含まれる各参照行動特徴情報とをそれぞれ比較して中間ノードの置換コストを算出し、算出された置換コストが所定の条件を満たす参照行動特徴情報を検索行動情報に含めて出力する。この行動検索処理についても、動作例においてさらに詳しく説明する。

　検索行動ランキング処理部１５は、上記行動検索処理部１４から出力される検索行動情報を、事前に学習されたランキングモデルに入力する。そして、ランキングモデルにより例えば置換コスト順にランキング付けされた検索行動情報を出力する。

　行動評価処理部１６は、上記検索行動ランキング処理部１５によりランキング付けされた検索行動情報をもとに検索結果の評価値を求め、この評価値とユーザが入力する評価値とに基づいて、行動特徴情報記憶部３２に記憶されている参照行動特徴情報を更新する処理を行う。

　なお、上記人物関連領域映像検出処理部１２、行動特徴抽出処理部１３、行動検索処理部１４および検索行動ランキング処理部１５で用いられる機械学習モデルは、例えば畳み込みニューラルネットワークにより構成されるが、ニューラルネットワークの種類については適宜選択して使用可能である。

　（動作例）
　次に、以上のように構成された特定行動検出装置ＢＤの動作例を説明する。　
　なお、上記人物関連領域映像検出処理部１２、行動特徴抽出処理部１３、行動検索処理部１４および検索行動ランキング処理部１５で用いられる機械学習モデルは、事前に学習されているものとして以後の説明を行う。

　図３は、特定行動検出装置ＢＤの制御部１が実行する特定行動検出処理の全体の処理手順と処理内容の一例を示すフローチャートである。

　（１）映像データの取得
　特定行動検出装置ＢＤの制御部１は、映像データ取得処理部１１の制御の下、ステップＳ１０において、カメラＣＭにより監視対象エリアを撮像して得られた時系列の映像データを、入出力Ｉ／Ｆ部４を介して取得する。そして、取得された上記映像データを映像データ記憶部３１に一旦保存する。

　（２）人物関連領域映像の検出
　上記映像データが一定時間分取得されると、特定行動検出装置ＢＤの制御部１は、人物関連領域映像検出処理部１２の制御の下、ステップＳ２０において、映像データから人物関連領域の映像を検出する処理を以下のように行う。

　すなわち、人物関連領域映像検出処理部１２は、上記映像データ記憶部３１から映像データをフレームごとに読み込み、読み込まれた映像データのフレーム画像を物体検出モデルに入力する。そして、この物体検出モデルにより上記フレーム画像に写っている人物のクラスと位置を表す情報を取得する。

　例えば、人物関連領域映像検出処理部１２は、上記映像データの各フレーム画像から人物が写っている映像区間を検出し、人物が写っている領域を人物トラッキング手法を用いて人物ごとに切り出す。そして、同一人物が一定区間連続して検出された場合に、当該人物を識別する人物ＩＤを付した人物関連領域映像情報を出力する。

　（３）行動特徴情報の抽出
　特定行動検出装置ＢＤの制御部１は、次にステップＳ３０において、行動特徴抽出処理部１３の制御の下、上記人物関連領域映像情報から人物の行動の特徴を以下のように抽出する。

　図４は、行動特徴抽出処理部１３が実行する行動特徴抽出処理の処理手順と処理内容の一例を示すフローチャートである。

　すなわち、行動特徴抽出処理部１３は、先ずステップＳ３１により、上記人物関連領域映像検出処理部１２から人物関連領域映像情報を受け取る。そして、ステップＳ３２により、受け取った上記人物関連領域映像情報を学習済の動作認識モデルに入力する。動作認識モデルは、上記人物関連領域映像情報の複数のフレームをまとめて１つのセグメントとし、セグメントごとに当該セグメントに含まれる人物関連領域映像群に対応する、人物の動きに関する特徴量である特徴ベクトルを抽出する。

　例えば、行動特徴抽出処理部１３は、３２フレームをまとめて１セグメントとし、この３２フレームの人物関連領域映像群から特徴ベクトルを抽出する。この結果、同一の人物に係る１セグメントの人物関連領域映像群に対応する特徴ベクトルが抽出される。すなわち、この処理により人物ごとに３２フレームの区間における当該人物の動きの特徴を表す情報が抽出される。

　行動特徴抽出処理部１３は、次にステップＳ３３において、人物ごとに抽出された上記特徴ベクトル群を時間的に構造化して行動特徴情報を生成する。ここで、構造化とは、ある人物の特徴ベクトル群（u_1，u_2，…，u_N）について、一定の区間ＴでグラフＵを構築することである。ここで、Ｔはグラフのノード数に相当し、１つのノードは特徴ベクトルu_iに対応する。なお、グラフとしてはここでは完全グラフを例にとるが、必要に応じてリンクが縮小されてもよい。但し、ノード数Ｔは事前に決定される。

　行動特徴抽出処理部１３は、続いてステップＳ３４により、上記時間的に構造化された行動特徴情報Ｕを行動検索処理部１４に出力する。

　（４）検索行動情報の生成
　特定行動検出装置ＢＤの制御部１は、次にステップＳ４０において、行動検索処理部１４の制御の下、人物の行動を検索する処理を以下のように行う。

　図５は、行動検索処理部１４が実行する行動検索処理の処理手順と処理内容の一例を示すフローチャートである。

　すなわち、行動検索処理部１４は、先ずステップＳ４１において、上記行動特徴抽出処理部１３から行動特徴情報を受け取ると共に、行動特徴情報記憶部３２から同一の人物に対応する参照行動特徴情報群を読み込む。そして行動検索処理部１４は、ステップＳ４２により、上記参照行動特徴情報群から参照行動特徴情報を１つ選択し、選択された参照行動特徴情報と上記抽出された行動特徴情報とをステップＳ４３により比較する。そして、両者間の中間ノードの置換コストを評価する。

　例えば、行動検索処理部１４は、上記抽出された行動特徴情報をＵ、選択された上記参照行動特徴情報をＶとすると、両者の中間ノードu_{T/2}とv_{T/2}とを置換する。そして、この中間ノードの基点として、v_{T/2}と、上記u_{T/2}を除いた各ノードu_jとのコサイン類似度を計算し、このコサイン類似度の総和C_{uv}を算出する。一方、上記v_{T/2}と、v_{i/2}を除いた各ノードv_jとのコサイン類似度についてはあらかじめ計算し、その総和C_vを保持しておく。そして、行動検索処理部１４は、総和C_{uv}とC_vとの差分を計算し、計算された差分値を置換コストとする。

　なお、上記置換コストの逆パターンであるC_{vu}とC_uとの比較など、グラフ構造の類似性を判定できる指標であれば他の指標であってもよい。また、u_{T/2}とv_{T/2}とのコサイン類似度sを組み合わせてもよい。この手法によれば、グラフすべての計算を行わずとも、コサイン類似度sの高いグラフとのみ比較するといった手法により、計算コストを削減することが可能である。

　なお、置換コストを、T/2に限らず、例えばT/2+1、T/2-1の位置にあるノードを基点として、その和もしくは重みづけ和等を取ることで計算するようにしてもよい。

　行動検索処理部１４は、上記中間ノードの置換コストが計算されると、続いてステップＳ４４において上記置換コストを予め設定された閾値ＴＨと比較し、置換コストが閾値ＴＨより小さいか否かを判定する。この判定の結果、置換コストが閾値ＴＨより小さければ、ステップＳ４５により、比較対象とした上記参照行動特徴情報Ｖを検索行動情報に加える。

　行動検索処理部１４は、続いてステップＳ４６において、参照行動特徴情報に対する検索終了条件を満たしたか否かを判定する。例えば、すべての参照行動特徴情報との比較処理が終了したか否かを判定する。この判定の結果、未選択の参照行動特徴情報が残っていれば、ステップＳ４３に戻って次の参照行動特徴情報を選択し、選択された上記参照行動特徴情報についてステップＳ４３～Ｓ４６による処理を行う。

　以後同様に行動検索処理部１４は、未選択の各参照行動特徴情報について、順次上記ステップＳ４３～Ｓ４６による処理を繰り返し実行する。そして、すべての参照行動特徴情報について上記処理が終了すると、行動検索処理部１４は、ステップＳ４７に移行して、最終的に得られた検索行動情報を検索行動ランキング処理部１５へ出力する。

　なお、上記行動特徴情報の検索処理に先立ち、参照行動特徴情報群についてv_{T/2}をクラスタリングしておき、vのセントロイドc_kを構築しておくことよい。このようにすると、セントロイドc_kの検索から各参照行動特徴情報v_iの検索を行うというように、階層的な検索処理を実行することが可能となる。

　上記セントロイドc_kのコストは、例えば当該セントロイドc_kに属する参照行動特徴情報v_iのコストの平均に設定される。この場合、セントロイドc_kは、抽出された行動特徴情報の中間ノードu_{T/2}と置換したときのコストC_{cu}と比較される。この比較の結果、セントロイドc_kと比較したコストが閾値より大きければ、他のノードとの比較処理は省略され、検索処理は終了する。

　（５）検索行動のランキング付け
　特定行動検出装置ＢＤの制御部１は、次にステップＳ５０において、検索行動ランキング処理部１５の制御の下、検索行動情報に対しランキング付けを行う。

　図６は、検索行動ランキング処理部１５が実行する検索行動ランキング処理の処理手順と処理内容の一例を示すフローチャートである。

　すなわち、検索行動ランキング処理部１５は、先ずステップＳ５１において、上記行動検索処理部１４から検索行動情報を受け取る。続いてステップＳ５２において、受け取った上記検索行動情報をランキングモデルに入力する。そして、ステップＳ５３により、上記ランキングモデルにより例えば置換コスト順にランキング付けがなされた検索行動情報を出力し、このランキング付けされた検索行動情報を、ステップＳ５４により入出力Ｉ／Ｆ部４から端末ＭＴへ出力する。

　なお、ランキングモデルは、検索結果を表示する順序を決めるモデルであればどのように構築されたものであってもよい。例えば、コスト差分を昇順にならべたものでもよいし、ランキング学習などを用いてランキング評価値を出力するように構築されたモデルであってもよい。

　検索行動ランキング処理部１５は、上記ランキング付けされた検索行動情報を行動評価処理部１６に与える。行動評価処理部１６は、上記ランキング付けされた検索行動情報をもとに検索結果の評価値を求め、この評価値をもとに行動特徴情報記憶部３２に記憶されている参照行動特徴情報を更新する。

　（作用・効果）
　以上述べたように第１の実施形態では、先ず、映像データのフレームごとに検出された同一人物が写っている領域の映像をもとに、行動特徴抽出処理部１３により、複数フレームからなるセグメントごとに、複数フレームの区間における人物の動きの特徴を表すベクトルを抽出し、抽出された上記特徴ベクトル群について所定の区間Ｔに対応するグラフＵを構築することで、上記特徴ベクトル群を時間的に構造化する。次に、行動検索処理部１４により、構造化された上記抽出行動特徴情報を、行動特徴情報記憶部３２に記憶された対応する人物の複数の参照行動特徴情報とそれぞれ比較して、両者間の中間ノードの置換コストを算出し、算出された置換コストが閾値ＴＨより小さい参照行動特徴情報を検索行動情報とする。最後に、検索行動ランキング処理部１５により、上記検索行動情報に含まれる各参照行動特徴情報を例えば置換コスト順にランキング付けし、出力するようにしている。

　従って、第１の実施形態によれば、人物の行動特徴情報の検索処理が、複数フレームの区間を単位として構造化された抽出行動特徴情報と、複数の参照行動特徴情報とを比較することで行われる。このため、映像データのフレームごとに、それに写っている人物の行動特徴情報を参照行動特徴情報と比較する場合に比べ、検索処理に要する時間を大幅に短縮することができ、また検索処理に掛かる特定行動検出装置の処理負荷を軽減することが可能となる。すなわち、特定行動検出装置の検索処理に要する計算コストを抑えることが可能となる。

　［第２の実施形態］
　この発明の第２の実施形態は、人物関連領域映像を人物の動きを顕著に表す特定部位とその周辺の領域を対象として検出し、検出された人物関連領域映像をもとに人物の行動の特徴を抽出するようにしたものである。なお、本実施形態においても、第１の実施形態で用いた図をそのまま引用して説明を行う。

　すなわち、人物関連領域映像検出処理部１２は、検出対象となる人物の動きを顕著に表す部位として例えば手に着目し、この手と当該手が操作している対象物を含む矩形領域を人物関連領域映像として検出する。行動特徴抽出処理部１３は、上記矩形領域を複数フレームまとめて動作認識モデルに入力し、これにより手とその手が操作する物体の動き特徴ベクトルを得て、この特徴ベクトルを用いて行動特徴情報を構成する。

　なお、上記矩形領域を検出する際には、同一人物の手であることの時間的な整合性を取ることが望ましい。例えば、時刻ｔの手の位置から一定の距離以内にある時刻ｔ＋１の手の位置があれば同一人物の手と見なす。また、人物全体の領域から構成される特徴ベクトルと、手とこの手が操作している物体とを包含する領域から構成される特徴ベクトルとの両方を一つのノードとして保持し、行動特徴情報を構成してもよい。その際に、行動特徴情報には重み付け和や連結、加算といった操作を施してもよい。

　［第３の実施形態］
　前記第１の実施形態では、行動検索処理部１４において、置換コストが閾値ＴＨより小さいことを検索行動情報への追加の条件としている。これに対し第３の実施形態は、置換コストが閾値より大きいことを条件にして検索を行うことにより、人物の希な異常行動を検出するようにしたものである。なお、第３の実施形態においても、第１の実施形態で用いた図を引用して説明を行う。

　行動検索処理部１４は、例えば抽出された行動特徴情報をＵ、選択された参照行動特徴情報をＶとするとき、両者の中間ノードu_{T/2}とv_{T/2}とを置換する。そして、この中間ノードの基点として、v_{T/2}と、上記u_{T/2}を除いた各ノードu_jとのコサイン類似度を計算し、このコサイン類似度の総和C_{uv}を算出する。一方、上記v_{T/2}と、v_{i/2}を除いた各ノードv_jとのコサイン類似度についてはあらかじめ計算し、その総和C_vを保持しておく。そして、行動検索処理部１４は、総和C_{uv}とC_vとの差分を計算し、計算された差分値を置換コストとする。

　行動検索処理部１４は、上記中間ノードの置換コストが計算されると、続いて上記置換コストを予め設定された閾値ＴＨ２と比較し、置換コストが閾値ＴＨ２より大きいか否かを判定する。この判定の結果、置換コストが閾値ＴＨ２より大きければ、比較対象とした上記参照行動特徴情報Ｖを検索行動情報に加える。

　また、上記行動特徴情報の検索処理に先立ち、参照行動特徴情報群についてv_{T/2}をクラスタリングしてvのセントロイドc_kを構築しておいて、階層的な検索処理を実行する際に、セントロイドc_kを、抽出された行動特徴情報の中間ノードu_{T/2}と置換したときのコストC_{cu}と比較する。そして、この比較の結果、セントロイドc_kと比較したコストが閾値より小さければ、他のノードとの比較処理は省略されて、検索処理は終了する。

　［その他の実施形態］
　前記第１の実施形態では、特定行動検出装置ＢＤの機能を、カメラＣＭおよび端末ＭＴとは独立して設けられるサーバコンピュータやパーソナルコンピュータ等の情報処理装置に備えた場合を例にとって説明した。しかし、この発明はそれに限らず、特定行動検出装置ＢＤの機能のすべてまたは一部を、カメラＣＭおよび端末ＭＴに備えるようにしてもよい。

　また、前記第１の実施形態では人物の特定行動を検出する場合を例にとって説明したが、検出対象は人物に限らず、動物やロボット等であってもよい。その他、特定行動検出装置の種類や構成、各処理部の処理手順と処理内容等については、この発明の要旨を逸脱しない範囲で種々変形して実施できる。

　以上、この発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点においてこの発明の例示に過ぎない。この発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、この発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　ＢＤ…特定行動検出装置
　ＣＭ…カメラ
　ＭＴ…端末
　１…制御部
　２…プログラム記憶部
　３…データ記憶部
　４…入出力Ｉ／Ｆ部
　５…バス
　１１…映像データ取得処理部
　１２…人物関連領域映像検出処理部
　１３…行動特徴抽出処理部
　１４…行動検索処理部
　１５…検索行動ランキング処理部
　１６…行動評価処理部
　３１…映像データ記憶部
　３２…行動特徴情報記憶部

Claims

　対象領域を撮像した映像データを取得する第１の処理部と、
　取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する第２の処理部と、
　複数の前記フレームを含む第１の区間ごとに、当該第１の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報を抽出し、抽出された複数の前記特徴量情報を第２の区間において構造化して第１の行動特徴情報を生成する第３の処理部と、
　生成された前記第１の行動特徴情報と、予め用意された前記物体に関連する複数の第２の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第２の行動特徴情報を検索行動情報として検出する第４の処理部と、
　検出された前記検索行動情報を出力する第５の処理部と
　を具備する特定行動検出装置。
　前記第２の処理部は、検出対象となる前記物体の動作部位と当該動作部位が操作対象とする周辺物体とを含む領域の映像を、前記部分領域映像として検出する、請求項１に記載の特定行動検出装置。
　前記第３の処理部は、抽出された複数の前記特徴量情報の各々を、前記第２の区間に対応する数のノードにそれぞれ割り当てたグラフを構築することで、複数の前記特徴量情報を構造化する、請求項１に記載の特定行動検出装置。
　前記第４の処理部は、
　　前記第１の行動特徴情報と、複数の前記第２の行動特徴情報の各々との間で、それぞれの第１の中間ノードと第２の中間ノードとを相互に置換する処理と、
　　置換された前記第２または第１の中間ノードと前記第１または第２の行動特徴情報の他の各ノードとの類似度の総和を表す第１の類似度情報を算出する処理と、
　　前記第２または第１の行動特徴情報の前記第２または第１の中間ノードと、前記第２または第１の行動特徴情報の他の各ノードとの類似度の総和を表す第２の類似度情報を算出する処理と、
　　前記第１の類似度情報と前記第２の類似度情報との差分を置換コストとして算出する処理と、
　　前記置換コストが予め設定された条件を満たす前記第２の行動特徴情報を、前記検索行動情報として検出する処理と
　を備える、請求項３に記載の特定行動検出装置。
　前記第４の処理部は、前記コストを予め設定された閾値と比較し、前記コストが前記閾値より小さい前記第２の行動特徴情報、または前記コストが前記閾値より大きい前記第２の行動特徴情報を、前記検索行動情報として検出する、請求項１に記載の特定行動検出装置。
　前記第５の処理部は、前記検索行動情報を前記コストに基づいてランキング付けする処理を備える、請求項１に記載の特定行動検出装置。
　情報処理装置が実行する特定行動検出方法であって、
　対象領域を撮像した映像データを取得する過程と、
　取得された前記映像データのフレームから、少なくとも検出対象となる物体を含む部分領域映像を検出する過程と、
　複数の前記フレームを含む第１の区間ごとに、当該第１の区間に検出された複数の前記部分領域映像から前記物体の動きの特徴を表す特徴量情報をそれぞれ抽出し、抽出された複数の前記特徴量情報を第２の区間において構造化して第１の行動特徴情報を生成する過程と、
　生成された前記第１の行動特徴情報と、予め用意された前記物体に関連する複数の第２の行動特徴情報の各々との間の類似度合いが反映されたコストを算出し、算出された前記コストが予め設定された条件を満たす前記第２の行動特徴情報を検索行動情報として検出する過程と、
　検出された前記検索行動情報を出力する過程と
　を具備する特定行動検出方法。
　請求項１乃至請求項６のいずれかに記載の特定行動検出装置が具備する前記第１の処理部乃至前記第５の処理部の少なくとも１つが行う処理を、前記特定行動検出装置が備えるプロセッサに実行させるプログラム。