JPWO2015045233A1

JPWO2015045233A1 - 情報処理システム

Info

Publication number: JPWO2015045233A1
Application number: JP2015538848A
Authority: JP
Inventors: 貴稔北野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-09-26
Filing date: 2014-07-09
Publication date: 2017-03-09
Anticipated expiration: 2034-07-09
Also published as: JP6369470B2; WO2015045233A1; US20160239712A1; US10037467B2

Abstract

本発明の情報処理システム１００は、動画像データ内の物体を検出して追跡すると共に物体の要素を表す物体要素を複数検出する物体検出部１０１と、動画像データを構成するフレーム画像から物体要素ごとにその特徴量をそれぞれ抽出する特徴量抽出部１０２と、物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たすフレーム画像を物体要素ごとに選択するフレーム選択部１０３と、物体要素ごとにフレーム選択部にて選択されたフレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された物体要素の特徴量と、を関連付けて所定の記憶部１０５に記憶する特徴量関連付け部１０４と、を備える。

Description

本発明は、情報処理システムにかかり、特に、カメラにて撮影した画像に対する解析処理を行う情報処理システムに関する。

近年、情報処理技術の発達に伴い、様々なデータの解析を行う解析システムの開発が行われている。例えば、カメラにて撮影した画像から人物や物体といったオブジェクトを検出して特定のオブジェクトを検索する、という解析システムが実現されている。このようにオブジェクトに対する検索を行う解析システムでは、撮影した動画像中のフレーム画像からオブジェクトの特徴量を抽出して、かかる特徴量に対する検索を行うこととなる。

ここで、特許文献１には、動画像中に映っている人物の検索を行うシステムが開示されている。具体的に、特許文献１に開示のシステムでは、まず、動画中から特定のイベントを検出し、当該検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレームや人間の顔の向きが最も正面に近いフレームなど、所定の指標を考慮した値がもっとも高いフレームをベストショットとして選択する、という処理を行っている。そして、ベストショットとして選択したフレームに対して顔の特徴量を抽出するなど人物の検索を行う。

特開２０１２−１２３４６０号公報

しかしながら、上述した特許文献１に記載の技術では、顔についてのみ、所定の指標に基づくベストショットを選択しているだけであり、顔以外の検索対象についてはベストショットとなるかは不明である。このため、複数の検索対象について必ずしも適切な特徴量を抽出できるわけではなく、検索結果の精度の向上を図ることができない、という問題が生じる。

このため、本発明の目的は、上述した課題である、動画像中の検索対象に対する高精度な検索結果を得ることができないこと、を解決することができる情報処理システムを提供することにある。

本発明の一形態である情報処理システムは、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を備えた、
という構成をとる。

また、本発明の他の形態であるプログラムは、
情報処理装置に、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させる、
という構成をとる。

また、本発明の他の形態である情報処理方法は、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
という構成をとる。

また、本発明の他の形態である情報処理システムは、
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を備えた、
という構成をとる。

また、本発明の他の形態であるプログラムは、
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラムである。

また、本発明の他の形態である情報処理方法は、
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
という構成をとる。

本発明は、以上のように構成されることにより、動画像中の検索対象に対する高精度な検索結果を得ることができる情報処理システムを提供することができる。

本発明の実施形態１における情報処理システムの構成を示すブロック図である。図１に開示した映像解析部で解析処理される映像の一例を示す図である。図１に開示したオブジェクト特徴量記憶部に記憶されるデータの一例を示す図である。図１に開示したオブジェクト特徴量記憶部に記憶されるデータの一例を示す図である。図１に開示した映像解析部による映像解析の動作を示すフローチャートである。図１に開示したオブジェクト検索部による映像を用いた検索処理の様子を示す図である。図１に開示したオブジェクト検索部による、オブジェクト特徴量記憶部に記憶されたデータを用いた検索処理の様子を示す図である。図１に開示したオブジェクト検索部による映像を用いた検索処理の様子を示す図である。図１に開示したオブジェクト検索部による、オブジェクト特徴量記憶部に記憶されたデータを用いた検索処理の様子を示す図である。図１に開示した映像解析部による検索処理の動作を示すフローチャートである。本発明の付記１における情報処理システムの構成を示すブロック図である。本発明の付記１１における情報処理システムの構成を示すブロック図である。

＜実施形態１＞
本発明の第１の実施形態を、図１乃至図９を参照して説明する。図１は、情報処理システムの構成を示すブロック図である。図２乃至図３は、映像解析処理の様子を示す図であり、図４は映像解析処理の動作を示すフローチャートである。図４乃至図８は、映像検索処理の様子を示す図であり、図９は映像検索処理の動作を示すフローチャートである。

本実施形態における情報処理システムは、まず、動画像データである映像に映っている物体を検出して追跡し、かかる物体の要素である物体要素の特徴量を抽出して記憶しておく。そして、情報処理システムは、記憶した物体要素の特徴量を用いて、所望の検索を行う。例えば、本発明は、ある街中にカメラを設置し、かかるカメラにて撮影した映像から人物を検索する、というシステムとして利用可能である。但し、以下に説明する情報処理システムは本発明の一例にすぎず、本発明における情報処理システムは、他の用途に利用してもよい。

図１に示すように、本実施形態における情報処理システムは、まず、所定範囲の映像を撮影するカメラ１と、カメラ１にて撮影された映像を取得する映像入力部２と、を備える。また、情報処理システムは、取得した映像を解析する映像解析部１０と、映像及び映像の解析結果を記憶するオブジェクト特徴量記憶部２０と、を備える。さらに、情報処理システムは、映像内から所定の検索を行うオブジェクト検索部３０と、オブジェクト検索部３０に対して検索指示を行う検索クライアント部４０と、を備えている。

そして、本発明の情報処理システムは、１台又は複数台の情報処理装置を備えて構成されている。例えば、映像入力部２や映像解析部１０、オブジェクト検索部３０、検索クライアント部４０は、それぞれ個別の情報処理装置にて構成されていてもよく、あるいは、図１に示すすべての構成が１台の情報処理装置で構成されていてもよい。

上記映像解析部１０は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、オブジェクト追跡・検出部１１と、オブジェクト特徴量抽出部１２と、オブジェクト特徴量集約部１３と、映像別解析設定部１４と、ベストフレーム選択部１５と、を備えている。また、オブジェクト検索部３０は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、検索対象ベストフレーム選択部３１と、特徴量検索部３２と、を備えている。なお、オブジェクト特徴量記憶部２０は、所定の情報処理装置に装備された記憶装置内に形成されている。以下、各構成について詳述すると共に、その動作を図４及び図９のフローチャートを参照して説明する。

上記映像別解析設定部１４は、映像の特性や外部条件に応じて、後述するオブジェクト追跡・検出部１１やオブジェクト特徴量抽出部１２による物体等の検出時や特徴量の抽出時の設定を行う（図４のステップＳ１）。例えば、時刻や天気によって変化する映像の明るさに応じて、適切なパラメータの設定を行う。また、映像別解析設定部１４は、後述するベストフレーム選択部１５によるフレーム画像のフレーム選択基準を、映像の特性や外部条件に応じて変更設定してもよい。

上記オブジェクト追跡・検出部１１（物体検出部）は、まず、カメラ１にて撮影され、映像入力部２にて取得した映像である複数のフレーム画像からなる動画像データの入力を受け付ける（図４のステップＳ２）。そして、オブジェクト追跡・検出部１１は、各フレーム画像に映る物体（オブジェクト）である「人物」を検出して追跡する（図４のステップＳ３）。例えば、オブジェクト追跡・検出部１１は、フレーム画像を解析して、肌の色や輪郭など特定の特徴を有するオブジェクトを「人物」と判別し、かかる「人物」のフレーム画像内における領域を抽出する。そして、この「人物」の領域に、この人物を識別する識別情報である人物ＩＤを付与する。そして、連続する複数のフレーム画像において、あるいは、所定のフレーム間隔をあけた複数のフレーム画像において、同一の「人物」の領域を追跡して、同一の人物ＩＤを付与する。

さらに、オブジェクト追跡・検出部１１は、フレーム画像中の検出した「人物」の領域から、予め設定された人物の要素を表す「モーダル」を検出する（図４のステップＳ３）。ここで、「モーダル」とは、例えば、「人物」を構成する要素である「顔」や「服」、さらには、「人物」の属性を表す要素である「性別・年齢」を含む。但し、「モーダル」は、上述した要素に限定されない。

具体的に、オブジェクト追跡・検出部１１は、まず、上述した各「モーダル」を、当該モーダルごとに予め設定された検出方法によって検出する。例えば、モーダルの１つである「顔」については、検出した「人物」の領域のうち、上部に位置する肌色部分の領域を「顔」の位置情報を検出する。また、モーダルの１つである「服」については、検出した「人物」の領域のうち、上述したように検出した顔の位置よりも下部に位置する領域を「服」の位置情報として検出する。さらに、モーダルの１つである「性別・年齢」については、上述したように検出した顔の領域を、「性別・年齢」の位置情報として検出する。なお、図２に、各フレーム画像から各モーダルの位置情報を検出した例を示す。この図において符号Ｒ１は、モーダルである「顔」と「性別・年齢」の位置情報を表し、符号Ｒ２は、モーダルである「服」の位置情報を表す。

そして、オブジェクト追跡・検出部１１は、各フレーム画像のデータに、当該各フレーム画像から検出された「人物」の領域を特定する情報及び人物ＩＤと、各モーダルの位置情報と、を関連付けて、オブジェクト特徴量抽出部１２に渡す。

上記オブジェクト特徴量抽出部１２（特徴量抽出部）は、各フレーム画像から、同一の人物ＩＤが関連付けられた各「モーダル」について、当該各「モーダル」の特徴量を抽出する（図４のステップＳ４）。例えば、モーダルの１つである「顔」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、両目と鼻と口との位置を表す情報など、顔照合する際に利用可能な特徴量を抽出する。また、モーダルの１つである「服」については、検出した「服」の位置情報の範囲内の画像から、服の色を特徴量として抽出する。また、モーダルの１つである「性別・年齢」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、顔のしわなど、性別・年齢を特定する際に利用可能な特徴量を抽出する。

そして、オブジェクト特徴量抽出部１２は、上述したように各フレーム画像のデータに関連付けられた各モーダルの位置情報に、さらに各モーダルの特徴量を関連付けて、オブジェクト特徴量集約部１３に渡す。

上記オブジェクト特徴量集約部１３（特徴量関連付け部）は、オブジェクト特徴量抽出部１２から渡された各モーダルの特徴量を、当該特徴量が抽出されたフレーム画像を特定するフレーム番号（フレーム特定情報）に関連付けて、オブジェクト特徴量記憶部２０に記憶する。このとき、オブジェクト特徴量集約部１３は、すべての特徴量をオブジェクト特徴量記憶部２０に記憶するわけではなく、ベストフレーム選択部１５でモーダルごとにベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶する（図４のステップＳ５，Ｓ６）。

ここで、上記ベストフレーム選択部１５（フレーム選択部）について説明する。ベストフレーム選択部１５は、予めモーダル毎に設定されたフレーム選択基準に従って、モーダル毎にベストフレームを選択する。ここで、本実施形態では、図３Ａに示すように、各フレーム画像を映像の再生時間に沿って予め設定された時間範囲である各タイムボックスＢ１，Ｂ２の範囲で区切り、各タイムボックスＢ１，Ｂ２に属する各フレーム画像から、各モーダルにつき１つのベストフレームをそれぞれ選択する。

例えば、図３Ａの例では、５フレーム間隔で５つのフレーム画像を１つのタイムボックスに含めるよう設定されている。つまり、図３Ａの符号Ｂ１に示すタイムボックスには、５，１０，１５，２０，２５番目のフレーム画像（５ｆ，１０ｆ，１５ｆ，２０ｆ，２５ｆ）が含まれる。また、図３Ａの符号Ｂ２に示すタイムボックスには、３０，３５，４０，４５，５０番目のフレーム画像（３０ｆ，３５ｆ，４０ｆ，４５ｆ，５０ｆ）が含まれる。

そして、モーダルの１つである「顔」については、例えば、タイムボックス内で、目間サイズが最も大きい、顔の正面向き度合いが最も高い、顔のボケ具合が最も小さい、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部１５は、例えば、タイムボックス内のフレーム画像のうち、目間サイズが最も大きいフレーム画像を、モーダル「顔」についてのベストフレームとして選択する（図４のステップＳ５）。図３Ａの例では、ベストフレーム選択部１５が、タイムボックスＢ１内において符号１０ｆのフレーム画像を「顔」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部１３に通知する。これを受けたオブジェクト特徴量集約部１３は、タイムボックスＢ１内では、「顔」について選択されたベストフレームのフレーム番号１０ｆに、当該ベストフレームから抽出された「顔」の特徴量を関連付けて、オブジェクト特徴量記憶部２０に記憶する（図４のステップＳ６）。逆に、オブジェクト特徴量集約部１３は、「顔」についてベストフレームとして選択されなかったフレーム画像については、「顔」の特徴量は記憶しない。

また、モーダルの１つである「服」については、例えば、タイムボックス内で、服色の信頼度が最も高い、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部１５は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「服」についてのベストフレームとして選択する。図３Ａの例では、ベストフレーム選択部１５が、タイムボックスＢ１内において符号１５ｆのフレーム画像を「服」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部１３に通知する。これを受けたオブジェクト特徴量集約部１３は、タイムボックスＢ１内では、「服」について選択されたベストフレームのフレーム番号１５ｆに、当該ベストフレームから抽出された「服」の特徴量を関連付けて、オブジェクト特徴量記憶部２０に記憶する。逆に、オブジェクト特徴量集約部１３は、「服」についてベストフレームとして選択されなかったフレーム画像については、「服」の特徴量は記憶しない。

また、モーダルの１つである「性別・年齢」については、例えば、タイムボックス内で、目間サイズが最も大きいなど、性別・年齢を判別する際に有効なフレームを選択可能なフレーム選択基準が設定されている。このため、ベストフレーム選択部１５は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「性別・年齢」についてのベストフレームとして選択する。図３Ａの例では、ベストフレーム選択部１５が、タイムボックスＢ１内における符号２０ｆのフレーム画像を、「性別・年齢」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部１３に通知する。これを受けたオブジェクト特徴量集約部１３は、タイムボックスＢ１内では、「性別・年齢」について選択されたベストフレームのフレーム番号２０ｆに、当該ベストフレームから抽出された「性別・年齢」の特徴量を関連付けて、オブジェクト特徴量記憶部２０に記憶する。逆に、オブジェクト特徴量集約部１３は、「性別・年齢」ベストフレームとして選択されなかったフレーム画像については、「性別・年齢」の特徴量は記憶しない。

このように、本実施形態では、モーダル毎に異なるフレーム選択基準を設けているため、モーダル毎に異なるベストフレームが選択されうるものの、モーダル毎にそれぞれ適切なフレーム画像から特徴量を抽出することができ、特徴量の高品質化を図ることができる。そして、本実施形態では、ベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶するため、データベースの容量の増大を抑制することができる。

なお、上述したフレーム選択の際に用いられる値である、目間サイズや、服色の信頼度は、例えば、上記オブジェクト特徴量抽出部１２にて顔や服の特徴量を抽出する際に算出された値である。また、フレーム選択の際に用いられる値である顔の正面向き度合い、顔のボケ具合などは、上述したオブジェクト追跡・検出部１１にて人物やモーダルの検出時に算出された値である。但し、ベストフレーム選択部１５は、上述した方法とは別の方法によって、例えば、フレーム選択用に特別な解析処理を行って、フレーム画像を選択してもよい。

また、上記では、各モーダルの検出及び特徴量の抽出を行ってから、モーダル毎のベストフレームを選択する場合を例示したが、かかる順番で処理を行うことに限定されない。例えば、モーダル毎の特徴量の抽出の前にモーダル毎のベストフレームの選択を行い、選択されたベストフレームに対してのみ特徴量の抽出処理を行ってもよい。

上記オブジェクト特徴量集約部１３は、モーダル毎にベストフレームとして選択されたフレーム画像についての特徴量をオブジェクト特徴量記憶部２０に記憶するが、この他に、フレーム画像内における各モーダルの位置情報も記憶する。具体的に、オブジェクト特徴量集約部１３は、図３Ａの四角記号に示すように、すべてのフレーム画像のフレーム番号に、モーダル毎の位置情報を関連付けて記憶する。なお、図３Ａの黒丸記号は、モーダル毎の特徴量を表しており、上述したように選択されたフレーム画像の特徴量のみが記憶されることとなる。

また、オブジェクト特徴量集約部１３は、検出された人物毎に、図３Ａに示す各モーダルの特徴量及び位置情報を記憶する。つまり、オブジェクト特徴量集約部１３は、人物ＩＤ毎にフレーム番号を関連付けて記憶すると共に、さらに、フレーム番号に各モーダルの特徴量と位置情報とを関連付けて記憶する。

このように、人物を識別する人物ＩＤや、モーダル毎の位置情報を記憶しておくことで、同一人物についての検索や、指定したモーダル毎の検索を行うことができるなど、検索の自由度が増す。

ここで、上記では、ベストフレーム選択部１５がモーダル毎にタイムボックス内で１つのベストフレームを選択する場合を例示したが、タイムボックス内で１つのモーダルにつき複数のフレーム画像を選択してもよい。そして、ベストフレーム選択部１５は、選択された複数のフレーム画像からそれぞれ抽出されたモーダルの特徴量を、オブジェクト特徴量記憶部２０に記憶してもよい。この場合、モーダル毎に設定されるフレーム選択基準としては、「目間サイズが最も大きい」というような１つのフレームを選択する基準ではなく、「ある値が閾値以上」というように、複数のフレーム画像を選択可能な基準が設定される。

また、本実施形態では、ベストフレーム選択部１５が予め設定されたタイムボックス内から１つ又は複数のフレーム画像を選択することとしているが、タイムボックスは設けられていなくてもよい。つまり、ベストフレーム選択部１５は、単に、モーダル毎に設定されたフレーム選択基準を満たすフレーム画像を随時選択してもよい。このとき、ベストフレーム選択部１５は、モーダル毎に所定の時間以上離れたフレーム画像を選択してもよい。例えば、図３Ｂに示すように、タイムボックスを設けず、モーダル「顔」について設定されたフレーム選択基準を満たすフレーム画像として、フレーム番号１０ｆ，１５ｆ，３５ｆのものが選択されたとする（黒丸印参照）。この場合、フレーム番号１０ｆと１５ｆとの時間間隔Ｄ１は、予め設定された閾値よりも短いため、フレーム番号１５ｆはモーダル「顔」については選択しない（バツ印参照）。一方、フレーム番号１０ｆと３５ｆとの時間間隔Ｄ２は、予め設定された閾値よりも長いため、フレーム番号１０ｆと３５ｆは、モーダル「顔」については選択する。

次に、上述したようにオブジェクト特徴量記憶部２０に記憶されたモーダル毎の特徴量を用いて、モーダル及び人物の検索を行うオブジェクト検索部３０（検索部）の構成について説明する。なお、オブジェクト検索部３０は、検索対象ベストフレーム選択部３１と特徴量検索部３２とを備えており、検索クライアント部４０からの検索要求に応じて作動する。

本実施形態では、検索の一例として、まず、一次検索として、「赤い服」を検索し、かかる検索にヒットしたものの中から、二次検索として、赤い服を着た人物の「顔」を検索する場合を説明する。

まず、検索クライアント部４０は、所定のフレーム画像から検索対象となるモーダルを指定して検索要求を入力する。具体的に、検索者は、映像中に「赤い服」を着ている人物が映っているフレーム画像を目視にて検索し、検索クライアント部４０にてかかるフレーム画像を選択する。続いて、検索者は、検索クライアント部４０にて、図５（Ａ）の矢印に示すように、フレーム画像中のモーダル「服」の位置Ｒ２を選択する（図９のステップＳ１１）。すると、検索クライアント部４０は、選択されたフレーム画像のフレームＩＤと位置Ｒ２の位置情報を、検索対象ベストフレーム選択部３１に通知して、検索要求を行う。

続いて、検索対象ベストフレーム選択部３１は、オブジェクト特徴量記憶部２０に記憶された各モーダルの位置情報に基づいて、検索クライアント部４０から通知されたフレームＩＤ及び位置情報に対応するモーダルを特定する。ここでは、図６の矢印Ｙ１に示すように、選択されたモーダルが「服」であるとして特定される。

続いて、検索対象ベストフレーム選択部３１は、選択されたモーダル「服」について、上記ベストフレーム選択部１５にて選択されたベストフレームをオブジェクト特徴量記憶部２０内から検索する。具体的に、検索対象ベストフレーム選択部３１は、図６の矢印Ｙ２に示すように、オブジェクト特徴量記憶部２０内で、モーダル「服」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、特定したフレーム番号に関連付けられたモーダル「服」の特徴量を読み出し（図９のステップＳ１２）、特徴量検索部３２に渡す。

特徴量検索部３２は、ベストフレームにおけるモーダル「服」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部２０内から検索する（図９のステップＳ１３）。このとき、他の各タイムブロックにおいてモーダル「服」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「赤い服」の検索を行う。

続いて、特徴量検索部３２は、「赤い服」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ＩＤ、各モーダルの位置情報を抽出する。そして、特徴量検索部３２は、検索にヒットした全てのフレーム画像を検索クライアント部４０に返すことで、当該検索クライアント部４０には図５（Ｂ）に示すように、検索でヒットしたフレーム画像が表示される（図９のステップＳ１４）。

続いて、検索クライアント部４０は、図７（Ａ）に示すように、検索されたフレーム画像Ａ１を用いて次の検索を行う。ここでは、上述した「赤い服」による検索によってヒットしたフレーム画像の中から、当該フレーム画像に映る「顔」の人物を検索する場合を説明する。

検索クライアント部４０は、上述したように検索されたフレーム画像中から、目視により検索したい人物であると思われる人物が映るフレーム画像を特定し、図７（Ａ）の矢印に示すように、当該フレーム画像中の検索対象となるモーダルである「顔」の領域Ｒ１を選択する（図９のステップＳ１５）。すると、検索対象ベストフレーム選択部３１は、オブジェクト特徴量記憶部２０に記憶された各モーダルの位置情報に基づいて、検索クライアント部４０にて選択されたフレーム画像中の位置Ｒ１に対応するモーダルを特定する。ここでは、図８の矢印Ｙ１１に示すように、選択されたモーダルが「顔」であるとして特定される。

続いて、検索対象ベストフレーム選択部３１は、図８の矢印Ｙ１２に示すように、上記ベストフレーム選択部１５にて選択された、モーダル「顔」についてのベストフレームをオブジェクト特徴量記憶部２０内から選択する。つまり、上述したように検索クライアント部４０にて「顔」が選択されたフレームは、モーダル「服」についてベストフレームであるが、「顔」についてはベストフレームではないため、同一のタイムブロック内から「顔」についてのベストフレームを選択する。具体的に、検索対象ベストフレーム選択部３１は、検索クライアント部４０にて選択された人物と同一の人物ＩＤが関連付けられたフレーム画像を対象として、図８の矢印Ｙ１２に示すように、オブジェクト特徴量記憶部２０内で、モーダル「顔」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、検索対象ベストフレーム選択部３１は、かかるフレーム番号に関連付けられたモーダル「顔」の特徴量を読み出して（図９のステップＳ１６）、特徴量検索部３２に渡す。

特徴量検索部３２は、オブジェクト特徴量記憶部２０から読み出したモーダル「顔」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部２０内から検索する（図９のステップＳ１７）。このとき、他の各タイムブロックにおいてモーダル「顔」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「顔」の検索を行う。

続いて、特徴量検索部３２は、「顔」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ＩＤ、各モーダルの位置情報を抽出する。そして、特徴量検索部３２は、検索にヒットした全てのフレーム画像を検索クライアント部４０に返すことで（図９のステップＳ１８）、当該検索クライアント部４０には図７（Ｂ）に示すように、検索でヒットしたフレーム画像が表示される。

以上のように、本発明によると、動画像データ内の人物のモーダルごとに、それぞれフレーム選択基準を満たすフレーム画像が選択され、モーダルごとにその特徴量が記憶される。このため、記憶される特徴量は、モーダルごとのベストフレームから抽出されたものとなるため、高品質のものとなる。その結果、特徴量を用いたモーダルの検索の精度を高めることができる。

また、モーダルごとのベストフレームから抽出された特徴量のみを記憶するため、すべての特徴量を記憶する必要がなく、記憶容量の低減を図ることができる。また、これに伴い、検索対象となる特徴量の数が減少するため、検索の高速化を図ることができる。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理システム（図１０、図１１参照）、プログラム、情報処理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）（図１０参照）
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部１０１と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部１０２と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部１０３と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部１０５に記憶する特徴量関連付け部１０４と、
を備えた情報処理システム１００。

上記発明によると、まず、動画像データ内の物体の物体要素ごとに、それぞれフレーム選択基準を満たすフレーム画像を選択する。そして、物体要素ごとに、選択されたフレーム画像を特定するフレーム特定情報に、当該フレーム画像から抽出された物体要素の特徴量を関連付けて記憶する。これにより、各物体要素の特徴量は、当該物体要素ごとのフレーム選択基準を満たすフレーム画像から抽出されたものとなるため、かかる特徴量は物体要素ごとに高品質のものとなる。従って、その後、特徴量を用いた物体要素の検索の精度を高めることができる。

（付記２）
付記１に記載の情報処理システムであって、
前記フレーム選択部は、前記物体検出部による検出結果、及び、前記特徴量抽出部による抽出結果のうち、少なくとも一方を用いて、前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。

このように、実際の物体や物体要素の検出結果、特徴量の抽出結果を用いて、物体要素ごとにフレーム画像を選択することで、当該各物体要素について適切なフレーム画像を選択することができる。このため、各物体要素について選択されたフレーム画像からの特徴量は高品質となり、かかる特徴量を用いた物体要素の検索を高精度に行うことができる。

（付記３）
付記１又は２に記載の情報処理システムであって、
前記フレーム選択部は、前記動画像データの再生時間に沿って予め区切られた時間範囲ごとに、当該時間範囲内に属する前記フレーム画像から前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。

（付記４）
付記３に記載の情報処理システムであって、
前記フレーム選択部は、前記時間範囲ごとに、当該時間範囲内において少なくとも１つの前記フレーム画像を前記物体要素ごとに選択する、
情報処理システム。

（付記５）
付記１又は２に記載の情報処理システムであって、
前記フレーム選択部は、前記物体要素ごとに、所定の時間以上離れた前記フレーム画像を選択する、
情報処理システム。

これにより、各物体要素について、区切られた時間範囲ごとに、あるいは、所定の時間以上離れて、所定の基準を満たすフレーム画像が選択されることとなる。そのため、適度な間隔をあけて各フレーム画像の特徴量を記憶することができ、その後の検索精度の向上を図ることができる。

（付記６）
付記１乃至５のいずれかに記載の情報処理システムであって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。

（付記７）
付記６に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。

（付記８）
付記６又は７に記載の情報処理システムであって、
前記物体検出部は、動画像データ内から検出した前記物体ごとに当該物体を識別する物体識別情報を付与し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された物体に付与された前記物体識別情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体識別情報に基づいて、所定の条件にて指定された前記フレーム画像と同一の前記物体が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。

（付記９）
付記６乃至８のいずれかに記載の情報処理システムであって、
前記物体検出部は、前記物体の前記物体要素の位置情報を当該物体要素ごとに検出し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された前記物体要素の位置情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体要素の位置情報に基づいて、所定の条件にて指定された前記フレーム画像内のさらに指定された位置にある前記物体要素を特定し、その物体要素と同一の物体要素が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記特徴量を用いて、当該物体要素の検索を行う、
情報処理システム。

（付記１０）
付記７乃至９のいずれかに記載の情報処理システムであって、
前記検索部は、所定の条件にて指定された前記フレーム画像から、前記動画像データの再生時間に沿って前後して所定の範囲内に位置する前記他のフレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。

これにより、物体要素ごとにフレーム選択基準を満たすフレーム画像から抽出された特徴量を用いて、物体要素ごとの検索を行うことができる。その結果、物体要素の検索の精度を高めることができる。

（付記１１）（図１１参照）
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部２０２を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部２０１を備えた、
情報処理システム２００。

（付記１２）
付記１１に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。

（付記１３）
情報処理装置に、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させるためのプログラム。

（付記１４）
付記１３に記載のプログラムであって、
前記情報処理装置に、さらに、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部、
を実現させるためのプログラム。

（付記１５）
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。

（付記１６）
付記１５に記載のプログラムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
プログラム。

（付記１７）
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
情報処理方法。

（付記１８）
付記１７に記載の情報処理方法であって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。

（付記１９）
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
情報処理方法。

（付記２０）
付記１９に記載の情報処理方法であって、
所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。

ここで、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

なお、本発明は、日本国にて２０１３年９月２６日に特許出願された特願２０１３−２０００６５の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

１カメラ
２映像入力部
１０映像解析部
１１オブジェクト追跡・検出部
１２オブジェクト特徴量抽出部
１３オブジェクト特徴量集約部
１４映像別解析設定部
１５ベストフレーム選択部
２０オブジェクト特徴量記憶部
３０オブジェクト検索部
３１検索対象ベストフレーム選択部
３２特徴量検索部
４０検索クライアント部
１００情報処理システム
１０１物体検出部
１０２特徴量抽出部
１０３フレーム選択部
１０４特徴量関連付け部
１０５記憶部
２００情報処理システム
２０１検索部
２０２記憶部

Claims

動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を備えた情報処理システム。
請求項１に記載の情報処理システムであって、
前記フレーム選択部は、前記物体検出部による検出結果、及び、前記特徴量抽出部による抽出結果のうち、少なくとも一方を用いて、前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
請求項１又は２に記載の情報処理システムであって、
前記フレーム選択部は、前記動画像データの再生時間に沿って予め区切られた時間範囲ごとに、当該時間範囲内に属する前記フレーム画像から前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
請求項３に記載の情報処理システムであって、
前記フレーム選択部は、前記時間範囲ごとに、当該時間範囲内において少なくとも１つの前記フレーム画像を前記物体要素ごとに選択する、
情報処理システム。
請求項１又は２に記載の情報処理システムであって、
前記フレーム選択部は、前記物体要素ごとに、所定の時間以上離れた前記フレーム画像を選択する、
情報処理システム。
請求項１乃至５のいずれかに記載の情報処理システムであって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。
請求項６に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
請求項６又は７に記載の情報処理システムであって、
前記物体検出部は、動画像データ内から検出した前記物体ごとに当該物体を識別する物体識別情報を付与し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された物体に付与された前記物体識別情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体識別情報に基づいて、所定の条件にて指定された前記フレーム画像と同一の前記物体が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
請求項６乃至８のいずれかに記載の情報処理システムであって、
前記物体検出部は、前記物体の前記物体要素の位置情報を当該物体要素ごとに検出し、
前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された前記物体要素の位置情報を関連付けて所定の記憶部に記憶し、
前記検索部は、前記フレーム特定情報に関連付けられている前記物体要素の位置情報に基づいて、所定の条件にて指定された前記フレーム画像内のさらに指定された位置にある前記物体要素を特定し、その物体要素と同一の物体要素が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記特徴量を用いて、当該物体要素の検索を行う、
情報処理システム。
請求項７乃至９のいずれかに記載の情報処理システムであって、
前記検索部は、所定の条件にて指定された前記フレーム画像から、前記動画像データの再生時間に沿って前後して所定の範囲内に位置する前記他のフレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。
請求項１１に記載の情報処理システムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
情報処理装置に、
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させるためのプログラム。
請求項１３に記載のプログラムであって、
前記情報処理装置に、さらに、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部、
を実現させるためのプログラム。
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。
請求項１５に記載のプログラムであって、
前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
プログラム。
動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
情報処理方法。
請求項１７に記載の情報処理方法であって、
前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。
動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
情報処理方法。
請求項１９に記載の情報処理方法であって、
所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。