WO2015045233A1 - 情報処理システム - Google Patents

情報処理システム Download PDF

Info

Publication number
WO2015045233A1
WO2015045233A1 PCT/JP2014/003631 JP2014003631W WO2015045233A1 WO 2015045233 A1 WO2015045233 A1 WO 2015045233A1 JP 2014003631 W JP2014003631 W JP 2014003631W WO 2015045233 A1 WO2015045233 A1 WO 2015045233A1
Authority
WO
WIPO (PCT)
Prior art keywords
frame
object element
feature amount
unit
frame image
Prior art date
Application number
PCT/JP2014/003631
Other languages
English (en)
French (fr)
Inventor
貴稔 北野
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/023,807 priority Critical patent/US10037467B2/en
Priority to JP2015538848A priority patent/JP6369470B2/ja
Publication of WO2015045233A1 publication Critical patent/WO2015045233A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • G06V40/37Writer recognition; Reading and verifying signatures based only on signature signals such as velocity or pressure, e.g. dynamic signature recognition
    • G06V40/382Preprocessing; Feature extraction

Definitions

  • an object of the present invention is to provide an information processing system that can solve the above-described problem that a high-precision search result for a search target in a moving image cannot be obtained.
  • An information processing system for detecting and tracking an object in the moving image data, and detecting a plurality of object elements representing elements of a preset object that can be detected from the object;
  • a feature amount extraction unit that extracts, for each object element, a feature amount of the object element from a frame image constituting the moving image data;
  • a frame selection unit that selects, for each object element, the frame image that satisfies each frame selection criterion set in advance for each object element;
  • predetermined storage is performed by associating frame specifying information for specifying the frame image selected by the frame selection unit with the feature amount of the object element extracted from the selected frame image.
  • the program which is the other form of this invention is: A feature amount of the object element extracted for each object element from a frame image selected according to a frame selection criterion set in advance for each of a plurality of object elements representing the element of the object detected from the moving image data; A search unit that performs a search for each object element using the feature amount for each object element with reference to a storage unit that is stored in association with frame specifying information that specifies the selected frame image.
  • the information processing system first detects and tracks an object shown in a video that is moving image data, and extracts and stores a feature amount of the object element that is an element of the object. Then, the information processing system performs a desired search using the stored feature amount of the object element.
  • the present invention can be used as a system in which a camera is installed in a certain city and a person is searched for from an image captured by the camera.
  • the information processing system described below is merely an example of the present invention, and the information processing system in the present invention may be used for other purposes.
  • the video analysis unit 10 includes an object tracking / detection unit 11, an object feature amount extraction unit 12, an object feature amount aggregation unit 13, a video, and the like, which are constructed by incorporating a predetermined program into an installed arithmetic device.
  • Another analysis setting unit 14 and a best frame selection unit 15 are provided.
  • the object search unit 30 includes a search target best frame selection unit 31 and a feature amount search unit 32, which are constructed by incorporating a predetermined program in the equipped arithmetic device.
  • the object feature amount storage unit 20 is formed in a storage device provided in a predetermined information processing apparatus.
  • the video-based analysis setting unit 14 performs settings when detecting an object or the like or extracting feature values by an object tracking / detecting unit 11 or an object feature value extracting unit 12 described later according to video characteristics or external conditions. (Step S1 in FIG. 4). For example, appropriate parameters are set according to the brightness of the video that changes according to the time and weather. Further, the image-specific analysis setting unit 14 may change and set the frame selection criteria of the frame image by the best frame selection unit 15 described later according to the characteristics of the image and external conditions.
  • the eye size and the clothing color reliability which are values used in the frame selection described above, are calculated when, for example, the feature amount of the face or clothing is extracted by the object feature amount extraction unit 12. Value.
  • the degree of frontal orientation of the face and the degree of blurring of the face which are values used when selecting a frame, are values calculated by the object tracking / detecting unit 11 when a person or modal is detected.
  • the best frame selection unit 15 may select a frame image by performing a special analysis process for frame selection, for example, by a method different from the method described above.
  • the search client unit 40 specifies a modal to be searched from a predetermined frame image and inputs a search request. Specifically, the searcher visually searches for a frame image in which a person wearing “red clothes” appears in the video, and the search client unit 40 selects the frame image. Subsequently, the searcher uses the search client unit 40 to select the position R2 of the modal “clothes” in the frame image as indicated by the arrow in FIG. 5A (step S11 in FIG. 9). Then, the search client unit 40 notifies the search target best frame selection unit 31 of the frame ID of the selected frame image and the position information of the position R2, and makes a search request.
  • the search target best frame selection unit 31 specifies the modal corresponding to the frame ID and the position information notified from the search client unit 40 based on the position information of each modal stored in the object feature amount storage unit 20. To do.
  • the selected modal is specified as “clothes”.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明の情報処理システム100は、動画像データ内の物体を検出して追跡すると共に物体の要素を表す物体要素を複数検出する物体検出部101と、動画像データを構成するフレーム画像から物体要素ごとにその特徴量をそれぞれ抽出する特徴量抽出部102と、物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たすフレーム画像を物体要素ごとに選択するフレーム選択部103と、物体要素ごとにフレーム選択部にて選択されたフレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された物体要素の特徴量と、を関連付けて所定の記憶部105に記憶する特徴量関連付け部104と、を備える。

Description

情報処理システム
 本発明は、情報処理システムにかかり、特に、カメラにて撮影した画像に対する解析処理を行う情報処理システムに関する。
 近年、情報処理技術の発達に伴い、様々なデータの解析を行う解析システムの開発が行われている。例えば、カメラにて撮影した画像から人物や物体といったオブジェクトを検出して特定のオブジェクトを検索する、という解析システムが実現されている。このようにオブジェクトに対する検索を行う解析システムでは、撮影した動画像中のフレーム画像からオブジェクトの特徴量を抽出して、かかる特徴量に対する検索を行うこととなる。
 ここで、特許文献1には、動画像中に映っている人物の検索を行うシステムが開示されている。具体的に、特許文献1に開示のシステムでは、まず、動画中から特定のイベントを検出し、当該検出したイベントに含まれるフレームのうち、最も顔領域が大きいフレームや人間の顔の向きが最も正面に近いフレームなど、所定の指標を考慮した値がもっとも高いフレームをベストショットとして選択する、という処理を行っている。そして、ベストショットとして選択したフレームに対して顔の特徴量を抽出するなど人物の検索を行う。
特開2012-123460号公報
 しかしながら、上述した特許文献1に記載の技術では、顔についてのみ、所定の指標に基づくベストショットを選択しているだけであり、顔以外の検索対象についてはベストショットとなるかは不明である。このため、複数の検索対象について必ずしも適切な特徴量を抽出できるわけではなく、検索結果の精度の向上を図ることができない、という問題が生じる。
 このため、本発明の目的は、上述した課題である、動画像中の検索対象に対する高精度な検索結果を得ることができないこと、を解決することができる情報処理システムを提供することにある。
 本発明の一形態である情報処理システムは、
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
 前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を備えた、
という構成をとる。
 また、本発明の他の形態であるプログラムは、
 情報処理装置に、
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
 前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させる、
という構成をとる。
 また、本発明の他の形態である情報処理方法は、
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
 前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
という構成をとる。
 また、本発明の他の形態である情報処理システムは、
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を備えた、
という構成をとる。
 また、本発明の他の形態であるプログラムは、
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラムである。
 また、本発明の他の形態である情報処理方法は、
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
という構成をとる。
 本発明は、以上のように構成されることにより、動画像中の検索対象に対する高精度な検索結果を得ることができる情報処理システムを提供することができる。
本発明の実施形態1における情報処理システムの構成を示すブロック図である。 図1に開示した映像解析部で解析処理される映像の一例を示す図である。 図1に開示したオブジェクト特徴量記憶部に記憶されるデータの一例を示す図である。 図1に開示したオブジェクト特徴量記憶部に記憶されるデータの一例を示す図である。 図1に開示した映像解析部による映像解析の動作を示すフローチャートである。 図1に開示したオブジェクト検索部による映像を用いた検索処理の様子を示す図である。 図1に開示したオブジェクト検索部による、オブジェクト特徴量記憶部に記憶されたデータを用いた検索処理の様子を示す図である。 図1に開示したオブジェクト検索部による映像を用いた検索処理の様子を示す図である。 図1に開示したオブジェクト検索部による、オブジェクト特徴量記憶部に記憶されたデータを用いた検索処理の様子を示す図である。 図1に開示した映像解析部による検索処理の動作を示すフローチャートである。 本発明の付記1における情報処理システムの構成を示すブロック図である。 本発明の付記11における情報処理システムの構成を示すブロック図である。
 <実施形態1>
 本発明の第1の実施形態を、図1乃至図9を参照して説明する。図1は、情報処理システムの構成を示すブロック図である。図2乃至図3は、映像解析処理の様子を示す図であり、図4は映像解析処理の動作を示すフローチャートである。図4乃至図8は、映像検索処理の様子を示す図であり、図9は映像検索処理の動作を示すフローチャートである。
 本実施形態における情報処理システムは、まず、動画像データである映像に映っている物体を検出して追跡し、かかる物体の要素である物体要素の特徴量を抽出して記憶しておく。そして、情報処理システムは、記憶した物体要素の特徴量を用いて、所望の検索を行う。例えば、本発明は、ある街中にカメラを設置し、かかるカメラにて撮影した映像から人物を検索する、というシステムとして利用可能である。但し、以下に説明する情報処理システムは本発明の一例にすぎず、本発明における情報処理システムは、他の用途に利用してもよい。
 図1に示すように、本実施形態における情報処理システムは、まず、所定範囲の映像を撮影するカメラ1と、カメラ1にて撮影された映像を取得する映像入力部2と、を備える。また、情報処理システムは、取得した映像を解析する映像解析部10と、映像及び映像の解析結果を記憶するオブジェクト特徴量記憶部20と、を備える。さらに、情報処理システムは、映像内から所定の検索を行うオブジェクト検索部30と、オブジェクト検索部30に対して検索指示を行う検索クライアント部40と、を備えている。
 そして、本発明の情報処理システムは、1台又は複数台の情報処理装置を備えて構成されている。例えば、映像入力部2や映像解析部10、オブジェクト検索部30、検索クライアント部40は、それぞれ個別の情報処理装置にて構成されていてもよく、あるいは、図1に示すすべての構成が1台の情報処理装置で構成されていてもよい。
 上記映像解析部10は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、オブジェクト追跡・検出部11と、オブジェクト特徴量抽出部12と、オブジェクト特徴量集約部13と、映像別解析設定部14と、ベストフレーム選択部15と、を備えている。また、オブジェクト検索部30は、装備された演算装置に所定のプログラムが組み込まれることにより構築された、検索対象ベストフレーム選択部31と、特徴量検索部32と、を備えている。なお、オブジェクト特徴量記憶部20は、所定の情報処理装置に装備された記憶装置内に形成されている。以下、各構成について詳述すると共に、その動作を図4及び図9のフローチャートを参照して説明する。
 上記映像別解析設定部14は、映像の特性や外部条件に応じて、後述するオブジェクト追跡・検出部11やオブジェクト特徴量抽出部12による物体等の検出時や特徴量の抽出時の設定を行う(図4のステップS1)。例えば、時刻や天気によって変化する映像の明るさに応じて、適切なパラメータの設定を行う。また、映像別解析設定部14は、後述するベストフレーム選択部15によるフレーム画像のフレーム選択基準を、映像の特性や外部条件に応じて変更設定してもよい。
 上記オブジェクト追跡・検出部11(物体検出部)は、まず、カメラ1にて撮影され、映像入力部2にて取得した映像である複数のフレーム画像からなる動画像データの入力を受け付ける(図4のステップS2)。そして、オブジェクト追跡・検出部11は、各フレーム画像に映る物体(オブジェクト)である「人物」を検出して追跡する(図4のステップS3)。例えば、オブジェクト追跡・検出部11は、フレーム画像を解析して、肌の色や輪郭など特定の特徴を有するオブジェクトを「人物」と判別し、かかる「人物」のフレーム画像内における領域を抽出する。そして、この「人物」の領域に、この人物を識別する識別情報である人物IDを付与する。そして、連続する複数のフレーム画像において、あるいは、所定のフレーム間隔をあけた複数のフレーム画像において、同一の「人物」の領域を追跡して、同一の人物IDを付与する。
 さらに、オブジェクト追跡・検出部11は、フレーム画像中の検出した「人物」の領域から、予め設定された人物の要素を表す「モーダル」を検出する(図4のステップS3)。ここで、「モーダル」とは、例えば、「人物」を構成する要素である「顔」や「服」、さらには、「人物」の属性を表す要素である「性別・年齢」を含む。但し、「モーダル」は、上述した要素に限定されない。
 具体的に、オブジェクト追跡・検出部11は、まず、上述した各「モーダル」を、当該モーダルごとに予め設定された検出方法によって検出する。例えば、モーダルの1つである「顔」については、検出した「人物」の領域のうち、上部に位置する肌色部分の領域を「顔」の位置情報を検出する。また、モーダルの1つである「服」については、検出した「人物」の領域のうち、上述したように検出した顔の位置よりも下部に位置する領域を「服」の位置情報として検出する。さらに、モーダルの1つである「性別・年齢」については、上述したように検出した顔の領域を、「性別・年齢」の位置情報として検出する。なお、図2に、各フレーム画像から各モーダルの位置情報を検出した例を示す。この図において符号R1は、モーダルである「顔」と「性別・年齢」の位置情報を表し、符号R2は、モーダルである「服」の位置情報を表す。
 そして、オブジェクト追跡・検出部11は、各フレーム画像のデータに、当該各フレーム画像から検出された「人物」の領域を特定する情報及び人物IDと、各モーダルの位置情報と、を関連付けて、オブジェクト特徴量抽出部12に渡す。
 上記オブジェクト特徴量抽出部12(特徴量抽出部)は、各フレーム画像から、同一の人物IDが関連付けられた各「モーダル」について、当該各「モーダル」の特徴量を抽出する(図4のステップS4)。例えば、モーダルの1つである「顔」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、両目と鼻と口との位置を表す情報など、顔照合する際に利用可能な特徴量を抽出する。また、モーダルの1つである「服」については、検出した「服」の位置情報の範囲内の画像から、服の色を特徴量として抽出する。また、モーダルの1つである「性別・年齢」については、検出した「顔」の位置情報の範囲内の画像から、両目の距離や、顔のしわなど、性別・年齢を特定する際に利用可能な特徴量を抽出する。
 そして、オブジェクト特徴量抽出部12は、上述したように各フレーム画像のデータに関連付けられた各モーダルの位置情報に、さらに各モーダルの特徴量を関連付けて、オブジェクト特徴量集約部13に渡す。
 上記オブジェクト特徴量集約部13(特徴量関連付け部)は、オブジェクト特徴量抽出部12から渡された各モーダルの特徴量を、当該特徴量が抽出されたフレーム画像を特定するフレーム番号(フレーム特定情報)に関連付けて、オブジェクト特徴量記憶部20に記憶する。このとき、オブジェクト特徴量集約部13は、すべての特徴量をオブジェクト特徴量記憶部20に記憶するわけではなく、ベストフレーム選択部15でモーダルごとにベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶する(図4のステップS5,S6)。
 ここで、上記ベストフレーム選択部15(フレーム選択部)について説明する。ベストフレーム選択部15は、予めモーダル毎に設定されたフレーム選択基準に従って、モーダル毎にベストフレームを選択する。ここで、本実施形態では、図3Aに示すように、各フレーム画像を映像の再生時間に沿って予め設定された時間範囲である各タイムボックスB1,B2の範囲で区切り、各タイムボックスB1,B2に属する各フレーム画像から、各モーダルにつき1つのベストフレームをそれぞれ選択する。
 例えば、図3Aの例では、5フレーム間隔で5つのフレーム画像を1つのタイムボックスに含めるよう設定されている。つまり、図3Aの符号B1に示すタイムボックスには、5,10,15,20,25番目のフレーム画像(5f,10f,15f,20f,25f)が含まれる。また、図3Aの符号B2に示すタイムボックスには、30,35,40,45,50番目のフレーム画像(30f,35f,40f,45f,50f)が含まれる。
 そして、モーダルの1つである「顔」については、例えば、タイムボックス内で、目間サイズが最も大きい、顔の正面向き度合いが最も高い、顔のボケ具合が最も小さい、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、目間サイズが最も大きいフレーム画像を、モーダル「顔」についてのベストフレームとして選択する(図4のステップS5)。図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内において符号10fのフレーム画像を「顔」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「顔」について選択されたベストフレームのフレーム番号10fに、当該ベストフレームから抽出された「顔」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する(図4のステップS6)。逆に、オブジェクト特徴量集約部13は、「顔」についてベストフレームとして選択されなかったフレーム画像については、「顔」の特徴量は記憶しない。
 また、モーダルの1つである「服」については、例えば、タイムボックス内で、服色の信頼度が最も高い、などのフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「服」についてのベストフレームとして選択する。図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内において符号15fのフレーム画像を「服」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「服」について選択されたベストフレームのフレーム番号15fに、当該ベストフレームから抽出された「服」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する。逆に、オブジェクト特徴量集約部13は、「服」についてベストフレームとして選択されなかったフレーム画像については、「服」の特徴量は記憶しない。
 また、モーダルの1つである「性別・年齢」については、例えば、タイムボックス内で、目間サイズが最も大きいなど、性別・年齢を判別する際に有効なフレームを選択可能なフレーム選択基準が設定されている。このため、ベストフレーム選択部15は、例えば、タイムボックス内のフレーム画像のうち、上記フレーム選択基準を満たすフレーム画像を、モーダル「性別・年齢」についてのベストフレームとして選択する。図3Aの例では、ベストフレーム選択部15が、タイムボックスB1内における符号20fのフレーム画像を、「性別・年齢」についてのベストフレームとして選択し、かかる選択情報をオブジェクト特徴量集約部13に通知する。これを受けたオブジェクト特徴量集約部13は、タイムボックスB1内では、「性別・年齢」について選択されたベストフレームのフレーム番号20fに、当該ベストフレームから抽出された「性別・年齢」の特徴量を関連付けて、オブジェクト特徴量記憶部20に記憶する。逆に、オブジェクト特徴量集約部13は、「性別・年齢」ベストフレームとして選択されなかったフレーム画像については、「性別・年齢」の特徴量は記憶しない。
 このように、本実施形態では、モーダル毎に異なるフレーム選択基準を設けているため、モーダル毎に異なるベストフレームが選択されうるものの、モーダル毎にそれぞれ適切なフレーム画像から特徴量を抽出することができ、特徴量の高品質化を図ることができる。そして、本実施形態では、ベストフレームとして選択されたフレーム画像から抽出された特徴量のみを記憶するため、データベースの容量の増大を抑制することができる。
 なお、上述したフレーム選択の際に用いられる値である、目間サイズや、服色の信頼度は、例えば、上記オブジェクト特徴量抽出部12にて顔や服の特徴量を抽出する際に算出された値である。また、フレーム選択の際に用いられる値である顔の正面向き度合い、顔のボケ具合などは、上述したオブジェクト追跡・検出部11にて人物やモーダルの検出時に算出された値である。但し、ベストフレーム選択部15は、上述した方法とは別の方法によって、例えば、フレーム選択用に特別な解析処理を行って、フレーム画像を選択してもよい。
 また、上記では、各モーダルの検出及び特徴量の抽出を行ってから、モーダル毎のベストフレームを選択する場合を例示したが、かかる順番で処理を行うことに限定されない。例えば、モーダル毎の特徴量の抽出の前にモーダル毎のベストフレームの選択を行い、選択されたベストフレームに対してのみ特徴量の抽出処理を行ってもよい。
 上記オブジェクト特徴量集約部13は、モーダル毎にベストフレームとして選択されたフレーム画像についての特徴量をオブジェクト特徴量記憶部20に記憶するが、この他に、フレーム画像内における各モーダルの位置情報も記憶する。具体的に、オブジェクト特徴量集約部13は、図3Aの四角記号に示すように、すべてのフレーム画像のフレーム番号に、モーダル毎の位置情報を関連付けて記憶する。なお、図3Aの黒丸記号は、モーダル毎の特徴量を表しており、上述したように選択されたフレーム画像の特徴量のみが記憶されることとなる。
 また、オブジェクト特徴量集約部13は、検出された人物毎に、図3Aに示す各モーダルの特徴量及び位置情報を記憶する。つまり、オブジェクト特徴量集約部13は、人物ID毎にフレーム番号を関連付けて記憶すると共に、さらに、フレーム番号に各モーダルの特徴量と位置情報とを関連付けて記憶する。
 このように、人物を識別する人物IDや、モーダル毎の位置情報を記憶しておくことで、同一人物についての検索や、指定したモーダル毎の検索を行うことができるなど、検索の自由度が増す。
 ここで、上記では、ベストフレーム選択部15がモーダル毎にタイムボックス内で1つのベストフレームを選択する場合を例示したが、タイムボックス内で1つのモーダルにつき複数のフレーム画像を選択してもよい。そして、ベストフレーム選択部15は、選択された複数のフレーム画像からそれぞれ抽出されたモーダルの特徴量を、オブジェクト特徴量記憶部20に記憶してもよい。この場合、モーダル毎に設定されるフレーム選択基準としては、「目間サイズが最も大きい」というような1つのフレームを選択する基準ではなく、「ある値が閾値以上」というように、複数のフレーム画像を選択可能な基準が設定される。
 また、本実施形態では、ベストフレーム選択部15が予め設定されたタイムボックス内から1つ又は複数のフレーム画像を選択することとしているが、タイムボックスは設けられていなくてもよい。つまり、ベストフレーム選択部15は、単に、モーダル毎に設定されたフレーム選択基準を満たすフレーム画像を随時選択してもよい。このとき、ベストフレーム選択部15は、モーダル毎に所定の時間以上離れたフレーム画像を選択してもよい。例えば、図3Bに示すように、タイムボックスを設けず、モーダル「顔」について設定されたフレーム選択基準を満たすフレーム画像として、フレーム番号10f,15f,35fのものが選択されたとする(黒丸印参照)。この場合、フレーム番号10fと15fとの時間間隔D1は、予め設定された閾値よりも短いため、フレーム番号15fはモーダル「顔」については選択しない(バツ印参照)。一方、フレーム番号10fと35fとの時間間隔D2は、予め設定された閾値よりも長いため、フレーム番号10fと35fは、モーダル「顔」については選択する。
 次に、上述したようにオブジェクト特徴量記憶部20に記憶されたモーダル毎の特徴量を用いて、モーダル及び人物の検索を行うオブジェクト検索部30(検索部)の構成について説明する。なお、オブジェクト検索部30は、検索対象ベストフレーム選択部31と特徴量検索部32とを備えており、検索クライアント部40からの検索要求に応じて作動する。
 本実施形態では、検索の一例として、まず、一次検索として、「赤い服」を検索し、かかる検索にヒットしたものの中から、二次検索として、赤い服を着た人物の「顔」を検索する場合を説明する。
 まず、検索クライアント部40は、所定のフレーム画像から検索対象となるモーダルを指定して検索要求を入力する。具体的に、検索者は、映像中に「赤い服」を着ている人物が映っているフレーム画像を目視にて検索し、検索クライアント部40にてかかるフレーム画像を選択する。続いて、検索者は、検索クライアント部40にて、図5(A)の矢印に示すように、フレーム画像中のモーダル「服」の位置R2を選択する(図9のステップS11)。すると、検索クライアント部40は、選択されたフレーム画像のフレームIDと位置R2の位置情報を、検索対象ベストフレーム選択部31に通知して、検索要求を行う。
 続いて、検索対象ベストフレーム選択部31は、オブジェクト特徴量記憶部20に記憶された各モーダルの位置情報に基づいて、検索クライアント部40から通知されたフレームID及び位置情報に対応するモーダルを特定する。ここでは、図6の矢印Y1に示すように、選択されたモーダルが「服」であるとして特定される。
 続いて、検索対象ベストフレーム選択部31は、選択されたモーダル「服」について、上記ベストフレーム選択部15にて選択されたベストフレームをオブジェクト特徴量記憶部20内から検索する。具体的に、検索対象ベストフレーム選択部31は、図6の矢印Y2に示すように、オブジェクト特徴量記憶部20内で、モーダル「服」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、特定したフレーム番号に関連付けられたモーダル「服」の特徴量を読み出し(図9のステップS12)、特徴量検索部32に渡す。
 特徴量検索部32は、ベストフレームにおけるモーダル「服」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部20内から検索する(図9のステップS13)。このとき、他の各タイムブロックにおいてモーダル「服」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「赤い服」の検索を行う。
 続いて、特徴量検索部32は、「赤い服」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ID、各モーダルの位置情報を抽出する。そして、特徴量検索部32は、検索にヒットした全てのフレーム画像を検索クライアント部40に返すことで、当該検索クライアント部40には図5(B)に示すように、検索でヒットしたフレーム画像が表示される(図9のステップS14)。
 続いて、検索クライアント部40は、図7(A)に示すように、検索されたフレーム画像A1を用いて次の検索を行う。ここでは、上述した「赤い服」による検索によってヒットしたフレーム画像の中から、当該フレーム画像に映る「顔」の人物を検索する場合を説明する。
 検索クライアント部40は、上述したように検索されたフレーム画像中から、目視により検索したい人物であると思われる人物が映るフレーム画像を特定し、図7(A)の矢印に示すように、当該フレーム画像中の検索対象となるモーダルである「顔」の領域R1を選択する(図9のステップS15)。すると、検索対象ベストフレーム選択部31は、オブジェクト特徴量記憶部20に記憶された各モーダルの位置情報に基づいて、検索クライアント部40にて選択されたフレーム画像中の位置R1に対応するモーダルを特定する。ここでは、図8の矢印Y11に示すように、選択されたモーダルが「顔」であるとして特定される。
 続いて、検索対象ベストフレーム選択部31は、図8の矢印Y12に示すように、上記ベストフレーム選択部15にて選択された、モーダル「顔」についてのベストフレームをオブジェクト特徴量記憶部20内から選択する。つまり、上述したように検索クライアント部40にて「顔」が選択されたフレームは、モーダル「服」についてベストフレームであるが、「顔」についてはベストフレームではないため、同一のタイムブロック内から「顔」についてのベストフレームを選択する。具体的に、検索対象ベストフレーム選択部31は、検索クライアント部40にて選択された人物と同一の人物IDが関連付けられたフレーム画像を対象として、図8の矢印Y12に示すように、オブジェクト特徴量記憶部20内で、モーダル「顔」の特徴量が記憶されているフレーム画像のフレーム番号を特定する。そして、検索対象ベストフレーム選択部31は、かかるフレーム番号に関連付けられたモーダル「顔」の特徴量を読み出して(図9のステップS16)、特徴量検索部32に渡す。
 特徴量検索部32は、オブジェクト特徴量記憶部20から読み出したモーダル「顔」の特徴量にマッチする他のフレーム画像を、オブジェクト特徴量記憶部20内から検索する(図9のステップS17)。このとき、他の各タイムブロックにおいてモーダル「顔」についてベストフレームと判断されたフレーム画像から抽出された特徴量のみを検索対象として、「顔」の検索を行う。
 続いて、特徴量検索部32は、「顔」の検索にヒットした全てのフレーム画像を特定して、かかるフレーム画像及び当該フレーム画像に関連付けられた人物ID、各モーダルの位置情報を抽出する。そして、特徴量検索部32は、検索にヒットした全てのフレーム画像を検索クライアント部40に返すことで(図9のステップS18)、当該検索クライアント部40には図7(B)に示すように、検索でヒットしたフレーム画像が表示される。
 以上のように、本発明によると、動画像データ内の人物のモーダルごとに、それぞれフレーム選択基準を満たすフレーム画像が選択され、モーダルごとにその特徴量が記憶される。このため、記憶される特徴量は、モーダルごとのベストフレームから抽出されたものとなるため、高品質のものとなる。その結果、特徴量を用いたモーダルの検索の精度を高めることができる。
 また、モーダルごとのベストフレームから抽出された特徴量のみを記憶するため、すべての特徴量を記憶する必要がなく、記憶容量の低減を図ることができる。また、これに伴い、検索対象となる特徴量の数が減少するため、検索の高速化を図ることができる。
 <付記>
 上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理システム(図10、図11参照)、プログラム、情報処理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)(図10参照)
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部101と、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部102と、
 前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部103と、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部105に記憶する特徴量関連付け部104と、
を備えた情報処理システム100。
 上記発明によると、まず、動画像データ内の物体の物体要素ごとに、それぞれフレーム選択基準を満たすフレーム画像を選択する。そして、物体要素ごとに、選択されたフレーム画像を特定するフレーム特定情報に、当該フレーム画像から抽出された物体要素の特徴量を関連付けて記憶する。これにより、各物体要素の特徴量は、当該物体要素ごとのフレーム選択基準を満たすフレーム画像から抽出されたものとなるため、かかる特徴量は物体要素ごとに高品質のものとなる。従って、その後、特徴量を用いた物体要素の検索の精度を高めることができる。
(付記2)
 付記1に記載の情報処理システムであって、
 前記フレーム選択部は、前記物体検出部による検出結果、及び、前記特徴量抽出部による抽出結果のうち、少なくとも一方を用いて、前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
 このように、実際の物体や物体要素の検出結果、特徴量の抽出結果を用いて、物体要素ごとにフレーム画像を選択することで、当該各物体要素について適切なフレーム画像を選択することができる。このため、各物体要素について選択されたフレーム画像からの特徴量は高品質となり、かかる特徴量を用いた物体要素の検索を高精度に行うことができる。
(付記3)
 付記1又は2に記載の情報処理システムであって、
 前記フレーム選択部は、前記動画像データの再生時間に沿って予め区切られた時間範囲ごとに、当該時間範囲内に属する前記フレーム画像から前記物体要素ごとに前記フレーム画像を選択する、
情報処理システム。
(付記4)
 付記3に記載の情報処理システムであって、
 前記フレーム選択部は、前記時間範囲ごとに、当該時間範囲内において少なくとも1つの前記フレーム画像を前記物体要素ごとに選択する、
情報処理システム。
(付記5)
 付記1又は2に記載の情報処理システムであって、
 前記フレーム選択部は、前記物体要素ごとに、所定の時間以上離れた前記フレーム画像を選択する、
情報処理システム。
 これにより、各物体要素について、区切られた時間範囲ごとに、あるいは、所定の時間以上離れて、所定の基準を満たすフレーム画像が選択されることとなる。そのため、適度な間隔をあけて各フレーム画像の特徴量を記憶することができ、その後の検索精度の向上を図ることができる。
(付記6)
 付記1乃至5のいずれかに記載の情報処理システムであって、
 前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部を備えた、
情報処理システム。
(付記7)
 付記6に記載の情報処理システムであって、
 前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
(付記8)
 付記6又は7に記載の情報処理システムであって、
 前記物体検出部は、動画像データ内から検出した前記物体ごとに当該物体を識別する物体識別情報を付与し、
 前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された物体に付与された前記物体識別情報を関連付けて所定の記憶部に記憶し、
 前記検索部は、前記フレーム特定情報に関連付けられている前記物体識別情報に基づいて、所定の条件にて指定された前記フレーム画像と同一の前記物体が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
(付記9)
 付記6乃至8のいずれかに記載の情報処理システムであって、
 前記物体検出部は、前記物体の前記物体要素の位置情報を当該物体要素ごとに検出し、
 前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された前記物体要素の位置情報を関連付けて所定の記憶部に記憶し、
 前記検索部は、前記フレーム特定情報に関連付けられている前記物体要素の位置情報に基づいて、所定の条件にて指定された前記フレーム画像内のさらに指定された位置にある前記物体要素を特定し、その物体要素と同一の物体要素が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記特徴量を用いて、当該物体要素の検索を行う、
情報処理システム。
(付記10)
 付記7乃至9のいずれかに記載の情報処理システムであって、
 前記検索部は、所定の条件にて指定された前記フレーム画像から、前記動画像データの再生時間に沿って前後して所定の範囲内に位置する前記他のフレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
 これにより、物体要素ごとにフレーム選択基準を満たすフレーム画像から抽出された特徴量を用いて、物体要素ごとの検索を行うことができる。その結果、物体要素の検索の精度を高めることができる。
(付記11)(図11参照)
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部202を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部201を備えた、
情報処理システム200。
(付記12)
 付記11に記載の情報処理システムであって、
 前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理システム。
(付記13)
 情報処理装置に、
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
 前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
を実現させるためのプログラム。
(付記14)
 付記13に記載のプログラムであって、
 前記情報処理装置に、さらに、
 前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部、
を実現させるためのプログラム。
(付記15)
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。
(付記16)
 付記15に記載のプログラムであって、
 前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
プログラム。
(付記17)
 動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
 前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
 前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
 前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
情報処理方法。
(付記18)
 付記17に記載の情報処理方法であって、
 前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。
(付記19)
 動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
情報処理方法。
(付記20)
 付記19に記載の情報処理方法であって、
 所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
情報処理方法。
 ここで、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
 以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
 なお、本発明は、日本国にて2013年9月26日に特許出願された特願2013-200065の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
1 カメラ
2 映像入力部
10 映像解析部
11 オブジェクト追跡・検出部
12 オブジェクト特徴量抽出部
13 オブジェクト特徴量集約部
14 映像別解析設定部
15 ベストフレーム選択部
20 オブジェクト特徴量記憶部
30 オブジェクト検索部
31 検索対象ベストフレーム選択部
32 特徴量検索部
40 検索クライアント部
100 情報処理システム
101 物体検出部
102 特徴量抽出部
103 フレーム選択部
104 特徴量関連付け部
105 記憶部
200 情報処理システム
201 検索部
202 記憶部
 

Claims (20)

  1.  動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
     前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
     前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
     前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
    を備えた情報処理システム。
  2.  請求項1に記載の情報処理システムであって、
     前記フレーム選択部は、前記物体検出部による検出結果、及び、前記特徴量抽出部による抽出結果のうち、少なくとも一方を用いて、前記物体要素ごとに前記フレーム画像を選択する、
    情報処理システム。
  3.  請求項1又は2に記載の情報処理システムであって、
     前記フレーム選択部は、前記動画像データの再生時間に沿って予め区切られた時間範囲ごとに、当該時間範囲内に属する前記フレーム画像から前記物体要素ごとに前記フレーム画像を選択する、
    情報処理システム。
  4.  請求項3に記載の情報処理システムであって、
     前記フレーム選択部は、前記時間範囲ごとに、当該時間範囲内において少なくとも1つの前記フレーム画像を前記物体要素ごとに選択する、
    情報処理システム。
  5.  請求項1又は2に記載の情報処理システムであって、
     前記フレーム選択部は、前記物体要素ごとに、所定の時間以上離れた前記フレーム画像を選択する、
    情報処理システム。
  6.  請求項1乃至5のいずれかに記載の情報処理システムであって、
     前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部を備えた、
    情報処理システム。
  7.  請求項6に記載の情報処理システムであって、
     前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理システム。
  8.  請求項6又は7に記載の情報処理システムであって、
     前記物体検出部は、動画像データ内から検出した前記物体ごとに当該物体を識別する物体識別情報を付与し、
     前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された物体に付与された前記物体識別情報を関連付けて所定の記憶部に記憶し、
     前記検索部は、前記フレーム特定情報に関連付けられている前記物体識別情報に基づいて、所定の条件にて指定された前記フレーム画像と同一の前記物体が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理システム。
  9.  請求項6乃至8のいずれかに記載の情報処理システムであって、
     前記物体検出部は、前記物体の前記物体要素の位置情報を当該物体要素ごとに検出し、
     前記特徴量関連付け部は、前記フレーム選択部にて選択された、及び、選択されていない前記フレーム画像を特定する前記フレーム特定情報に、前記物体検出部にて検出された前記物体要素の位置情報を関連付けて所定の記憶部に記憶し、
     前記検索部は、前記フレーム特定情報に関連付けられている前記物体要素の位置情報に基づいて、所定の条件にて指定された前記フレーム画像内のさらに指定された位置にある前記物体要素を特定し、その物体要素と同一の物体要素が映る他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記特徴量を用いて、当該物体要素の検索を行う、
    情報処理システム。
  10.  請求項7乃至9のいずれかに記載の情報処理システムであって、
     前記検索部は、所定の条件にて指定された前記フレーム画像から、前記動画像データの再生時間に沿って前後して所定の範囲内に位置する前記他のフレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理システム。
  11.  動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を備えた、
    情報処理システム。
  12.  請求項11に記載の情報処理システムであって、
     前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理システム。
  13.  情報処理装置に、
     動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出する物体検出部と、
     前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出する特徴量抽出部と、
     前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択するフレーム選択部と、
     前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する特徴量関連付け部と、
    を実現させるためのプログラム。
  14.  請求項13に記載のプログラムであって、
     前記情報処理装置に、さらに、
     前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う検索部、
    を実現させるためのプログラム。
  15.  動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う検索部を、情報処理装置に実現させるためのプログラム。
  16.  請求項15に記載のプログラムであって、
     前記検索部は、所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    プログラム。
  17.  動画像データ内の物体を検出して追跡すると共に、当該物体から検出可能な予め設定された物体の要素を表す物体要素を複数検出し、
     前記動画像データを構成するフレーム画像から、前記物体要素ごとに、当該物体要素の特徴量をそれぞれ抽出し、
     前記特徴量の抽出に前後して、前記物体要素ごとに予め設定されたそれぞれのフレーム選択基準を満たす前記フレーム画像を、前記物体要素ごとに選択し、
     前記物体要素ごとに、前記フレーム選択部にて選択された前記フレーム画像を特定するフレーム特定情報と、当該選択されたフレーム画像から抽出された前記物体要素の特徴量と、を関連付けて所定の記憶部に記憶する、
    情報処理方法。
  18.  請求項17に記載の情報処理方法であって、
     前記所定の記憶部に記憶された前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理方法。
  19.  動画像データ内から検出された物体の要素を表す複数の物体要素のそれぞれに予め設定されたフレーム選択基準により選択されたフレーム画像から前記物体要素ごとに抽出された当該物体要素の特徴量と、前記選択されたフレーム画像を特定するフレーム特定情報と、が関連付けられて記憶された記憶部を参照し、前記物体要素ごとの前記特徴量を用いて当該物体要素ごとの検索を行う、
    情報処理方法。
  20.  請求項19に記載の情報処理方法であって、
     所定の条件にて前記フレーム画像が指定され、当該指定されたフレーム画像を特定する前記フレーム特定情報に前記物体要素ごとの前記特徴量が関連付けられて記憶されていない場合に、当該指定されたフレーム画像とは異なる他の前記フレーム画像を特定する前記フレーム特定情報に関連付けられている前記物体要素ごとの前記特徴量を用いて、当該物体要素ごとの検索を行う、
    情報処理方法。
     
PCT/JP2014/003631 2013-09-26 2014-07-09 情報処理システム WO2015045233A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/023,807 US10037467B2 (en) 2013-09-26 2014-07-09 Information processing system
JP2015538848A JP6369470B2 (ja) 2013-09-26 2014-07-09 情報処理システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013200065 2013-09-26
JP2013-200065 2013-09-26

Publications (1)

Publication Number Publication Date
WO2015045233A1 true WO2015045233A1 (ja) 2015-04-02

Family

ID=52742415

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/003631 WO2015045233A1 (ja) 2013-09-26 2014-07-09 情報処理システム

Country Status (3)

Country Link
US (1) US10037467B2 (ja)
JP (1) JP6369470B2 (ja)
WO (1) WO2015045233A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232234A1 (en) * 2015-02-10 2016-08-11 Hanwha Techwin Co., Ltd. System and method for browsing summary image
EP3104304A1 (en) * 2015-06-10 2016-12-14 Samsung Electronics Co., Ltd. Electronic apparatus and method of extracting still images
JP2020013290A (ja) * 2018-07-18 2020-01-23 株式会社日立製作所 映像解析装置、人物検索システムおよび人物検索方法
WO2022059048A1 (ja) * 2020-09-15 2022-03-24 三菱電機株式会社 目標識別装置、目標識別方法およびプログラム
JP2022184762A (ja) * 2021-05-31 2022-12-13 グラスパー テクノロジーズ エーピーエス 入出場マッチングシステムの概念

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6101817B2 (ja) * 2013-11-01 2017-03-22 Eizo株式会社 画像高画質化装置、画像表示装置、画像高画質化方法及びコンピュータプログラム
JP6150899B2 (ja) * 2013-11-01 2017-06-21 Eizo株式会社 画像高画質化装置、画像表示装置、画像高画質化方法及びコンピュータプログラム
CN107679529B (zh) * 2016-08-01 2019-12-24 杭州海康威视数字技术股份有限公司 一种物流包裹图片处理方法、装置及系统
JP6725381B2 (ja) * 2016-09-20 2020-07-15 株式会社東芝 画像照合装置および画像照合方法
US11250243B2 (en) * 2019-03-26 2022-02-15 Nec Corporation Person search system based on multiple deep learning models
WO2021251615A1 (ko) 2020-06-10 2021-12-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2012123460A (ja) * 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2953712B2 (ja) * 1989-09-27 1999-09-27 株式会社東芝 移動物体検知装置
US5689575A (en) * 1993-11-22 1997-11-18 Hitachi, Ltd. Method and apparatus for processing images of facial expressions
US6173068B1 (en) * 1996-07-29 2001-01-09 Mikos, Ltd. Method and apparatus for recognizing and classifying individuals based on minutiae
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US6263088B1 (en) * 1997-06-19 2001-07-17 Ncr Corporation System and method for tracking movement of objects in a scene
US6185314B1 (en) * 1997-06-19 2001-02-06 Ncr Corporation System and method for matching image information to object model information
GB2341231A (en) * 1998-09-05 2000-03-08 Sharp Kk Face detection in an image
US6795567B1 (en) * 1999-09-16 2004-09-21 Hewlett-Packard Development Company, L.P. Method for efficiently tracking object models in video sequences via dynamic ordering of features
KR100455294B1 (ko) * 2002-12-06 2004-11-06 삼성전자주식회사 감시 시스템에서의 사용자 검출 방법, 움직임 검출 방법및 사용자 검출 장치
US7194110B2 (en) * 2002-12-18 2007-03-20 Intel Corporation Method and apparatus for tracking features in a video sequence
US7440593B1 (en) * 2003-06-26 2008-10-21 Fotonation Vision Limited Method of improving orientation and color balance of digital images using face detection information
US7844076B2 (en) * 2003-06-26 2010-11-30 Fotonation Vision Limited Digital image processing using face detection and skin tone information
WO2006025185A1 (ja) * 2004-08-31 2006-03-09 Matsushita Electric Industrial Co., Ltd. 監視記録装置およびその方法
US20060067562A1 (en) * 2004-09-30 2006-03-30 The Regents Of The University Of California Detection of moving objects in a video
ITRM20050192A1 (it) * 2005-04-20 2006-10-21 Consiglio Nazionale Ricerche Sistema per la rilevazione e la classificazione di eventi durante azioni in movimento.
US8265392B2 (en) * 2006-02-07 2012-09-11 Qualcomm Incorporated Inter-mode region-of-interest video object segmentation
US7551754B2 (en) * 2006-02-24 2009-06-23 Fotonation Vision Limited Method and apparatus for selective rejection of digital images
US8194938B2 (en) * 2009-06-02 2012-06-05 George Mason Intellectual Properties, Inc. Face authentication using recognition-by-parts, boosting, and transduction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009123095A (ja) * 2007-11-16 2009-06-04 Oki Electric Ind Co Ltd 映像解析装置及び映像解析方法
JP2012123460A (ja) * 2010-12-06 2012-06-28 Toshiba Corp 映像検索装置、及び映像検索方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160232234A1 (en) * 2015-02-10 2016-08-11 Hanwha Techwin Co., Ltd. System and method for browsing summary image
US10073910B2 (en) * 2015-02-10 2018-09-11 Hanwha Techwin Co., Ltd. System and method for browsing summary image
EP3104304A1 (en) * 2015-06-10 2016-12-14 Samsung Electronics Co., Ltd. Electronic apparatus and method of extracting still images
US10511765B2 (en) 2015-06-10 2019-12-17 Samsung Electronics Co., Ltd Electronic apparatus and method of extracting still images
CN112005272A (zh) * 2018-07-18 2020-11-27 株式会社日立制作所 影像分析装置、人物检索系统和人物检索方法
WO2020017190A1 (ja) * 2018-07-18 2020-01-23 株式会社日立製作所 映像解析装置、人物検索システムおよび人物検索方法
JP2020013290A (ja) * 2018-07-18 2020-01-23 株式会社日立製作所 映像解析装置、人物検索システムおよび人物検索方法
JP7039409B2 (ja) 2018-07-18 2022-03-22 株式会社日立製作所 映像解析装置、人物検索システムおよび人物検索方法
US11367219B2 (en) 2018-07-18 2022-06-21 Hitachi, Ltd. Video analysis apparatus, person retrieval system, and person retrieval method
WO2022059048A1 (ja) * 2020-09-15 2022-03-24 三菱電機株式会社 目標識別装置、目標識別方法およびプログラム
JPWO2022059048A1 (ja) * 2020-09-15 2022-03-24
JP7221456B2 (ja) 2020-09-15 2023-02-13 三菱電機株式会社 目標識別装置、目標識別方法およびプログラム
JP2022184762A (ja) * 2021-05-31 2022-12-13 グラスパー テクノロジーズ エーピーエス 入出場マッチングシステムの概念
JP7328401B2 (ja) 2021-05-31 2023-08-16 グラスパー テクノロジーズ エーピーエス 入出場マッチングシステムの概念

Also Published As

Publication number Publication date
JP6369470B2 (ja) 2018-08-08
US20160239712A1 (en) 2016-08-18
JPWO2015045233A1 (ja) 2017-03-09
US10037467B2 (en) 2018-07-31

Similar Documents

Publication Publication Date Title
JP6369470B2 (ja) 情報処理システム
De Geest et al. Online action detection
JP5649425B2 (ja) 映像検索装置
US9626551B2 (en) Collation apparatus and method for the same, and image searching apparatus and method for the same
Vaquero et al. Attribute-based people search in surveillance environments
KR101390591B1 (ko) 얼굴 화상 검색 시스템 및 얼굴 화상 검색 방법
JP6013241B2 (ja) 人物認識装置、及び方法
JP4945477B2 (ja) 監視システム、人物検索方法
JP5740210B2 (ja) 顔画像検索システム、及び顔画像検索方法
KR101781358B1 (ko) 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법
US10074029B2 (en) Image processing system, image processing method, and storage medium for correcting color
JP6529314B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6548998B2 (ja) 人物検索システムおよび人物検索方法
JP2013065119A (ja) 顔認証装置及び顔認証方法
JP5787686B2 (ja) 顔認識装置、及び顔認識方法
CN110569918B (zh) 一种样本分类的方法以及相关装置
JP2014016968A (ja) 人物検索装置及びデータ収集装置
JP5971712B2 (ja) 監視装置及び方法
Shanmugavadivu et al. Rapid face detection and annotation with loosely face geometry
US9286707B1 (en) Removing transient objects to synthesize an unobstructed image
JP7438690B2 (ja) 情報処理装置、画像認識方法及び学習モデル生成方法
KR102213865B1 (ko) 주시 영역 기반 객체 식별 장치 및 방법, 컴퓨터 프로그램이 기록된 기록매체
Vaquero et al. Attribute-based people search
Cazzato et al. Video indexing using face appearance and shot transition detection
Chandran et al. A PTZ camera based people-occupancy estimation system (PCBPOES)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14849753

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015538848

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15023807

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14849753

Country of ref document: EP

Kind code of ref document: A1