WO2018173848A1 - オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体 - Google Patents

オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体 Download PDF

Info

Publication number
WO2018173848A1
WO2018173848A1 PCT/JP2018/009657 JP2018009657W WO2018173848A1 WO 2018173848 A1 WO2018173848 A1 WO 2018173848A1 JP 2018009657 W JP2018009657 W JP 2018009657W WO 2018173848 A1 WO2018173848 A1 WO 2018173848A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
feature
information
resolution
region
Prior art date
Application number
PCT/JP2018/009657
Other languages
English (en)
French (fr)
Inventor
亮磨 大網
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US16/491,643 priority Critical patent/US20200034649A1/en
Priority to JP2019507570A priority patent/JP7180590B2/ja
Publication of WO2018173848A1 publication Critical patent/WO2018173848A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • G06V10/7796Active pattern-learning, e.g. online learning of image or video features based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Definitions

  • the present invention relates to an object tracking system, an intelligent imaging device, an object feature amount extraction device, an object feature amount extraction method, and a storage medium.
  • Patent Document 1 discloses a method for determining whether or not a person is the same between cameras by combining a plurality of feature amounts describing a face, a hairstyle, arms and hands, legs, clothes, belongings, how to walk, voice, and the like. Is disclosed. At this time, the effectiveness for each feature amount is calculated, features are selected according to the effectiveness, and people are collated with the selected features. The effectiveness is calculated by multiplying the ratio of the output of the feature quantity with respect to the sum of the outputs of all the feature quantities by the appearance frequency. For example, when a person is walking and approaching from a distance, the facial image features are less effective because the face size is too small, and texture features and color component features that are clothing features are effective. The degree becomes higher.
  • whether or not the feature is used for matching is selected based on whether or not the effectiveness exceeds a threshold value. I can't do it. For example, when the effectiveness of the texture feature amount falls below a threshold, even if the original texture type can be narrowed down to some extent from the acquired texture information, it is not used at all for collation, and the accuracy decreases. On the other hand, if the effectiveness of the texture feature amount exceeds the threshold even a little, the matching is performed using the feature regardless of the effect of the resolution, so if the feature amount changes depending on the resolution of the image, the accuracy may still decrease There is. As described above, it is not possible to suppress a tracking omission and a search omission due to a matching error.
  • An object of the present invention is to provide a technique for generating an object feature amount that solves the above-described problems and suppresses tracking and search omissions due to a matching error.
  • an object feature amount extraction device detects an object from an image, and includes region information representing a region where the object exists and resolution information related to the resolution of the object.
  • an intelligent imaging apparatus is an intelligent imaging apparatus having at least an imaging unit and an object feature amount extraction unit, and the object feature amount extraction unit includes the imaging unit.
  • Object detection means for detecting an object from the captured image and generating area information representing the area where the object exists and resolution information relating to the resolution of the object; and from the image in the area defined by the area information
  • feature quantity extracting means for extracting a feature quantity representing the feature of the object in consideration of the resolution information.
  • an object feature amount extraction method detects an object from an image, and includes region information representing a region where the object exists and resolution information related to the resolution of the object. Feature amount extraction is performed, in which a feature amount representing the feature of the object is extracted from the image in the region defined by the region information in consideration of the resolution information.
  • an intelligent imaging method detects an object from an image captured by an imaging unit, and includes region information indicating a region where the object exists, and a resolution related to the resolution of the object. Information is generated, and a feature amount representing the feature of the object is extracted from the image in the region defined by the region information in consideration of the resolution information.
  • a storage medium detects an object from an image and generates area information representing an area where the object exists and resolution information related to the resolution of the object.
  • Object feature amount extraction for causing a computer to execute detection processing and feature amount extraction processing for extracting feature amounts representing features of the object in consideration of the resolution information from the image in the region defined by the region information Memorize the program.
  • One aspect of the present invention is also realized by an object feature amount extraction program stored in the storage medium.
  • a storage medium is an area that represents an area where an object is detected by detecting an object from an image captured by the imaging unit at least on a computer connected to the imaging unit.
  • an intelligent imaging program for executing the feature amount extraction process.
  • One embodiment of the present invention is also realized by an object imaging program stored in the storage medium.
  • the present invention it is possible to generate an object feature amount that suppresses tracking omissions and search omissions due to a matching error.
  • the object feature amount extraction apparatus 100 is an apparatus that extracts an object feature amount from an image for object tracking.
  • the object feature amount extraction apparatus 100 includes an object detection unit 101 and a feature amount extraction unit 102.
  • the object detection unit 101 detects an object from the image 110, and generates area information 111 representing an area where the object exists, and resolution information 112 related to the resolution of the object.
  • the feature amount extraction unit 102 extracts an object feature amount 121 representing the feature of the object from the image 110 in the region defined by the region information 111 in consideration of the resolution information 112.
  • the object detection unit 101 performs object detection on the input image 110 and outputs the result as an object detection result.
  • a person region is detected using a detector that has learned the image characteristics of the person.
  • a detector that detects based on HOG (Histograms of Oriented Gradients) characteristics or a detector that directly detects from an image using a CNN (Convolutional Neural Network) may be used. Or you may make it detect a person using the detector which learned the one part area
  • HOG Heistograms of Oriented Gradients
  • CNN Convolutional Neural Network
  • the area information 111 and the resolution information 112 are obtained for each object detected in this way.
  • the area information 111 is information on an area where the object exists in the image. Specifically, the area information 111 is information on a circumscribed rectangle of the object area on the image, or silhouette information indicating the shape of the object. .
  • the silhouette information is information for distinguishing the internal pixel from the external pixel in the object region. For example, the silhouette information is image information in which the internal pixel value is set to “255” and the external pixel value is set to “0”. Yes, it can be obtained by a known method such as the background subtraction method.
  • the resolution information 112 is information representing the size of the object on the image and the distance from the camera as the imaging unit to the object. For example, the number of pixels in the vertical and horizontal directions of the object area on the image, or the distance from the camera to the object.
  • the distance from the camera to the object can be obtained by converting the two-dimensional camera coordinates into coordinates in the real space using information on the position and orientation of the camera. Information on the position and orientation of the camera can be obtained or calculated by performing a calibration process when the camera is installed.
  • the resolution information may include not only one type of information but also a plurality of types of information.
  • the area information 111 and the resolution information 112 calculated for each detected object are output to the feature amount extraction unit 102 that extracts feature amounts such as patterns and patterns.
  • the feature amount extraction unit 102 extracts an object feature amount 121 describing a pattern or a pattern from the input image 110 based on the area information 111 and resolution information 112 for each object output from the object detection unit 101. . If the object is a person, the pattern of the person's clothes and the pattern features are extracted. At this time, considering that the feature quantity of the pattern or pattern may change depending on the resolution of the area, the resolution information 112 is also taken together to generate and output the object feature quantity 121. When the resolution information 112 is captured, it is directly added to the feature quantity of the pattern or pattern and output as the object feature quantity 121 as a whole. A case where the feature amount 121 is obtained is considered. In the following description, in the latter case, the feature value before conversion is referred to as a primary feature value.
  • the object feature amount extraction apparatus calculates the object feature amount in consideration of the change in the pattern feature according to the distance from the camera and the resolution from the time of the feature amount extraction.
  • the object tracking system including the object feature quantity extraction device reflects the resolution in the object feature quantity, the tracking accuracy and the search omission are minimized by making the best use of the feature quantity identification accuracy. Can do.
  • the features of fine patterns are the same as when the pattern is collapsed when the resolution decreases, but even in such a case, the resolution is reduced in the case where the fine pattern was originally collapsed and in the case where the pattern was not originally present. Since it is reflected in the feature quantity, it is possible to reduce tracking and search omissions to a minimum.
  • FIG. 2 is a block diagram showing a configuration of an object tracking system 200 including an object feature quantity extraction device (unit) 220 according to the present embodiment.
  • the object tracking system 200 includes an object feature amount extraction unit 220A, an object feature amount extraction unit 220B, a feature amount storage unit 230, and an object collation unit 240.
  • the object feature amount extraction unit 220A detects an object from an image captured by the camera 210A, extracts a first feature amount such as a pattern, and stores the first feature amount in the feature amount storage unit 230.
  • the object feature amount extraction unit 220B detects an object from the image captured by the camera 210B, extracts a second feature amount 220b such as a pattern, and outputs the second feature amount 220b to the object collation unit 240.
  • the object collation unit 240 collates the second feature quantity 220b such as an object pattern output from the object feature quantity extraction unit 220B with the first feature quantity 230a such as an object pattern stored in the feature quantity storage unit 230. And output the collation result.
  • a thick broken line surrounding the object feature amount extraction unit 220A and the camera 210A indicates that the camera and the object feature amount extraction unit can be configured as an intelligent camera 250A.
  • FIG. 3 is a flowchart showing an operation procedure of the object tracking system 200 including the object feature quantity extraction device (unit) 220 according to the present embodiment.
  • the video acquired by the camera 210A is input to the object feature amount extraction unit 220A (S301), and an object is detected and feature amounts such as a pattern of the object are extracted (S303). This process is as described in the description of the first embodiment described above, and feature amounts such as patterns reflecting resolution information are output for the detected objects and stored in the feature amount storage unit 230. (S305).
  • the feature amount storage unit 230 stores the obtained object feature amount together with information such as the camera from which the object feature amount has been extracted, the time at which the object feature amount was extracted, and the position within the camera. Returns the object feature that matches the condition.
  • the video acquired by the camera 210B is input to the object feature quantity extraction unit 220B (S307), and the object is detected and the feature quantity such as the pattern of the object is extracted (S309).
  • This process is the same as that of the object feature amount extraction unit 220A, and the obtained object feature amount is output to the object collation unit 240.
  • the object feature quantity to be collated is read from the feature quantity storage unit 230 (S311), and the object feature quantity is obtained. Collation reflecting the resolution information of each other is performed (S313). That is, the similarity between object feature amounts is calculated, and it is determined whether or not they are the same object. At this time, the time when the corresponding object is reflected on another camera (camera 210A in this case) may be predicted, and the object feature values acquired at the preceding and succeeding times may be read and collated.
  • the time when the corresponding object appears in another camera may be predicted, and object feature values acquired at the previous and subsequent times may be selected and collated.
  • the obtained result is output as an object collation result (S315-S317).
  • FIG. 4 is a block diagram showing a functional configuration of the object feature quantity extraction device (unit) 220 according to the present embodiment.
  • an independent device when expressed as an object feature amount extraction device, an independent device is indicated, and when expressed as an object feature amount extraction unit, one function combined with other functions is indicated.
  • the object feature amount extraction device (unit) 220 includes an object detection unit 401 and a feature amount extraction unit 402.
  • the object detection unit 401 is a functional element similar to the object detection unit 101 of FIG. 1
  • the feature amount extraction unit 402 is a functional element similar to the feature amount extraction unit 102 of FIG.
  • the feature quantity extraction unit 402 of the present embodiment includes a primary feature quantity extraction unit 421 and a feature quantity generation unit 422.
  • the primary feature quantity extraction unit 421 receives the image information and the region information output from the object detection unit 401 and outputs the primary feature quantity to the feature quantity generation unit 422.
  • the feature quantity generation unit 422 generates a feature quantity such as a pattern or a pattern from the primary feature quantity output from the primary feature quantity extraction unit 421 and the resolution information output from the object detection unit 401, and the object feature quantity Output as.
  • the primary feature quantity extraction unit 421 extracts a pattern or a basic feature quantity of the pattern. For example, a local feature amount reflecting a local feature of the pattern is extracted.
  • a point as a key point is extracted, and its surrounding feature amount is extracted.
  • a grid regularly arranged in the region is applied, and feature amounts are extracted at the grid points. At this time, the grid interval may be normalized by the size of the object area.
  • Various features such as SIFT (Scale-Invariant Feature Transform), SURF (Speed-Up Robust Features), and ORB (Oriented FAST and Rotated BRIEF) can be used as the feature amount extracted here.
  • feature quantities such as Haar-like features, Gabor wavelets, and HOG (Histograms of Oriented Gradients) may be used.
  • the object area may be divided into a plurality of small areas, and the feature amount may be extracted for each small area.
  • a feature point may be obtained for each horizontally long region obtained by dividing a clothing region by a horizontal line, and a feature amount may be extracted.
  • it may be divided into a certain number of areas in the vertical direction and M in the horizontal direction, the above-described feature quantities are extracted for each area, and these may be connected to form a primary feature quantity.
  • the feature amount of one region is L-dimensional
  • N regions in the vertical direction and M regions in the horizontal direction an (L ⁇ M ⁇ N) -dimensional vector is the feature amount.
  • the method of dividing the small area may not be regular.
  • a small region may be set in accordance with a body part, such as an upper body and a lower body (or further divided into several parts).
  • the primary feature value generated in this way is output to the feature value generation unit 422.
  • the feature quantity generation unit 422 performs matching such as clothes based on the feature quantity output from the primary feature quantity extraction unit 421 and the resolution information output from the object detection unit 401.
  • a feature amount to be used is generated and output as an object feature amount.
  • First generation method For example, visual keywords obtained by clustering the primary feature values are generated by prior learning, and which visual keywords correspond are determined, and a histogram is created as the feature values. At this time, along with the histogram, resolution information is also added in a separable form to obtain an object feature amount.
  • a visual keyword histogram is generated for each small region, and the small regions are connected, and resolution information is added to the whole in a separable form. It may be.
  • the resolution information is used to determine the probability that each visual keyword has occurred from the obtained primary feature value, and the histogram is calculated by weighting the probability by that value. It may be.
  • x n ) is the probability that the feature quantity of the pattern pattern of the visual keyword x n is y j at the resolution represented by the resolution index k, and p (x n ) is (and in one visual keyword x n is generated in any degree of frequency, non-dependent on the resolution) prior probability of visual keyword x n is.
  • x n ) is obtained in advance by examining how the feature amount of the visual keyword x n is distributed at the resolution corresponding to the resolution index k (learning using data). be able to. Also, regarding p (x n ), by examining the pattern patterns of various objects in advance (such as the pattern pattern of clothes in the case of a person, or the pattern generated by layering clothes), Can be used to find a distribution. Or when there is no such prior knowledge, it is good also as a uniform distribution. Using these values, the value of (Expression 2) can be calculated.
  • Equation 1 The feature amount is calculated according to the following.
  • the object feature amount of the pattern or pattern can be calculated. Also in this case, resolution information may be added together. In addition, when primary features are obtained separately for each small region, the features may be obtained for each small region, and these may be combined and used as an object feature amount of a pattern or pattern.
  • FIG. 5 is a block diagram illustrating a functional configuration of the object collation unit 240 according to the present embodiment.
  • the object verification unit 240 is a configuration example of the object verification unit in a case where resolution information is integrated in a separable state with an object feature amount such as a pattern.
  • the object collation unit 240 includes a resolution information separation unit 501, a resolution information separation unit 502, a reliability calculation unit 503, and a feature collation unit 504.
  • the resolution information separation unit 501 separates the first resolution information from the first feature quantity 230a, and outputs the first resolution information and the first feature quantity data.
  • the resolution information separation unit 502 separates the second resolution information from the second feature amount 220b, and outputs the second resolution information and the second feature amount data.
  • the reliability calculation unit 503 is an index representing reliability by calculating reliability from the first resolution information output from the resolution information separation unit 501 and the second resolution information output from the resolution information separation unit 502. Output reliability information.
  • the feature matching unit 504 based on the reliability calculated from the reliability calculation unit 503, the first feature amount data output from the resolution information separation unit 501 and the second feature output from the resolution information separation unit 502. Check the amount data and output the check result.
  • the first feature value 230 a read from the feature value storage unit 230 is input to the resolution information separation unit 501.
  • the resolution information separation unit 501 extracts information corresponding to the resolution from the input first feature quantity 230a and outputs it as first resolution information, and also represents data representing pattern features other than the resolution as the first feature quantity. Output as data.
  • the second feature value 220b from the object feature value extraction device (unit) 220B is input to the resolution information separation unit 502.
  • the resolution information separation unit 502 also separates the resolution information in the same manner as the resolution information separation unit 501, and outputs the second resolution information and the second feature amount data.
  • the separated first resolution information and second resolution information are input to the reliability calculation unit 503.
  • the reliability calculation unit 503 calculates and outputs a reliability representing the degree of reliability of the matching result between the feature amounts from the resolution information.
  • the separated first feature value data and second feature value data are input to the feature matching unit 504.
  • the feature matching unit 504 compares object feature amounts such as patterns. The similarity and distance between the feature amounts are simply calculated, and when the similarity is higher than a certain threshold and the similarity is high, the same object is determined, and the collation result is output.
  • a determination unit generated by a neural network or the like may be used, and the first feature value data and the second feature value data may be input thereto to determine whether or not they are the same.
  • the collation reference may be adjusted according to the reliability calculated by the reliability calculation unit 503 to perform the same determination. Further, the collation result may be output as a collation result instead of a binary determination of whether or not they are identical.
  • the reliability output from the reliability calculation unit 503 may be added to the collation result.
  • FIG. 6 is a block diagram showing a hardware configuration of the object feature quantity extraction device (unit) 220 according to the present embodiment.
  • a CPU 610 is a processor for arithmetic control, and realizes the functional configuration unit of FIG. 4 by executing a program.
  • the CPU 610 may include a plurality of processors and execute different programs, modules, tasks, threads, and the like in parallel.
  • the ROM 620 stores fixed data and programs such as initial data and programs.
  • the network interface 630 includes an object tracking unit that includes the camera 210, the feature amount storage unit 230, or the object collation unit 240 via the network when the object feature amount extraction device (unit) 220 is separated from other devices. Controls communication with devices.
  • the RAM 640 is a random access memory that the CPU 610 uses as a temporary storage work area. In the RAM 640, an area for storing data necessary for realizing the present embodiment is secured.
  • the captured image data 641 is image data acquired from the camera 210.
  • the object detection result 642 is a detection result of the object detected based on the captured image data 641.
  • the object detection result 642 stores a set of (object, region information / resolution information 643) from (first object, region information / resolution information) to (nth object, region information / resolution information).
  • the feature amount extraction table 644 is a table for extracting object feature amounts based on the captured image data 641 and the area information / resolution information 643.
  • the feature quantity extraction table 644 stores a table 645 from the first object table to the nth object table.
  • the object feature amount 646 is a feature amount of an object extracted in units of objects using the feature amount extraction table 644.
  • the storage 650 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the object detection data and parameters 651 are data and parameters used to detect an object based on the captured image data 641.
  • the feature amount extraction data and parameters 652 are data and parameters used for extracting object feature amounts based on the captured image data 641 and the area information / resolution information 643.
  • the feature quantity extraction data and parameters 652 include primary feature quantity extraction 653 and feature quantity generation 654.
  • the storage 650 stores the following programs.
  • the object feature amount extraction program 655 is a program for controlling the entire object feature amount extraction apparatus 220.
  • the object detection module 656 is a module that detects an object based on the captured image data 641 using the object detection data and the parameter 651.
  • the primary feature quantity extraction module 657 is a module that extracts primary feature quantities based on captured image data 641 and region information using data and parameters of primary feature quantity extraction 653.
  • the feature quantity generation module 658 is a module that generates an object feature quantity based on the primary feature quantity and the resolution information using the data and parameters of the feature quantity generation 654.
  • the object feature quantity extraction device (unit) 220 is provided as an intelligent camera 250 integrated with the camera 210, the input / output interface 660, the camera 210 connected to the input / output interface 660, and the camera that controls the camera 210 And a control unit 661.
  • RAM 640 and the storage 650 in FIG. 6 do not show programs and data related to general-purpose functions and other realizable functions that the object feature quantity extraction device (unit) 220 has.
  • FIG. 7 is a diagram showing the configuration of the feature quantity extraction table 644 in the object feature quantity extraction apparatus (unit) 220 according to the present embodiment.
  • the feature amount extraction table 644 is a table used for extracting object feature amounts based on captured image data and region information / resolution information.
  • the feature amount extraction table 644 stores image data 702 captured by the camera in association with the camera ID 701.
  • the image data 702 includes an image ID and a time stamp when the image is captured. Note that images include both still images and moving images.
  • object detection information 703 and feature amount information 704 are stored.
  • the object detection information 703 includes an object ID, area information, and resolution information.
  • the feature amount information 704 includes a primary feature amount and an object feature amount.
  • FIG. 8 is a flowchart showing a processing procedure of the object feature quantity extraction device (unit) 220 according to the second embodiment of the present invention. This flowchart is executed by the CPU 610 in FIG. 6 using the RAM 640, and implements the functional configuration unit in FIG. Hereinafter, the feature amount extraction apparatus 220 will be abbreviated.
  • the feature amount extraction apparatus 220 acquires image data of an image captured by the camera in step S801.
  • the feature amount extraction apparatus 220 detects an object from the image based on the image data, and generates region information and resolution information.
  • the feature amount extraction apparatus 220 extracts primary features of the object from the image using the region information based on the image data.
  • the feature amount extraction apparatus 220 generates an object feature amount from the primary feature using the resolution information.
  • the feature amount extraction apparatus 220 outputs, for example, a clothing pattern or a pattern object feature amount.
  • the feature amount extraction apparatus 220 determines an instruction to end processing from the operator. If there is no instruction, the feature amount extraction device 220 repeats object feature amount extraction and output of the image from the camera.
  • FIG. 9 is a diagram showing a configuration of the collation table 900 of the object collation unit 240 according to the present embodiment.
  • the collation table 900 is used by the object collation unit 240 to collate feature quantities of at least two objects in consideration of resolution information.
  • the collation table 900 stores first object information 901 and second object information 902 to be collated.
  • the first object information 901 and the second object information 902 include a camera ID, a time stamp, an object ID, and a feature amount.
  • the collation table 900 stores resolution information 903 of the first object separated from the feature amount of the first object and resolution information 904 of the second object separated from the feature amount of the second object.
  • the collation table 900 refers to the reliability information 905 determined from the resolution information 903 of the first object and the resolution information 904 of the second object, and the first object feature amount and the second object with reference to the reliability information 905.
  • a matching result 906 obtained by matching the feature amount is stored.
  • FIG. 10 is a flowchart showing a processing procedure of the object collation unit 240 according to the present embodiment. This flowchart is executed by a CPU (not shown) that controls the object collation unit 240 using the RAM, and implements the functional configuration unit of FIG.
  • the object collation part 240 acquires the feature-value of a 1st object in step S1001.
  • the object collation unit 240 separates the first resolution information 903 from the feature amount of the first object.
  • the object collation unit 240 acquires the feature amount of the second object.
  • the object matching unit 240 separates the second resolution information 904 from the feature amount of the second object.
  • the object collation unit 240 calculates reliability information 905 from the first resolution information 903 and the second resolution information 904.
  • the object collation unit 240 collates the first object feature quantity and the second object feature quantity with reference to the reliability information.
  • the object matching unit 240 determines whether or not they match, and if they match, outputs information on the matched first object and second object in step S1015.
  • the object collation unit 240 determines an instruction to end the process from the operator. If there is no instruction, the object collation unit 240 repeats object collation and collation result output.
  • object feature amounts are extracted in consideration of feature changes according to resolution, and object feature amounts are collated in consideration of reliability based on resolution. It can be kept low.
  • the object feature quantity extraction apparatus and the object tracking system including the object feature quantity extraction apparatus according to the present embodiment are for the feature quantity extraction unit of the object feature quantity extraction apparatus and the object tracking system as compared with the second embodiment.
  • the object collation unit is different from the object collation unit in that it is realized by one functional configuration unit. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 11 is a block diagram showing a functional configuration of the object feature quantity extraction device (unit) 1220 according to the present embodiment.
  • the same functional components as those in FIG. 4 are denoted by the same reference numerals, and redundant description is omitted.
  • the object feature amount extraction apparatus (unit) 1120 includes an object detection unit 401 and a feature amount extraction unit 1102 having one feature identification unit 1121.
  • the feature identification unit 1121 receives the region information and resolution information generated by the object detection unit 401 and the image data, generates a feature amount, and outputs it as an object feature amount.
  • the feature discriminating unit 1121 is a discriminator that has been learned to shoot and classify features of various patterns at various resolutions. For example, when a feature is a pattern, the input is a pixel in a small region within the clothing region. With the value and the resolution information, the output is the likelihood of the feature of each pattern (a value from “0” to “1”, the closer to “1”, the more likely it is the feature of the pattern). When classifying the features of N patterns, the likelihood of the features of N patterns is output, and this is used as a feature amount indicating a pattern or a pattern.
  • a combination of the likelihood obtained for each small area may be used as a feature amount indicating a pattern or a pattern.
  • the discriminator can be configured by a neural network, for example. At this time, it is possible to use a discriminator that is learned by inputting the pixel value and the resolution together, or alternatively, by using a discriminator that is individually learned for each resolution, and switching between the resolution information. Also good. Note that there may be a plurality of small regions to be input. In this case, the plurality of small regions may or may not overlap. Further, the sizes of the small regions may all be the same or may be different in size. In addition, the size of the small area may be normalized according to the size of the clothes area.
  • FIG. 12 is a block diagram showing a functional configuration of the object collation unit 1240 according to the present embodiment.
  • the same elements as those in FIG. 5 are denoted by the same reference numerals, and redundant description is omitted.
  • the feature matching unit 1201 receives the first feature value 230a and the second feature value 220b.
  • the feature matching unit 1201 calculates the degree of similarity between the two in which the resolution information is incorporated, determines whether the first object and the second object are the same, and outputs the result as a matching result.
  • object feature amounts are extracted in consideration of feature changes according to resolution, object feature amounts are verified in consideration of reliability based on resolution, and tracking due to a verification error is performed. Leakage and search omissions can be minimized.
  • the object collation unit according to the present embodiment has no reliability calculation unit, and the separated first resolution information and second resolution information are directly input to the feature collation unit. It is different. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 13 is a block diagram illustrating a functional configuration of the object matching unit 1340 according to the present embodiment.
  • the same functional components as those in FIG. 13 are identical to FIG. 13 in FIG. 13, the same functional components as those in FIG. 13
  • the object collation unit 1340 includes a resolution information separation unit 501, a resolution information separation unit 502, and a feature collation unit 1304.
  • the feature matching unit 1304 uses the first resolution information output from the resolution information separation unit 501 and the second resolution information output from the resolution information separation unit 502, and uses the first feature amount output from the resolution information separation unit 501.
  • the second feature value data output from the resolution information separation unit 502 are collated, and a collation result is output.
  • the feature matching unit 1304 compares the first feature value data and the second feature value data to determine whether the objects are the same.
  • the first resolution information and the second resolution information are also input to the feature matching unit 1304 and used for matching. For example, using a discriminator that has learned the probability of collation for each resolution, the degree to which the data of the first feature quantity and the data of the second feature quantity are the same is determined and output as a collation result.
  • a numerical value indicating the level of identity may be output as the collation result instead of the binary value indicating whether or not they are identical.
  • the reliability calculation unit since the reliability calculation unit is not provided, it is possible to suppress tracking omissions and omissions due to collation errors with an object collation unit having a simpler configuration.
  • the object feature amount extraction apparatus learns changes in features by object tracking, and extracts object feature amounts that reflect the learning results. It differs in point. Since other configurations and operations are the same as those of the second embodiment or the third embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 14 is a block diagram showing a functional configuration of the object feature quantity extraction device (unit) 1420 according to the present embodiment.
  • the same functional components as those in FIG. 4 are denoted by the same reference numerals, and redundant description is omitted.
  • the object feature amount extraction device (unit) 1420 includes an object detection unit 401, a feature amount extraction unit 1402, an object tracking unit 1403, and a feature learning unit 1404.
  • the object detection unit 401 is the same as that shown in FIG.
  • the object tracking unit 1403 performs tracking between frames of the object based on the region information output from the object detection unit 401 and the image data of the input image, and outputs an object tracking identifier (hereinafter referred to as tracking ID). To do.
  • the feature learning unit 1404 includes resolution information and region information output from the object detection unit 401, a tracking result output from the object tracking unit 1403, and a primary feature amount extraction unit 421 output from the feature amount extraction unit 1402.
  • the feature amount is used to learn the change of the feature amount depending on the resolution, and the learning result is output to the feature amount generation unit 1422 of the feature amount extraction unit 1402.
  • the feature quantity generation unit 1422 is a feature quantity such as an object pattern or pattern based on the image data, the region information and resolution information output from the object detection unit 401, and the feature learning result output from the feature learning unit 1404. Are extracted and output as object features.
  • the operation of the object detection unit 401 is the same as in the case of FIG. 4 and outputs resolution information and area information for each detected object.
  • the output resolution information is input to the primary feature quantity extraction unit 421 of the feature quantity extraction unit 1402.
  • the output resolution information is also input to the object tracking unit 1403 and the feature learning unit 1404 in addition to the feature amount generation unit 1422 of the feature amount extraction unit 1402.
  • the object tracking unit 1403 calculates the tracking result for the current frame by associating the input object detection result with the tracking result of the object obtained so far.
  • various existing methods can be used for tracking. For example, a tracking method using a Kalman filter or a tracking method using a particle filter can be used. As a result, a tracking ID for each detected object is calculated. The calculated tracking ID is output to the feature learning unit 1404.
  • the resolution information and area information for each object output from the object detection unit 401, the tracking ID information for each object output from the object tracking unit 1403, and the primary feature amount of the feature amount extraction unit 1402 The influence of the resolution on the feature quantity is learned from the primary feature quantity for each object output from the extraction unit 421, and posterior probability information for each resolution is obtained.
  • the data may be grouped in consideration of the position in the object area. For example, in the case of feature quantities belonging to the mth small area of a person having the same tracking ID, the feature quantities located in the same mth small area are collected and grouped. In addition, it is assumed that the corresponding resolution information is quickly obtained from the grouped individual feature amounts.
  • it is determined which of the visual keywords x n (n 1,..., N) corresponds to the original pattern feature with reference to a feature amount having a resolution higher than a certain value among the grouped feature amounts.
  • x n 1,..., N
  • the learning result is output to the feature quantity generation unit 1422 of the feature quantity extraction unit 1402 and is used in subsequent feature quantity generation.
  • the influence of the change of the feature amount due to the resolution of each camera is automatically learned, it is possible to obtain a feature amount more suitable for identifying the pattern feature.
  • online learning may be performed using data only when it is considered that there are few persons and there is no tracking error during actual operation.
  • the system may be used by learning by walking with various patterns of clothes at the time of installation. At this time, learning may be performed by wearing clothes in which various feature amounts are drawn.
  • FIG. 15 is a diagram showing a configuration of a feature quantity extraction table 1500 in the object feature quantity extraction apparatus (unit) 1420 according to the present embodiment.
  • the feature amount extraction table 1500 is a table used for extracting an object feature amount using a learning result by object tracking based on captured image data and region information / resolution information.
  • the feature quantity extraction table 1500 stores object tracking information 1502 and learning information 1503 in association with each object tracking ID 1501. Then, feature learning information 1504 is generated from the object tracking information 1502 and the learning information 1503.
  • the object tracking information 1502 includes an image ID, a time stamp, and region information
  • the learning information 1503 includes a primary feature amount and resolution information.
  • FIG. 16 is a flowchart showing the processing procedure of the object feature quantity extraction device (unit) 1420 according to this embodiment. This flowchart is executed by the CPU 610 using the RAM 640 to implement the functional configuration unit of FIG. In FIG. 16, the same steps as those in FIG. 8 are denoted by the same step numbers, and redundant description is omitted. In addition, the feature amount extraction device 1420 will be abbreviated.
  • the feature amount extraction apparatus 1420 tracks an object using area information from image data.
  • the feature quantity extraction device 1420 generates feature learning information from the primary feature quantity, area information, and resolution information for each object.
  • the feature quantity extraction device 1420 generates an object feature quantity from the primary feature quantity using the resolution information and the feature learning information.
  • the object feature amount reflecting the learning result is extracted by learning the feature change by object tracking, and therefore, the object feature amount that further suppresses the tracking omission and the search omission due to the matching error is generated. Can do.
  • the object feature amount extraction unit according to the present embodiment is different from the second to fifth embodiments in that the object feature amount is extracted in the object tracking device as the server that performs the object tracking process. Since other configurations and operations are the same as those in the second to fifth embodiments, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 17 is a block diagram showing a functional configuration of the object feature quantity extraction apparatus (unit) according to the present embodiment.
  • the object tracking unit 1703 tracks an object based on image data from at least two cameras as shown in FIG. 17 instead of an image from one camera as shown in FIG. Then, the feature learning unit 1704 learns the feature of the object using the tracking information from the object tracking unit 1703 and the primary feature value from at least two primary feature value extraction units 421, and generates at least two feature values. The learning result is output to the feature generation of the unit 1422.
  • the object tracking server performs the object tracking process. Feature extraction is processed simultaneously with object tracking. Therefore, it is possible to perform efficient object tracking using a wider range of information quickly.
  • a specific object a person or a car
  • cameras at two places separated from each other.
  • a specific object a person or a car
  • it can be used for the purpose of tracking a criminal using a plurality of cameras.
  • it can be used for the purpose of searching among a plurality of cameras and finding the lost child.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where an information processing program that implements the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed on the computer, a medium storing the program, and a WWW (World Wide Web) server that downloads the program are also included in the scope of the present invention. . In particular, at least a non-transitory computer readable medium storing a program for causing a computer to execute the processing steps included in the above-described embodiments is included in the scope of the present invention.
  • An object feature amount extraction apparatus comprising:
  • the feature quantity extraction unit extracts a primary feature quantity from the image in an area defined by the area information, and adds the resolution information to the primary feature quantity in a separable manner to represent a feature quantity representing the feature of the object.
  • the object feature quantity extraction device according to appendix 1.
  • the feature amount extraction means obtains a likelihood based on the resolution information for a feature amount extracted from the image in an area defined by the area information, and features the object based on the obtained likelihood.
  • the object feature amount extraction apparatus according to appendix 3, wherein a feature amount representing
  • the feature amount extraction means uses, as a feature amount, a likelihood output by a discriminator learned for each resolution indicated by the resolution information for a plurality of small regions included in the image within the region defined by the region information.
  • the object feature quantity extraction device according to any one of appendices 1 to 4.
  • (Appendix 6) Object tracking that determines the same object between images at different times by comparing feature values of images in the region defined by the region information in time series, and generates and outputs a tracking identifier that identifies the same object Means,
  • the primary feature amount calculated by the feature amount extraction unit is grouped based on the region information, the resolution information, and the tracking identifier, and based on a primary feature amount obtained from a region having a high resolution within the group.
  • a feature learning unit that estimates the original feature amount, learns how the estimated original feature amount changes depending on the resolution, and feeds back the learned result to the feature amount extraction unit;
  • the object feature amount extraction device according to attachment 2, further comprising:
  • a first object feature amount extraction device and a second object feature amount extraction device each of which is the object feature amount extraction device according to any one of appendices 1 to 6,
  • Feature quantity storage means for storing a first feature quantity including first resolution information in an area of the object detected from the first image by the first object feature quantity extraction device;
  • the second object feature quantity extraction device reads the second feature quantity including the second resolution information in the area of the object detected from the second image different from the first image, and the feature quantity storage means.
  • Object collating means for collating the first feature amount including the first resolution information and determining whether the same object is considered in consideration of the first resolution information and the second resolution information;
  • An object tracking system comprising:
  • An intelligent imaging device having at least an imaging unit and an object feature amount extraction unit,
  • the object feature amount extraction unit An object detection unit that detects an object from an image captured by the imaging unit, and generates region information indicating a region where the object exists, and resolution information related to the resolution of the object;
  • Feature amount extraction means for extracting a feature amount representing the feature of the object in consideration of the resolution information from the image in the region defined by the region information;
  • Intelligent imaging device comprising:
  • the primary feature amount is extracted from the image in the region defined by the region information, and the resolution information is detachably added to the primary feature amount to generate a feature amount that represents the feature of the object.
  • Object feature extraction method
  • appendix 13 Any one of appendices 9 to 12, wherein the likelihood is output by the discriminator learned for each resolution indicated by the resolution information with respect to a plurality of small regions included in the image within the region defined by the region information.
  • the first feature amount is a feature amount including first resolution information in the region of the object detected from the first image, and is stored in the feature amount storage unit. Additional Notes
  • the second feature amount is a feature amount including second resolution information in a region of an object detected from a second image different from the first image, The second feature quantity is collated with the first feature quantity including the first resolution information read from the feature quantity storage unit, and the same in consideration of the first resolution information and the second resolution information. To determine whether the object is Object tracking method.
  • An object is detected from an image captured by the imaging unit, and region information indicating a region where the object exists and resolution information related to the resolution of the object are generated, Extracting a feature amount representing the feature of the object from the image in the region defined by the region information in consideration of the resolution information; Intelligent imaging method.
  • An object detection process for detecting an object from an image and generating area information representing an area where the object exists and resolution information related to the resolution of the object;
  • a feature amount extraction process for extracting a feature amount representing the feature of the object in consideration of the resolution information from the image in the region defined by the region information;
  • a storage medium for storing an object feature amount extraction program for causing a computer to execute the program.
  • the feature amount extraction processing obtains a likelihood based on the resolution information for a feature amount extracted from the image in an area defined by the area information, and features the object based on the obtained likelihood.
  • (Appendix 22) Object tracking that determines the same object between images at different times by comparing feature values of images in the region defined by the region information in time series, and generates and outputs a tracking identifier that identifies the same object Processing,
  • the primary feature amount calculated in the feature amount extraction process is grouped based on the region information, the resolution information, and the tracking identifier, and based on a primary feature amount obtained from a region having a high resolution within the group.
  • the feature amount storage means connected to the first computer for executing the object feature amount extraction program stored in the storage medium according to any one of appendices 17 to 22, and the second computer To the third computer
  • the second feature amount including the second resolution information is collated with the first feature amount including the first resolution information read from the feature amount storage means, and the first resolution information and the second resolution information are obtained.
  • Object collation process to determine whether or not the same object in consideration, And execute
  • the first feature amount is a feature amount including the first resolution information in a region of an object detected from the first image by the first computer, and is stored in the feature amount storage unit.
  • the second feature amount is a feature amount including the second resolution information in a region of an object detected from a second image different from the first image by the second computer.
  • Appendix 24 At least on the computer connected to the imaging unit An object detection process for detecting an object from an image captured by the imaging unit, and generating region information representing a region where the object exists and resolution information relating to the resolution of the object; A feature amount extraction process for extracting a feature amount representing the feature of the object in consideration of the resolution information from the image in the region defined by the region information; A storage medium for storing an intelligent imaging program for executing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

照合ミスによる追跡漏れや検索漏れを少なく抑えるオブジェクト特徴量を生成する。 オブジェクト特徴量抽出装置は、画像からオブジェクトを検出し、オブジェクトの存在する領域を表す領域情報と、オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出部と、領域情報で定められる領域内の画像から、解像度情報を考慮してオブジェクトの特徴を表す特徴量を抽出する特徴量抽出部と、を備える。

Description

オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体
 本発明は、オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体に関する。
 この種の複数のカメラを用いたオブジェクト追跡として、特許文献1の技術が知られている。特許文献1には、顔面、髪型、腕や手、脚部、服装、持ち物、歩き方、音声などを記述する複数の特徴量を組み合わせて、カメラ間で人物同士が同一かどうかを判定する方式が開示されている。この際、特徴量ごとの有効度が算出され、有効度に応じて特徴が選択され、選択された特徴により人物同士の照合が行われる。この有効度は、全特徴量の出力の総和に対するその特徴量の出力の比率に出現頻度を乗じて算出される。例えば、遠方から人物が歩いて近づいて来るような場合には、顔画像の特徴は顔のサイズが小さすぎるために有効度が低くなり、服装の特徴であるテクスチャ特徴や色成分特徴などの有効度が高くなる。
特許第5008269号公報
 しかしながら、上記文献に記載の技術では、特徴を照合に使用するか否かを有効度が閾値を超えるか否かで選択しているため、特徴を考慮する度合いを連続的に変化させて照合を行なうことができない。例えば、テクスチャ特徴量の有効度が閾値を下回ると、取得されたテクスチャの情報から元のテクスチャの種別がある程度絞り込める場合であっても照合に全く用いられず、精度が低下する。一方、テクスチャ特徴量の有効度が少しでも閾値を上回ると、解像度の影響とは関係なく特徴を用いて照合するため、画像の解像度によって特徴量が変化した場合に、やはり精度が低下する可能性がある。このように、照合ミスによる追跡漏れや検索漏れを抑えることができない。
 本発明の目的は、上述の課題を解決する、照合ミスによる追跡漏れや検索漏れを少なく抑えるオブジェクト特徴量を生成する技術を提供することにある。
 上記目的を達成するため、本発明の一態様に係るオブジェクト特徴量抽出装置は、画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、を備える。
 上記目的を達成するため、本発明の一態様に係るインテリジェント撮像装置は、少なくとも撮像部とオブジェクト特徴量抽出部とを有するインテリジェント撮像装置であって、前記オブジェクト特徴量抽出部は、前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、を備える
 上記目的を達成するため、本発明の一態様に係るオブジェクト特徴量抽出方法は、画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する、特徴量抽出を行う。
 上記目的を達成するため、本発明の一態様に係るインテリジェント撮像方法は、撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する。
 上記目的を達成するため、本発明の一態様に係る記憶媒体は、画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、をコンピュータに実行させるオブジェクト特徴量抽出プログラムを記憶する。本発明の一態様は、上記記憶媒体が記憶するオブジェクト特徴量抽出プログラムによっても実現される。
 上記目的を達成するため、本発明の一態様に係る記憶媒体は、少なくとも撮像部と接続されたコンピュータに、前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、を実行させるインテリジェント撮像プログラムを記憶する。本発明の一態様は、上記記憶媒体が記憶するオブジェクト撮像プログラムによっても実現される。
 本発明によれば、照合ミスによる追跡漏れや検索漏れを少なく抑えるオブジェクト特徴量を生成することができる。
本発明の第1実施形態に係るオブジェクト特徴量抽出装置の構成を示すブロック図である。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置を含むオブジェクト追跡システムの構成を示すブロック図である。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置を含むオブジェクト追跡システムの動作手順を示すフローチャートである。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置(部)の機能構成を示すブロック図である。 本発明の第2実施形態に係るオブジェクト照合部の機能構成を示すブロック図である。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置(部)のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置(部)における特徴量抽出テーブルの構成を示す図である。 本発明の第2実施形態に係るオブジェクト特徴量抽出装置(部)の処理手順を示すフローチャートである。 本発明の第2実施形態に係るオブジェクト照合部の照合テーブルの構成を示す図である。 本発明の第2実施形態に係るオブジェクト照合部の処理手順を示すフローチャートである。 本発明の第3実施形態に係るオブジェクト特徴量抽出装置(部)の機能構成を示すブロック図である。 本発明の第3実施形態に係るオブジェクト照合部の機能構成を示すブロック図である。 本発明の第4実施形態に係るオブジェクト照合部の機能構成を示すブロック図である。 本発明の第5実施形態に係るオブジェクト特徴量抽出装置(部)の機能構成を示すブロック図である。 本発明の第5実施形態に係るオブジェクト特徴量抽出装置(部)におけるオブジェクト特徴量抽出テーブルの構成を示す図である。 本発明の第5実施形態に係るオブジェクト特徴量抽出装置(部)の処理手順を示すフローチャートである。 本発明の第6実施形態に係るオブジェクト特徴量抽出装置(部)の機能構成を示すブロック図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としてのオブジェクト特徴量抽出装置について、図1を用いて説明する。オブジェクト特徴量抽出装置100は、オブジェクト追跡のため画像からオブジェクト特徴量を抽出する装置である。
 《オブジェクト特徴量抽出装置》
 図1に示すように、オブジェクト特徴量抽出装置100は、オブジェクト検出部101と、特徴量抽出部102と、を含む。オブジェクト検出部101は、画像110からオブジェクトを検出し、オブジェクトの存在する領域を表す領域情報111と、オブジェクトの解像度に係る解像度情報112とを生成する。特徴量抽出部102は、領域情報111で定められる領域内の画像110から、解像度情報112を考慮してオブジェクトの特徴を表すオブジェクト特徴量121を抽出する。
 (オブジェクト検出部の構成および動作)
 オブジェクト検出部101では、入力される画像110に対してオブジェクト検出を行い、結果をオブジェクト検出結果として出力する。オブジェクトが人物の場合、人物の画像特徴を学習した検出器を用いて、人物領域を検出する。例えば、HOG(Histograms of Oriented Gradients)特徴に基づいて検出する検出器や、CNN(Convolutional Neural Network)を用いて画像から直接検出する検出器を用いてもよい。あるいは、人全体ではなく、人の一部の領域(例えば頭部など)を学習させた検出器を用いて人物を検出するようにしてもよい。オブジェクトが車の場合も、同様に車両の画像特徴を学習させた検出器を用いて検出することが可能である。オブジェクトがそれ以外の特定物体の場合も、その特定物体の画像特徴を学習させた検出器を構築し、用いるようにすればよい。
 このようにして検出された個々のオブジェクトに対し、領域情報111と解像度情報112とを求める。領域情報111は、画像内で該オブジェクトが存在する領域の情報であり、具体的には、画像上でのオブジェクト領域の外接矩形の情報であったり、オブジェクトの形状を表すシルエット情報であったりする。ここで、シルエット情報とは、オブジェクト領域の内部の画素と外部の画素を区別する情報であり、例えば、内部の画素値を“255”、外部の画素値を“0”に設定した画像情報であり、背景差分法などの既知の方法で求めることができる。
 一方、解像度情報112は、画像上でのオブジェクトの大きさや、撮像部としてのカメラからオブジェクトまでの距離を表す情報である。例えば、画像上でのオブジェクト領域の縦と横との画素数であったり、カメラからオブジェクトまでの距離であったりする。カメラからオブジェクトまでの距離は、カメラの位置や向きの情報を用いて、2次元のカメラ座標を実空間上の座標に変換することにより、求めることができる。カメラの位置や向きの情報は、カメラ設置時にキャリブレーション処理を行うことにより、取得したり算出したりできる。なお、解像度情報は、1種類の情報だけでなく、複数種類の情報を含むようになっていてもよい。検出されたオブジェクトごとに算出された領域情報111と解像度情報112とは、例えばパターンや模様などの特徴量を抽出する特徴量抽出部102へ出力される。
 (特徴量抽出部)
 特徴量抽出部102では、オブジェクト検出部101から出力されるオブジェクトごとの領域情報111と解像度情報112とに基づいて、入力される画像110からパターンや模様などを記述するオブジェクト特徴量121を抽出する。オブジェクトが人物の場合には、人物の服のパターンや模様の特徴を抽出する。この際、領域の解像度によって、パターンや模様の特徴量が変化しうることを考慮し、解像度情報112も一緒に取り込んでオブジェクト特徴量121を生成し、出力する。解像度情報112を取り込む際、そのままパターンや模様の特徴量に付加して全体としてオブジェクト特徴量121として出力する場合と、解像度情報112を用いて、パターンや模様の特徴量に何らかの変換を加えてオブジェクト特徴量121を求める場合が考えられる。以降の説明において、後者の場合、変換を行う前の特徴量を一次特徴量と呼ぶことにする。
 本実施形態によれば、解像度に応じた特徴の変化を考慮して特徴量を抽出するため、照合ミスによる追跡漏れや検索漏れを少なく抑えるオブジェクト特徴量を生成することができる。
 [第2実施形態]
 次に、本発明の第2実施形態に係るオブジェクト特徴量抽出装置とオブジェクト特徴量抽出装置を含むオブジェクト追跡システムとについて説明する。本実施形態に係るオブジェクト特徴量抽出装置は、カメラからの距離や解像度に応じた模様の特徴の変化を特徴量抽出時から考慮して、オブジェクト特徴量を算出する。また、本実施形態に係るオブジェクト特徴量抽出装置を含むオブジェクト追跡システムは、解像度がオブジェクト特徴量に反映されるため、特徴量の識別精度を最大限に生かして追跡漏れや検索漏れを少なく抑えることができる。例えば、細かい模様の特徴は、解像度が低下するとつぶれて模様がない場合と同様になるが、このような場合でも、もともと細かい模様がつぶれてしまったケースと模様がもともとないケースとにおいて、解像度が特徴量に反映されるため、追跡漏れや検索漏れを少なく抑えることができる。
 《オブジェクト追跡システム》
 図2および図3を参照して、オブジェクト追跡システムの構成および動作を説明する。
 (システム構成)
 図2は、本実施形態に係るオブジェクト特徴量抽出装置(部)220を含むオブジェクト追跡システム200の構成を示すブロック図である。
 図2を参照すると、オブジェクト追跡システム200は、オブジェクト特徴量抽出部220Aと、オブジェクト特徴量抽出部220Bと、特徴量記憶部230と、オブジェクト照合部240と、を備える。
 オブジェクト特徴量抽出部220Aは、カメラ210Aが撮像した画像からオブジェクトを検出し、その模様などの第1特徴量を抽出して特徴量記憶部230に格納する。オブジェクト特徴量抽出部220Bは、カメラ210Bが撮像した画像からオブジェクトを検出し、その模様などの第2特徴量220bを抽出してオブジェクト照合部240へ出力する。オブジェクト照合部240は、オブジェクト特徴量抽出部220Bから出力されるオブジェクトの模様などの第2特徴量220bと、特徴量記憶部230に格納されたオブジェクトの模様などの第1特徴量230aとを照合し、照合結果を出力する。
 なお、図2には図示しないが、照合結果において同一オブジェクトと判定したオブジェクトについて履歴を蓄積することで、オブジェクトをより正確に追跡でき、照合ミスによる追跡漏れや検索漏れを少なく抑えることができる。また、図2において、オブジェクト特徴量抽出部220Aとカメラ210Aとを囲む太破線は、カメラとオブジェクト特徴量抽出部とが一体に内包されたインテリジェントカメラ250Aとして構成可能であることを示している。
 (システム動作)
 図3は、本実施形態に係るオブジェクト特徴量抽出装置(部)220を含むオブジェクト追跡システム200の動作手順を示すフローチャートである。
 カメラ210Aで取得した映像は、オブジェクト特徴量抽出部220Aへ入力され(S301)、オブジェクトを検出してそのオブジェクトの模様などの特徴量の抽出が行われる(S303)。この処理は、上述の第1実施形態の説明で述べたとおりであり、解像度情報が反映された模様などの特徴量を検出されたオブジェクトの分だけ出力し、特徴量記憶部230に格納される(S305)。特徴量記憶部230には、求まったオブジェクト特徴量を、そのオブジェクト特徴量を抽出したカメラと抽出された時刻と、カメラ内での位置等の情報とともに格納され、外部から条件が与えられると、その条件に合致するオブジェクト特徴量を返す。
 一方、カメラ210Bで取得した映像は、オブジェクト特徴量抽出部220Bへ入力され(S307)、オブジェクトを検出してそのオブジェクトの模様などの特徴量の抽出が行われる(S309)。この処理も、オブジェクト特徴量抽出部220Aと同様で、得られたオブジェクト特徴量はオブジェクト照合部240へ出力される。
 オブジェクト照合部240では、オブジェクト特徴量抽出部220Bで抽出されたクエリとなるオブジェクト特徴量が入力されると、照合すべきオブジェクト特徴量を特徴量記憶部230から読み出して(S311)、オブジェクト特徴量同士の解像度情報が反映された照合を行う(S313)。すなわち、オブジェクト特徴量間の類似度を算出し、同一オブジェクトかどうかを判定する。この際、該当するオブジェクトが他のカメラ(この場合はカメラ210A)に映った時刻を予測し、その前後の時刻に取得されたオブジェクト特徴量を読みだして照合するようにしてもよい。あるいは、該当するオブジェクトが他のカメラ(この場合はカメラ210B)に映る時刻を予測し、その前後の時刻に取得されたオブジェクト特徴量を選択して照合するようにしてもよい。得られた結果はオブジェクト照合結果として出力される(S315-S317)。
 かかる手順は、オペレータから終了の指示を受けるまで繰り返される(S319)。
 《オブジェクト特徴量抽出装置(部)の機能構成》
 図4は、本実施形態に係るオブジェクト特徴量抽出装置(部)220の機能構成を示すブロック図である。なお、オブジェクト特徴量抽出装置と表現する場合は独立した装置を示し、オブジェクト特徴量抽出部と表現する場合は他の機能と組み合わされる1機能を示すものとする。
 オブジェクト特徴量抽出装置(部)220は、オブジェクト検出部401と、特徴量抽出部402と、を備える。ここで、オブジェクト検出部401は図1のオブジェクト検出部101と同様の機能要素であり、特徴量抽出部402は図1の特徴量抽出部102と同様の機能要素である。
 ここで、本実施形態の特徴量抽出部402は、一次特徴量抽出部421と、特徴量生成部422と、を備える。一次特徴量抽出部421は、画像情報とオブジェクト検出部401から出力される領域情報とを入力とし、一次特徴量を特徴量生成部422へ出力する。
特徴量生成部422は、一次特徴量抽出部421から出力される一次特徴量と、オブジェクト検出部401から出力される解像度情報とから、パターンや模様などの特徴量を生成して、オブジェクト特徴量として出力する。
 (一次特徴量抽出部)
 一次特徴量抽出部421では、模様やパターンの基本となる特徴量を抽出する。例えば、模様の局所的な特徴を反映した局所特徴量を抽出する。抽出の方法としては、いろいろやり方があるが、キーポイントとなる点をまず抽出し、その周辺の特徴量を抽出する。あるいは、領域に規則的に配列されたグリッドを当てはめ、グリッド点のところで特徴量を抽出する。この際、グリッドの間隔をオブジェクト領域の大きさによって正規化するようにしてもよい。ここで抽出する特徴量としては、SIFT(Scale-Invariant Feature Transform)やSURF(Speed-Up Robust Features )、ORB(Oriented FAST and Rotated BRIEF)など、様々なものを用いることが可能である。また、Haar-like特徴やガボールウェーブレット、HOG(Histograms of Oriented Gradients)等の特徴量でもよい。
 また、オブジェクトの領域を複数の小領域に区切って、小領域ごとに特徴量を抽出するようにしてもよい。オブジェクトが人物の場合、例えば、服領域を水平線で区切った横長の領域ごとに特徴点を求め、特徴量を抽出するようにしてもよい。あるいは、垂直方向N個および水平方向M個の一定数の領域に分割し、それぞれの領域ごとに上述の特徴量を抽出し、それらを繋ぎ合わせて一次特徴量としてもよい。例えば、1つの領域の特徴量がL次元のとき、垂直方向N個および水平方向M個の領域に分割した場合には、(L×M×N)次元のベクトルが特徴量となる。なお、小領域の区切り方は規則的でなくてもよい。例えば、オブジェクトが人物の場合、上半身と下半身(あるいは、さらにそれぞれを何分割かに分割)のように、身体の部位に合わせて小領域を設定してもよい。
 このようにして生成された一次特徴量は、特徴量生成部422へ出力される。
 (特徴量生成部)
 特徴量生成部422では、例えばオブジェクトが人物の場合、一次特徴量抽出部421から出力される服などの特徴量と、オブジェクト検出部401から出力される解像度情報とに基づいて、服など照合に用いる特徴量を生成して、オブジェクト特徴量として出力する。
 (第1生成方法)
 例えば、一次特徴量をクラスタリングして得られる視覚キーワードを事前の学習で生成しておき、どの視覚キーワードに相当するかを判定して、ヒストグラムを作って特徴量とする。この際、ヒストグラムとともに、解像度情報も分離可能な形で付加してオブジェクト特徴量とする。一次特徴量が小領域単位で求まっている場合には、小領域ごとに視覚キーワードのヒストグラムを生成して小領域を繋げた上で、全体に対して解像度情報を分離可能な形で付加するようにしてもよい。
 (第2生成方法)
 あるいは、視覚キーワードのヒストグラムを作る際に、解像度情報を用いて、得られた一次特徴量から各視覚キーワードが生起している確率を求め、その値によって重みづけすることによって、ヒストグラムを算出するようにしてもよい。ここで、視覚キーワードの個数をN、個々の視覚キーワードをxn(n=1,…,N)で表すことにする。また、得られた一次特徴量の個数をJ、個々の得られた一次特徴量をyj(j=1,…,J)で表すことにする。また、解像度情報により、解像度のレベルをK段階に分け、解像度インデックス(k=1,…,K)により区別することとする。解像度インデックスがkのときに、yjが得られたときの各視覚キーワードxnの生起確率をpk(xn|yj)で表すことにすると、一次特徴量yjが取得されたときに、生起確率pk(xn|yj)の値を各視覚キーワードxnに対応するビンに加算していき、ヒストグラムを生成するようにすればよい。
 よって、各視覚キーワードxnに対応するヒストグラムのビンの値をhnとすると、
Figure JPOXMLDOC01-appb-M000001
となる。
 また、生起確率pk(xn|yj)の値は、
Figure JPOXMLDOC01-appb-M000002
と書くことができる。
 ここで、pk(yj|xn)は、解像度インデックスkで表される解像度のときに、視覚キーワードxnの模様パターンの特徴量がyjとなる確率、p(xn)は、視覚キーワードxnの事前確率(視覚キーワードxnがどの程度の頻度で発生するかであり、解像度に非依存)である。
 pk(yj|xn)は、視覚キーワードxnの特徴量が解像度インデックスkに対応する解像度の際にどのように分布するかを調べる(データを使って学習する)ことによって事前に求めることができる。また、p(xn)についても、事前に様々なオブジェクトの模様パターン(人物の場合には服の模様パターンや、服の重ね着によって生じるパターンなど)を調べることによって、どのような模様が服で多く使われるかを求め、分布を出すことができる。あるいは、そのような事前知識がない場合には、一様な分布としてもよい。これらの値を用いて、(数2)の値を計算できる。
 このようにして解像度インデックスkごと、一次特徴量yjの値ごとに、pk(xn|yj)を求めて保存しておき、実際にその値が生じたときに、(数1)にしたがって特徴量を算出する。
 上述のようにしてパターンや模様のオブジェクト特徴量を算出することができる。この場合も、解像度情報を一緒に付加するようにしてもよい。また、一次特徴が小領域ごとに分かれて求まっているときには、小領域ごとに特徴を求め、それらを合わせてパターンや模様のオブジェクト特徴量としてもよい。
 《オブジェクト照合部の機能構成》
 図5は、本実施形態に係るオブジェクト照合部240の機能構成を示すブロック図である。なお、オブジェクト照合部240は、模様などのオブジェクト特徴量に解像度情報が分離可能な状態で統合されている場合の、オブジェクト照合部の構成例である。
 (構成)
 図5を参照するとオブジェクト照合部240は、解像度情報分離部501と、解像度情報分離部502と、信頼度算出部503と、特徴照合部504と、を備える。解像度情報分離部501は、第1特徴量230aから第1解像度情報を分離し、第1解像度情報と第1特徴量のデータとを出力する。解像度情報分離部502は、第2特徴量220bから第2解像度情報を分離し、第2解像度情報と第2特徴量のデータとを出力する。信頼度算出部503は、解像度情報分離部501から出力される第1解像度情報と、解像度情報分離部502から出力される第2解像度情報とから信頼度を算出し、信頼性を表わす指標である信頼度情報を出力する。特徴照合部504は、信頼度算出部503から算出される信頼度に基づいて、解像度情報分離部501から出力される第1特徴量のデータと、解像度情報分離部502から出力される第2特徴量のデータとを照合し、照合結果を出力する。
 (動作)
 特徴量記憶部230から読み出された第1特徴量230aは、解像度情報分離部501へ入力される。解像度情報分離部501では、入力された第1特徴量230aから、解像度に相当する情報を抽出して第1解像度情報として出力するとともに、解像度以外の模様の特徴を表すデータを第1特徴量のデータとして出力する。オブジェクト特徴量抽出装置(部)220Bからの第2特徴量220bは解像度情報分離部502へ入力される。解像度情報分離部502でも、解像度情報分離部501と同様にして、解像度情報を分離し、第2解像度情報と第2特徴量のデータとを出力する。
 分離された第1解像度情報と第2解像度情報とは、信頼度算出部503へ入力される。
信頼度算出部503では、解像度の情報から、特徴量同士の照合結果を信頼できる度合を表す信頼度を算出して出力する。
 一方、分離された第1特徴量のデータと第2特徴量のデータとは、特徴照合部504へ入力される。特徴照合部504では、模様などのオブジェクト特徴量同士の比較を行う。
単純に特徴量間の類似度や距離を算出し、一定閾値以上の類似度を有し、類似性が高い場合に同一オブジェクトと判定するようにして、照合結果を出力する。あるいは、ニューラルネット等で生成した判定器を用い、それに第1特徴量のデータと第2特徴量のデータとを入力して同一かどうか判定するようにしてもよい。この際、信頼度算出部503で算出された信頼度に応じて照合の基準を調整し、同一判定を行ってもよい。また、照合結果は、単純に同一かどうかという2値の判定ではなく、同一性の高さを表す数値を照合結果として出力してもよい。また、信頼度算出部503から出力される信頼度を照合結果に付加してもよい。
 《オブジェクト特徴量抽出装置(部)のハードウェア構成》
 図6は、本実施形態に係るオブジェクト特徴量抽出装置(部)220のハードウェア構成を示すブロック図である。
 図6で、CPU610は演算制御用のプロセッサであり、プログラムを実行することで図4の機能構成部を実現する。CPU610は複数のプロセッサを有し、異なるプログラムやモジュール、タスク、スレッドなどを並行して実行してもよい。ROM620は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。ネットワークインタフェース630は、オブジェクト特徴量抽出装置(部)220が他の機器と分離されている場合に、ネットワークを介して、カメラ210、特徴量記憶部230、または、オブジェクト照合部240を含むオブジェクト追跡装置などとの通信を制御する。
 RAM640は、CPU610が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM640には、本実施形態の実現に必要なデータを記憶する領域が確保されている。撮像画像データ641は、カメラ210から取得した画像データである。オブジェクト検出結果642は、撮像画像データ641に基づいて検出したオブジェクトの検出結果である。オブジェクト検出結果642には、(第1オブジェクト、領域情報/解像度情報)から(第nオブジェクト、領域情報/解像度情報)までの(オブジェクト、領域情報/解像度情報643)の組が記憶される。特徴量抽出テーブル644は、撮像画像データ641と領域情報/解像度情報643とに基づいてオブジェクト特徴量を抽出するためのテーブルである。特徴量抽出テーブル644には、第1オブジェクト用テーブルから第nオブジェクト用テーブルまでのテーブル645が記憶される。オブジェクト特徴量646は、特徴量抽出テーブル644を用いてオブジェクト単位で抽出されたオブジェクトの特徴量である。
 ストレージ650は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。オブジェクト検出用データとパラメータ651は、撮像画像データ641に基づいてオブジェクトを検出するために用いられるデータとパラメータである。特徴量抽出用データとパラメータ652は、撮像画像データ641と領域情報/解像度情報643とに基づいてオブジェクト特徴量を抽出するために用いられるデータとパラメータである。特徴量抽出用データとパラメータ652には、一次特徴量抽出用653と特徴量生成用654とが含まれる。
 ストレージ650には、以下のプログラムが格納される。オブジェクト特徴量抽出プログラム655は、オブジェクト特徴量抽出装置220の全体を制御するためのプログラムである。オブジェクト検出モジュール656は、オブジェクト検出用データとパラメータ651を用いて、撮像画像データ641に基づいてオブジェクトを検出するモジュールである。一次特徴量抽出モジュール657は、一次特徴量抽出用653のデータとパラメータを用いて、撮像画像データ641と領域情報とに基づいて一次特徴量を抽出するモジュールである。特徴量生成モジュール658は、特徴量生成用654のデータとパラメータを用いて、一次特徴量と解像度情報とに基づいてオブジェクト特徴量を生成するモジュールである。
 オブジェクト特徴量抽出装置(部)220がカメラ210と一体化されたインテリジェントカメラ250として提供される場合は、入力出力インタフェース660と、入力出力インタフェース660に接続されるカメラ210とカメラ210を制御するカメラ制御部661とを、さらに有する。
 なお、図6のRAM640やストレージ650には、オブジェクト特徴量抽出装置(部)220が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない。
 (特徴量抽出テーブル)
 図7は、本実施形態に係るオブジェクト特徴量抽出装置(部)220における特徴量抽出テーブル644の構成を示す図である。特徴量抽出テーブル644は、撮像画像データと領域情報/解像度情報とに基づいてオブジェクト特徴量を抽出するために使用されるテーブルである。
 特徴量抽出テーブル644は、カメラID701に対応付けて、当該カメラで撮像された画像データ702を記憶する。画像データ702は、画像IDとその画像が撮像されたタイムスタンプとを含む。なお、画像は静止画も動画も含む。各画像データ702に対応付けて、オブジェクト検出情報703と、特徴量情報704と、を記憶する。オブジェクト検出情報703は、オブジェクトIDと領域情報と解像度情報とを含む。また、特徴量情報704は、一次特徴量とオブジェクト特徴量とを含む。
 《オブジェクト特徴量抽出装置(部)の処理手順》
 図8は、本発明の第2実施形態に係るオブジェクト特徴量抽出装置(部)220の処理手順を示すフローチャートである。このフローチャートは、図6のCPU610がRAM640を使用して実行し、図4の機能構成部を実現する。以下、特徴量抽出装置220と略して説明する。
 特徴量抽出装置220は、ステップS801において、カメラにより撮像された画像の画像データを取得する。特徴量抽出装置220は、ステップS803において、画像データに基づいて画像からオブジェクトを検出し、領域情報および解像度情報を生成する。特徴量抽出装置220は、ステップS805において、画像データに基づいて、画像から、領域情報を用いてオブジェクトの一次特徴を抽出する。特徴量抽出装置220は、ステップS807において、一次特徴から、解像度情報を用いてオブジェクト特徴量を生成する。そして、特徴量抽出装置220は、ステップS809において、例えば服のパターンや模様のオブジェクト特徴量を出力する。特徴量抽出装置220は、ステップS811において、オペレータからの処理の終了指示を判定し、指示がなければカメラからの画像のオブジェクト特徴量抽出と出力とを繰り返す。
 (照合テーブル)
 図9は、本実施形態に係るオブジェクト照合部240の照合テーブル900の構成を示す図である。照合テーブル900は、オブジェクト照合部240において、少なくとも2つのオブジェクトの特徴量を、解像度情報を考慮して照合するために使用される。
 照合テーブル900は、照合する第1オブジェクト情報901および第2オブジェクト情報902を記憶する。第1オブジェクト情報901および第2オブジェクト情報902は、カメラIDと、タイムスタンプと、オブジェクトIDと、特徴量と、を含む。また、照合テーブル900は、第1オブジェクトの特徴量から分離された第1オブジェクトの解像度情報903と、第2オブジェクトの特徴量から分離された第2オブジェクトの解像度情報904と、を記憶する。さらに、照合テーブル900は、第1オブジェクトの解像度情報903と第2オブジェクトの解像度情報904とから判定された信頼度情報905と、信頼度情報905を参照して第1オブジェクト特徴量と第2オブジェクト特徴量とを照合した照合結果906と、を記憶する。
 《オブジェクト照合部の処理手順》
 図10は、本実施形態に係るオブジェクト照合部240の処理手順を示すフローチャートである。このフローチャートは、オブジェクト照合部240を制御する不図示のCPUがRAMを使用して実行し、図4の機能構成部を実現する。
 オブジェクト照合部240は、ステップS1001において、第1オブジェクトの特徴量を取得する。オブジェクト照合部240は、ステップS1003において、第1オブジェクトの特徴量から第1解像度情報903を分離する。オブジェクト照合部240は、ステップS1005において、第2オブジェクトの特徴量を取得する。オブジェクト照合部240は、ステップS1007において、第2オブジェクトの特徴量から第2解像度情報904を分離する。
 オブジェクト照合部240は、ステップS1009において、第1解像度情報903と第2解像度情報904とから、信頼度情報905を算出する。オブジェクト照合部240は、ステップS1011において、第1オブジェクト特徴量と第2オブジェクト特徴量とを、信頼度情報を参照して照合する。オブジェクト照合部240は、ステップS1013において、一致したか否かを判定し、一致したならばステップS1015において、一致した第1オブジェクトと第2オブジェクトとの情報を出力する。オブジェクト照合部240は、ステップS1017において、オペレータからの処理の終了指示を判定し、指示がなければオブジェクトの照合と照合結果の出力とを繰り返す。
 本実施形態によれば、解像度に応じた特徴の変化を考慮してオブジェクト特徴量を抽出し、解像度による信頼度を考慮してオブジェクト特徴量を照合するため、照合ミスによる追跡漏れや検索漏れを少なく抑えることができる。
 [第3実施形態]
 次に、本発明の第3実施形態に係るオブジェクト特徴量抽出装置とオブジェクト特徴量抽出装置を含むオブジェクト追跡システムとについて説明する。本実施形態に係るオブジェクト特徴量抽出装置とオブジェクト特徴量抽出装置を含むオブジェクト追跡システムとは、上記第2実施形態と比べると、オブジェクト特徴量抽出装置の特徴量抽出部と、オブジェクト追跡システムのためのオブジェクト照合部とが、1つの機能構成部で実現されている点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《オブジェクト特徴量抽出装置(部)の機能構成》
 図11は、本実施形態に係るオブジェクト特徴量抽出装置(部)1220の機能構成を示すブロック図である。なお、図11において、図4と同様の機能構成部には同じ参照番号を付して、重複する説明は省略する。
 (構成)
 オブジェクト特徴量抽出装置(部)1120は、オブジェクト検出部401と、1つの特徴識別部1121を有する特徴量抽出部1102とを備える。特徴識別部1121は、オブジェクト検出部401で生成された領域情報および解像度情報と、画像データとを入力し、特徴量を生成してオブジェクト特徴量として出力する。
 (動作)
 領域情報および解像度情報と画像データとは、特徴識別部1121へ入力される。特徴識別部1121は、例えば、様々な模様の特徴を様々な解像度で撮影して分類するように学習された識別器であり、模様を特徴とする場合、入力は服領域内の小領域の画素値と解像度情報とで、出力は各模様の特徴の尤度(“0”から“1”の値で、“1”に近いほどその模様の特徴である可能性が高い)である。N個の模様の特徴を分類する場合には、N個の模様の特徴の尤度が出力となり、これをパターンや模様を示す特徴量とする。
 複数の小領域で求める場合には、小領域ごとに求まる尤度を合わせたものをパターンや模様を示す特徴量とすればよい。識別器は、例えばニューラルネットワークにより構成することができる。この際、画素値と解像度とを一緒に入力して学習させた識別器を用いてもよいし、あるいは、解像度別に個別に学習させた識別器を用いて、解像度情報によって切り替えて用いるようにしてもよい。なお、入力となる小領域は複数あってもよく、その場合、複数の小領域同士は重なりがあっても重なりがなくてもよい。また、小領域の大きさは全て同じであってもよいし、大きさが異なるものがあってもよい。また、小領域の大きさは、服領域の大きさに合わせて正規化するようにしてもよい。
 なお、服の模様を例に説明したが、例えば車などの他の追跡対象の場合は、照合ミスによる追跡漏れや検索漏れを少なく抑えることができる特徴が選択されて、その特徴量が抽出される。
 《オブジェクト照合部の機能構成》
 図12は、本実施形態に係るオブジェクト照合部1240の機能構成を示すブロック図である。なお、図12において、図5と同様の要素には同じ参照番号を付して、重複する説明を省略する。
 図12のオブジェクト照合部1240は、1つの特徴照合部1201を有する。特徴照合部1201へは、第1特徴量230aと第2特徴量220bとが入力される。特徴照合部1201では、解像度情報が組み込まれた両者の類似度を算出し、第1オブジェクトと第2オブジェクトとが同一か否かを判定し、照合結果として出力する。
 本実施形態によれば、より単純な構成で、解像度に応じた特徴の変化を考慮してオブジェクト特徴量を抽出し、解像度による信頼度を考慮してオブジェクト特徴量を照合し、照合ミスによる追跡漏れや検索漏れを少なく抑えることができる。
 [第4実施形態]
 次に、本発明の第4実施形態に係るオブジェクト追跡システムのオブジェクト照合部について説明する。本実施形態に係るオブジェクト照合部は、上記第2実施形態と比べると、信頼度算出部が無く、分離された第1解像度情報と第2解像度情報とが直接、特徴照合部に入力される点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《オブジェクト照合部の機能構成》
 図13は、本実施形態に係るオブジェクト照合部1340の機能構成を示すブロック図である。なお、図13において、図5と同様の機能構成部には同じ参照番号を付して、説明を省略する。
 (構成)
 図13を参照すると、オブジェクト照合部1340は、解像度情報分離部501と、解像度情報分離部502と、特徴照合部1304と、を備える。特徴照合部1304は、解像度情報分離部501から出力される第1解像度情報と解像度情報分離部502から出力される第2解像度情報とを用い、解像度情報分離部501から出力される第1特徴量のデータと、解像度情報分離部502から出力される第2特徴量のデータとを照合し、照合結果を出力する。
 (動作)
 特徴照合部1304においては、第1特徴量のデータと第2特徴量のデータとを比較し、オブジェクトが同一かどうかを判定する。その場合に、第1解像度情報と第2解像度情報も特徴照合部1304に入力され、照合に用いられる。例えば、解像度ごとに照合の確からしさを学習した識別器を用いて、第1特徴量のデータと第2特徴量のデータが同一である度合を判定し、照合結果として出力する。この場合も、同一か否かの2値でなく、同一性の高さを表す数値を照合結果として出力してよい。
 本実施形態によれば、信頼度算出部を設けないので、より簡単な構成のオブジェクト照合部で照合ミスによる追跡漏れや検索漏れを少なく抑えることができる。
 [第5実施形態]
 次に、本発明の第5実施形態に係るオブジェクト特徴量抽出装置について説明する。本実施形態に係るオブジェクト特徴量抽出装置は、上記第2実施形態および第3実施形態と比べると、オブジェクト追跡により特徴の変化を学習して、学習結果を反映させたオブジェクト特徴量の抽出をする点で異なる。その他の構成および動作は、第2実施形態または第3実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《オブジェクト特徴量抽出装置(部)の機能構成》
 図14は、本実施形態に係るオブジェクト特徴量抽出装置(部)1420の機能構成を示すブロック図である。なお、図14において、図4と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。
 (構成)
 図14を参照すると、オブジェクト特徴量抽出装置(部)1420は、オブジェクト検出部401と、特徴量抽出部1402と、オブジェクト追跡部1403、特徴学習部1404と、を備える。なお、オブジェクト検出部401は、図4のものと同様である。
 オブジェクト追跡部1403は、オブジェクト検出部401から出力される領域情報と、入力される画像の画像データに基づいてオブジェクトのフレーム間での追跡を行い、オブジェクトの追跡識別子(以下、追跡ID)を出力する。特徴学習部1404は、オブジェクト検出部401から出力される解像度情報および領域情報と、オブジェクト追跡部1403から出力される追跡結果と、特徴量抽出部1402の一次特徴量抽出部421から出力される一次特徴量とを用いて、特徴量の解像度による変化を学習し、学習結果を特徴量抽出部1402の特徴量生成部1422へ出力する。特徴量生成部1422は、画像データと、オブジェクト検出部401から出力される領域情報および解像度情報と、特徴学習部1404から出力される特徴の学習結果とから、オブジェクトのパターンや模様などの特徴量を抽出してオブジェクト特徴量として出力する。
 (動作)
 オブジェクト検出部401の動作は、図4の場合と同様であり解像度情報と領域情報とを検出されたオブジェクトごとに出力する。出力された解像度情報は、特徴量抽出部1402の一次特徴量抽出部421へ入力される。一方、出力された解像度情報は、特徴量抽出部1402の特徴量生成部1422に加え、オブジェクト追跡部1403および特徴学習部1404へも入力される。
 オブジェクト追跡部1403では、入力されるオブジェクト検出の結果を、それまでに得られているオブジェクトの追跡結果と対応付けることによって、現在のフレームに対する追跡結果を算出する。この際、追跡には、既存の様々な手法を用いることができる。例えば、カルマンフィルタによる追跡や、パーティクルフィルタによる追跡手法を用いることができる。この結果、各検出オブジェクトに対する追跡IDが算出される。算出された追跡IDは、特徴学習部1404へ出力される。
 特徴学習部1404では、オブジェクト検出部401から出力されるオブジェクトごとの解像度情報および領域情報と、オブジェクト追跡部1403から出力されるオブジェクトごとの追跡IDの情報と、特徴量抽出部1402の一次特徴量抽出部421から出力されるオブジェクトごとの一次特徴量とから、解像度が特徴量に与える影響を学習し、各解像度に対する事後確率情報を求める。
 まず、同一追跡IDに対応する一次特徴量をグループ化する。この際、さらにオブジェクト領域内での位置も考慮してクループ化してもよい。例えば、同一追跡IDを持つ人物のm番目の小領域に属する特徴量の場合には、同じm番目の小領域に位置する特徴量同士を集めてグループ化する。なお、グループ化した個々の特徴量から対応する解像度情報もすぐに求まるように対応付けられているものとする。次に、グループ化した特徴量の中で、解像度が一定以上高い特徴量を基準として、元の模様特徴が視覚キーワードxn(n=1,…,N)のどれに相当するかを求める。これにより、このグループの特徴量を用いることにより、xnが解像度によってどのように変化するかがわかるようになる。これを、確実に追跡できた複数の人物に対して反復することで、各xnが解像度に依存してどのように変化するかを学習する。学習の結果は、特徴量抽出部1402の特徴量生成部1422へ出力され、後の特徴量生成で用いられる。
 これにより、カメラごとに特徴量の解像度による変化の影響が自動的に学習されるため、より模様特徴の識別に適した特徴量を得ることが可能となる。なお、オブジェクトが人物のとき、オンライン学習は、実際の運用時に、人物が少なく追跡の誤りがないと考える場合に限定して、データを用いて学習するようにしてもよい。あるいは、服の模様を特徴とする場合、設置時に、様々な模様の服を着て歩くことによって、システムに学習させて用いるようにしてもよい。この際、様々な特徴量が描かれた服を着て学習するようにしてもよい。
 (特徴量抽出テーブル)
 図15は、本実施形態に係るオブジェクト特徴量抽出装置(部)1420における特徴量抽出テーブル1500の構成を示す図である。特徴量抽出テーブル1500は、撮像画像データと領域情報/解像度情報とに基づいて、オブジェクト追跡による学習結果を用いてオブジェクト特徴量を抽出するために使用されるテーブルである。
 特徴量抽出テーブル1500は、オブジェクトの追跡ID1501のそれぞれに対応付けて、オブジェクト追跡情報1502と学習用情報1503とを蓄積する。そして、オブジェクト追跡情報1502と学習用情報1503とから、特徴学習情報1504を生成する。ここで、オブジェクト追跡情報1502は、画像IDとタイムスタンプと領域情報とを含み、学習用情報1503は一次特徴量と解像度情報とを含む。
 《オブジェクト特徴量抽出装置(部)の処理手順》
 図16は、本実施形態に係るオブジェクト特徴量抽出装置(部)1420の処理手順を示すフローチャートである。このフローチャートは、CPU610がRAM640を使用して実行して図14の機能構成部を実現する。なお、図16において、図8と同様のステップには同じステップ番号を付して、重複する説明を省略する。また、特徴量抽出装置1420と略して説明する。
 特徴量抽出装置1420は、ステップS1606において、画像データから領域情報を用いてオブジェクトを追跡する。特徴量抽出装置1420は、ステップS1607において、オブジェクトごとに、一次特徴量と領域情報と解像度情報とから特徴学習情報を生成する。そして、特徴量抽出装置1420は、ステップS1608において、一次特徴量から、解像度情報と特徴学習情報とを用いて、オブジェクト特徴量を生成する。
 本実施形態によれば、オブジェクト追跡により特徴の変化を学習して学習結果を反映させたオブジェクト特徴量を抽出するので、照合ミスによる追跡漏れや検索漏れをさらに少なく抑えるオブジェクト特徴量を生成することができる。
 [第6実施形態]
 次に、本発明の第6実施形態に係るオブジェクト追跡システムのオブジェクト特徴量抽出部について説明する。本実施形態に係るオブジェクト特徴量抽出部は、上記第2実施形態乃至第5実施形態と比べると、オブジェクト追跡処理を行なうサーバとしてのオブジェクト追跡装置においてオブジェクト特徴量の抽出を行なう点で異なる。その他の構成および動作は、第2実施形態から第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《オブジェクト特徴量抽出装置(部)の機能構成》
 図17は、本実施形態に係るオブジェクト特徴量抽出装置(部)の機能構成を示すブロック図である。なお、図17において、図4または図14と同様の機能構成部には同じ参照番号を付して、重複する説明を省略する。
 オブジェクト追跡部1703は、図14に示すような1つのカメラからの画像でなく、図17に示すように少なくとも2つのカメラからの画像データに基づいてオブジェクトを追跡する。そして、特徴学習部1704は、オブジェクト追跡部1703からの追跡情報と、少なくとも2つの一次特徴量抽出部421からの一次特徴量とを用いて、オブジェクトの特徴を学習し、少なくとも2つの特徴量生成部1422の特徴生成に学習結果を出力する。
 本実施形態によれば、第2実施形態の独立したオブジェクト特徴量抽出装置や、カメラとオブジェクト特徴量抽出部とが一体となったインテリジェント撮像装置とは異なって、オブジェクト追跡処理を行なうサーバでオブジェクト特徴量の抽出をオブジェクト追跡と同時に処理する。したがって、迅速でより広範囲の情報を用いた効率的なオブジェクト追跡ができる。
 [他の実施形態]
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。例えば、「オブジェクト特徴量抽出装置(部)」と「オブジェクト照合部」との組合せは、上記実施形態に限定されずに、異なる実施形態の構成が組み合わされてもよい。
 また、本発明によれば、例えば位置が離れた2つの場所のカメラを使って、特定オブジェクト(人や車)を追跡することができるようになる。例えば、事件が起きたときに、複数カメラを用いて犯人を追跡したりする目的で利用することができる。また、迷子になった子がいるときに、複数カメラ間で検索し、迷子を見つける目的で利用することができる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
 [実施形態の他の表現]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、
 前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、
 を備えるオブジェクト特徴量抽出装置。
 (付記2)
 前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
 付記1に記載のオブジェクト特徴量抽出装置。
 (付記3)
 前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
 付記1に記載のオブジェクト特徴量抽出装置。
 (付記4)
 前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
 付記3に記載のオブジェクト特徴量抽出装置。
 (付記5)
 前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
 付記1乃至4のいずれか1項に記載のオブジェクト特徴量抽出装置。
 (付記6)
 前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力するオブジェクト追跡手段と、
 前記特徴量抽出手段で算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出手段にフィードバックする特徴学習手段と、
 をさらに備える付記2に記載のオブジェクト特徴量抽出装置。
 (付記7)
 それぞれ、付記1乃至6のいずれか1項に記載のオブジェクト特徴量抽出装置である、第1オブジェクト特徴量抽出装置と、第2オブジェクト特徴量抽出装置と、を含み、
 前記第1オブジェクト特徴量抽出装置により第1画像から検出されたオブジェクトの領域における、第1解像度情報を含む第1特徴量を記憶する特徴量記憶手段と、
付記 前記第2オブジェクト特徴量抽出装置により前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、第2解像度情報を含む第2特徴量と、前記特徴量記憶手段から読み出された前記第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定するオブジェクト照合手段と、
 を備えるオブジェクト追跡システム。
 (付記8)
 少なくとも撮像部とオブジェクト特徴量抽出部とを有するインテリジェント撮像装置であって、
 前記オブジェクト特徴量抽出部は、
  前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、
  前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、
 を備えるインテリジェント撮像装置。
 (付記9)
 画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、
 前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する、特徴量抽出を行う
 オブジェクト特徴量抽出方法。
 (付記10)
 前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
 付記9に記載のオブジェクト特徴量抽出方法。
 (付記11)
 前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
 付記9に記載のオブジェクト特徴量抽出方法。
 (付記12)
 前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
 付記11に記載のオブジェクト特徴量抽出方法。
 (付記13)
 前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
 付記9乃至12のいずれか1項に記載のオブジェクト特徴量抽出方法。
 (付記14)
 前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力し、
 前記特徴量抽出によって算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出にフィードバックする、
 付記10に記載のオブジェクト特徴量抽出方法。
 (付記15)
 付記9乃至14のいずれか1項に記載のオブジェクト特徴量抽出方法により抽出された第1特徴量と第2特徴量とを照合するオブジェクト追跡方法であって、
 前記第1特徴量は、第1画像から検出されたオブジェクトの領域における、第1解像度情報を含む特徴量であり、特徴量記憶手段に記憶され、
付記 前記第2特徴量は、前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、第2解像度情報を含む特徴量であり、
 前記第2特徴量と、前記特徴量記憶手段から読み出された前記第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定する、
 オブジェクト追跡方法。
 (付記16)
 撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、
 前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する、
 インテリジェント撮像方法。
 (付記17)
 画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、
 前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、
 をコンピュータに実行させるオブジェクト特徴量抽出プログラムを記憶する記憶媒体。
 (付記18)
 前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
 付記17に記載の記憶媒体。
 (付記19)
 前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
 付記17に記載の記憶媒体。
 (付記20)
 前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
 付記19に記載の記憶媒体。
 (付記21)
 前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
 付記17乃至20のいずれか1項に記載の記憶媒体。
 (付記22)
 前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力するオブジェクト追跡処理と、
 前記特徴量抽出処理で算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出処理にフィードバックする特徴学習処理と、
 をコンピュータにさらに実行させる付記18に記載の記憶媒体。
 (付記23)
 付記17乃至22のいずれか1項に記載の記憶媒体に格納されているオブジェクト特徴量抽出プログラムを実行する、第1コンピュータに接続されている特徴量記憶手段と、第2コンピュータと、に接続されている第3コンピュータに、
 第2解像度情報を含む第2特徴量と、前記特徴量記憶手段から読み出された第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定するオブジェクト照合処理、
 を実行させ、
 前記第1特徴量は、前記第1コンピュータにより第1画像から検出されたオブジェクトの領域における、前記第1解像度情報を含む特徴量であり、前記特徴量記憶手段に格納され、
 前記第2特徴量は、前記第2コンピュータにより前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、前記第2解像度情報を含む特徴量である、
 オブジェクト追跡プログラムを記憶する記憶媒体。
 (付記24)
 少なくとも撮像部と接続されたコンピュータに、
 前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、
 前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、
 を実行させるインテリジェント撮像プログラムを記憶する記憶媒体。
 以上、実施形態を参照して本発明を説明したが、本願発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2017年3月22日に出願された日本出願特願2017-055913を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 100  オブジェクト特徴量抽出装置
 101  オブジェクト検出部
 102  特徴量抽出部
 110  画像
 111  領域情報
 112  解像度情報
 121  オブジェクト特徴量
 200  オブジェクト追跡システム
 210  カメラ
 210A  カメラ
 210B  カメラ
 220  特徴量抽出装置
 220  オブジェクト特徴量抽出装置(部)
 220A  オブジェクト特徴量抽出部
 220b  第2特徴量
 220B  オブジェクト特徴量抽出装置(部)
 230  特徴量記憶部
 230a  第1特徴量
 240  オブジェクト照合部
 250  インテリジェントカメラ
 250A  インテリジェントカメラ
 401  オブジェクト検出部
 402  特徴量抽出部
 421  一次特徴量抽出部
 422  特徴量生成部
 501  解像度情報分離部
 502  解像度情報分離部
 503  信頼度算出部
 504  特徴照合部
 630  ネットワークインタフェース
 641  撮像画像データ
 642  オブジェクト検出結果
 643  解像度情報
 644  特徴量抽出テーブル
 645  テーブル
 646  オブジェクト特徴量
 650  ストレージ
 651  パラメータ
 652  パラメータ
 653  一次特徴量抽出用
 654  特徴量生成用
 655  オブジェクト特徴量抽出プログラム
 656  オブジェクト検出モジュール
 657  一次特徴量抽出モジュール
 658  特徴量生成モジュール
 660  入力出力インタフェース
 661  カメラ制御部
 702  画像データ
 703  オブジェクト検出情報
 704  特徴量情報
 900  照合テーブル
 901  第1オブジェクト情報
 902  第2オブジェクト情報
 903  解像度情報
 903  第1解像度情報
 904  解像度情報
 904  第2解像度情報
 905  信頼度情報
 906  照合結果
 1102  特徴量抽出部
 1120  オブジェクト特徴量抽出装置(部)
 1121  特徴識別部
 1201  特徴照合部
 1220  オブジェクト特徴量抽出装置(部)
 1240  オブジェクト照合部
 1304  特徴照合部
 1340  オブジェクト照合部
 1402  特徴量抽出部
 1403  オブジェクト追跡部
 1404  特徴学習部
 1420  特徴量抽出装置
 1420  オブジェクト特徴量抽出装置(部)
 1422  特徴量生成部
 1500  特徴量抽出テーブル
 1502  オブジェクト追跡情報
 1503  学習用情報
 1504  特徴学習情報
 1703  オブジェクト追跡部
 1704  特徴学習部

Claims (24)

  1.  画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、
     前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、
     を備えるオブジェクト特徴量抽出装置。
  2.  前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
     請求項1に記載のオブジェクト特徴量抽出装置。
  3.  前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
     請求項1に記載のオブジェクト特徴量抽出装置。
  4.  前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
     請求項3に記載のオブジェクト特徴量抽出装置。
  5.  前記特徴量抽出手段は、前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
     請求項1乃至4のいずれか1項に記載のオブジェクト特徴量抽出装置。
  6.  前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力するオブジェクト追跡手段と、
     前記特徴量抽出手段で算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出手段にフィードバックする特徴学習手段と、
     をさらに備える請求項2に記載のオブジェクト特徴量抽出装置。
  7.  それぞれ、請求項1乃至6のいずれか1項に記載のオブジェクト特徴量抽出装置である、第1オブジェクト特徴量抽出装置と、第2オブジェクト特徴量抽出装置と、を含み、
     前記第1オブジェクト特徴量抽出装置により第1画像から検出されたオブジェクトの領域における、第1解像度情報を含む第1特徴量を記憶する特徴量記憶手段と、
     前記第2オブジェクト特徴量抽出装置により前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、第2解像度情報を含む第2特徴量と、前記特徴量記憶手段から読み出された前記第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定するオブジェクト照合手段と、
     を備えるオブジェクト追跡システム。
  8.  少なくとも撮像部とオブジェクト特徴量抽出部とを有するインテリジェント撮像装置であって、
     前記オブジェクト特徴量抽出部は、
      前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出手段と、
      前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出手段と、
     を備えるインテリジェント撮像装置。
  9.  画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、
     前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する、特徴量抽出を行う
     オブジェクト特徴量抽出方法。
  10.  前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
     請求項9に記載のオブジェクト特徴量抽出方法。
  11.  前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
     請求項9に記載のオブジェクト特徴量抽出方法。
  12.  前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
     請求項11に記載のオブジェクト特徴量抽出方法。
  13.  前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
     請求項9乃至12のいずれか1項に記載のオブジェクト特徴量抽出方法。
  14.  前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力し、
     前記特徴量抽出によって算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出にフィードバックする、
     請求項10に記載のオブジェクト特徴量抽出方法。
  15.  請求項9乃至14のいずれか1項に記載のオブジェクト特徴量抽出方法により抽出された第1特徴量と第2特徴量とを照合するオブジェクト追跡方法であって、
     前記第1特徴量は、第1画像から検出されたオブジェクトの領域における、第1解像度情報を含む特徴量であり、特徴量記憶手段に記憶され、
     前記第2特徴量は、前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、第2解像度情報を含む特徴量であり、
     前記第2特徴量と、前記特徴量記憶手段から読み出された前記第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定する、
     オブジェクト追跡方法。
  16.  撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成し、
     前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する、
     インテリジェント撮像方法。
  17.  画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、
     前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、
     をコンピュータに実行させるオブジェクト特徴量抽出プログラムを記憶する記憶媒体。
  18.  前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から一次特徴量を抽出し、前記一次特徴量に前記解像度情報を分離可能に付加して前記オブジェクトの特徴を表す特徴量を生成する
     請求項17に記載の記憶媒体。
  19.  前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から抽出した特徴量を、前記解像度情報により変換して前記オブジェクトの特徴を表す特徴量を生成する
     請求項17に記載の記憶媒体。
  20.  前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像から抽出した特徴量に対して、前記解像度情報に基づいて尤度を求め、前記求めた尤度に基づいて前記オブジェクトの特徴を表す特徴量を生成する
     請求項19に記載の記憶媒体。
  21.  前記特徴量抽出処理は、前記領域情報で定められる領域内の前記画像に含まれる複数の小領域に対して、前記解像度情報が示す解像度ごとに学習した識別器が出力する尤度を特徴量とする
     請求項17乃至20のいずれか1項に記載の記憶媒体。
  22.  前記領域情報で定められる領域内の画像の特徴量を時系列で比較することにより、異なる時刻の画像間における同一オブジェクトを判定し、前記同一オブジェクトを識別する追跡識別子を生成して出力するオブジェクト追跡処理と、
     前記特徴量抽出処理で算出される前記一次特徴量を、前記領域情報と前記解像度情報と前記追跡識別子とに基づいてグループ化するとともに、グループ内で解像度が高い領域から求まった一次特徴量に基づいて元の特徴量を推定し、前記推定した元の特徴量が解像度によってどのように値が変化するかを学習し、学習した結果を前記特徴量抽出処理にフィードバックする特徴学習処理と、
     をコンピュータにさらに実行させる請求項18に記載の記憶媒体。
  23.  請求項17乃至22のいずれか1項に記載の記憶媒体に格納されているオブジェクト特徴量抽出プログラムを実行する、第1コンピュータに接続されている特徴量記憶手段と、第2コンピュータと、に接続されている第3コンピュータに、
     第2解像度情報を含む第2特徴量と、前記特徴量記憶手段から読み出された第1解像度情報を含む第1特徴量とを照合し、前記第1解像度情報と前記第2解像度情報とを考慮して同一のオブジェクトか否かを判定するオブジェクト照合処理、
     を実行させ、
     前記第1特徴量は、前記第1コンピュータにより第1画像から検出されたオブジェクトの領域における、前記第1解像度情報を含む特徴量であり、前記特徴量記憶手段に格納され、
     前記第2特徴量は、前記第2コンピュータにより前記第1画像と異なる第2画像から検出されたオブジェクトの領域における、前記第2解像度情報を含む特徴量である、
     オブジェクト追跡プログラムを記憶する記憶媒体。
  24.  少なくとも撮像部と接続されたコンピュータに、
     前記撮像部が撮像した画像からオブジェクトを検出し、前記オブジェクトの存在する領域を表す領域情報と、前記オブジェクトの解像度に係る解像度情報とを生成するオブジェクト検出処理と、
     前記領域情報で定められる領域内の前記画像から、前記解像度情報を考慮して前記オブジェクトの特徴を表す特徴量を抽出する特徴量抽出処理と、
     を実行させるインテリジェント撮像プログラムを記憶する記憶媒体。
PCT/JP2018/009657 2017-03-22 2018-03-13 オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体 WO2018173848A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/491,643 US20200034649A1 (en) 2017-03-22 2018-03-13 Object tracking system, intelligent imaging device, object feature extraction device, and object feature extraction method
JP2019507570A JP7180590B2 (ja) 2017-03-22 2018-03-13 オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びオブジェクト特徴量抽出プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017055913 2017-03-22
JP2017-055913 2017-03-22

Publications (1)

Publication Number Publication Date
WO2018173848A1 true WO2018173848A1 (ja) 2018-09-27

Family

ID=63586545

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/009657 WO2018173848A1 (ja) 2017-03-22 2018-03-13 オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体

Country Status (3)

Country Link
US (1) US20200034649A1 (ja)
JP (1) JP7180590B2 (ja)
WO (1) WO2018173848A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020217369A1 (ja) * 2019-04-25 2020-10-29
WO2022195790A1 (ja) * 2021-03-18 2022-09-22 三菱電機株式会社 画像処理装置及び画像処理方法
JP7466760B2 (ja) 2020-09-28 2024-04-12 エヌイーシー ラボラトリーズ アメリカ インク 時空間推論および位置特定のためのマルチホップトランスフォーマー

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262425A (ja) * 2007-04-12 2008-10-30 Canon Inc 画像処理装置及びその制御方法
WO2015025704A1 (ja) * 2013-08-23 2015-02-26 日本電気株式会社 映像処理装置、映像処理方法および映像処理プログラム
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008262425A (ja) * 2007-04-12 2008-10-30 Canon Inc 画像処理装置及びその制御方法
WO2015025704A1 (ja) * 2013-08-23 2015-02-26 日本電気株式会社 映像処理装置、映像処理方法および映像処理プログラム
JP2017041022A (ja) * 2015-08-18 2017-02-23 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2020217369A1 (ja) * 2019-04-25 2020-10-29
WO2020217369A1 (ja) * 2019-04-25 2020-10-29 日本電気株式会社 オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び非一時的なコンピュータ可読媒体
JP7215569B2 (ja) 2019-04-25 2023-01-31 日本電気株式会社 オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びプログラム
US11875518B2 (en) 2019-04-25 2024-01-16 Nec Corporation Object feature extraction device, object feature extraction method, and non-transitory computer-readable medium
JP7466760B2 (ja) 2020-09-28 2024-04-12 エヌイーシー ラボラトリーズ アメリカ インク 時空間推論および位置特定のためのマルチホップトランスフォーマー
WO2022195790A1 (ja) * 2021-03-18 2022-09-22 三菱電機株式会社 画像処理装置及び画像処理方法
JPWO2022195790A1 (ja) * 2021-03-18 2022-09-22
JP7274068B2 (ja) 2021-03-18 2023-05-15 三菱電機株式会社 画像処理装置及び画像処理方法
GB2618757A (en) * 2021-03-18 2023-11-15 Mitsubishi Electric Corp Image processing device and image processing method
GB2618757B (en) * 2021-03-18 2024-05-29 Mitsubishi Electric Corp Image processing device and image processing method

Also Published As

Publication number Publication date
US20200034649A1 (en) 2020-01-30
JPWO2018173848A1 (ja) 2020-01-30
JP7180590B2 (ja) 2022-11-30

Similar Documents

Publication Publication Date Title
Yan et al. Face detection by structural models
US10007850B2 (en) System and method for event monitoring and detection
JP5010905B2 (ja) 顔認証装置
JP6032921B2 (ja) 物体検出装置及びその方法、プログラム
JP5675229B2 (ja) 画像処理装置及び画像処理方法
Eweiwi et al. Temporal key poses for human action recognition
JP2006293644A (ja) 情報処理装置、情報処理方法
JP2004523840A (ja) モデル集合によるオブジェクトの分類
JP2017016593A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
WO2020195732A1 (ja) 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
WO2018173848A1 (ja) オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体
Kim Mixtures of conditional random fields for improved structured output prediction
Andiani et al. Face recognition for work attendance using multitask convolutional neural network (MTCNN) and pre-trained facenet
Stathopoulou et al. Appearance-based face detection with artificial neural networks
Meena et al. A robust face recognition system for one sample problem
Eldho et al. YOLO based Logo detection
El-Bashir et al. Face Recognition Model Based on Covariance Intersection Fusion for Interactive devices
Meena et al. Hybrid neural network architecture for multi-label object recognition using feature fusion
KR100711223B1 (ko) 저니키(Zernike)/선형 판별 분석(LDA)을 이용한얼굴 인식 방법 및 그 방법을 기록한 기록매체
Vivekanandam et al. A credible way of face recognition and classification system in video scrutiny
JP7491462B2 (ja) 因果相互作用検出装置、制御方法、及びプログラム
Jahagirdar et al. A Novel Human Action Recognition and Behaviour Analysis Technique using SWFHOG
TW484105B (en) Door security system of face recognition
KR102448268B1 (ko) 심층 신경망 알고리즘 기반 객체 자동학습, 검증 및 배포에 의한 객체분석 정확도 향상을 위한 지능형 영상 분석 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18771664

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019507570

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18771664

Country of ref document: EP

Kind code of ref document: A1