WO2020217368A1 - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
WO2020217368A1
WO2020217368A1 PCT/JP2019/017560 JP2019017560W WO2020217368A1 WO 2020217368 A1 WO2020217368 A1 WO 2020217368A1 JP 2019017560 W JP2019017560 W JP 2019017560W WO 2020217368 A1 WO2020217368 A1 WO 2020217368A1
Authority
WO
WIPO (PCT)
Prior art keywords
quality
information processing
objects
feature amount
unit
Prior art date
Application number
PCT/JP2019/017560
Other languages
English (en)
French (fr)
Inventor
亮磨 大網
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021515397A priority Critical patent/JP7197000B2/ja
Priority to US17/601,747 priority patent/US12094186B2/en
Priority to PCT/JP2019/017560 priority patent/WO2020217368A1/ja
Publication of WO2020217368A1 publication Critical patent/WO2020217368A1/ja
Priority to US18/234,660 priority patent/US12087036B2/en
Priority to US18/234,672 priority patent/US12087037B2/en
Priority to US18/234,681 priority patent/US12087038B2/en
Priority to US18/234,699 priority patent/US12087040B2/en
Priority to US18/234,693 priority patent/US12087039B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program.
  • an object such as a person or a car is detected using a camera and a feature amount is extracted.
  • the object refers to an object such as a person, a car, or an animal.
  • Features are used to collate objects detected between different cameras and to search for the same or similar objects in previously captured and stored footage.
  • Patent Document 1 discloses a method for extracting a feature amount of a person.
  • the method of Patent Document 1 based on the size of a person on the screen and the past feature amount extraction frequency, which person's feature amount detected on the screen is prioritized according to the size. decide.
  • Patent Document 1 is provided with a comprehensive selection means for selecting a person whose feature amount is to be extracted by a random number, and a method of alternately performing priority processing and comprehensive processing to select a person and extract the feature amount. Is described. Further, Patent Document 1 describes that the orientation of the person is taken into consideration when selecting the person from whom the feature amount is to be extracted.
  • Patent Document 2 discloses a method in which the frequency of extracting the feature amount of a person is increased toward the lower area of the screen. Further, Patent Document 2 describes that, in consideration of the magnitude of movement of a person, the frequency of feature amount extraction is increased as the movement of the person is larger.
  • Patent Document 1 since the technique described in Patent Document 1 only considers the size of the person and the frequency of extracting the feature amount, there is a possibility that the feature amount unsuitable for collation is extracted. Since the technique described in Patent Document 2 only considers the position of a person on the screen, there is a possibility that a feature amount unsuitable for collation may be extracted.
  • An object of the present invention is to provide an information processing device, an information processing method, and an information processing program capable of extracting features suitable for collation.
  • the information processing apparatus predicts the quality of the feature quantity extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects.
  • the feature quantity is extracted from the predictive means, the selection means for selecting only the object whose feature quantity quality predicted by the predictor means satisfies a predetermined condition from the plurality of objects, and the object selected by the selection means. It has a feature amount extracting means to be processed.
  • the information processing method predicts the quality of the feature quantity extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects. , Only the object whose quality of the feature quantity satisfies a predetermined condition is selected from the plurality of objects, and the feature quantity is extracted from the selected object.
  • the information processing program predicts the quality of the feature quantity extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects. Prediction processing, selection processing that selects only objects whose feature quantity quality predicted by the prediction processing satisfies a predetermined condition among the plurality of objects, and extraction of feature quantities from the objects selected by the selection process. Let the computer execute the feature amount extraction process.
  • a feature amount suitable for collation can be extracted.
  • FIG. 1 is a diagram showing a configuration of an information processing device 100 according to the present embodiment.
  • the information processing device 100 shown in FIG. 1 includes a prediction unit 101, a selection unit 102, and a feature amount extraction unit 103.
  • the prediction unit 101 predicts the quality of the feature quantity extracted from the object based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects.
  • the selection unit 102 selects only the objects whose feature quantity predicted by the prediction unit 101 satisfies a predetermined condition among the plurality of objects.
  • the feature amount extraction unit 103 extracts the feature amount from the object selected by the selection unit 102.
  • FIG. 2 is a flowchart illustrating the flow of processing executed by the information processing apparatus 100 of the first embodiment.
  • step S102 the prediction unit 101 predicts the quality of the feature quantity extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects.
  • step S104 the selection unit 102 selects only the objects whose feature quantity predicted by the prediction unit 101 in step S102 satisfies a predetermined condition among the plurality of objects.
  • step S106 the feature amount extraction unit 103 extracts the feature amount from the object selected by the selection unit 102 in step S104. After extracting the feature amount, the information processing apparatus 100 ends the process.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing device selects an object for feature quantity extraction even in a situation where a large number of objects are displayed on the screen, and while suppressing the cost required for the feature quantity extraction process, the object as a whole is highly accurate. It is possible to extract features that can be collated.
  • FIG. 3 is a diagram showing the configuration of the information processing device 200 according to the present embodiment.
  • the information processing device 200 shown in FIG. 3 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 210, a selection unit 207, and a feature amount extraction unit 208.
  • the prediction unit 210 includes a positional relationship analysis unit 204, a quality prediction unit 205, and an environmental factor storage unit 206.
  • the image acquisition unit 201 acquires images captured by one or more imaging devices such as cameras (not shown).
  • the photographing device captures an image of an area or an object to be monitored.
  • the photographing device may be any device as long as it can capture an image.
  • the shooting device is a fixed surveillance camera, a Web camera, a camera mounted on a moving body such as a UAV (Unmanned aerial vehicle) or a vehicle, a wearable camera worn by police officers or security guards, or a video camera shot by a user. is there.
  • the video acquisition unit 201 outputs the acquired video as a moving image sequence to the detection unit 202, the tracking unit 203, and the feature amount extraction unit 208.
  • the detection unit 202 detects an object from the video output by the video acquisition unit 201, and outputs the detection result as detection result information.
  • the detection unit 202 detects a person area by using a detector that has learned the image features of the person.
  • the detection unit 202 may use a detector that detects based on HOG (Histograms of Oriented Gradients) characteristics, or a detector that directly detects from an image using a CNN (Convolutional Neural Network).
  • the detection unit 202 may detect a person by using a detector trained in a part of the person (for example, the head) instead of the whole person.
  • the detection unit 202 identifies a person area by detecting the head position and the foot position by using a detector that has learned the head and the feet.
  • the detection unit 202 may be configured to obtain a person area by combining silhouette information (information on a region having a difference from the background model) obtained by background subtraction and head detection information.
  • the detection unit 202 detects the vehicle by using a detector that has learned the image features of the vehicle.
  • the detection unit 202 may construct and use a detector that has learned the image features of the specific object.
  • the detection unit 202 generates detection result information from the information of the detected object.
  • the detection result information includes information for identifying a frame such as frame time information or frame number and information on the detected object.
  • the object information includes the detection position and size of the object.
  • the detection unit 202 may represent the detection position of the object as a position on the screen, or may represent it as a position converted into real-world coordinates by using parameters representing the position and orientation of the camera obtained by camera calibration. Good. For example, when the detection position of an object is represented by a position on the screen, the detection unit 202 represents the detection position by the coordinates of the vertices of the rectangle surrounding the object (for example, the upper left and lower right vertices).
  • the detection unit 202 may represent the detection position of the object by the width and height of one vertex and a rectangle.
  • the detection result information includes the information of the plurality of detected objects in the generated detection result information, and includes an identifier that distinguishes the detected objects within the same frame.
  • the identifier is ID information assigned to distinguish a plurality of objects detected in the same frame, and is different from the identifier assigned to the tracked object.
  • the detection unit 202 outputs the detection result information to the tracking unit 203, the quality prediction unit 205, and the feature amount extraction unit 208.
  • the tracking unit 203 performs a tracking process called Tracking by Detection based on the detection result information. That is, the tracking unit 203 is included in the tracking result information of the objects up to the previous time, and which detection object included in the detection result information of the current time corresponds to each object to be tracked. And update the tracking results.
  • the tracking unit 203 may predict the position of the object to be tracked by the Kalman filter or the particle filter and associate it with the detected object at the current time.
  • the tracking unit 203 updates the tracking target object information using the associated detection object information and the image at that time. If the detection object cannot be associated with any tracking target object, the tracking unit 203 is likely to be a newly appearing object, so the tracking unit 203 newly generates a tracking target object corresponding to the detection target object. , Add to object tracking results.
  • the tracking unit 203 determines that the tracking target object has disappeared due to reasons such as going out of the screen. Therefore, the tracking unit 203 deletes the tracking target object from the tracking result.
  • the tracking unit 203 may be deleted after several uncorrespondences, instead of deleting the uncorrespondence once.
  • the tracking unit 203 may use a predetermined likelihood representing the certainty of the tracking target object in the process of deleting the tracking target object from the tracking result. In that case, the tracking unit 203 increases the likelihood when the tracking object can be associated with the detected object, and decreases the likelihood when the association cannot be performed.
  • the tracking unit 203 deletes the tracking target object from the tracking result when the likelihood falls below a certain value. In the calculation of the likelihood, the tracking unit 203 may consider not only the information as to whether or not the detection result could be associated with it, but also the certainty of the association.
  • the tracking unit 203 generates tracking result information at the current time.
  • the tracking result information includes the position and size of the object on the image, the identifier assigned to each tracking object, and the associated detection object identifier.
  • the tracking result information includes information indicating that the detection object is not supported when the detection object cannot be associated with the detection object.
  • the tracking unit 203 makes the description method of the position information arbitrary, and indicates, for example, the circumscribed rectangular information of the tracking object.
  • the tracking unit 203 may represent the position information by the coordinates of the vertices of the rectangle surrounding the object (for example, the upper left and lower right vertices).
  • the tracking unit 203 may represent position information with information on the width and height of one vertex and a rectangle.
  • the tracking unit 203 may convert the coordinates on the screen into the coordinates in the real space and output the position information. For example, the tracking unit 203 obtains the coordinates of one point in the tracking object area, and represents the size information with relative information based on the points.
  • the tracking unit 203 outputs the generated tracking result information to the positional relationship analysis unit 204 and the quality prediction unit 205.
  • the positional relationship analysis unit 204 compares the positional information of each object included in the input tracking result information, and analyzes the positional relationship between the tracking target objects. Specifically, the positional relationship analysis unit 204 determines whether or not the objects overlap each other, and if they overlap, determines which object is in the foreground and generates object positional relationship information. The positional relationship analysis unit 204 determines, for example, whether or not the circumscribed rectangles of the tracking target objects overlap each other as an overlap determination. At this time, the positional relationship analysis unit 204 may calculate not only whether or not there is overlap, but also the overlap rate indicating the degree of overlap.
  • the positional relationship analysis unit 204 determines whether or not the object is in front of the object in the case of the angle of view of a surveillance camera that normally shoots from diagonally above. Therefore, when the overlap is determined, the positional relationship analysis unit 204 determines that the object located at the lowermost side is the object in front from the circumscribed rectangle and the position information on the screen, and the other objects are hidden. Judge that there is.
  • the positional relationship analysis unit 204 may convert the position information of the object into real-world coordinates and determine the object closest to the camera as the object in the foreground.
  • the positional relationship analysis unit 204 may determine the overlap for each part of the object instead of the entire object. For example, the positional relationship analysis unit 204 may divide the circumscribed rectangle of the object into a plurality of regions and determine the overlap for each of the divided regions. The positional relationship analysis unit 204 may calculate the overlap rate for each of the divided regions.
  • the positional relationship analysis unit 204 outputs the generated object positional relationship information to the quality prediction unit 205.
  • the quality prediction unit 205 inputs the detection result information, the tracking result information, and the object positional relationship information at the current time.
  • the quality prediction unit 205 calculates a quality index which is an index as to which object of the tracking target object is subjected to the feature amount extraction process.
  • the quality prediction unit 205 obtains a quality index based on the input tracking result information, the detection result information, the object positional relationship information, and the environmental factor information stored in the environmental factor storage unit 206, and outputs the quality index to the selection unit 207.
  • the quality index is an index that predicts the quality of the feature quantity to be extracted before extracting the feature quantity. Further, the quality index is an index that takes a high value when it is predicted that a high-quality feature quantity is extracted from the object, and becomes a low value when it is not.
  • the quality index has an arbitrary range of values. In the following, the quality index takes the value in the interval of [0,1].
  • the quality prediction unit 205 refers to the object positional relationship information for each tracking target object included in the tracking result information, and determines whether or not concealment due to overlapping with other objects has occurred.
  • the quality prediction unit 205 is concealed, a part or all of the image area to be extracted from the feature amount does not belong to the object, and the feature amount extracted from the area is the original feature amount. Since the value will be different from, it is predicted that the quality of the feature quantity will deteriorate.
  • the quality index is defined to decrease according to the degree of concealment because the degree of this decrease changes depending on the degree of concealment (hereinafter referred to as the degree of concealment).
  • the quality prediction unit 205 may set the concealment degree as the ratio (concealment ratio) of the area hidden by the object in front of the object area. Assuming that the concealment degree is r Occ and the quality index based on the concealment degree is q Occ , the quality prediction unit 205 calculates the quality index q Occ using Equation 1.
  • f Occ (r Occ ) is a monotonous non-increasing function having [0,1] as a range, and is represented as shown in FIG. 4A, for example.
  • the quality prediction unit 205 uses this function obtained from the relationship between the concealment degree and the collation accuracy, for example, as f Occ (r Occ ).
  • the quality prediction unit 205 can calculate the concealment degree by weighting and adding, so that the quality index can be calculated with priority given to the portion having a large influence on the collation accuracy.
  • the quality prediction unit 205 can calculate a quality index based on the concealment degree by using the concealment degree calculated by weighting each part of the object.
  • the quality prediction unit 205 also calculates the quality index by other factors. The larger the size of the detected object, the more detailed features of the object can be extracted. Therefore, in general, the quality of the feature amount increases as the size (resolution) of the object increases. Therefore, the quality prediction unit 205 obtains the value of the quality index q Res based on the resolution by the mathematical formula 3 using the size s of the object area (for example, the area of the area, the width and height of the area, etc.) obtained from the object detection result. ..
  • f Res (s) is a monotonous non-decreasing function having [0,1] as a range, and is represented as shown in FIG. 4B, for example.
  • the quality prediction unit 205 uses, for example, this function obtained from the relationship between the size s and the collation accuracy as f Res (s).
  • the quality prediction unit 205 obtains the value of the quality index q Mot based on the movement by the mathematical formula 4.
  • f Mot (v) is a monotonous non-increasing function having [0,1] as a range, and is represented as shown in FIG. 4C, for example.
  • the quality prediction unit 205 uses, for example, this function obtained from the relationship between the amount of movement v on the screen and the collation accuracy as f Mot (v). Further, the quality prediction unit 205 can obtain the movement amount v from the movement history of the tracking target object. For example, the quality prediction unit 205 stores the position of the object at the time immediately before (or a certain number of times before), and when the object tracking result is input, calculates the difference from the position at the current time. Then, the amount of movement v on the screen is obtained.
  • the quality of the feature quantity decreases as the deviation from the assumed posture and orientation of the object increases.
  • the posture change degree r Pos which is an index in which the value increases as the deviation from the assumed posture increases.
  • the quality prediction unit 205 obtains the value of the quality index q Pos based on the posture and the orientation by the mathematical formula 5.
  • f Pos (r Pos ) is a monotonous non-increasing function having [0,1] as a range, and is represented as shown in FIG. 4D, for example.
  • the quality prediction unit 205 uses, for example, this function obtained from the relationship between the attitude change degree r Pos and the collation accuracy as f Pos (r Pos ).
  • the attitude change degree r Pos is defined, for example, by how much the aspect ratio of the object detection rectangle deviates from the aspect ratio of the object circumscribing rectangle in the case of the assumed posture.
  • the quality prediction unit 205 obtains the absolute value of the difference between the aspect ratio of the detected rectangle and the aspect ratio of the object circumscribing rectangle with respect to the assumed posture, and sets the value as the posture change degree r Pos .
  • the quality prediction unit 205 can obtain the size of the object in the real space from the size of the rectangle of the screen.
  • the quality prediction unit 205 obtains the size of the object in the real space (for example, the height of the person in the case of a person) from the tracking result of the object, and checks the time-series change to change the posture. To detect.
  • the quality prediction unit 205 may calculate the degree of change in posture according to the degree of change in size in the real space.
  • the quality prediction unit 205 may consider the orientation of the object.
  • the quality prediction unit 205 has various methods for obtaining the orientation of the object. For example, the quality prediction unit 205 identifies the moving direction of the object from the history of the position of the tracking result and estimates the direction on the assumption that the moving direction and the direction of the object match.
  • the quality prediction unit 205 may calculate the degree of change in posture based on the magnitude of the deviation between the estimated orientation and the assumed orientation of feature extraction (for example, front).
  • the environmental factor storage unit 206 stores the value of the quality index for the quality deterioration of the feature amount caused by the environmental factor.
  • the environmental factor storage unit 206 may be concealed by obstacles (shelf, desk, etc.) placed in the environment, deteriorated due to improper lighting / sunshine conditions, or the camera Stores quality indicators related to deterioration due to blurring caused by out of focus.
  • the environmental factor storage unit 206 stores these deterioration factors as if they occur at a specific place on the screen.
  • the environmental factor storage unit 206 stores the value of the quality index in which the degree of quality deterioration that occurs when the object comes to each position on the screen is estimated in association with the position.
  • the environmental factor storage unit 206 stores the value of the quality index based on the environmental factor obtained for each coordinate (x, y) on the screen shown in the mathematical formula 6.
  • fEnv (x, y) is a function having [0,1] as a range.
  • x and y are the position coordinates of the reference point of the object, and for example, the center coordinates of the grounding point of the object are used.
  • the value of the function fEnv (x, y) is determined based on the result of finding how much the collation accuracy drops due to the environmental factors that occur when the object comes to the position (x, y) on the screen.
  • the quality prediction unit 205 and the environmental factor storage unit 206 may use the peripheral area of the screen as an environmental factor in the same manner as hiding by an obstacle.
  • resolution may be treated as an environmental factor. Therefore, the quality prediction unit 205 and the environmental factor storage unit 206 may use the quality index based on the resolution as the quality index based on the environmental factor.
  • the above-mentioned position information (x, y) may be real-world coordinates or a value obtained by converting the coordinates into the coordinates of a map image, not on the screen.
  • the quality index qEnv is obtained by the mathematical formula 6 after converting the position information of the object into the corresponding coordinate system.
  • Quality indicators based on environmental factors may change depending on the time of day due to differences in lighting and sunshine conditions between day and night.
  • the environmental factor storage unit 206 stores the value of the quality index for each time zone.
  • the quality prediction unit 205 may switch and use the quality index qEnv according to the time zone of the video to be processed. In a situation where the environmental conditions change, the quality prediction unit 205 may use the value of the quality index by interpolation from the value of the quality index in the time zone before and after that.
  • the quality prediction unit 205 calculates the overall quality index from the quality index for each factor. Specifically, the quality prediction unit 205 obtains the position (x, y) of the object at the current time from the position information of the tracked object included in the object tracking result, and the environmental factor storage unit 206 determines the environmental factor at that position. Find the value of the quality index qEnv based on.
  • the function g 1 representing the relationship between the quality index for each factor and the overall quality index Q is defined as in Equation 7.
  • the quality prediction unit 205 obtains the overall quality index Q by the mathematical formula 7.
  • the quality prediction unit 205 can predict the hiding of objects and the deterioration of the quality of the features that occur based on the resolution, movement, posture, and environment, and can appropriately select the objects to be extracted.
  • the quality prediction unit 205 does not have to use all the quality indexes, and may use only a part of them. For example, the quality prediction unit 205 calculates the quality index according to the formulas 7 and 8 with the value of the quality index for the unused factor being 1.
  • the environmental factor storage unit 206 may not be provided.
  • the quality prediction unit 205 calculates the overall quality index Q by using the mathematical formula 9 including the function g 2 representing the relationship between the quality index for each factor and the overall quality index Q.
  • the quality prediction unit 205 calculates a quality index for each tracked object included in the object tracking result.
  • the quality prediction unit 205 outputs the calculated quality index in association with the information of the identifier of the tracking target object and the identifier of the detection object associated with the identifier.
  • the quality prediction unit 205 does not need to consider all the quality indexes in the formula 9, and may use only a part of them. For example, the quality prediction unit 205 calculates the quality index according to the formulas 9 and 10 with the value of the quality index for the unused factor being 1.
  • the quality prediction unit 205 can predict that the quality of the feature amount will deteriorate depending on the hiding of objects, the resolution, the movement, and the posture.
  • the quality prediction unit 205 calculates a quality index that considers only the index suitable for the scene to be adapted from the concealment between objects and the resolution, movement, posture, and environmental factors. it can.
  • the quality prediction unit 205 can perform only the processing suitable for each scene, so that the calculation resource can be used efficiently.
  • the selection unit 207 selects an object for which the feature amount is to be extracted based on the quality index output from the quality prediction unit 205, and outputs the selected object information.
  • the selection unit 207 selects a tracking target object having a large input quality index value. For example, the selection unit 207 selects a quality index whose value is larger than a certain value.
  • the selection unit 207 may select a certain number of tracked objects (if the number of objects is less than a certain number, all) from the largest when sorted by the value of the quality index.
  • the selection unit 207 may select an object by combining both criteria (a certain number of quality index values are selected from the largest value among the certain values or more).
  • the selection unit 207 combines the identifier of the selected tracked object and the identifier of the detection object corresponding to the identifier, and outputs it as the selected object information.
  • the feature amount extraction unit 208 extracts the object feature amount from the image based on the selected object information and the detection result information.
  • the feature amount extraction unit 208 obtains the position information of the detected object from the detection result information by the identifier of the detection object associated with the identifier of the tracking object included in the selected object information.
  • the feature amount extraction unit 208 extracts the feature amount of the corresponding image area as the feature amount of the object of the identifier of the tracking object.
  • the feature amount to be extracted may be any feature amount that can be used to identify the object.
  • the feature amount to be extracted is a visual feature amount representing the color, shape, pattern, etc. of an object.
  • the features to be extracted are histograms of color and brightness gradient features, local features such as SIFT (Scale-Invariant Features Trendform) and SURF (Speeded-Up Robot Features), and features that describe patterns such as Gabor wavelets. There may be.
  • the feature amount to be extracted may be a feature amount for object identification obtained by deep learning.
  • FIG. 6 is a flowchart illustrating the flow of processing executed by the information processing apparatus 200 of the second embodiment.
  • step S202 the video acquisition unit 201 acquires the video.
  • step S204 the detection unit 202 detects an object from the image acquired in step S202 and generates detection result information.
  • step S206 the tracking unit 203 tracks the object from the video acquired in step S202 based on the detection result information generated in step S204, and generates tracking result information.
  • step S208 the positional relationship analysis unit 204 analyzes the positional relationship of the object based on the tracking result information generated in step S206, and generates the positional relationship information.
  • the quality prediction unit 205 extracts the feature amount from the object based on the detection result information generated in step S204, the tracking result information generated in step S206, and the positional relationship information generated in step S208. Predict the quality of.
  • the quality prediction unit 205 may refer to the quality index based on the environmental factor stored in the environmental factor storage unit 206.
  • step S212 the selection unit 207 selects an object from which the feature amount is to be extracted based on the feature amount predicted in step S210.
  • step S214 the feature amount extraction unit 208 extracts the feature amount of the object selected in step S212. After extracting the feature amount, the information processing apparatus 100 ends the process.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing apparatus according to the present embodiment uses a quality index based on the degree of concealment, it is possible to extract a feature amount suitable for collation in consideration of overlapping between people and concealment by other obstacles.
  • the information processing apparatus according to the present embodiment uses a quality index based on resolution, it is possible to extract a feature amount suitable for collation in consideration of the size of a person on the screen.
  • the information processing apparatus according to the present embodiment uses a quality index based on motion, it is possible to extract a feature amount suitable for collation in consideration of the possibility of motion blurring.
  • the information processing device When using a quality index based on a posture or orientation, the information processing device according to the present embodiment is suitable for collation in consideration of how much the posture or orientation of the object deviates from the assumed posture or orientation. Features can be extracted.
  • the information processing apparatus uses a quality index based on environmental factors, even if a fixed quality deterioration occurs when an object arrives at a specific position, the quality of the feature amount is appropriately deteriorated. You will be able to predict. Further, the information processing apparatus according to the present embodiment can appropriately respond even when the quality of the feature amount extracted changes with time by switching the quality index based on the environmental factor according to the time zone. Will be. Therefore, when the information processing apparatus according to the present embodiment uses a quality index based on environmental factors, it is possible to extract a feature amount suitable for collation in consideration of deterioration factors based on blurring, lighting conditions, and the like.
  • the information processing device can arbitrarily select the quality index to be used, it considers only the index suitable for each scene from the concealment of objects, the resolution, the movement, the posture, and the environmental factors. You can select the object for feature extraction. In this case, since the information processing apparatus according to the present embodiment can perform only processing suitable for each scene, it is possible to select an object for which feature amount extraction should be performed while efficiently using calculation resources.
  • the information processing apparatus appropriately selects an object for feature amount extraction even in a situation where a large number of objects are displayed on the screen, and while suppressing the cost required for the feature amount extraction process, the object as a whole is high. It is possible to extract features that enable accurate matching.
  • the information processing apparatus can appropriately select an object for which features should be extracted, even when a large number of objects cause overlap between the objects.
  • FIG. 7 is a diagram showing a configuration of the information processing device 300 according to the present embodiment.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 200 of the second embodiment are designated by the same reference numerals as those in FIG. 3, and detailed description thereof will be omitted.
  • the information processing device 300 shown in FIG. 7 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 310, a selection unit 307, and a feature amount extraction unit 208.
  • the prediction unit 310 includes a positional relationship analysis unit 204, a quality prediction unit 205, an environmental factor storage unit 206, and a variation prediction unit 309.
  • the image acquisition unit 201, the detection unit 202, the tracking unit 203, the positional relationship analysis unit 204, the quality prediction unit 205, the environmental factor storage unit 206, and the feature amount extraction unit 208 are the same as those in the second embodiment. Is.
  • the variation prediction unit 309 predicts the possibility of improvement in which the variation of the feature amount is improved by extracting the feature amount from the object. Details of the variation prediction unit 309 will be described later.
  • FIG. 8 is a diagram showing the configuration of the variation prediction unit 309 in the present embodiment.
  • the variation prediction unit 309 shown in FIG. 8 includes a variation index calculation unit 311, an extraction history storage unit 312, a tracking history storage unit 313, and an object state change tendency storage unit 314.
  • the variation prediction unit 309 inputs the selected object information and the tracking result information, which are the information of the objects selected by the selection unit 307 at the previous time.
  • the variation prediction unit 309 calculates a variation index for each tracking target object included in the tracking result information.
  • the variation index is an index showing the possibility of improving the variation (diversity) of the acquired features. Since the feature amount of the extracted object can change depending on the state of the object, it is desirable that the feature amount of the same object in various states is used in order to reduce omission in object collation. No matter how many times the feature amount is extracted in a situation where the state of the object has hardly changed, almost the same feature amount is only repeatedly acquired, and the omission in the object collation is not reduced. Therefore, in order to acquire the feature amount of an object in time series, it is important to increase the variation of the acquired feature amount while avoiding redundant feature amount acquisition as much as possible.
  • the variation index whether or not the variation of the feature amount can be increased by acquiring the feature amount at the current time in addition to the feature amount group acquired so far, that is, the variation of the acquired feature amount can be improved. Whether or not (improvement possibility) is predicted and indexed before feature extraction. It is desirable that the selection unit 307 preferentially selects an object having a larger variation index. The selection unit 307 uses the variation index as a criterion for object selection.
  • the variation prediction unit 309 outputs the calculated variation index to the selection unit 307 in association with the identifier of the tracking target object.
  • the variation index calculation unit 311 stores the input tracking result information, the feature amount extraction history information output from the extraction history storage unit 312, the tracking history information output from the tracking history storage unit 313, and the object state change tendency storage.
  • the variation index is calculated and output based on the object state change tendency information output from the unit 314.
  • the variation index calculation unit 311 may calculate and output the variation index based only on the input tracking result information and the feature amount extraction history information output from the extraction history storage unit 312. Further, the variation index calculation unit 311 is based only on the input tracking result information, the feature amount extraction history information output from the extraction history storage unit 312, and the tracking history information output from the tracking history storage unit 313. The variation index may be calculated and output.
  • the extraction history storage unit 312 updates and stores the feature amount extraction history of each object based on the selected object information input from the selection unit 307.
  • the extraction history storage unit 312 outputs the feature amount extraction history information to the variation index calculation unit 311.
  • the extraction history storage unit 312 stores information on the time selected as the object for extracting the feature amount for the identifier of each tracking target object.
  • the extraction history storage unit 312 provides information on the time when the object is selected with respect to the identifier of the tracking target object included in the information of the object selected by the selection unit 307.
  • the extraction history storage unit 312 may record information on the number of times the feature amount extraction has been performed in the past for the identifier of each tracking target object. In this case, the extraction history storage unit 312 increases the number of feature amount extractions of the tracking target object included in the selected object information by one.
  • the variation index calculation unit 311 calculates the variation index for each tracking target object included in the input object tracking result. As described above, it is important to increase the variation of the feature amount in order to improve the leakage at the time of object collation. The increase in the variation of the feature amount depends on the acquisition history of the feature amount up to that point. Since the state of the object changes after a certain amount of time has passed since the last feature amount was acquired, the possibility that the feature amount that leads to the improvement of the variation is extracted increases.
  • V is the variation index
  • the variation index calculation unit 311 calculated the variation index using only the elapsed time from the previous feature extraction, but the number of feature extractions so far may be used. As the number of feature quantity extractions increases, the variation of acquired feature quantities increases. Therefore, as the number of feature quantity extractions increases, the frequency of feature quantity extraction may be reduced.
  • the variation index calculation unit 311 uses a function in which the value of the variation index decreases as the number of feature quantity extractions increases.
  • the variation index calculation unit 311 calculates the variation index V using the mathematical formula 12 as a function of the elapsed time t and the number of feature extractions n.
  • the function h 2 (t, n) has [0, 1] as the range, and when n is fixed, it becomes a monotonous non-decreasing function of t, and when t is fixed, it becomes a monotonous non-increasing function of n. ..
  • the variation index calculation unit 311 uses, for example, a function as shown in FIG. 9B.
  • the variation index calculation unit 311 calculates the variation index V for each tracking target object included in the object tracking result.
  • the variation index calculation unit 311 outputs the calculated variation index in association with the identifier of the tracking target object.
  • the variation index calculation unit 311 can predict the possibility of improvement of the variation of the acquired feature amount from the feature amount extraction history and calculate an index for appropriately selecting the object for which the feature amount extraction should be performed.
  • the tracking history storage unit 313 stores information on the tracking results so far for the identifier of each tracking target object. Specifically, the tracking history storage unit 313 stores information on the position of the object at each time (including information on the size of the object such as information on the circumscribing rectangle of the object) and information on whether or not it corresponds to the detected object. To do. When the tracking result information is input, the tracking history storage unit 313 adds the information of each tracking target object included in the tracking result information to the data of the identifier of the corresponding tracking target object.
  • the variation index calculation unit 311 uses the tracking history information to determine how much the object is moving, and changes the value of the variation index according to the obtained movement amount.
  • the variation index calculation unit 311 reads the position of the object a certain time before the present time from the tracking history storage unit 313, obtains the difference from the position at the current time included in the tracking result information, and calculates the movement amount d. ..
  • the variation index calculation unit 311 may obtain this movement amount as the movement amount on the screen.
  • the variation index calculation unit 311 may convert the movement amount d into the real world coordinate system and obtain it as the movement amount in the real world.
  • the variation index calculation unit 311 varies based only on the input tracking result information, the feature amount extraction history information output from the extraction history storage unit 312, and the tracking history information output from the tracking history storage unit 313.
  • the variation index V is calculated using the mathematical formula 13. In the formula 13, the elapsed time is t, the number of feature quantity extractions is n, and the movement amount is d.
  • the function h 3 (t, n, d) has [0, 1] as a range, becomes a monotonous non-decreasing function of t when n, d is fixed, and is monotonic of n when t, d is fixed. It is a non-increasing function, and when t and n are fixed, it is a monotonous non-decreasing function of d.
  • the variation index calculation unit 311 uses, for example, a function as shown in FIG. 9C.
  • the variation index calculation unit 311 uses the tracking result information, it acquires information on the state of the object such as the orientation of the object.
  • the omission at the time of object matching can be reduced by extracting and holding the feature amount for each state and using it for collation. Therefore, the variation index calculation unit 311 holds the history of feature amount extraction for each state of the object, and calculates the variation index according to the state of the object at that time.
  • the tracking history storage unit 313 also retains information on the state of the object as a tracking result.
  • the variation index calculation unit 311 calculates the variation index V for each category using the mathematical formula 14.
  • the function h 3, c is a function for obtaining the function h 3 Equation 13 for each category.
  • the variation index calculation unit 311 estimates which category the current object state falls into based on the tracking result information, and calculates the variation index using the function of the estimated category. For example, when the category is orientation, the variation index calculation unit 311 obtains the movement direction of the object from the tracking history of the object, and estimates the orientation based on the movement direction. When the direction cannot be obtained, the variation index calculation unit 311 provides a category of unknown direction and calculates the variation index.
  • This category does not necessarily depend on the orientation, and may be various categories that reflect the state of the object.
  • the tracking history storage unit 313 may categorize the state of the object including other information.
  • the variation index calculation unit 311 outputs the calculated variation index in association with the identifier of the tracking target object.
  • the variation index calculation unit 311 can more accurately reflect the presence / absence of change in the feature amount of the object and the possibility of variation improvement in the variation index by using up to the category according to the presence / absence of movement and the state of the object.
  • the object state change tendency storage unit 314 stores information indicating the tendency of the state change of the object, which can change depending on the location on the screen.
  • the tendency of an object to take a different state may differ depending on where the object exists. For example, if the object is a person, a camera that is installed at the corner of the aisle and can capture how the person turns while walking can extract the characteristics of the person in various directions when the person turns at the corner. Is possible. On the other hand, at other positions, the relationship between the direction of the person and the direction of the camera is unlikely to change, so there is a high possibility that features only in a specific direction will be extracted.
  • the variation index is efficiently improved by extracting features more frequently than other places in places where state changes are likely to occur when the degree of state change of the object differs depending on the place. Will be.
  • the object state change tendency storage unit 314 stores a multiplier ⁇ that reflects the likelihood of state change defined for each place (x, y) as shown by the mathematical expression 15.
  • the function h Loc is a function having a range of [0,1], and the value becomes larger as the state of the object is likely to change on the screen.
  • the variation index calculation unit 311 can calculate the value obtained by multiplying the variation index V obtained by using the formula 11 to the formula 14 by the multiplier ⁇ of the formula 15 as the entire variation index V. More specifically, the variation index calculation unit 311 obtains the position (x, y) of the object to be tracked from the tracking result information, and based on this value, reads out the value of the multiplier ⁇ as the object state change tendency information. Multiply the value of the variation index V. The variation index calculation unit 311 outputs the calculated overall variation index in association with the identifier of the tracking target object.
  • the variation index calculation unit 311 can more accurately reflect the presence or absence of a change in the feature amount of the object in the variation index by considering the tendency of the change of the object state according to the location.
  • the variation index calculation unit 311 may calculate and output the variation index based only on the tracking result information and the tracking history information output from the tracking history storage unit 313.
  • the variation index calculation unit 311 may calculate and output the variation index based only on the tracking result information and the object state change tendency information output from the object state change tendency storage unit 314.
  • the selection unit 307 selects an object for which the feature amount is extracted based on the quality index output from the quality prediction unit 205 and the variation index output from the variation prediction unit 309, and outputs the selected object information.
  • the selection unit 307 also outputs the selected object information to the variation prediction unit 309 for determining the variation at a later time.
  • the selected object information includes the selection index I calculated based on the quality index calculated by the quality prediction unit 205 and the variation index calculated by the variation prediction unit 309. Assuming that the function for calculating the selection index I is F, the selection unit 307 calculates the selection index I using the mathematical formula 16.
  • the selection unit 307 selects a tracking target object having a large value of the selection index I. For example, the selection unit 307 selects a selection index whose value is larger than a certain value. The selection unit 307 may select a certain number of tracked objects (if the number of objects is less than a certain number, all) from the largest when sorted by the value of the selection index. The selection unit 307 may select an object by combining both criteria (for example, a certain number of selection index values may be selected from the largest among a certain value or more).
  • the selection unit 307 combines the identifier of the selected tracked object with the identifier of the detection object corresponding to it and outputs it as the selected object information.
  • the selected object information is output to the variation prediction unit 309 and used for calculating the variation index at a later time.
  • FIG. 10 is a flowchart illustrating the flow of processing executed by the information processing apparatus 300 of the third embodiment.
  • Step S202, step S204, step S206, step S208 and step S210 are the same as those in the second embodiment.
  • step S302 the variation prediction unit 309 predicts the possibility of improvement in which the variation of the feature amount is improved based on the tracking result information generated in step S206 and the selected object information fed back from the selection unit 307.
  • step S304 the selection unit 307 selects an object from which the feature quantity is to be extracted based on the quality of the feature quantity predicted in step S210 and the improvement possibility predicted in step S302.
  • Step S214 is the same as the second embodiment.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing apparatus can suppress the possibility that the number of times the feature amount is extracted varies greatly among different persons by considering the feature amount extraction history.
  • the information processing apparatus may be the case where the object continues to stay in the same place even if the time has passed since the previous feature extraction, or the previous time. Even if the elapsed time from feature quantity extraction is short, it is possible to extract features suitable for collation by adapting to the case where the state changes significantly because the object is moving.
  • the information processing apparatus can reflect the presence or absence of the change in the feature amount due to the change in the object state according to the location in the variation index by considering the state change tendency of the object, which is more appropriate. Objects can be selected.
  • FIG. 11 is a diagram showing a configuration of the information processing device 400 according to the present embodiment.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 300 of the third embodiment are designated by the same reference numerals as those in FIG. 7, and detailed description thereof will be omitted.
  • the information processing device 400 shown in FIG. 11 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 410, a selection unit 307, and a feature amount extraction unit 208.
  • the prediction unit 410 includes a quality prediction unit 405, an environmental factor storage unit 206, and a variation prediction unit 309.
  • the image acquisition unit 201, the detection unit 202, the tracking unit 203, the environmental factor storage unit 206, and the feature amount extraction unit 208 are the same as those in the second embodiment.
  • the variation prediction unit 309 and the selection unit 307 are the same as those in the third embodiment.
  • the quality prediction unit 405 is input with the detection result information and the tracking result information at the current time.
  • the difference from the quality prediction unit 205 of the second embodiment is that the object positional relationship information is not input. Therefore, the point that the description overlaps with the quality prediction unit 205 of the second embodiment will be omitted.
  • the quality prediction unit 405 obtains a quality index based on the input tracking result information and detection result information, and the environmental factor information stored in the environmental factor storage unit 206, and outputs the quality index to the selection unit 307.
  • the quality prediction unit 405 calculates the overall quality index from the quality index for each factor. Specifically, the quality prediction unit 405 obtains the position (x, y) of the object at the current time from the position information of the object to be tracked included in the object tracking result, and the environmental factor storage unit 206 determines the environmental factor at that position. Find the value of the quality index qEnv based on.
  • the function g 3 represents the relationship between the quality index for each factor and the overall quality index Q, and is defined as in Equation 18.
  • the quality prediction unit 405 obtains the overall quality index Q by the mathematical formula 18.
  • the quality prediction unit 405 can predict the deterioration of the feature amount that occurs based on the resolution, movement, posture, and environment, and can appropriately select the object to be extracted.
  • the quality prediction unit 405 does not have to use all the quality indexes, and may use at least one of the quality deterioration of the feature amount caused by the resolution, movement, posture, and environment. For example, the quality prediction unit 405 considers the value of the quality index for the factor not to be considered as 1, and calculates the quality index according to the formulas 18 and 19.
  • the environmental factor storage unit 206 may not be provided.
  • the quality prediction unit 405 calculates the overall quality index Q by using the mathematical formula 20 including the function g 4 representing the relationship between the quality index and the overall quality index Q for each factor.
  • the quality prediction unit 405 does not have to use all the quality indexes in the mathematical formula 20, but may use only a part of them. For example, the quality prediction unit 405 considers the value of the quality index for the unused factor to be 1, and calculates the quality index according to the formula 20 and the formula 21.
  • FIG. 12 is a flowchart illustrating the flow of processing executed by the information processing apparatus 400 of the fourth embodiment.
  • Step S202, step S204 and step S206 are the same as those in the second embodiment.
  • the quality prediction unit 405 predicts the quality of the feature quantity extracted from the object based on the detection result information generated in step S204 and the tracking result information generated in step S206.
  • the quality prediction unit 405 may refer to the quality index based on the environmental factor stored in the environmental factor storage unit 206.
  • Step S302 and step S304 are the same as those in the third embodiment.
  • Step S214 is the same as the second embodiment.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing apparatus according to the present embodiment can predict the necessity of extracting the feature amount by simultaneously predicting not only the quality of the feature amount but also the possibility of improving the variation even when the object exists alone. Can be judged appropriately. Therefore, the information processing apparatus according to the present embodiment can reduce the calculation cost required for extracting the feature amount.
  • FIG. 13 is a diagram showing a configuration of the information processing device 500 according to the present embodiment.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 200 of the second embodiment are designated by the same reference numerals as those in FIG. 3, and detailed description thereof will be omitted.
  • the information processing device 500 shown in FIG. 13 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 510, a selection unit 207, and a feature amount extraction unit 208.
  • the prediction unit 510 includes an object detection tendency analysis unit 504, a quality prediction unit 505, and an environmental factor storage unit 206.
  • the image acquisition unit 201, the detection unit 202, the tracking unit 203, the environmental factor storage unit 206, the selection unit 207, and the feature amount extraction unit 208 are the same as those in the second embodiment.
  • the object detection tendency analysis unit 504 analyzes the input detection result information and obtains the detection tendency information for each location of the image. Objects are hidden where there are obstacles, such as shelves, and are often undetected. Objects are not detected at all when they are entirely hidden, but may or may not be detected when some are hidden. When the number of times an object is detected within a certain period of time is totaled for each location, the frequency is high in places where there are no obstacles, etc., whereas the frequency of object detection is low in places hidden by obstacles, etc. .. The object detection tendency analysis unit 504 generates frequency information for each location as detection tendency information.
  • the object detection tendency analysis unit 504 may total the number of detections of the object parts within a certain period of time for each place.
  • the object detection tendency analysis unit 504 may aggregate the tendency of simultaneous detection such as whether or not a plurality of parts are detected at the same time for each place and include it in the detection tendency information.
  • the object detection tendency analysis unit 504 determines the detection frequency for each of the head and the human body at each location. Aggregate to.
  • the object detection tendency analysis unit 504 may total the number of times that both the head and the human body are detected at the same time for each location.
  • the object detection tendency analysis unit 504 uses the number of simultaneous detections to determine the tendency of partial concealment at that location.
  • the tendency that the human body is not detected even though the head is detected may be that the human body is not detected even though the person exists. high.
  • the tendency indicates that the area below the head of the human body area is likely to be hidden at that location.
  • the object detection tendency analysis unit 504 outputs the generated detection tendency information to the quality prediction unit 505.
  • the object detection tendency analysis unit 504 can generate detection tendency information that reflects the tendency of object concealment for each place in detail by determining the detection results of a plurality of parts together.
  • the quality prediction unit 505 inputs the detection result information at the current time, the tracking result information, and the detection tendency information.
  • the difference from the quality prediction unit 405 of the fourth embodiment is that the detection tendency information is input. Therefore, the point that the description overlaps with the quality prediction unit 205 of the second embodiment and the quality prediction unit 405 of the fourth embodiment will be omitted.
  • the quality prediction unit 505 obtains a quality index based on the input tracking result information, detection result information, detection tendency information, and environmental factor information stored in the environmental factor storage unit 206, and outputs the quality index to the selection unit 207.
  • the quality prediction unit 505 determines the state of hiding an object by an obstacle using the detection tendency information. Assuming that the detection frequency of the object at the place (x, y) is Freq (x, y), the quality prediction unit 505 calculates the multiplier ⁇ using the mathematical formula 22. The quality prediction unit 505 calculates the final quality index by multiplying the quality index obtained from the detection result information and the tracking result information by the multiplier ⁇ .
  • the function q Loc is a monotonous non-decreasing function with respect to the frequency Freq (x, y).
  • the quality prediction unit 505 may use a ratio obtained by dividing the frequency of simultaneous detection by the frequency of the most detected sites, instead of the detection frequency.
  • the quality prediction unit 505 outputs the calculated quality index to the selection unit 207.
  • FIG. 14 is a flowchart illustrating the flow of processing executed by the information processing apparatus 500 of the fifth embodiment.
  • Step S202, step S204 and step S206 are the same as those in the second embodiment.
  • step S502 the object detection tendency analysis unit 504 analyzes the tendency of each object detection location and generates detection tendency information.
  • the quality prediction unit 505 extracts the feature amount from the object based on the detection result information generated in step S204, the tracking result information generated in step S206, and the detection tendency information generated in step S502. Predict the quality of.
  • the quality prediction unit 505 may refer to the quality index based on the environmental factor stored in the environmental factor storage unit 206.
  • Step S212 and step S214 are the same as those in the second embodiment.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing apparatus according to the present embodiment can appropriately determine the necessity of extracting the feature amount by automatically determining the tendency of the object to be concealed depending on the location even when the object exists alone. .. Therefore, the information processing apparatus according to the present embodiment can reduce the calculation cost required for extracting the feature amount.
  • FIG. 15 is a diagram showing the configuration of the information processing device 600 according to the present embodiment.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 300 of the third embodiment are designated by the same reference numerals as those in FIG. 7, and detailed description thereof will be omitted.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 500 of the fifth embodiment are designated by the same reference numerals as those in FIG. 13, and detailed description thereof will be omitted.
  • the information processing device 600 shown in FIG. 15 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 610, a selection unit 307, and a feature amount extraction unit 208.
  • the prediction unit 610 includes an object detection tendency analysis unit 504, a quality prediction unit 505, an environmental factor storage unit 206, and a variation prediction unit 309.
  • the image acquisition unit 201, the detection unit 202, the tracking unit 203, the environmental factor storage unit 206, and the feature amount extraction unit 208 are the same as those in the second embodiment.
  • the selection unit 307 and the variation prediction unit 309 are the same as those in the third embodiment.
  • the object detection tendency analysis unit 504 and the quality prediction unit 505 are the same as those in the fifth embodiment.
  • FIG. 16 is a flowchart illustrating the flow of processing executed by the information processing apparatus 600 of the sixth embodiment.
  • Step S502 and step S504 are the same as those in the fifth embodiment.
  • Step S302 and step S304 are the same as those in the third embodiment.
  • Step S214 is the same as the second embodiment.
  • the information processing apparatus can extract features suitable for collation.
  • the information processing apparatus according to the present embodiment can appropriately determine the necessity of extracting the feature amount by automatically determining the tendency of the object to be concealed depending on the location even when the object exists alone. ..
  • the information processing apparatus according to the present embodiment can appropriately determine the necessity of extracting the feature amount by simultaneously predicting not only the quality of the feature amount but also the possibility of improving the variation. Therefore, the information processing apparatus according to the present embodiment can reduce the calculation cost required for extracting the feature amount.
  • FIG. 17 is a diagram showing a configuration of the information processing device 700 according to the present embodiment.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 300 of the third embodiment are designated by the same reference numerals as those in FIG. 7, and detailed description thereof will be omitted.
  • the configurations that perform the same processing operations as the configurations of the information processing apparatus 500 of the fifth embodiment are designated by the same reference numerals as those in FIG. 13, and detailed description thereof will be omitted.
  • the information processing device 700 shown in FIG. 17 includes a video acquisition unit 201, a detection unit 202, a tracking unit 203, a prediction unit 710, a selection unit 307, and a feature amount extraction unit 208.
  • the prediction unit 710 includes a positional relationship analysis unit 204, an object detection tendency analysis unit 504, a quality prediction unit 705, an environmental factor storage unit 206, and a variation prediction unit 309.
  • the image acquisition unit 201, the detection unit 202, the tracking unit 203, the positional relationship analysis unit 204, the environmental factor storage unit 206, and the feature amount extraction unit 208 are the same as those in the second embodiment.
  • the selection unit 307 and the variation prediction unit 309 are the same as those in the third embodiment.
  • the object detection tendency analysis unit 504 is the same as that of the fifth embodiment.
  • the quality prediction unit 705 calculates the quality index by the same method as the quality prediction unit 205, and multiplies the calculated quality index by the multiplier ⁇ in the same manner as the quality prediction unit 505 to calculate the overall quality index.
  • the variation prediction unit 309 is the same as that of the third embodiment.
  • the variation prediction unit 309 may be omitted. In that case, the selection unit 307 replaces the selection unit 207 of the second embodiment.
  • FIG. 18 is a flowchart illustrating the flow of processing executed by the information processing apparatus 700 of the seventh embodiment.
  • Step S202, step S204, step S206 and step S208 are the same as those in the second embodiment.
  • Step S502 is the same as the fifth embodiment.
  • the quality prediction unit 705 uses the detection result information generated in step S204, the tracking result information generated in step S206, the positional relationship information generated in step S208, and the detection tendency information generated in step S502. Based on this, the quality of features extracted from the object is predicted.
  • the quality prediction unit 705 may refer to the quality index based on the environmental factor stored in the environmental factor storage unit 206.
  • step S702 After executing step S702, the processes of step S302, step S304, and step S214 are executed in the same manner as in the third embodiment.
  • step S302 may be omitted. In that case, step S204 is executed instead of step S304.
  • step S214 the information processing apparatus 700 ends the process.
  • the information processing device can extract a feature amount suitable for collation.
  • the information processing apparatus uses a quality index based on the degree of concealment, it is possible to extract a feature amount suitable for collation in consideration of overlapping between people and concealment by other obstacles.
  • the information processing apparatus uses a quality index based on resolution, it is possible to extract a feature amount suitable for collation in consideration of the size of a person on the screen.
  • the information processing apparatus uses a quality index based on motion, it is possible to extract a feature amount suitable for collation in consideration of the possibility of motion blurring.
  • the information processing device When using a quality index based on a posture or orientation, the information processing device according to the present embodiment is suitable for collation in consideration of how much the posture or orientation of the object deviates from the assumed posture or orientation. Features can be extracted.
  • the information processing apparatus uses a quality index based on environmental factors, even if a fixed quality deterioration occurs when an object arrives at a specific position, the quality of the feature amount is appropriately deteriorated. You will be able to predict. Further, the information processing apparatus according to the present embodiment can appropriately respond even when the quality of the feature amount extracted changes with time by switching the quality index based on the environmental factor according to the time zone. Will be. Therefore, when the information processing apparatus according to the present embodiment uses a quality index based on environmental factors, it is possible to extract a feature amount suitable for collation in consideration of deterioration factors based on blurring, lighting conditions, and the like.
  • the information processing device can arbitrarily select the quality index to be used, it considers only the index suitable for each scene from the concealment of objects, the resolution, the movement, the posture, and the environmental factors. You can select the object for feature extraction. In this case, since the information processing apparatus according to the present embodiment can perform only processing suitable for each scene, it is possible to select an object for which feature amount extraction should be performed while efficiently using calculation resources.
  • the information processing apparatus can suppress the possibility that the number of times the feature amount is extracted varies greatly among different persons by considering the feature amount extraction history.
  • the information processing apparatus may be the case where the object continues to stay in the same place even if the time has passed since the previous feature extraction, or the previous time. Even if the elapsed time from feature quantity extraction is short, it is possible to extract features suitable for collation by adapting to the case where the state changes significantly because the object is moving.
  • the information processing apparatus can reflect the presence or absence of the change in the feature amount due to the change in the object state according to the location in the variation index by considering the state change tendency of the object, which is more appropriate. Objects can be selected.
  • the information processing apparatus appropriately selects an object for feature amount extraction even in a situation where a large number of objects are displayed on the screen, and while suppressing the cost required for the feature amount extraction process, the object as a whole is high. It is possible to extract features that enable accurate matching.
  • the information processing apparatus can appropriately select an object for which features should be extracted, even when a large number of objects cause overlap between the objects.
  • the information processing apparatus can appropriately determine the necessity of extracting the feature amount by automatically determining the tendency of the object to be hidden depending on the location.
  • the information processing apparatus according to the present embodiment can appropriately determine the necessity of extracting the feature amount by predicting not only the quality of the feature amount but also the variation at the same time. Therefore, the information processing apparatus according to the present embodiment can reduce the calculation cost required for extracting the feature amount.
  • Each functional component of the information processing apparatus according to each embodiment of the present invention may be realized by hardware (eg, hard-wired electronic circuit, etc.) that realizes each functional component, or hardware and software. It may be realized in combination with (eg, a combination of an electronic circuit and a program that controls it).
  • hardware e.g, hard-wired electronic circuit, etc.
  • It may be realized in combination with (eg, a combination of an electronic circuit and a program that controls it).
  • a case where each functional component of the information processing apparatus according to each embodiment of the present invention is realized by a combination of hardware and software will be further described.
  • FIG. 19 is a diagram illustrating a computer 1000, a network 1300, and a camera 1500 for realizing the information processing apparatus according to each embodiment of the present invention.
  • the computer 1000 is an arbitrary computer.
  • the computer 1000 is a personal computer (PC), a server machine, a tablet terminal, a smartphone, or the like.
  • the computer 1000 may be a dedicated computer designed to realize the information processing apparatus according to each embodiment of the present invention, or may be a general-purpose computer.
  • the computer 1000 has a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input / output interface 1100, and a network interface 1120.
  • the bus 1020 is a data transmission line for the processor 1040, the memory 1060, the storage device 1080, the input / output interface 1100, and the network interface 1120 to transmit and receive data to and from each other.
  • the method of connecting the processors 1040 and the like to each other is not limited to the bus connection.
  • the processor 1040 is various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or an FPGA (Field-Programmable Gate Array).
  • the memory 1060 is a main storage device realized by using a RAM (Random Access Memory) or the like.
  • the storage device 1080 is an auxiliary storage device realized by using a hard disk, an SSD (Solid State Drive), a memory card, a ROM (Read Only Memory), or the like.
  • the input / output interface 1100 is an interface for connecting the computer 1000 and the input / output device.
  • an input device such as a keyboard and an output device such as a display device are connected to the input / output interface 1100.
  • the network interface 1120 is an interface for connecting the computer 1000 to the network 1300.
  • This network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the method of connecting the network interface 1120 to the network may be a wireless connection or a wired connection.
  • the camera 1500 is connected to the network 1300, and the computer 1000 and the camera 1500 can communicate data via the network 1300.
  • the image acquisition unit 201 of the information processing apparatus according to each embodiment of the present invention acquires images from the camera 1500.
  • the storage device 1080 stores a program module that realizes each means of the information processing device according to each embodiment of the present invention.
  • the processor 1040 realizes the function corresponding to each program module by reading each of these program modules into the memory 1060 and executing the program module.
  • some functions of the information processing apparatus in each embodiment of the present invention may be executed on the camera 1500 side. That is, a processor, a storage device, and a memory are stored in the camera 1500, and all or part of the processing of each means of the information processing apparatus according to each embodiment of the present invention is executed by using these components. It may be.
  • the processing of the image acquisition unit 201, the detection unit 202, and the tracking unit 203 may be executed on the camera 1500 side, and the other processing may be executed on the computer 1000 side.
  • processing other than the feature amount extraction unit 208 may be executed on the camera side, and the feature amount extraction unit 208 may be executed on the computer 1000 side.
  • the video acquisition unit 201 may be a video recording device such as a hard disk recorder that stores the video captured by the camera. In this case, the video acquisition unit 201 acquires the video by reading and playing back the video stored in the video recording device, and transmits the video to the computer 1000 via the network 1300. Then, the subsequent processing is executed on the computer 1000 side.
  • a video recording device such as a hard disk recorder that stores the video captured by the camera.
  • the video acquisition unit 201 acquires the video by reading and playing back the video stored in the video recording device, and transmits the video to the computer 1000 via the network 1300. Then, the subsequent processing is executed on the computer 1000 side.
  • (Appendix 1) A predictive means for predicting the quality of features extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects.
  • a selection means for selecting only an object whose feature quantity quality predicted by the prediction means satisfies a predetermined condition from the plurality of objects.
  • An information processing device having a feature amount extracting means for extracting a feature amount from an object selected by the selection means.
  • (Appendix 2) The information processing apparatus according to Appendix 1, wherein the prediction means predicts the quality of a feature quantity extracted from the object based on the degree to which the object is hidden by another object.
  • the predicting means predicts the quality of the feature quantity extracted from the object based on the resolution, the amount of movement, the posture and the orientation of the object, and at least one of the environmental factors determined according to the position of the object.
  • the information processing apparatus according to Appendix 1 or Appendix 2, wherein the information processing device is characterized by the above.
  • Appendix 4 It has a storage means for storing an index of how much environmental factors determined according to the position of an object affect the prediction of the quality of features.
  • the information processing apparatus according to any one of Supplementary note 1 to 3, wherein the prediction means predicts the quality of a feature quantity extracted from the object based on the index.
  • the prediction means further predicts the possibility of improvement in which the variation of the feature amount is improved by extracting the feature amount from the object.
  • the information processing apparatus according to any one of Supplementary note 1 to 4, wherein the selection means extracts a feature amount only from an object whose improvement possibility predicted by the prediction means further satisfies a predetermined condition.
  • the information processing apparatus according to Appendix 5 The information processing apparatus according to Appendix 5, wherein the prediction means predicts the improvement possibility so that the improvement possibility increases as the elapsed time from the previous feature quantity extraction increases.
  • (Appendix 7) The information processing apparatus according to Appendix 5 or 6, wherein the prediction means predicts the improvement possibility so that the improvement possibility becomes larger as the number of times of extraction of the feature amount is smaller.
  • An information processing device having a feature amount extracting means for extracting a feature amount from an object selected by the selection means.
  • the information processing apparatus wherein the selection means extracts a feature amount only from an object whose improvement possibility predicted by the prediction means further satisfies a predetermined condition.
  • the predicting means further predicts the quality of the feature quantity extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects. 12.
  • the information processing apparatus according to Appendix 12 or Appendix 13.
  • Appendix 15 Based on the positional relationship of a plurality of objects detected and tracked from the input video and the overlap of the plurality of objects, the quality of the feature quantity extracted from the objects is predicted.
  • An information processing method for extracting a feature amount from the selected object (Appendix 16) From an object detected and tracked from an input image, it is extracted from the object based on the resolution, amount of movement, orientation and orientation of the object, and at least one of the environmental factors determined according to the position of the object. Predict the quality of the feature quantity and the possibility of improvement that the variation of the feature quantity is improved by extracting the feature quantity from the object.
  • the objects only the objects whose quality of the feature quantity and the improvement possibility satisfy the predetermined conditions are selected.
  • An information processing method for extracting a feature amount from the selected object is selected.
  • (Appendix 17) From the object detected and tracked from the input video, it depends on the resolution, amount of movement, posture and orientation of the object, at least one of the environmental factors determined according to the position of the object, and the position of the object. Predict the quality of the feature quantity extracted from the object based on the degree of concealment of the object. Among the objects, only the objects whose feature quality satisfies a predetermined condition are selected. An information processing method for extracting a feature amount from the selected object. (Appendix 18) On the computer Prediction processing that predicts the quality of features extracted from the objects based on the positional relationship of the plurality of objects detected and tracked from the input video and the overlap of the plurality of objects.
  • a selection process of selecting only an object whose feature quantity quality predicted by the prediction process satisfies a predetermined condition and A program recording medium in which an information processing program for executing a feature amount extraction process for extracting a feature amount from an object selected by the selection process is recorded.
  • Appendix 19 On the computer From an object detected and tracked from an input image, it is extracted from the object based on the resolution, amount of movement, orientation and orientation of the object, and at least one of the environmental factors determined according to the position of the object. Prediction processing that predicts the quality of the feature quantity and the possibility of improvement that the variation of the feature quantity is improved by extracting the feature quantity from the object.
  • a selection process of selecting only objects whose feature quantity quality and improvement possibility predicted by the prediction process satisfy predetermined conditions and A program recording medium in which an information processing program for executing a feature amount extraction process for extracting a feature amount from an object selected by the selection process is recorded.
  • Appendix 20 On the computer From the object detected and tracked from the input video, it depends on the resolution, amount of movement, posture and orientation of the object, at least one of the environmental factors determined according to the position of the object, and the position of the object.
  • Prediction processing that predicts the quality of the feature quantity extracted from the object based on the degree of concealment of the object, Among the objects, a selection process of selecting only objects whose feature quantity quality predicted by the prediction process satisfies a predetermined condition, and A program recording medium in which an information processing program for executing a feature amount extraction process for extracting a feature amount from an object selected by the selection process is recorded.
  • Information processing device 101 Prediction unit 102 Selection unit 103 Feature quantity extraction unit 200 Information processing device 201 Video acquisition unit 202 Detection unit 203 Tracking unit 204 Positional relationship analysis unit 205 Quality prediction unit 206 Environmental factor storage unit 207 Selection unit 208 Feature quantity extraction Unit 210 Prediction unit 300 Information processing device 307 Selection unit 309 Variation prediction unit 310 Prediction unit 311 Variation index calculation unit 312 Extraction history storage unit 313 Tracking history storage unit 314 Object state change tendency storage unit 400 Information processing device 405 Quality prediction unit 410 Prediction Part 500 Information processing device 504 Object detection tendency analysis unit 505 Quality prediction unit 510 Prediction unit 600 Information processing device 610 Prediction unit 700 Information processing device 705 Quality prediction unit 710 Prediction unit 1000 Computer 1020 Bus 1040 Processor 1060 Memory 1080 Storage device 1100 Input / output Interface 1120 Network Interface 1300 Network 1500 Camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

照合に適した特徴量を抽出するために、本発明の情報処理装置は、入力される映像から検出及び追跡される複数の物体の位置関係と前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、前記複数の物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と、を有する。

Description

情報処理装置、情報処理方法及び情報処理プログラム
 本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
 従来、カメラを用いて人や車などのオブジェクト(物体)を検出し、特徴量を抽出する方式が提案されている。ここで、オブジェクトとは、人や車、動物などの物体を指す。特徴量は、異なるカメラ間で検出されたオブジェクトの照合や、以前に撮影され、蓄積された映像から、同一あるいは類似するオブジェクトを検索するのに用いられる。
 オブジェクトから抽出される特徴量は、様々である。近年では深層学習の技術の進展により、深層学習に基づいて抽出された特徴量を用いることが増えてきている。深層学習に基づいて抽出される特徴量は、高精度な照合に寄与する。一方、深層学習に基づいて抽出される特徴量は、多くの場合、抽出処理に時間がかかる。従って、画面に同時に映る特徴量抽出対象となるオブジェクトが多い場合、特徴量抽出にかかる時間は無視することができない。特に、計算リソースの制約が厳しい状況の下で動画像の各フレームに対して処理を行う場合には、実時間での処理は困難になる。
 この点を鑑み、従来、画面に映る全オブジェクトから特徴量を抽出するのではなく、オブジェクトを選択し、選択されたオブジェクトのみから特徴量を抽出する方式が提案されている。
 特許文献1には、人物の特徴量を抽出する方式が開示されている。特許文献1の方式は、画面上での人物のサイズと過去の特徴量抽出頻度に基づいて、画面内で検出されたどの人物の特徴量を抽出するかをサイズに応じて優先度をつけて決定する。また、特許文献1には、乱数により、特徴量を抽出する人物を選択する網羅的選択手段を設け、優先的処理と網羅的処理を交互に行い、人物を選択して特徴量を抽出する方式が記載されている。さらに、特許文献1には、特徴量を抽出する人物を選択する際、人物の向きを考慮することが記載されている。
 特許文献2に開示されている方式では、斜め上から撮影する通常の監視カメラ設置の場合、画面の下方がカメラに近くなり、人物が大きく映るので、画面上での人物の動きが大きくなることが想定されている。特許文献2には、画面の下方の領域ほど人物の特徴量を抽出する頻度を高める方式が開示されている。また、特許文献2には、人物の動きの大きさを考慮し、動きが大きい人物ほど特徴量抽出の頻度を上げることが記載されている。
 
国際公開第2017/006749号 国際公開第2014/045479号
 しかしながら、特許文献1に記載の技術は、人物の大きさと特徴量抽出頻度しか考慮されていないため、照合に適さない特徴量を抽出してしまう可能性がある。特許文献2に記載の技術は、人物の画面上での位置しか考慮されていないため、照合に適さない特徴量を抽出してしまう可能性がある。
 本発明の目的は、照合に適した特徴量を抽出することが可能になる情報処理装置、情報処理方法及び情報処理プログラムを提供することにある。
 
 本発明による情報処理装置は、入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、前記複数の物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段とを有する。
 本発明による情報処理方法は、入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測し、前記複数の物体のうち、前記特徴量の質が所定の条件を満たす物体のみを選択し、選択された前記物体から特徴量を抽出する。
 本発明による情報処理プログラムは、入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測処理と、前記複数の物体のうち、前記予測処理により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択処理と、前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理とをコンピュータに実行させる。
 
 本発明によれば、照合に適した特徴量を抽出できる。
 
第1の実施形態における情報処理装置の構成を示す図である。 第1の実施形態における情報処理装置の処理動作を示すフローチャートである。 第2の実施形態における情報処理装置の構成を示す図である。 クオリティ指標の算出の際に用いる関数の例を示す図である。 クオリティ指標の算出の際に用いる関数の例を示す図である。 クオリティ指標の算出の際に用いる関数の例を示す図である。 クオリティ指標の算出の際に用いる関数の例を示す図である。 隠蔽率の算出における人物の領域分割の一例を示す図である。 第2の実施形態における情報処理装置の処理動作を示すフローチャートである。 第3の実施形態における情報処理装置の構成を示す図である。 第3の実施形態におけるバリエーション予測部の構成を示す図である。 バリエーション指標の算出の際に用いる関数の例を示す図である。 バリエーション指標の算出の際に用いる関数の例を示す図である。 バリエーション指標の算出の際に用いる関数の例を示す図である。 第3の実施形態における情報処理装置の処理動作を示すフローチャートである。 第4の実施形態における情報処理装置の構成を示す図である。 第4の実施形態における情報処理装置の処理動作を示すフローチャートである。 第5の実施形態における情報処理装置の構成を示す図である。 第5の実施形態における情報処理装置の処理動作を示すフローチャートである。 第6の実施形態における情報処理装置の構成を示す図である。 第6の実施形態における情報処理装置の処理動作を示すフローチャートである。 第7の実施形態における情報処理装置の構成を示す図である。 第7の実施形態における情報処理装置の処理動作を示すフローチャートである。 本発明の各実施形態の各部を構成するハードウエアの例を示すブロック図である。
 <第1の実施形態>
 図1は、本実施形態における情報処理装置100の構成を示す図である。
 図1に示す情報処理装置100は、予測部101と、選択部102と、特徴量抽出部103と、を備える。
 予測部101は、入力される映像から検出及び追跡される複数の物体の位置関係と、複数の物体の重なりとに基づいて、物体から抽出される特徴量の質を予測する。
 選択部102は、複数の物体のうち、予測部101により予測される特徴量の質が所定の条件を満たす物体のみを選択する。
 特徴量抽出部103は、選択部102によって選択された物体から特徴量を抽出する。
 図2は、実施形態1の情報処理装置100によって実行される処理の流れを例示するフローチャートである。
 ステップS102では、予測部101は、入力される映像から検出及び追跡される複数の物体の位置関係と、複数の物体の重なりとに基づいて、物体から抽出される特徴量の質を予測する。
 ステップS104では、選択部102は、複数の物体のうち、ステップS102において予測部101により予測される特徴量の質が所定の条件を満たす物体のみを選択する。
 ステップS106では、特徴量抽出部103は、ステップS104において選択部102によって選択された物体から特徴量を抽出する。特徴量を抽出した後、情報処理装置100は、処理を終了する。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトが多数画面に映る状況であっても、特徴量抽出を行うオブジェクトを選択し、特徴量の抽出処理にかかるコストを抑えつつ、オブジェクト全体として高精度な照合が可能となる特徴量の抽出を実現できる。
 
 <第2の実施形態>
 図3は、本実施形態における情報処理装置200の構成を示す図である。
 図3に示す情報処理装置200は、映像取得部201と、検出部202と、追跡部203と、予測部210と、選択部207と、特徴量抽出部208と、を備える。
 予測部210は、位置関係解析部204と、クオリティ予測部205と、環境要因記憶部206と、を備える。
 映像取得部201は、1つ以上の図示しないカメラ等の撮影装置が撮像した映像を取得する。撮影装置は、監視対象となるエリアや物体の映像を撮影する。ここで、撮影装置は、映像を撮影できるものであれば、どのようなものでもよい。例えば、撮影装置は、固定の監視カメラ、Webカメラ、UAV(Unmanned aerial vehicle)や車両等の移動体に装着されたカメラ、警察官や警備員が装着するウェアラブルカメラ、ユーザが撮影するビデオカメラである。
 映像取得部201は、取得した映像を動画像列として、検出部202と追跡部203と特徴量抽出部208に出力する。
 検出部202は、映像取得部201によって出力された映像からオブジェクトを検出し、検出結果を検出結果情報として出力する。検出部202は、オブジェクトが人物である場合、人物の画像特徴を学習した検出器を用いて、人物領域を検出する。例えば、検出部202は、HOG(Histograms of Oriented Gradients)特徴に基づいて検出する検出器や、CNN(Convolutional Neural Network)を用いて画像から直接検出する検出器を用いてもよい。あるいは、検出部202は、人全体ではなく、人の一部の領域(例えば頭部など)を学習させた検出器を用いて人物を検出するようにしてもよい。例えば、検出部202は、頭部や足下を学習させた検出器を用い、頭部位置と足下位置が検出することにより、人物領域を特定する。例えば、検出部202は、背景差分によって求まるシルエット情報(背景モデルと差分がある領域の情報)と頭部検出情報を組み合わせることにより、人物領域を求めるように構成されていてもよい。例えば、検出部202は、オブジェクトが車である場合、車両の画像特徴を学習させた検出器を用いて、車両を検出する。検出部202は、オブジェクトが人物や車両以外の特定物体である場合、その特定物体の画像特徴を学習させた検出器を構築し、用いるようにすればよい。
 検出部202は、検出されたオブジェクトの情報から、検出結果情報を生成する。検出結果情報は、フレームの時刻情報又はフレーム番号などフレームを特定するための情報と検出されたオブジェクトの情報を含む。オブジェクトの情報は、オブジェクトの検出位置や大きさを含む。検出部202は、オブジェクトの検出位置を画面上の位置で表してもよいし、カメラのキャリブレーションによって求まるカメラの位置や姿勢を表すパラメータを用いて、実世界座標に変換した位置で表してもよい。例えば、検出部202は、オブジェクトの検出位置を画面上の位置で表す場合には、オブジェクトを囲う矩形の頂点の座標(例えば左上と右下の頂点)で表す。検出部202は、オブジェクトの検出位置を、1つの頂点と矩形の幅、高さで表してもよい。また、複数のオブジェクトが検出された場合には、検出結果情報は、生成する検出結果情報に検出された複数のオブジェクトの情報を含み、検出オブジェクトを同一フレーム内で区別する識別子を含む。識別子は、同一フレームで検出された複数のオブジェクトを区別するために振られるID情報であり、追跡対象オブジェクトに振られる識別子とは異なる。
 検出部202は、検出結果情報を、追跡部203とクオリティ予測部205と特徴量抽出部208へ出力する。
 追跡部203は、検出結果情報に基づいて、Tracking by Detectionと呼ばれる追跡処理を行う。すなわち、追跡部203は、一つ前の時刻までのオブジェクトの追跡結果の情報に含まれ、追跡対象となっている各オブジェクトが、現時刻の検出結果情報に含まれるどの検出オブジェクトと対応づくかを求め、追跡結果を更新する。追跡部203は、追跡対象のオブジェクトの位置をカルマンフィルタやパーティクルフィルタによって予測し、現時刻における検出オブジェクトと対応付けるようにしてもよい。
 追跡部203は、追跡対象オブジェクトと検出オブジェクトとを対応づけた場合には、対応づけた検出オブジェクトの情報とその時刻の画像を用いて追跡対象オブジェクトの情報を更新する。追跡部203は、検出オブジェクトをどの追跡対象オブジェクトとも対応付けることができなかった場合には、新たに表れたオブジェクトである可能性が高いため、その検出オブジェクトに対応する追跡対象オブジェクトを新たに生成し、オブジェクト追跡結果に追加する。
 追跡部203は、追跡対象オブジェクトをどの検出オブジェクトとも対応付けることができない場合には、その追跡対象オブジェクトが画面外に出た等の理由により、消失したと判定する。従って、追跡部203は、その追跡対象オブジェクトを追跡結果から削除する。ただし、追跡部203は、一度の未対応で削除するのではなく、数回未対応が続いた後に削除するようにしてもよい。例えば、追跡部203は、追跡対象オブジェクトを追跡結果から削除する処理において、予め定められた追跡対象オブジェクトの確からしさを表す尤度を用いても良い。その場合、追跡部203は、追跡対象オブジェクトの新規生成時から、検出オブジェクトとの対応付けができた場合には尤度を上げ、対応付けができなかったら尤度を下げる。追跡部203は、尤度が一定値を下回った時点で追跡対象オブジェクトを追跡結果から削除する。なお、追跡部203は、尤度の計算において、検出結果と対応付けることができたかという情報だけではなく、対応付けた際の確からしさも合わせて考慮してもよい。追跡部203は、現時刻における追跡結果情報を生成する。
 追跡結果情報は、画像上でのオブジェクトの位置、大きさ、および追跡対象オブジェクトごとに付与された識別子、対応付けられた検出オブジェクトの識別子を含む。追跡結果情報は、検出オブジェクトを対応付けられなかった場合には、未対応であることを表す情報を含む。追跡部203は、位置情報の記述方法を任意とし、例えば、追跡オブジェクトの外接矩形情報で示す。追跡部203は、画面上の位置で位置情報を表す場合には、オブジェクトを囲う矩形の頂点の座標(例えば左上と右下の頂点)で位置情報を表してもよい。追跡部203は、1つの頂点と矩形の幅、高さの情報で位置情報を表してもよい。追跡部203は、画面上の座標を実空間上の座標に変換し、位置情報を出力してもよい。例えば、追跡部203は、追跡オブジェクト領域中の一点の座標を求め、その点に基づく相対的な情報で大きさ情報を表す。
 追跡部203は、生成した追跡結果情報を、位置関係解析部204とクオリティ予測部205へ出力する。
 位置関係解析部204は、入力される追跡結果情報に含まれる各オブジェクトの位置情報を比較し、追跡対象オブジェクト間の位置関係を解析する。具体的には、位置関係解析部204は、オブジェクト同士が重なっているかどうかを判定し、重なっている場合は、どのオブジェクトが最も手前であるかを判定し、オブジェクト位置関係情報を生成する。位置関係解析部204は、例えば、重なりの判定として、各追跡対象オブジェクトの外接矩形同士に重なりがあるかどうかを判定する。この際、位置関係解析部204は、重なりがあるかどうかだけではなく、重なりの度合いを表す重なり率を算出してもよい。位置関係解析部204は、手前かどうかの判定には、通常の斜め上から撮影する監視カメラの画角の場合、より下側に映るオブジェクトの方が手前にあると判定する。よって、位置関係解析部204は、重なりが判定された場合には、画面上の外接矩形や位置情報から、最も下側に位置するオブジェクトが手前にあるオブジェクトと判定し、それ以外は隠されていると判定する。位置関係解析部204は、オブジェクトの位置情報を実世界座標に変換し、最もカメラに近いオブジェクトを手前にあるオブジェクトとして判定してもよい。位置関係解析部204は、オブジェクト全体ではなく、オブジェクトの各部位に対して重なりを判定してもよい。例えば、位置関係解析部204は、オブジェクトの外接矩形を複数の領域に分割し、分割した領域ごとに重なりを判定してもよい。位置関係解析部204は、分割した領域ごとに重なり率を算出してもよい。
 位置関係解析部204は、生成されたオブジェクト位置関係情報を、クオリティ予測部205へ出力する。
 クオリティ予測部205は、現時刻の検出結果情報、追跡結果情報およびオブジェクト位置関係情報が入力される。クオリティ予測部205は、追跡対象オブジェクトのどのオブジェクトに対して特徴量抽出処理を行うかの指標となるクオリティ(質)指標を算出する。クオリティ予測部205は、入力される追跡結果情報と検出結果情報とオブジェクト位置関係情報と環境要因記憶部206に記憶される環境要因情報とに基づいてクオリティ指標を求め、選択部207へ出力する。
 クオリティ指標は、抽出する特徴量の質を、特徴量を抽出する以前に予測する指標である。また、クオリティ指標は、オブジェクトから高品質な特徴量が抽出されると予測される場合には高い値をとり、そうでない場合に低い値となる指標である。クオリティ指標は、値の取り得るレンジが任意である。以下では、クオリティ指標は、[0,1]の区間の値をとる。
 クオリティ予測部205は、追跡結果情報に含まれる各追跡対象オブジェクトに対して、オブジェクト位置関係情報を参照し、他のオブジェクトとの重なりによる隠蔽が生じていないかどうかを判定する。クオリティ予測部205は、隠蔽が生じている場合には、特徴量抽出の対象となる画像領域の一部あるいは全部がそのオブジェクトに帰属しなくなり、その領域から抽出される特徴量が本来の特徴量とは異なる値になるため、特徴量のクオリティが低下するよう予測する。クオリティ指標は、この低下の程度が隠蔽の度合い(以降隠蔽度と呼ぶ)によって変化するため、隠蔽度に応じて下がるよう定義されている。クオリティ予測部205は、隠蔽度を、オブジェクト領域の中で手前のオブジェクトに隠されている領域の比率(隠蔽率)としてもよい。クオリティ予測部205は、隠蔽度をrOcc、隠蔽度に基づくクオリティ指標をqOccとすると、数式1を用いてクオリティ指標qOccを算出する。
Figure JPOXMLDOC01-appb-M000001
 ここで、fOcc(rOcc)は、[0,1]を値域としてもつ単調非増加関数であり、例えば、図4Aのように表される。クオリティ予測部205は、例えば隠蔽度と照合精度の関係から求められたこの関数を、fOcc(rOcc)として用いる。
 クオリティ予測部205は、隠蔽度の算出にオブジェクト領域全体の隠蔽率を用いるのではなく、オブジェクト領域内でどの部分が隠蔽されているかも考慮して算出してもよい。例えば、オブジェクトが人物の場合、足下に近い領域が隠されても照合精度への影響は小さいが、頭部領域に近い領域が隠されると照合精度の影響は大きくなることがある。従って、クオリティ予測部205は、隠蔽部位によって照合に与える影響度が異なる場合には、部位ごとに隠蔽率を算出し、それらを重みづけ加算して隠蔽度を算出してもよい。例えば、クオリティ予測部205は、オブジェクトが人物の場合、図5に示すように、人物を水平な線で鉛直方向に複数の領域R1,R2,・・・,RM(図5はM=5の場合に相当)に分割し、それぞれの領域ごとに、隠蔽率を算出し、数式2に示すように重みづけ加算して隠蔽度を算出する。クオリティ予測部205は、重みづけ加算して隠蔽度を算出することで、照合精度への影響が大きい部位が重点的に考慮されたクオリティ指標を算出できる。
Figure JPOXMLDOC01-appb-M000002
 ここで、r、wは、それぞれ領域Rに対する隠蔽率と重み係数である。重み係数は、照合に対する影響が大きい領域ほど大きな値をとる係数であり、総和が1になるように正規化されている。クオリティ予測部205は、オブジェクトの部位ごとに重みづけして算出した隠蔽度を用いて、隠蔽度に基づくクオリティ指標を算出できる。
 クオリティ予測部205は、他の要因によってもクオリティ指標を算出する。検出されたオブジェクトの大きさが大きいほど、オブジェクトの細かな特徴まで抽出可能となるため、一般的に、特徴量のクオリティは、オブジェクトの大きさ(解像度)が大きいほど上がる。よって、クオリティ予測部205は、オブジェクト検出結果から求まるオブジェクト領域のサイズs(例えば領域の面積や領域の幅や高さなど)を用いて、解像度に基づくクオリティ指標qResの値を数式3によって求める。
Figure JPOXMLDOC01-appb-M000003
 ここで、fRes(s)は、[0,1]を値域としてもつ単調非減少関数であり、例えば、図4Bのように表される。クオリティ予測部205は、例えばサイズsと照合精度の関係から求められたこの関数を、fRes(s)として用いる。
 オブジェクトの画面上での動きが大きい場合には、オブジェクト表面の細かな模様(例えばオブジェクトが人物の場合は服の模様など)は、動きボケの影響で正しく抽出できなくなる可能性が高まる。そのため、特徴量のクオリティは、オブジェクトの画面上での動きが大きいほど下がる。クオリティ予測部205は、オブジェクトの画面上での動き量をvとすると、動きに基づくクオリティ指標qMotの値を数式4によって求める。
Figure JPOXMLDOC01-appb-M000004
 ここで、fMot(v)は、[0,1]を値域としてもつ単調非増加関数であり、例えば、図4Cのように表される。クオリティ予測部205は、例えば画面上での動き量vと照合精度の関係から求められたこの関数を、fMot(v)として用いる。また、クオリティ予測部205は、動き量vを追跡対象オブジェクトの移動履歴から求めることができる。例えば、クオリティ予測部205は、一つ前(あるいは一定数前)の時刻におけるオブジェクトの位置を記憶しておき、オブジェクト追跡結果が入力されたときに、現時刻における位置との差分を算出することで、画面上での動き量vを求める。
 オブジェクトの姿勢や向きが特徴量抽出で想定している姿勢や向きから大きくずれている場合には、抽出された特徴量は、想定からずれる可能性がある。よって、オブジェクトの姿勢や向きについて、想定された姿勢や向きからのずれが大きくなるほど、特徴量のクオリティは、下がると考えられる。例えば、想定姿勢からのずれは、オブジェクトが人物の場合には、特徴量の抽出で想定される姿勢が直立姿勢の場合、しゃがんだり、かがんだりするとずれが大きくなる。このずれの程度を表す値は、想定姿勢からのずれが大きいほど値が大きくなる指標である姿勢変化度rPosで表される。クオリティ予測部205は、姿勢や向きに基づくクオリティ指標qPosの値を数式5によって求める。
Figure JPOXMLDOC01-appb-M000005
 ここで、fPos(rPos)は、[0,1]を値域としてもつ単調非増加関数であり、例えば、図4Dのように表される。クオリティ予測部205は、例えば姿勢変化度rPosと照合精度の関係から求められたこの関数を、fPos(rPos)として用いる。
 姿勢変化度rPosは、例えば、オブジェクト検出矩形のアスペクト比が想定される姿勢の場合のオブジェクト外接矩形のアスペクト比からどれだけずれているかで定義される。例えば、クオリティ予測部205は、検出矩形のアスペクト比と想定姿勢に対するオブジェクト外接矩形のアスペクト比の差分の絶対値を求め、その値を姿勢変化度rPosとする。クオリティ予測部205は、固定カメラからの映像にキャリブレーション情報が利用できる場合には、画面の矩形の大きさから、実空間上でのオブジェクトの大きさを求めることが可能である。例えば、クオリティ予測部205は、オブジェクトの追跡結果からオブジェクトの実空間上での大きさ(例えば、人物の場合には人物の高さ)を求め、その時系列変化をチェックすることで、姿勢変動を検出する。クオリティ予測部205は、実空間上での大きさの変化の度合いに応じて、姿勢変化度を算出してもよい。
 クオリティ予測部205は、オブジェクトの向きを考慮してもよい。クオリティ予測部205は、オブジェクトの向きの求め方としては種々の方法がある。例えば、クオリティ予測部205は、オブジェクトの移動方向と向きが一致するとの仮定の下、追跡結果の位置の履歴からオブジェクトの移動方向を特定し、向きを推定する。クオリティ予測部205は、推定された向きと特徴量抽出の想定向き(例えば正面など)とのずれの大きさで、姿勢変化度を算出してもよい。
 環境要因記憶部206は、環境要因によって生じる特徴量のクオリティ低下に対するクオリティ指標の値を格納する。例えば、環境要因記憶部206は、特徴量のクオリティに影響を与える環境要因として、環境に配置されている障害物(棚や机など)による隠蔽、不適切な照明・日照条件による劣化、カメラの焦点が合っていないことによって生じるぼけによる劣化などに関するクオリティ指標を格納する。環境要因記憶部206は、撮像装置が固定カメラの場合、これらの劣化要因が画面上の特定の場所で生じるものとして格納する。環境要因記憶部206は、画面上の各位置にオブジェクトが来た時に生じるクオリティ劣化の度合いが推定されたクオリティ指標の値を位置と対応付けて記憶する。環境要因記憶部206は、数式6に示す、画面上の各座標(x,y)について求められた環境要因に基づくクオリティ指標の値を記憶する。
Figure JPOXMLDOC01-appb-M000006
 ここで、fEnv(x,y)は、[0,1]を値域としてもつ関数である。また、x,yは、オブジェクトの基準点の位置座標であり、例えば、オブジェクトの接地点の中心座標を用いる。関数fEnv(x,y)の値は、オブジェクトが画面上の位置(x,y)に来た時に生じる環境要因によって、どの程度照合精度が落ちるかを求めた結果に基づいて定められる。
 なお、環境要因ではないが、カメラの画面の周辺領域は、オブジェクトの一部が画面外となり、一部が隠蔽されたのと同等の状況が生じる。クオリティ予測部205及び環境要因記憶部206は、障害物による隠蔽と同様に、画面の周辺領域を環境要因として用いてもよい。
 特徴量のクオリティに影響を与える上述の要因のうち、解像度は、環境要因として扱われてもよい。従って、クオリティ予測部205及び環境要因記憶部206は、解像度に基づくクオリティ指標を、環境要因に基づくクオリティ指標として用いてもよい。
 上述の位置情報(x,y)は、画面上ではなく、実世界座標や、それを地図画像の座標に変換した値であってもよい。この場合、クオリティ指標qEnvは、オブジェクトの位置情報を該当する座標系に変換した上で、数式6によって求められる。
 環境要因に基づくクオリティ指標は、照明や日照条件が昼と夜で異なる等によって、時間帯で変化が生じ得る。例えば、環境要因記憶部206は、各時間帯に対するクオリティ指標の値を記憶する。クオリティ予測部205は、処理する映像の時間帯に応じて、クオリティ指標qEnvを切り替えて用いてもよい。クオリティ予測部205は、環境条件が遷移する状況下では、その前後の時間帯のクオリティ指標の値から、内挿によりクオリティ指標の値を用いてもよい。
 クオリティ予測部205は、各要因に対するクオリティ指標から全体のクオリティ指標を算出する。具体的には、クオリティ予測部205は、オブジェクト追跡結果に含まれる追跡対象オブジェクトの位置情報から現時刻におけるオブジェクトの位置(x,y)を求め、環境要因記憶部206から、その位置における環境要因に基づくクオリティ指標qEnvの値を求める。各要因に対するクオリティ指標と全体のクオリティ指標Qの関係を表す関数gは、数式7のように定義される。クオリティ予測部205は、全体のクオリティ指標Qを数式7によって求める。
Figure JPOXMLDOC01-appb-M000007
 数式7の関数は、例えば数式8に示す関数が用いられる。
Figure JPOXMLDOC01-appb-M000008
 クオリティ予測部205は、オブジェクト同士の隠蔽や、解像度、動き、姿勢、環境に基づいて生じる特徴量のクオリティ低下を予測し、特徴量抽出を行うべきオブジェクトを、適切に選択できる。
 ここまで全体のクオリティ指標を算出するための様々な要因について記載してきたが、クオリティ予測部205は、全てのクオリティ指標を用いる必要はなく、一部のみを用いてもよい。例えば、クオリティ予測部205は、用いない要因に対するクオリティ指標の値を1として、数式7および数式8に従ってクオリティ指標を算出する。
 また、本実施形態は、環境要因記憶部206がなくてもよい。その場合には、クオリティ予測部205は、各要因に対するクオリティ指標と全体のクオリティ指標Qの関係を表す関数gを含む数式9を用いて、全体のクオリティ指標Qを算出する。
Figure JPOXMLDOC01-appb-M000009
 数式9の関数は、例えば数式10に示す関数が用いられる。
Figure JPOXMLDOC01-appb-M000010
 クオリティ予測部205は、オブジェクト追跡結果に含まれる各追跡対象オブジェクトに対してクオリティ指標を算出する。クオリティ予測部205は、追跡対象オブジェクトの識別子とそれに対応づけられた検出オブジェクトの識別子の情報に対して、算出したクオリティ指標を対応付けて出力する。
 クオリティ予測部205は、数式9において、全てのクオリティ指標を考慮する必要はなく、一部のみを用いてもよい。例えば、クオリティ予測部205は、用いない要因に対するクオリティ指標の値を1として、数式9および数式10に従ってクオリティ指標を算出する。
 以上より、クオリティ予測部205は、オブジェクト同士の隠蔽や、解像度、動き、姿勢によって特徴量のクオリティが低下することを予測できる。クオリティ予測部205は、クオリティ指標の一部のみを用いることで、オブジェクト同士の隠蔽や、解像度、動き、姿勢、環境要因の中から適応する場面に適した指標のみが考慮されたクオリティ指標を算出できる。この場合、クオリティ予測部205は、各場面に適した処理のみを行うことができるので、計算リソースを効率的に使用できる。
 選択部207は、クオリティ予測部205から出力されるクオリティ指標に基づいて、特徴量を抽出するオブジェクトを選択し、選択オブジェクト情報を出力する。選択部207は、入力されるクオリティ指標の値が大きい追跡対象オブジェクトを選択する。例えば、選択部207は、クオリティ指標の値が一定値よりも大きいものを選択する。選択部207は、クオリティ指標の値でソートしたときに、大きいほうから一定数の追跡対象オブジェクト(もし、オブジェクト数が一定数より少ない場合には全て)を選択してもよい。選択部207は、両者の基準を組み合わせてオブジェクトを選択(クオリティ指標の値が一定値以上の中で、大きいほうから一定数選択)してもよい。
 選択部207は、選択された追跡対象オブジェクトの識別子と、それと対応づいた検出オブジェクトの識別子を組み合わせて、選択オブジェクト情報として出力する。
 特徴量抽出部208は、選択オブジェクト情報と、検出結果情報に基づいて、画像からオブジェクト特徴量を抽出する。特徴量抽出部208は、選択オブジェクト情報に含まれる追跡オブジェクトの識別子と対応づけられた検出オブジェクトの識別子によって、検出オブジェクトの位置情報を検出結果情報から求める。特徴量抽出部208は、その追跡オブジェクトの識別子のオブジェクトの特徴量として、該当する画像領域の特徴量を抽出する。抽出する特徴量は、オブジェクトの識別に利用可能な特徴量であればどのようなものでもよい。例えば、抽出する特徴量は、オブジェクトの色や形状、模様などを表す視覚特徴量である。抽出する特徴量は、色や輝度勾配特徴のヒストグラム、SIFT(Scale-Invariant Feature Transform)やSURF(Speeded-Up Robust Features)のような局所特徴、ガボールウェーブレットのような模様を記述する特徴量等であってもよい。抽出する特徴量は、深層学習によって求まったオブジェクト識別用の特徴量であってもよい。
 図6は、実施形態2の情報処理装置200によって実行される処理の流れを例示するフローチャートである。
 ステップS202では、映像取得部201は、映像を取得する。
 ステップS204では、検出部202は、ステップS202で取得された映像から物体を検出し、検出結果情報を生成する。
 ステップS206では、追跡部203は、ステップS204で生成された検出結果情報に基づいて、ステップS202で取得された映像から物体を追跡し、追跡結果情報を生成する。
 ステップS208では、位置関係解析部204は、ステップS206で生成された追跡結果情報に基づいて、物体の位置関係を解析し、位置関係情報を生成する。
 ステップS210では、クオリティ予測部205は、ステップS204で生成された検出結果情報、ステップS206で生成された追跡結果情報及びステップS208で生成された位置関係情報に基づいて、物体から抽出される特徴量の質を予測する。特徴量の質を予測する際には、クオリティ予測部205は、環境要因記憶部206に記憶されている環境要因に基づくクオリティ指標を参照してもよい。
 ステップS212では、選択部207は、ステップS210で予測された特徴量に基づいて、特徴量を抽出する物体を選択する。
 ステップS214では、特徴量抽出部208は、ステップS212で選択された物体の特徴量を抽出する。特徴量を抽出した後、情報処理装置100は処理を終了する。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、隠蔽度に基づくクオリティ指標を用いる場合、人物間の重なりや他の障害物による隠蔽を考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、解像度に基づくクオリティ指標を用いる場合、画面上の人物のサイズを考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、動きに基づくクオリティ指標を用いる場合、動きブレが生じる可能性を考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、姿勢や向きに基づくクオリティ指標を用いる場合、オブジェクトの姿勢や向きが想定していた姿勢や向きとどの程度ずれがあるかを考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、環境要因に基づくクオリティ指標を用いる場合、特定の位置にオブジェクトが来た時に決まったクオリティ劣化が生じる場合であっても、特徴量のクオリティの低下を適切に予測できるようになる。また、本実施形態に係る情報処理装置は、時間帯に応じて環境要因に基づくクオリティ指標を切り替えることにより、時間によって抽出される特徴量のクオリティが変化する場合であっても、適切に対応できるようになる。従って、本実施形態に係る情報処理装置は、環境要因に基づくクオリティ指標を用いる場合、ぼけや照明条件等に基づく劣化要因を考慮して、照合に適した特徴量を抽出できる。
 本実施形態に係る情報処理装置は、用いるクオリティ指標を任意に選択できるので、オブジェクト同士の隠蔽や、解像度、動き、姿勢、環境要因の中から、各場面に適した指標のみを考慮して、特徴量抽出を行うオブジェクトを選択できる。この場合、本実施形態に係る情報処理装置は、各場面に適した処理のみを行うことができるので、計算リソースを効率的に使用しつつ、特徴量抽出を行うべきオブジェクトを選択できる。
 本実施形態に係る情報処理装置は、オブジェクトが多数画面に映る状況であっても、特徴量抽出を行うオブジェクトを適切に選択し、特徴量の抽出処理にかかるコストを抑えつつ、オブジェクト全体として高精度な照合が可能となる特徴量の抽出を実現できる。本実施形態に係る情報処理装置は、特に、多数のオブジェクトによって、オブジェクト間に重なりが生じる場合であっても、特徴を抽出すべきオブジェクトを適切に選択できる。
 
 <第3の実施形態>
 図7は、本実施形態における情報処理装置300の構成を示す図である。
 情報処理装置300の構成のうち、第2の実施形態の情報処理装置200の構成と同じ処理動作を行う構成については、図3と同じ符号を付し、詳細な説明を省略する。
 図7に示す情報処理装置300は、映像取得部201と、検出部202と、追跡部203と、予測部310と、選択部307と、特徴量抽出部208と、を備える。
 予測部310は、位置関係解析部204と、クオリティ予測部205と、環境要因記憶部206と、バリエーション予測部309と、を備える。
 映像取得部201と、検出部202と、追跡部203と、位置関係解析部204と、クオリティ予測部205と、環境要因記憶部206と、特徴量抽出部208は、第2の実施形態と同様である。
 バリエーション予測部309は、物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性を予測する。バリエーション予測部309の詳細は、後述する。
 図8は、本実施形態におけるバリエーション予測部309の構成を示す図である。
 図8に示すバリエーション予測部309は、バリエーション指標算出部311と、抽出履歴記憶部312と、追跡履歴記憶部313と、物体状態変化傾向記憶部314と、を備える。
 バリエーション予測部309は、以前の時刻に選択部307が選択したオブジェクトの情報である選択オブジェクト情報と追跡結果情報とが入力される。バリエーション予測部309は、追跡結果情報に含まれる各追跡対象オブジェクトに対するバリエーション指標を算出する。
 バリエーション指標は、取得特徴量のバリエーション(多様性)の改善の可能性を表す指標である。抽出されるオブジェクトの特徴量は、オブジェクトの状態によって変化し得るため、オブジェクト照合での漏れを少なくするためには、同一オブジェクトの様々な状態での特徴量であることが望ましい。オブジェクトの状態がほとんど変わっていない状況で何度特徴量抽出を行っても、ほぼ同じ特徴量が繰り返し取得されるのみであり、オブジェクト照合での漏れは、低減されない。従って、時系列でのオブジェクトの特徴量取得は、冗長な特徴量取得をなるべく避けつつ、取得特徴量のバリエーションを増やしていくことが重要である。バリエーション指標は、それまでに取得した特徴量群に加えて、現時刻での特徴量の取得を行うことで、特徴量のバリエーションを増やすことができるかどうか、すなわち取得特徴量のバリエーションを改善できるかどうか(改善可能性)を特徴量抽出前に予測し、指標化したものである。選択部307は、バリエーション指標が大きいオブジェクトほど優先的に選択することが望ましい。選択部307は、バリエーション指標をオブジェクト選択の基準として用いる。
 バリエーション予測部309は、算出されたバリエーション指標を、追跡対象オブジェクトの識別子と対応付けて選択部307へ出力する。
 バリエーション指標算出部311は、入力される追跡結果情報と、抽出履歴記憶部312から出力される特徴量抽出履歴情報と、追跡履歴記憶部313から出力される追跡履歴情報と、物体状態変化傾向記憶部314から出力されるオブジェクト状態変化傾向情報と、に基づいてバリエーション指標を算出し、出力する。
 バリエーション指標算出部311は、入力される追跡結果情報と、抽出履歴記憶部312から出力される特徴量抽出履歴情報と、のみに基づいてバリエーション指標を算出し、出力してもよい。また、バリエーション指標算出部311は、入力される追跡結果情報と、抽出履歴記憶部312から出力される特徴量抽出履歴情報と、追跡履歴記憶部313から出力される追跡履歴情報と、のみに基づいてバリエーション指標を算出し、出力してもよい。
 抽出履歴記憶部312は、選択部307から入力される選択オブジェクト情報に基づいて、各オブジェクトの特徴量抽出履歴を更新及び格納する。抽出履歴記憶部312は、特徴量抽出履歴情報をバリエーション指標算出部311へ出力する。
 抽出履歴記憶部312は、各追跡対象オブジェクトの識別子に対して、特徴量を抽出するオブジェクトとして選択された時刻の情報を格納する。抽出履歴記憶部312は、選択部307が選択したオブジェクトが入力されると、選択部307が選択したオブジェクトの情報に含まれる追跡対象オブジェクトの識別子に対して、そのオブジェクトが選択された時刻の情報を追加する。抽出履歴記憶部312は、各追跡対象オブジェクトの識別子に対して過去に特徴量抽出が行われた回数の情報を記録してもよい。抽出履歴記憶部312は、この場合には、選択オブジェクト情報に含まれる追跡対象オブジェクトの特徴量抽出回数を1つ増やす。
 バリエーション指標算出部311は、入力されるオブジェクト追跡結果に含まれる各追跡対象オブジェクトに対してバリエーション指標を算出する。上述のように、オブジェクト照合時の漏れの改善は、特徴量のバリエーションを増やすことが重要となる。特徴量のバリエーションの増加は、それまでの特徴量の取得履歴に依存する。前回特徴量を取得してからある程度の時間が経過することでオブジェクトの状態が変化するので、バリエーションの改善につながる特徴量が抽出される可能性は、高まる。バリエーション指標算出部311は、バリエーション指標をVとすると、入力される追跡結果情報と、抽出履歴記憶部313から出力される特徴量抽出履歴情報と、のみに基づいてバリエーション指標を算出する場合、数式11を用いてバリエーション指標Vを算出する。
Figure JPOXMLDOC01-appb-M000011
 ここで、関数h(t)は、[0,1]を値域とし、前回の特徴量抽出からの経過時間tに対する単調非減少関数である。従って、バリエーション指標算出部311は、例えば図9Aに示すような関数を用いる。なお、バリエーション指標算出部311は、まだ一度も特徴量抽出していない場合には、前回の特徴量抽出時刻をt=-∞とし、バリエーション指標の値をh(∞)とする。
 上述の例では、バリエーション指標算出部311は、単に前回の特徴量抽出からの経過時間のみを用いてバリエーション指標を算出したが、これまでの特徴量抽出の回数を用いてもよい。特徴量の抽出回数が増えるにつれ、取得済みの特徴量のバリエーションは、増加する。従って、特徴量抽出の回数が多くなれば、特徴量抽出の頻度は、下げてよい。バリエーション指標算出部311は、特徴量抽出回数が増えるにつれてバリエーション指標の値が下がる関数を用いる。バリエーション指標算出部311は、経過時間tと特徴量抽出回数nの関数として、バリエーション指標Vを、数式12を用いて算出する。
Figure JPOXMLDOC01-appb-M000012
 ここで、関数h(t,n)は[0,1]を値域とし、nを固定したときにはtの単調非減少関数となり、tを固定したときにはnの単調非増加関数となる関数である。バリエーション指標算出部311は、例えば、図9Bに示すような関数を用いる。
 バリエーション指標算出部311は、バリエーション指標Vをオブジェクト追跡結果に含まれる各追跡対象オブジェクトに対して算出する。バリエーション指標算出部311は、算出されたバリエーション指標を追跡対象オブジェクトの識別子と対応付けて出力する。
 バリエーション指標算出部311は、特徴量抽出履歴から取得特徴量のバリエーションの改善可能性を予測して、特徴量抽出を行うべきオブジェクトを適切に選択するための指標を算出できる。
 追跡履歴記憶部313は、各追跡対象オブジェクトの識別子に対して、これまでの追跡結果に関する情報を格納する。具体的には、追跡履歴記憶部313は、各時刻におけるオブジェクトの位置情報(オブジェクトの外接矩形の情報など、オブジェクトの大きさに関する情報も含む)や、検出オブジェクトと対応づいたかどうかの情報を格納する。追跡履歴記憶部313は、追跡結果情報が入力されると、追跡結果情報に含まれる各追跡対象オブジェクトの情報を、対応する追跡対象オブジェクトの識別子のデータに追加する。
 同じところにとどまり続けているオブジェクトは、前回の特徴量抽出から時間が経過している場合であっても状態があまり変化していない可能性が高く、特徴量抽出を行っても、前回とほぼ同じバリエーションの特徴量が得られるのみになる可能性が高い。一方、動いているオブジェクトは、前回の特徴量抽出からの経過時間が短くても、状態が大きく変化している可能性が高い。従って、バリエーション指標算出部311は、追跡履歴情報を用いて、オブジェクトがどれだけ移動しているかを求め、求まった移動量に応じてバリエーション指標の値を変化させる。例えば、バリエーション指標算出部311は、現時点より一定時間前のオブジェクトの位置を追跡履歴記憶部313から読み出し、追跡結果情報に含まれる現時刻での位置との差分を求め、移動量dを算出する。バリエーション指標算出部311は、この移動量を画面上での移動量として求めてもよい。バリエーション指標算出部311は、移動量dを実世界座標系に変換し、実世界上での移動量として求めてもよい。
 バリエーション指標算出部311は、入力される追跡結果情報と、抽出履歴記憶部312から出力される特徴量抽出履歴情報と、追跡履歴記憶部313から出力される追跡履歴情報と、のみに基づいてバリエーション指標Vを算出する場合、数式13を用いてバリエーション指標Vを算出する。数式13は、経過時間をt、特徴量抽出回数をn、移動量をdとする。
Figure JPOXMLDOC01-appb-M000013
 ここで、関数h(t,n,d)は、[0,1]を値域として持ち、n,dを固定したときにはtの単調非減少関数となり、t,dを固定したときにはnの単調非増加関数となり、t,nを固定した時にはdの単調非減少関数となる関数である。バリエーション指標算出部311は、例えば、図9Cに示すような関数を用いる。
 バリエーション指標算出部311は、追跡結果情報を用いるので、オブジェクトの向き等、オブジェクトの状態に関する情報を取得する。オブジェクトの状態に応じて特徴量が変化し得る場合には、その状態ごとに特徴量を抽出及び保持し、照合に用いることで、オブジェクト照合時の漏れは、低減される。従って、バリエーション指標算出部311は、オブジェクトの状態ごとに特徴量抽出の履歴を保持し、そのときのオブジェクトの状態に応じてバリエーション指標を算出する。追跡履歴記憶部313は、オブジェクトの状態に関する情報も、追跡結果として保持する。
 追跡履歴記憶部313は、オブジェクトの状態を表すカテゴリをc=1,…,Cとする。このカテゴリは、例えば、正面、右、背面、左といったオブジェクトの向きに関するカテゴリである。バリエーション指標算出部311は、それぞれのカテゴリに対して、数式14を用いてバリエーション指標Vを算出する。
Figure JPOXMLDOC01-appb-M000014
 ここで、関数h3,cは、数式13の関数hをカテゴリごとに求める関数である。まず、バリエーション指標算出部311は、追跡結果情報に基づいて、現在のオブジェクトの状態がどのカテゴリに当てはまるかを推定し、推定したカテゴリの関数を用いてバリエーション指標を算出する。例えば、バリエーション指標算出部311は、カテゴリが向きの場合には、オブジェクトの追跡履歴からオブジェクトの移動方向を求め、移動方向に基づいて、向きを推定する。バリエーション指標算出部311は、向きが求まらない場合には、向き不明というカテゴリを設けておき、バリエーション指標を算出する。
 このカテゴリは、必ずしも向きによるものでなくてよく、オブジェクトの状態を反映した様々なカテゴリであってよい。追跡履歴記憶部313は、追跡情報のみでカテゴリ分類が難しい場合には、他の情報も含めてオブジェクトの状態のカテゴリ分類が行われてもよい。バリエーション指標算出部311は、算出されたバリエーション指標を追跡対象オブジェクトの識別子と対応付けて出力する。
 バリエーション指標算出部311は、オブジェクトの移動の有無や状態に応じたカテゴリまで用いることで、オブジェクトの特徴量の変化の有無やバリエーション改善の可能性を、より正確にバリエーション指標に反映できる。
 物体状態変化傾向記憶部314は、画面内の場所に応じて変化し得る、オブジェクトの状態変化の傾向を表す情報を格納する。オブジェクトがどういう状態を取りやすいかといった傾向は、オブジェクトが存在する場所によって異なる場合がある。例えば、オブジェクトが人物の場合、通路の曲がり角に設置され、人が歩行時に曲がる様子をとらえることができるカメラは、曲がり角においては、人物が曲がる際に、人物の様々な方向の特徴を抽出することが可能である。一方、それ以外の位置は、人物の方向とカメラの向きの関係が変化しにくいため、特定の方向のみの特徴が抽出される可能性が高い。バリエーション指標は、場所によってオブジェクトの状態変化の度合いが異なる場合には、状態変化が起こりやすい場所で、他の場所よりも頻度を上げて特徴量抽出が行われることで、効率的に改善されるようになる。物体状態変化傾向記憶部314は、数式15で示されるような場所(x,y)ごとに定義された状態変化の起こりやすさを反映した乗数αを記憶しておく。
Figure JPOXMLDOC01-appb-M000015
 ここで、関数hLocは、[0,1]の値域を持つ関数であり、画面上でオブジェクトの状態変化が起こりやすいところほど値が大きくなる関数である。バリエーション指標算出部311は、数式11から数式14を用いて求めたバリエーション指標Vに数式15の乗数αを乗じた値を全体のバリエーション指標Vとして算出できる。より具体的には、バリエーション指標算出部311は、追跡対象オブジェクトの位置(x,y)を追跡結果情報から求め、この値に基づいて、オブジェクト状態変化傾向情報として乗数αの値を読み出して、バリエーション指標Vの値に乗じるようにする。バリエーション指標算出部311は、算出された全体のバリエーション指標を追跡対象オブジェクトの識別子と対応付けて出力する。
 バリエーション指標算出部311は、場所に応じたオブジェクト状態の変化の傾向まで考慮することで、オブジェクトの特徴量の変化の有無を、より正確にバリエーション指標に反映できる。
 なお、ここまではバリエーション指標を算出するための様々な方法を説明してきたが、バリエーション指標の算出方法は、上記の方法に限定されない。例えば、バリエーション指標算出部311は、追跡結果情報と、追跡履歴記憶部313から出力される追跡履歴情報と、のみに基づいてバリエーション指標を算出し、出力してもよい。バリエーション指標算出部311は、追跡結果情報と、物体状態変化傾向記憶部314から出力されるオブジェクト状態変化傾向情報と、のみに基づいてバリエーション指標を算出し、出力してもよい。
 選択部307は、クオリティ予測部205から出力されるクオリティ指標と、バリエーション予測部309から出力されるバリエーション指標とに基づいて特徴量を抽出するオブジェクトを選択し、選択オブジェクト情報を出力する。選択部307は、選択オブジェクト情報を、後の時刻でのバリエーション判定のため、バリエーション予測部309にも出力する。選択オブジェクト情報は、クオリティ予測部205に算出されたクオリティ指標とバリエーション予測部309によって算出されたバリエーション指標とに基づいて算出された選択指標Iを含む。選択部307は、選択指標Iを算出する関数をFとすると、数式16を用いて選択指標Iを算出する。
Figure JPOXMLDOC01-appb-M000016
 数式16の関数は、例えば、数式17の関数が用いられる。
Figure JPOXMLDOC01-appb-M000017
 選択部307は、選択指標Iの値が大きい追跡対象オブジェクトを選択する。例えば、選択部307は、選択指標の値が一定値よりも大きいものを選択する。選択部307は、選択指標の値でソートしたときに、大きいほうから一定数の追跡対象オブジェクト(もし、オブジェクト数が一定数より少ない場合には全て)を選択してもよい。選択部307は、両者の基準を組み合わせてオブジェクトを選択(例えば、選択指標の値が一定値以上の中で、大きいほうから一定数選択)してもよい。
 選択部307は、選択された追跡対象オブジェクトの識別子を、それと対応づいた検出オブジェクトの識別子と組み合わせて選択オブジェクト情報として出力する。選択オブジェクト情報は、バリエーション予測部309へ出力され、後の時刻におけるバリエーション指標の算出に用いられる。
 図10は、第3の実施形態の情報処理装置300によって実行される処理の流れを例示するフローチャートである。
 ステップS202、ステップS204、ステップS206、ステップS208及びステップS210は、第2の実施形態と同様である。
 ステップS302では、バリエーション予測部309は、ステップS206で生成された追跡結果情報と選択部307からフィードバックされた選択オブジェクト情報とに基づいて、特徴量のバリエーションが改善される改善可能性を予測する。
 ステップS304では、選択部307は、ステップS210で予測された特徴量の質とステップS302で予測された改善可能性とに基づいて、特徴量を抽出する物体を選択する。
 ステップS214は、第2の実施形態と同様である。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、特徴量の抽出履歴を考慮することで、異なる人物間で特徴量の抽出回数に大きなばらつきが出る可能性を抑えることができる。本実施形態に係る情報処理装置は、オブジェクトの追跡履歴を考慮することで、前回の特徴量抽出から時間が経過しているオブジェクトであっても、同じところにとどまり続けている場合や、前回の特徴量抽出からの経過時間が短くても、オブジェクトが動いているので状態が大きく変化している場合等に適応して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトの状態変化傾向を考慮することで、場所に応じたオブジェクト状態の変化による特徴量の変化の有無をバリエーション指標に反映することが可能となり、より適切なオブジェクト選択が可能となる。
 
 <第4の実施形態>
 図11は、本実施形態における情報処理装置400の構成を示す図である。
 情報処理装置400の構成のうち、第3の実施形態の情報処理装置300の構成と同じ処理動作を行う構成は、図7と同じ符号を付し、詳細な説明を省略する。
 図11に示す情報処理装置400は、映像取得部201と、検出部202と、追跡部203と、予測部410と、選択部307と、特徴量抽出部208と、を備える。
 予測部410は、クオリティ予測部405と、環境要因記憶部206と、バリエーション予測部309と、を備える。
 映像取得部201と、検出部202と、追跡部203と、環境要因記憶部206と、特徴量抽出部208は、第2の実施形態と同様である。
 バリエーション予測部309と、選択部307は、第3の実施形態と同様である。
 クオリティ予測部405は、現時刻の検出結果情報と追跡結果情報が入力される。第2の実施形態のクオリティ予測部205との相違点は、オブジェクト位置関係情報が入力されないことである。従って、第2の実施形態のクオリティ予測部205と説明が重複する点は、説明を省略する。
 クオリティ予測部405は、入力される追跡結果情報と検出結果情報と、環境要因記憶部206に記憶される環境要因情報とに基づいてクオリティ指標を求め、選択部307へ出力する。
 クオリティ予測部405は、各要因に対するクオリティ指標から全体のクオリティ指標を算出する。具体的には、クオリティ予測部405は、オブジェクト追跡結果に含まれる追跡対象オブジェクトの位置情報から現時刻におけるオブジェクトの位置(x,y)を求め、環境要因記憶部206から、その位置における環境要因に基づくクオリティ指標qEnvの値を求める。関数gは、各要因に対するクオリティ指標と全体のクオリティ指標Qの関係を表し、数式18のように定義される。クオリティ予測部405は、全体のクオリティ指標Qを数式18によって求める。
Figure JPOXMLDOC01-appb-M000018
 数式18の関数は、例えば数式8に示す関数が用いられる。
Figure JPOXMLDOC01-appb-M000019
 クオリティ予測部405は、解像度や、動き、姿勢、環境に基づいて生じる特徴量のクオリティ低下を予測し、特徴量抽出を行うべきオブジェクトを、適切に選択できる。
 クオリティ予測部405は、全てのクオリティ指標を用いる必要はなく、解像度、動き、姿勢、環境に基づいて生じる特徴量のクオリティ低下の少なくとも1つを用いてもよい。例えば、クオリティ予測部405は、考慮しない要因に対するクオリティ指標の値を1とみなして、数式18および数式19に従ってクオリティ指標を算出する。
 また、本実施形態は、環境要因記憶部206がなくてもよい。その場合には、クオリティ予測部405は、各要因に対するクオリティ指標と全体のクオリティ指標Qの関係を表す関数gを含む数式20を用いて、全体のクオリティ指標Qを算出する。
Figure JPOXMLDOC01-appb-M000020
 数式20の関数は、例えば数式21に示す関数が用いられる。
Figure JPOXMLDOC01-appb-M000021
 クオリティ予測部405は、数式20において、全てのクオリティ指標を用いる必要はなく、一部のみを用いてもよい。例えば、クオリティ予測部405は、用いない要因に対するクオリティ指標の値を1とみなして、数式20および数式21に従ってクオリティ指標を算出する。
 図12は、第4の実施形態の情報処理装置400によって実行される処理の流れを例示するフローチャートである。
 ステップS202、ステップS204及びステップS206は、第2の実施形態と同様である。
 ステップS402では、クオリティ予測部405は、ステップS204で生成された検出結果情報及びステップS206で生成された追跡結果情報に基づいて、物体から抽出される特徴量の質を予測する。特徴量の質を予測する際には、クオリティ予測部405は、環境要因記憶部206に記憶されている環境要因に基づくクオリティ指標を参照してもよい。
 ステップS302及びステップS304は、第3の実施形態と同様である。
 ステップS214は、第2の実施形態と同様である。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトが単独で存在する場合であっても、特徴量のクオリティだけでなく、バリエーションの改善可能性も同時に予測することによって、特徴量の抽出の必要性を適切に判定できる。従って、本実施形態に係る情報処理装置は、特徴量の抽出にかかる計算コストを低減できる。
 
 <第5の実施形態>
 図13は、本実施形態における情報処理装置500の構成を示す図である。
 情報処理装置500の構成のうち、第2の実施形態の情報処理装置200の構成と同じ処理動作を行う構成は、図3と同じ符号を付し、詳細な説明を省略する。
 図13に示す情報処理装置500は、映像取得部201と、検出部202と、追跡部203と、予測部510と、選択部207と、特徴量抽出部208と、を備える。
 予測部510は、物体検出傾向解析部504と、クオリティ予測部505と、環境要因記憶部206と、を備える。
 映像取得部201と、検出部202と、追跡部203と、環境要因記憶部206と、選択部207と、特徴量抽出部208は、第2の実施形態と同様である。
 物体検出傾向解析部504は、入力される検出結果情報を分析し、画像の場所ごとの検出傾向情報を求める。オブジェクトは、棚などの障害物がある場所では隠蔽され、検出されないケースが増える。オブジェクトは、全体が隠されている際には全く検出されないが、一部が隠された際には、検出される場合とされない場合がある。ある一定時間内におけるオブジェクトの検出回数を場所ごとに集計すると、障害物等がない場所であれば頻度が高くなるのに対し、障害物等で隠される場所では、オブジェクトの検出頻度は、低くなる。物体検出傾向解析部504は、場所ごとの頻度情報を検出傾向情報として生成する。
 物体検出傾向解析部504は、検出部202がオブジェクトの複数の部位を検出する手段である場合には、ある一定時間内におけるオブジェクトの部位の検出回数を場所ごとに集計してもよい。物体検出傾向解析部504は、複数の部位が同時に検出されたかどうかといった同時検出の傾向を場所ごとに集計し、検出傾向情報に含めてもよい。
 例えば、オブジェクトが人物であり、検出部202が人物の頭部と人体を同時に検出する検出手段である場合、物体検出傾向解析部504は、頭部と人体それぞれに対して、検出頻度を場所ごとに集計する。物体検出傾向解析部504は、頭部と人体の両方が同時に検出された回数について、場所ごとに集計してもよい。物体検出傾向解析部504は、同時に検出された回数を、その場所での部分的な隠蔽の傾向の判定に用いる。頭部と人体を同時検出する場合、頭部が検出されているにも関わらず人体が検出されないことが多いという傾向は、人物が存在するにも関わらず、人体が検出されていない可能性が高い。その傾向は、その場所において、人体領域の頭部よりも下側の領域が隠されている可能性が高いことを示している。
 物体検出傾向解析部504は、生成した検出傾向情報をクオリティ予測部505へ出力する。
 物体検出傾向解析部504は、複数の部位の検出結果を合わせて判定することで、場所ごとのオブジェクト隠蔽の傾向を詳しく反映した検出傾向情報を生成できる。
 クオリティ予測部505は、現時刻の検出結果情報と、追跡結果情報と、検出傾向情報と、が入力される。第4の実施形態のクオリティ予測部405との相違点は、検出傾向情報が入力されることである。従って、第2の実施形態のクオリティ予測部205及び第4の実施形態のクオリティ予測部405と説明が重複する点は、説明を省略する。
 クオリティ予測部505は、入力される追跡結果情報と検出結果情報と検出傾向情報と、環境要因記憶部206に記憶される環境要因情報とに基づいてクオリティ指標を求め、選択部207へ出力する。
 クオリティ予測部505は、検出傾向情報を用いて、障害物によるオブジェクトの隠蔽の状況を判定する。場所(x,y)におけるオブジェクトの検出頻度をFreq(x,y)とすると、クオリティ予測部505は、数式22を用いて乗数βを算出する。クオリティ予測部505は、検出結果情報、追跡結果情報から求まるクオリティ指標に乗数βを乗じ、最終的なクオリティ指標を算出する。
Figure JPOXMLDOC01-appb-M000022
 ここで、関数qLocは、頻度Freq(x,y)に対する単調非減少関数である。クオリティ予測部505は、複数部位の同時検出の頻度を含む場合には、同時検出の頻度を最も検出された部位の頻度で除した比率を、検出頻度の代わりに用いてもよい。
 クオリティ予測部505は、算出したクオリティ指標を、選択部207へ出力する。
 図14は、第5の実施形態の情報処理装置500によって実行される処理の流れを例示するフローチャートである。
 ステップS202、ステップS204及びステップS206は、第2の実施形態と同様である。
 ステップS502では、物体検出傾向解析部504は、物体検出の場所ごとの傾向を分析し、検出傾向情報を生成する。
 ステップS504では、クオリティ予測部505は、ステップS204で生成された検出結果情報、ステップS206で生成された追跡結果情報及びステップS502で生成された検出傾向情報に基づいて、物体から抽出される特徴量の質を予測する。特徴量の質を予測する際には、クオリティ予測部505は、環境要因記憶部206に記憶されている環境要因に基づくクオリティ指標を参照してもよい。
 ステップS212及びステップS214は、第2の実施形態と同様である。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトが単独で存在する場合であっても、場所によるオブジェクトの隠蔽発生傾向を自動的に判定することによって、特徴量の抽出の必要性を適切に判定できる。従って、本実施形態に係る情報処理装置は、特徴量の抽出にかかる計算コストを低減できる。
 
 <第6の実施形態>
 図15は、本実施形態における情報処理装置600の構成を示す図である。
 情報処理装置600の構成のうち、第3の実施形態の情報処理装置300の構成と同じ処理動作を行う構成は、図7と同じ符号を付し、詳細な説明を省略する。
 情報処理装置500の構成のうち、第5の実施形態の情報処理装置500の構成と同じ処理動作を行う構成は、図13と同じ符号を付し、詳細な説明を省略する。
 図15に示す情報処理装置600は、映像取得部201と、検出部202と、追跡部203と、予測部610と、選択部307と、特徴量抽出部208と、を備える。
 予測部610は、物体検出傾向解析部504と、クオリティ予測部505と、環境要因記憶部206と、バリエーション予測部309と、を備える。
 映像取得部201と、検出部202と、追跡部203と、環境要因記憶部206と、特徴量抽出部208は、第2の実施形態と同様である。
 選択部307と、バリエーション予測部309は、第3の実施形態と同様である。
 物体検出傾向解析部504と、クオリティ予測部505は、第5の実施形態と同様である。
 図16は、第6の実施形態の情報処理装置600によって実行される処理の流れを例示するフローチャートである。
 ステップS502及びステップS504は、第5の実施形態と同様である。
 ステップS302及びステップS304は、第3の実施形態と同様である。
 ステップS214は、第2の実施形態と同様である。
 以上説明したように、本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトが単独で存在する場合であっても、場所によるオブジェクトの隠蔽発生傾向を自動的に判定することによって、特徴量の抽出の必要性を適切に判定できる。本実施形態に係る情報処理装置は、特徴量のクオリティだけでなく、バリエーションの改善可能性も同時に予測することによって、特徴量の抽出の必要性を適切に判定できる。従って、本実施形態に係る情報処理装置は、特徴量の抽出にかかる計算コストを低減できる。
 
 <第7の実施形態>
 図17は、本実施形態における情報処理装置700の構成を示す図である。
 情報処理装置700の構成のうち、第3の実施形態の情報処理装置300の構成と同じ処理動作を行う構成は、図7と同じ符号を付し、詳細な説明を省略する。
 情報処理装置700の構成のうち、第5の実施形態の情報処理装置500の構成と同じ処理動作を行う構成は、図13と同じ符号を付し、詳細な説明を省略する。
 図17に示す情報処理装置700は、映像取得部201と、検出部202と、追跡部203と、予測部710と、選択部307と、特徴量抽出部208と、を備える。
 予測部710は、位置関係解析部204と、物体検出傾向解析部504と、クオリティ予測部705と、環境要因記憶部206と、バリエーション予測部309と、を備える。
 映像取得部201と、検出部202と、追跡部203と、位置関係解析部204と、環境要因記憶部206と、特徴量抽出部208は、第2の実施形態と同様である。
 選択部307と、バリエーション予測部309は、第3の実施形態と同様である。
 物体検出傾向解析部504は、第5の実施形態と同様である。
 クオリティ予測部705は、クオリティ予測部205と同様の方法でクオリティ指標を算出し、算出したクオリティ指標に対してクオリティ予測部505と同様に乗数βを乗じることで、全体のクオリティ指標を算出する。
 バリエーション予測部309は、第3の実施形態と同様である。
 本実施形態では、バリエーション予測部309は、省略しても良い。その場合、選択部307は、第2の実施形態の選択部207と置き換える。
 図18は、第7の実施形態の情報処理装置700によって実行される処理の流れを例示するフローチャートである。
 ステップS202、ステップS204、ステップS206及びステップS208は、第2の実施形態と同様である。
 ステップS502は、第5の実施形態と同様である。
 ステップS702では、クオリティ予測部705は、ステップS204で生成された検出結果情報、ステップS206で生成された追跡結果情報、ステップS208で生成された位置関係情報及びステップS502で生成された検出傾向情報に基づいて、物体から抽出される特徴量の質を予測する。特徴量の質を予測する際には、クオリティ予測部705は、環境要因記憶部206に記憶されている環境要因に基づくクオリティ指標を参照してもよい。
 ステップS702を実行した後、第3の実施形態と同様に、ステップS302、ステップS304、ステップS214の処理を実行する。
 本実施形態では、ステップS302は省略してもよい。その場合、ステップS304の代わりに、ステップS204を実行する。
 ステップS214を実行した後、情報処理装置700は、処理を終了する。
 本実施形態に係る情報処理装置は、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、隠蔽度に基づくクオリティ指標を用いる場合、人物間の重なりや他の障害物による隠蔽を考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、解像度に基づくクオリティ指標を用いる場合、画面上の人物のサイズを考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、動きに基づくクオリティ指標を用いる場合、動きブレが生じる可能性を考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、姿勢や向きに基づくクオリティ指標を用いる場合、オブジェクトの姿勢や向きが想定していた姿勢や向きとどの程度ずれがあるかを考慮して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、環境要因に基づくクオリティ指標を用いる場合、特定の位置にオブジェクトが来た時に決まったクオリティ劣化が生じる場合であっても、特徴量のクオリティの低下を適切に予測できるようになる。また、本実施形態に係る情報処理装置は、時間帯に応じて環境要因に基づくクオリティ指標を切り替えることにより、時間によって抽出される特徴量のクオリティが変化する場合であっても、適切に対応できるようになる。従って、本実施形態に係る情報処理装置は、環境要因に基づくクオリティ指標を用いる場合、ぼけや照明条件等に基づく劣化要因を考慮して、照合に適した特徴量を抽出できる。
 本実施形態に係る情報処理装置は、用いるクオリティ指標を任意に選択できるので、オブジェクト同士の隠蔽や、解像度、動き、姿勢、環境要因の中から、各場面に適した指標のみを考慮して、特徴量抽出を行うオブジェクトを選択できる。この場合、本実施形態に係る情報処理装置は、各場面に適した処理のみを行うことができるので、計算リソースを効率的に使用しつつ、特徴量抽出を行うべきオブジェクトを選択できる。
 本実施形態に係る情報処理装置は、特徴量の抽出履歴を考慮することで、異なる人物間で特徴量の抽出回数に大きなばらつきが出る可能性を抑えることができる。本実施形態に係る情報処理装置は、オブジェクトの追跡履歴を考慮することで、前回の特徴量抽出から時間が経過しているオブジェクトであっても、同じところにとどまり続けている場合や、前回の特徴量抽出からの経過時間が短くても、オブジェクトが動いているので状態が大きく変化している場合等に適応して、照合に適した特徴量を抽出できる。本実施形態に係る情報処理装置は、オブジェクトの状態変化傾向を考慮することで、場所に応じたオブジェクト状態の変化による特徴量の変化の有無をバリエーション指標に反映することが可能となり、より適切なオブジェクト選択が可能となる。
 本実施形態に係る情報処理装置は、オブジェクトが多数画面に映る状況であっても、特徴量抽出を行うオブジェクトを適切に選択し、特徴量の抽出処理にかかるコストを抑えつつ、オブジェクト全体として高精度な照合が可能となる特徴量の抽出を実現できる。本実施形態に係る情報処理装置は、特に、多数のオブジェクトによって、オブジェクト間に重なりが生じる場合であっても、特徴を抽出すべきオブジェクトを適切に選択できる。
 本実施形態に係る情報処理装置は、場所によるオブジェクトの隠蔽発生傾向を自動的に判定することによって、特徴量の抽出の必要性を適切に判定できる。本実施形態に係る情報処理装置は、特徴量のクオリティだけでなく、バリエーションも同時に予測することによって、特徴量の抽出の必要性を適切に判定できる。従って、本実施形態に係る情報処理装置は、特徴量の抽出にかかる計算コストを低減できる。
 
 <ハードウエアの構成例>
 本発明の各実施形態における情報処理装置のハードウエア構成について以下に説明する。本発明の各実施形態における情報処理装置の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、本発明の各実施形態における情報処理装置の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図19は、本発明の各実施形態における情報処理装置を実現するための計算機1000、ネットワーク1300、カメラ1500を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、Personal Computer(PC)、サーバマシン、タブレット端末、又はスマートフォンなどである。計算機1000は、本発明の各実施形態における情報処理装置を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、及びネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、又はFPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイ装置などの出力装置が接続される。
 ネットワークインタフェース1120は、計算機1000をネットワーク1300に接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1120がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 さらに、ネットワーク1300にはカメラ1500が接続されており、計算機1000とカメラ1500とはネットワーク1300を介してデータを通信できるようになっている。例えば、本発明の各実施形態における情報処理装置の映像取得部201は、カメラ1500から映像を取得する。
 ストレージデバイス1080は、本発明の各実施形態における情報処理装置の各手段を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
 なお、本発明の各実施形態における情報処理装置の一部の機能はカメラ1500側で実行されていてもよい。すなわち、カメラ1500の内部にプロセッサやストレージデバイス、メモリが格納されており、本発明の各実施形態における情報処理装置の各手段の処理の全部、あるいは一部をこれらのコンポーネントを用いて実行するようになっていてもよい。例えば、映像取得部201、検出部202、追跡部203の処理をカメラ1500側で実行し、それ以外の処理を計算機1000側で実行するようになっていてもよい。あるいは、特徴量抽出部208以外の処理をカメラ側で実行するようになっており、特徴量抽出部208については、計算機1000側で実行するようになっていてもよい。
 また、映像取得部201は、カメラで撮影された映像を蓄積する、ハードディスクレコーダのような映像記録装置であってもよい。この場合は、映像取得部201は、映像記録装置で蓄積された映像を読み出して再生することで、映像を取得し、ネットワーク1300を介して計算機1000側に送信する。そして、その後の処理を計算機1000側で実行する。
 以上、本発明を、上述した模範的な実施の形態に適用した例として説明した。しかしながら、本発明の技術的範囲は、上述した各実施の形態に記載した範囲には限定されない。当業者には、係る実施の形態に対して多様な変更または改良を加えることが可能であることは明らかである。そのような場合、係る変更または改良を加えた新たな実施の形態も、本発明の技術的範囲に含まれ得る。そしてこのことは、請求の範囲に記載した事項から明らかである。
 なお、前述の実施形態の構成は、組み合わせる或いは一部の構成部分を入れ替えてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、
 前記複数の物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、
 前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
 を有する情報処理装置。
(付記2)
 前記予測手段は、前記物体が他の物体によって隠されている度合いに基づいて、前記物体から抽出される特徴量の質を予測する
 ことを特徴とする付記1に記載の情報処理装置。
(付記3)
 前記予測手段は、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質を予測する
 ことを特徴とする付記1又は付記2に記載の情報処理装置。
(付記4)
 物体の位置に応じて定まる環境要因が特徴量の質の予測にどの程度影響を及ぼすかの指標を記憶する記憶手段を有し、
 前記予測手段は、前記指標に基づいて、前記物体から抽出される特徴量の質を予測する
 ことを特徴とする付記1乃至3のいずれかに記載の情報処理装置。
(付記5)
 前記予測手段は、さらに、物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性を予測し、
 前記選択手段は、前記予測手段により予測される改善可能性がさらに所定の条件を満たす物体のみから特徴量を抽出する
 ことを特徴とする付記1乃至4のいずれかに記載の情報処理装置。
(付記6)
 前記予測手段は、前回の特徴量抽出からの経過時間が大きいほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
 ことを特徴とする付記5に記載の情報処理装置。
(付記7)
 前記予測手段は、それまでの特徴量の抽出回数が少ないほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
 ことを特徴とする付記5又は6に記載の情報処理装置。
(付記8)
 前記予測手段は、物体の移動量が大きいほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
 ことを特徴とする付記5乃至7のいずれかに記載の情報処理装置。
(付記9)
 前記予測手段は、物体の状態に応じて定まるカテゴリにさらに基づいて、前記改善可能性を予測する
 ことを特徴とする付記5乃至8のいずれかに記載の情報処理装置。
(付記10)
 前記予測手段は、物体の位置に応じて定まる物体の状態変化の傾向にさらに基づいて、前記改善可能性を予測する
 ことを特徴とする付記5乃至9のいずれかに記載の情報処理装置。
(付記11)
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測する予測手段と、
 前記物体のうち、前記予測手段により予測される特徴量の質と改善可能性とが所定の条件を満たす物体のみを選択する選択手段と、
 前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
 を有する情報処理装置。
(付記12)
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、
 前記物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、
 前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
 を有する情報処理装置。
(付記13)
 前記予測手段は、さらに、物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性を予測し、
 前記選択手段は、前記予測手段により予測される改善可能性がさらに所定の条件を満たす物体のみから特徴量を抽出する
 ことを特徴とする付記12に記載の情報処理装置。
(付記14)
 前記予測手段は、さらに、入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する
 ことを特徴とする付記12又は付記13に記載の情報処理装置。
(付記15)
 入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測し、
 前記複数の物体のうち、前記特徴量の質が所定の条件を満たす物体のみを選択し、
 選択された前記物体から特徴量を抽出する
 情報処理方法。
(付記16)
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測し、
 前記物体のうち、前記特徴量の質と前記改善可能性とが所定の条件を満たす物体のみを選択し、
 選択された前記物体から特徴量を抽出する
 情報処理方法。
(付記17)
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測し、
 前記物体のうち、前記特徴量の質が所定の条件を満たす物体のみを選択し、
 選択された前記物体から特徴量を抽出する
 情報処理方法。
(付記18)
 コンピュータに、
 入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測処理と、
 前記複数の物体のうち、前記予測処理により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択処理と、
 前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
 を実行させるための情報処理プログラムを記録したプログラム記録媒体。
(付記19)
 コンピュータに、
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測する予測処理と、
 前記物体のうち、前記予測処理により予測される特徴量の質と改善可能性とが所定の条件を満たす物体のみを選択する選択処理と、
 前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
 を実行させるための情報処理プログラムを記録したプログラム記録媒体。
(付記20)
 コンピュータに、
 入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測する予測処理と、
 前記物体のうち、前記予測処理により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択処理と、
 前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
 を実行させるための情報処理プログラムを記録したプログラム記録媒体。
 
 <産業上の利用可能性>
 本発明の情報処理装置を用いることで、オブジェクトの特徴抽出に時間がかかる場合であっても、全体として高精度なオブジェクト照合が可能となる。よって、映像監視などにおけるカメラ間でのオブジェクト追跡等に利用できる。
 
100 情報処理装置
101 予測部
102 選択部
103 特徴量抽出部
200 情報処理装置
201 映像取得部
202 検出部
203 追跡部
204 位置関係解析部
205 クオリティ予測部
206 環境要因記憶部
207 選択部
208 特徴量抽出部
210 予測部
300 情報処理装置
307 選択部
309 バリエーション予測部
310 予測部
311 バリエーション指標算出部
312 抽出履歴記憶部
313 追跡履歴記憶部
314 物体状態変化傾向記憶部
400 情報処理装置
405 クオリティ予測部
410 予測部
500 情報処理装置
504 物体検出傾向解析部
505 クオリティ予測部
510 予測部
600 情報処理装置
610 予測部
700 情報処理装置
705 クオリティ予測部
710 予測部
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース
1300 ネットワーク
1500 カメラ

Claims (20)

  1.  入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、
     前記複数の物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、
     前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
     を有する情報処理装置。
  2.  前記予測手段は、前記物体が他の物体によって隠されている度合いに基づいて、前記物体から抽出される特徴量の質を予測する
     ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記予測手段は、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質を予測する
     ことを特徴とする請求項1又は請求項2に記載の情報処理装置。
  4.  物体の位置に応じて定まる環境要因が特徴量の質の予測にどの程度影響を及ぼすかの指標を記憶する記憶手段を有し、
     前記予測手段は、前記指標に基づいて、前記物体から抽出される特徴量の質を予測する
     ことを特徴とする請求項1乃至3のいずれかに記載の情報処理装置。
  5.  前記予測手段は、さらに、物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性を予測し、
     前記選択手段は、前記予測手段により予測される改善可能性がさらに所定の条件を満たす物体のみから特徴量を抽出する
     ことを特徴とする請求項1乃至4のいずれかに記載の情報処理装置。
  6.  前記予測手段は、前回の特徴量抽出からの経過時間が大きいほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
     ことを特徴とする請求項5に記載の情報処理装置。
  7.  前記予測手段は、それまでの特徴量の抽出回数が少ないほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
     ことを特徴とする請求項5又は6に記載の情報処理装置。
  8.  前記予測手段は、物体の移動量が大きいほど前記改善可能性が大きくなるよう、前記改善可能性を予測する
     ことを特徴とする請求項5乃至7のいずれかに記載の情報処理装置。
  9.  前記予測手段は、物体の状態に応じて定まるカテゴリにさらに基づいて、前記改善可能性を予測する
     ことを特徴とする請求項5乃至8のいずれかに記載の情報処理装置。
  10.  前記予測手段は、物体の位置に応じて定まる物体の状態変化の傾向にさらに基づいて、前記改善可能性を予測する
     ことを特徴とする請求項5乃至9のいずれかに記載の情報処理装置。
  11.  入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測する予測手段と、
     前記物体のうち、前記予測手段により予測される特徴量の質と改善可能性とが所定の条件を満たす物体のみを選択する選択手段と、
     前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
     を有する情報処理装置。
  12.  入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測する予測手段と、
     前記物体のうち、前記予測手段により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択手段と、
     前記選択手段によって選択された物体から特徴量を抽出する特徴量抽出手段と
     を有する情報処理装置。
  13.  前記予測手段は、さらに、物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性を予測し、
     前記選択手段は、前記予測手段により予測される改善可能性がさらに所定の条件を満たす物体のみから特徴量を抽出する
     ことを特徴とする請求項12に記載の情報処理装置。
  14.  前記予測手段は、さらに、入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する
     ことを特徴とする請求項12又は請求項13に記載の情報処理装置。
  15.  入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測し、
     前記複数の物体のうち、前記特徴量の質が所定の条件を満たす物体のみを選択し、
     選択された前記物体から特徴量を抽出する
     情報処理方法。
  16.  入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測し、
     前記物体のうち、前記特徴量の質と前記改善可能性とが所定の条件を満たす物体のみを選択し、
     選択された前記物体から特徴量を抽出する
     情報処理方法。
  17.  入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測し、
     前記物体のうち、前記特徴量の質が所定の条件を満たす物体のみを選択し、
     選択された前記物体から特徴量を抽出する
     情報処理方法。
  18.  コンピュータに、
     入力される映像から検出及び追跡される複数の物体の位置関係と、前記複数の物体の重なりとに基づいて、前記物体から抽出される特徴量の質を予測する予測処理と、
     前記複数の物体のうち、前記予測処理により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択処理と、
     前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
     を実行させるための情報処理プログラムを記録したプログラム記録媒体。
  19.  コンピュータに、
     入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つに基づいて、前記物体から抽出される特徴量の質と、前記物体から特徴量を抽出することにより特徴量のバリエーションが改善される改善可能性と、を予測する予測処理と、
     前記物体のうち、前記予測処理により予測される特徴量の質と改善可能性とが所定の条件を満たす物体のみを選択する選択処理と、
     前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
     を実行させるための情報処理プログラムを記録したプログラム記録媒体。
  20.  コンピュータに、
     入力される映像から検出及び追跡される物体から、前記物体の解像度、動き量、姿勢及び向き、並びに、前記物体の位置に応じて定まる環境要因の少なくとも1つ、及び、物体の位置に依存する物体の隠蔽の度合いに基づいて、前記物体から抽出される特徴量の質を予測する予測処理と、
     前記物体のうち、前記予測処理により予測される特徴量の質が所定の条件を満たす物体のみを選択する選択処理と、
     前記選択処理によって選択された物体から特徴量を抽出する特徴量抽出処理と
     を実行させるための情報処理プログラムを記録したプログラム記録媒体。
PCT/JP2019/017560 2019-04-25 2019-04-25 情報処理装置、情報処理方法及び情報処理プログラム WO2020217368A1 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2021515397A JP7197000B2 (ja) 2019-04-25 2019-04-25 情報処理装置、情報処理方法及び情報処理プログラム
US17/601,747 US12094186B2 (en) 2019-04-25 2019-04-25 Information processing device, information processing method, and program recording medium
PCT/JP2019/017560 WO2020217368A1 (ja) 2019-04-25 2019-04-25 情報処理装置、情報処理方法及び情報処理プログラム
US18/234,660 US12087036B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,672 US12087037B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,681 US12087038B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,699 US12087040B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,693 US12087039B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/017560 WO2020217368A1 (ja) 2019-04-25 2019-04-25 情報処理装置、情報処理方法及び情報処理プログラム

Related Child Applications (6)

Application Number Title Priority Date Filing Date
US17/601,747 A-371-Of-International US12094186B2 (en) 2019-04-25 2019-04-25 Information processing device, information processing method, and program recording medium
US18/234,699 Continuation US12087040B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,681 Continuation US12087038B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,672 Continuation US12087037B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,693 Continuation US12087039B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium
US18/234,660 Continuation US12087036B2 (en) 2019-04-25 2023-08-16 Information processing device, information processing method, and program recording medium

Publications (1)

Publication Number Publication Date
WO2020217368A1 true WO2020217368A1 (ja) 2020-10-29

Family

ID=72941177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/017560 WO2020217368A1 (ja) 2019-04-25 2019-04-25 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (3)

Country Link
US (6) US12094186B2 (ja)
JP (1) JP7197000B2 (ja)
WO (1) WO2020217368A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299115A (zh) * 2021-12-28 2022-04-08 天翼云科技有限公司 用于多目标跟踪的方法及装置、存储介质及电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3795410B1 (en) * 2019-09-20 2022-03-02 Continental Automotive GmbH Method and apparatus for displaying ego-vehicle surroundings within an ego-vehicle with support of electrical charging
US20230221721A1 (en) * 2020-05-11 2023-07-13 Canon U.S.A., Inc. An unmanned autonomous vehicle and method for controlling the same
US20220180633A1 (en) * 2020-12-04 2022-06-09 Samsung Electronics Co., Ltd. Video object detection and tracking method and apparatus
CN114429488A (zh) * 2022-01-25 2022-05-03 威盛电子股份有限公司 目标追踪方法及目标追踪装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170684A (ja) * 2010-02-19 2011-09-01 Panasonic Corp 対象物追跡装置、対象物追跡方法、および対象物追跡プログラム
JP2016015043A (ja) * 2014-07-02 2016-01-28 トヨタ自動車株式会社 対象物認識装置
JP2018045287A (ja) * 2016-09-12 2018-03-22 日本電気株式会社 画像処理装置
JP2018106236A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 映像解析装置、映像解析方法、及び、プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6292122B2 (ja) 2012-09-24 2018-03-14 日本電気株式会社 オブジェクト情報抽出装置、オブジェクト情報抽出プログラム、及びオブジェクト情報抽出方法
JP6485978B2 (ja) 2015-07-03 2019-03-20 株式会社日立国際電気 画像処理装置および画像処理システム
CN105138105A (zh) * 2015-07-31 2015-12-09 北京金山安全软件有限公司 省电处理方法、装置、移动终端和云端服务器
DE102016114168A1 (de) * 2016-08-01 2018-02-01 Connaught Electronics Ltd. Verfahren zum Erfassen eines Objekts in einem Umgebungsbereich eines Kraftfahrzeugs mit Vorhersage der Bewegung des Objekts, Kamerasystem sowie Kraftfahrzeug

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170684A (ja) * 2010-02-19 2011-09-01 Panasonic Corp 対象物追跡装置、対象物追跡方法、および対象物追跡プログラム
JP2016015043A (ja) * 2014-07-02 2016-01-28 トヨタ自動車株式会社 対象物認識装置
JP2018045287A (ja) * 2016-09-12 2018-03-22 日本電気株式会社 画像処理装置
JP2018106236A (ja) * 2016-12-22 2018-07-05 キヤノン株式会社 映像解析装置、映像解析方法、及び、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114299115A (zh) * 2021-12-28 2022-04-08 天翼云科技有限公司 用于多目标跟踪的方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
US20220215650A1 (en) 2022-07-07
US12087040B2 (en) 2024-09-10
US20230394793A1 (en) 2023-12-07
US20230394796A1 (en) 2023-12-07
US12087036B2 (en) 2024-09-10
JPWO2020217368A1 (ja) 2020-10-29
US20230394794A1 (en) 2023-12-07
US20230394792A1 (en) 2023-12-07
US12087038B2 (en) 2024-09-10
US12087039B2 (en) 2024-09-10
US12094186B2 (en) 2024-09-17
US20230394795A1 (en) 2023-12-07
US12087037B2 (en) 2024-09-10
JP7197000B2 (ja) 2022-12-27

Similar Documents

Publication Publication Date Title
WO2020217368A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20160282953A1 (en) Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data
JP6032921B2 (ja) 物体検出装置及びその方法、プログラム
CN110008795B (zh) 图像目标追踪方法及其系统与计算机可读取记录介质
JP7272024B2 (ja) 物体追跡装置、監視システムおよび物体追跡方法
JP3970877B2 (ja) 追跡装置および追跡方法
JP2019186955A (ja) 情報処理システム、情報処理方法及びプログラム
US20240135552A1 (en) Object feature extraction device, object feature extraction method, and non-transitory computer-readable medium
US10762372B2 (en) Image processing apparatus and control method therefor
US11544926B2 (en) Image processing apparatus, method of processing image, and storage medium
CN111263955A (zh) 一种目标对象的移动轨迹确定方法和装置
JP6384167B2 (ja) 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム
CN111428626B (zh) 一种移动物体的识别方法、装置、及存储介质
JP2014110020A (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2021149687A (ja) 物体認識装置、物体認識方法及び物体認識プログラム
US20070223818A1 (en) Method and apparatus for predicting the accuracy of virtual Scene based on incomplete information in video
US11716448B2 (en) Information processing apparatus, information processing method, and storage medium
CN113869123A (zh) 一种基于人群的事件检测方法及相关装置
JP5419925B2 (ja) 通過物体数計測方法、通過物体数計測装置、及びプログラム
JP6717769B2 (ja) 情報処理装置及びプログラム
JP7491321B2 (ja) 再同定装置、再同定プログラム、および再同定方法
CN115731258A (zh) 运动目标识别的方法以及拍摄设备
JP6020188B2 (ja) 対象物検出装置及びプログラム
CN116156075A (zh) 视频中目标相对运动预测方法、装置和计算机设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19926388

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021515397

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19926388

Country of ref document: EP

Kind code of ref document: A1