WO2015025704A1 - 映像処理装置、映像処理方法および映像処理プログラム - Google Patents

映像処理装置、映像処理方法および映像処理プログラム Download PDF

Info

Publication number
WO2015025704A1
WO2015025704A1 PCT/JP2014/070547 JP2014070547W WO2015025704A1 WO 2015025704 A1 WO2015025704 A1 WO 2015025704A1 JP 2014070547 W JP2014070547 W JP 2014070547W WO 2015025704 A1 WO2015025704 A1 WO 2015025704A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
matching
video
feature
feature amount
Prior art date
Application number
PCT/JP2014/070547
Other languages
English (en)
French (fr)
Inventor
亮磨 大網
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US14/913,469 priority Critical patent/US10037466B2/en
Priority to JP2015532795A priority patent/JP6398979B2/ja
Publication of WO2015025704A1 publication Critical patent/WO2015025704A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/993Evaluation of the quality of the acquired pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/80Camera processing pipelines; Components thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20004Adaptive image processing
    • G06T2207/20008Globally adaptive
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/625License plates
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/017Detecting movement of traffic to be counted or controlled identifying vehicles
    • G08G1/0175Detecting movement of traffic to be counted or controlled identifying vehicles by photographing vehicles, e.g. when violating traffic rules
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body

Definitions

  • the present invention relates to a technique for searching for a target object from a video.
  • Patent Document 1 discloses a technique for searching for a person dressed in a color or pattern designated by a clothes query text from a video.
  • Patent Document 2 discloses a technique for determining area security by comparing a feature amount of a person's clothes or a pattern in a video with a feature amount of a color or pattern stored in advance.
  • Non-Patent Document 1 describes a technique in which a person position is detected from a video image using a head, and a feature amount of a body model upper body color and pattern is extracted as a person feature amount.
  • An object of the present invention is to solve the above-described problems and to provide a technique for suppressing a decrease in search accuracy of an object to be searched based on a feature amount extracted from a deteriorated image in a video.
  • a video processing apparatus provides: An image degradation estimating means for extracting an image of an image area serving as an index of image degradation from the video and estimating a degree of image degradation of the image in the image area; Feature quantity extraction means for extracting feature quantities of objects to be searched from the video; A feature database for storing feature quantities of objects to be searched; Matching means for controlling matching between the extracted feature quantity and the stored feature quantity based on the degree of image degradation estimated by the image degradation estimation means when searching for the object in the video; , Is provided.
  • a video processing method includes: An image degradation estimation step of extracting an image of an image area that is an index of image degradation from the video and estimating the degree of image degradation of the image of the image area; A feature amount extracting step of extracting a feature amount of an object to be searched from the video; A storage step of storing the feature quantity of the object to be searched in a feature quantity database; A matching step for controlling matching between the extracted feature quantity and the stored feature quantity based on the degree of image degradation estimated in the image degradation estimation step when searching the object from the video; , including.
  • a video processing program provides: An image degradation estimation step of extracting an image of an image area that is an index of image degradation from the video and estimating the degree of image degradation of the image of the image area; A feature amount extracting step of extracting a feature amount of an object to be searched from the video; A storage step of storing the feature quantity of the object to be searched in a feature quantity database; A matching step for controlling matching between the extracted feature quantity and the stored feature quantity based on the degree of image degradation estimated in the image degradation estimation step when searching the object from the video; , Is executed on the computer.
  • the present invention it is possible to suppress a decrease in search accuracy of an object that is a search target based on a feature amount extracted from a degraded image in a video.
  • the “object to be searched” used in this specification includes a person or vehicle having characteristics, but is not limited to this, and is a concept including all objects to be searched from video.
  • a specific bag or the like may be used as an object as clothes worn by a person or a person's portable object, and a vehicle attachment or a loaded luggage may be used as an object. That is, all objects to be searched can be objects.
  • a video processing apparatus 100 as a first embodiment of the present invention will be described with reference to FIG.
  • the video processing apparatus 100 is an apparatus that searches for a target object from video.
  • the video processing apparatus 100 includes an image deterioration estimation unit 101, a feature amount extraction unit 102, a feature amount database 103, and a matching unit 104.
  • the image degradation estimation unit 101 extracts an image of an image area serving as an index of image degradation from the video, and estimates the degree of image degradation of the image in the image area.
  • the feature amount extraction unit 102 extracts the feature amount of the object to be searched from the video.
  • the feature amount database 103 stores feature amounts of objects to be searched.
  • the matching unit 104 controls matching between the extracted feature quantity and the stored feature quantity based on the degree of image degradation estimated by the image degradation estimation unit 101.
  • the present embodiment it is possible to suppress a decrease in search accuracy of an object that is a search target based on a feature amount extracted from a deteriorated image in a video.
  • the video processing apparatus searches for a person as an object from the video and selects a video in which the person is shown. Further, in the present embodiment, as one of the feature amounts for searching for a person, the color of clothes or the feature amount of a pattern possessed by a person or the feature amount of a portable object or the like is used. Then, the degree of image degradation is estimated from the contour of the face image that is a part of the person to be searched in the video or a pattern or edge included in the face region, and based on the estimated image degradation amount, for example, clothing features Control quantity matching.
  • the image degradation amount is an index representing the degree of degradation of the image of the object to be searched, and may be defined for each degradation factor (for example, blur, blur, backlight, etc.), or for each factor.
  • the value obtained in (1) may be converted into an abstract value that does not depend on each factor.
  • the degree of blur can be expressed by the value of the parameter of the estimated point spread function, but the image deterioration amount may be defined in association with this parameter. Alternatively, this parameter itself may be defined as the image deterioration amount.
  • the method of describing the degree of blur is not limited to this method, and other methods may be used.
  • FIG. 2 is a diagram showing an outline of processing of the video processing apparatus 200 according to the present embodiment.
  • the video processing apparatus 200 searches for characteristic persons from video data of various videos 211 to 21n. For example, a person 241 wearing a skull pattern is identified from the image 240, and an image showing the person 241 is selected. In this person search, features such as the color and pattern of clothes worn by the person are extracted as feature amounts, and the feature amount 220 such as clothes color and pattern stored in advance is matched with the clothing feature amount matching unit 230 to obtain a person. Is identified.
  • the images 211 to 21n may be deteriorated due to the camera state (for example, blurring or defocus), or may be deteriorated due to the imaging environment such as the weather (for example, fog, raindrop, or backlight).
  • a video 211 is a video with no image degradation
  • a video 212 is a video with image degradation due to fog
  • a video 21n is a video with image degradation due to blurring or defocusing. If matching is performed by using a pattern of a person's clothes as a feature amount from the image of such image deterioration, the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • the degree of image degradation that is likely to reduce the accuracy of the feature amount matching of the clothing pattern is compared with the face image. Estimated from the above, an estimated deterioration amount is generated. Then, in the feature amount matching, the matching reliability is generated and notified corresponding to the estimated deterioration amount.
  • the estimated deterioration amount exceeds a predetermined threshold value and the reliability is significantly reduced, for example, the clothing pattern feature amount matching is not performed, and the reliability of the feature amount matching is not reduced.
  • the result of feature amount matching is used. In an intermediate state, each feature amount matching is weighted to generate a matching result.
  • FIG. 3 is a block diagram illustrating a configuration of a video processing system 300 including the video processing device 200 according to the present embodiment.
  • the video processing system 300 includes a monitoring camera 310, a video transmission unit 320, a network 330, and the video processing apparatus 200 of the present embodiment.
  • the video transmission unit 320 transmits the video captured by the camera 310 to the video processing device 200 via the network 330.
  • the video transmission unit 320 may be integrated with the camera 310.
  • the video processing apparatus 200 searches for an object (in this example, a person) as a search target from the video from the camera 310 and selects a video including the object (for example, similar) Select those with a certain degree of degree. Further, an object may be further analyzed from the selected video. In the present embodiment, a process for further analyzing the object from the selected video is not described in detail.
  • FIG. 4A is a block diagram illustrating a functional configuration of the video processing apparatus 200 according to the present embodiment.
  • the video processing apparatus 200 includes a plurality of matching units 401 to 403, a person feature DB 404, a search person matching unit 405, and a video storage unit 406. Furthermore, the video processing apparatus 200 may also include a video selection unit 407 indicated by a broken line.
  • the plurality of matching units 401 to 403 include, for example, a face matching unit 401 that performs matching with the face of the search person, a clothing matching unit 402 that performs matching with the clothes of the search person, and a portable object that performs matching with the search person's portable items.
  • the person feature amount DB 404 provides the plurality of matching units 401 to 403 with respective feature amounts of the person for matching stored in advance.
  • the video storage unit 406 stores the video transmitted from the camera 310 in a searchable manner.
  • the search person matching unit 405 searches for a person in the video by combining the matching results of the plurality of matching units 401 to 403.
  • the video selection unit 407 takes out the video including the person matched by the search person matching unit 405 from the video storage unit 406 and sends it to the next processing such as analysis.
  • the video to be selected may be a video unit, a time unit, or a video including a search person.
  • FIG. 4B is a diagram showing a configuration of the person feature amount DB 404 of the video processing apparatus 200 according to the present embodiment.
  • the person feature quantity DB 404 stores feature quantities used for various matching in person search.
  • the configuration of the person feature DB 404 is not limited to FIG. 4B.
  • the feature amount does not have to be data digitized in a text format, and may be stored as binary data.
  • it may be binary data in a feature quantity format standardized by MPEG-7.
  • the face feature amount may not be characterized for each partial region such as the eyes and nose and mouth, and may be featured as the entire face.
  • the person feature quantity DB 404 stores the feature quantity to be used in association with the matching object ID to be searched (in this example, the person ID to be searched). For example, a facial feature value 412 used for face matching, a clothing feature value 413 used for clothing matching, a portable feature value 414 used for portable object matching, and a figure (body shape) used for figure (body shape) matching.
  • the feature quantity 415 and the like are stored.
  • FIG. 4C is a diagram showing a configuration of a person matching table 405a used by the search person matching unit 405 according to the present embodiment.
  • the person matching table 405a is a table used by the search person matching unit 405 in order to perform a total person search from various matching results.
  • an example described in a table format is shown, but it is not always necessary to store the matching result in a table format, and any format capable of storing equivalent contents (for example, to store these values) Or a structure having the following variables).
  • the person matching table 405a stores the extracted feature quantity 422 extracted by each matching unit 401 to 403, each matching result 423, and the matching result reliability 424 in association with each matching feature quantity ID 421. . And the person matching table 405a memorize
  • FIG. 4D is a diagram illustrating a configuration of a video selection table 407a used by the video selection unit 407 according to the present embodiment.
  • the image selection table 407a is a table used by the image selection unit 407 to select an image including the search person if the reliability of the search person is higher than a predetermined threshold from the total matching result of the search person matching unit 405. It is.
  • an example described in a table format is shown, but the sorting result may not necessarily be stored in the table format as in FIG. 4C.
  • the video selection table 407a stores a tracking person ID 432 to be searched, a total matching result 433, and a video selection result 434 in association with the video ID 431.
  • the image selection result 434 stores selection or non-selection, but for example, reliability may be added so that it can be used in subsequent analysis. That is, when performing subsequent analysis processing, it may be determined whether or not to use video by looking at the reliability information.
  • FIG. 5A is a block diagram illustrating a functional configuration of the clothing matching unit 402 of the video processing device 200 according to the present embodiment.
  • the clothing matching unit 402 will be mainly described, but the configuration of other matching units is the same.
  • a clothing pattern that is affected by image degradation in clothing matching will be described in detail.
  • the same amount of processing as that of the clothes pattern can be performed on the feature amount affected by image deterioration in other matching units.
  • the clothing matching unit 402 includes a face detection unit 501, a face image degradation amount estimation unit 502, a clothing feature amount extraction unit 503, a clothing feature amount DB 504, and a clothing feature amount matching unit 230.
  • the face detection unit 501 detects a person's face from the video.
  • the face image deterioration amount estimation unit 502 estimates the image deterioration amount from the face image detected by the face detection unit 501.
  • the face detection unit 501 and the face image degradation amount estimation unit 502 constitute an image degradation estimation unit of the present embodiment.
  • a clothing feature quantity extraction unit 503 extracts a feature quantity of a person's clothes shown in the video read from the video storage unit 406.
  • the clothing feature value DB 504 stores the feature value of the clothing for search for matching with the feature value extracted by the clothing feature value extraction unit 503.
  • the clothing feature DB 504 may be shared with the person feature DB 404 of FIG. 4A or may store the clothes feature acquired from the person feature DB 404.
  • the clothing feature amount matching unit 230 matches the feature amount extracted by the clothing feature amount extraction unit 503 with the feature amount stored in the clothing feature amount DB 504. Output to.
  • FIG. 5B is a diagram showing a configuration of the clothing feature DB 504 of the clothing matching unit 402 according to the present embodiment.
  • the clothing feature DB 504 acquires the clothing feature for clothing matching from the person feature DB 404 and stores it.
  • the configuration of the clothing feature DB 504 is not limited to FIG. 5B.
  • binary feature amount data such as HSV histogram and representative color feature amount may be stored for the color
  • edge histogram and Gabor wavelet feature may be stored for the pattern.
  • the clothing feature value DB 504 includes a feature value table 510 for identifying the clothes of the search person and an image deterioration table 520 for storing the influence of the image deterioration on the matching result.
  • the image deterioration table 520 is stored in the clothing feature value DB 504 and is used by the clothing feature value matching unit 230 to control matching. It may be stored in the quantity estimation unit 502.
  • the feature amount table 510 stores a color feature amount 512, a pattern feature amount 513, and a shape feature amount 514 that are used for clothing matching in association with the search clothing ID 511 that identifies the clothes of the search person.
  • the image deterioration table 520 stores the determination reliability 523 in association with the feature amount target 521 for clothing matching.
  • the feature amount table 510 may also store a reliability lowering factor 522 and a weighting 524 at the time of matching.
  • the reliability reduction factor stores the estimation result when the factor of the reliability reduction can be estimated. For example, when blurring is estimated as a factor, information indicating that is described.
  • the reliability is determined for the details of the feature quantity target. However, the details need not be divided, and are calculated for each target unit such as color, pattern, and shape. It may be like this.
  • FIG. 6 is a block diagram illustrating a functional configuration of the face detection unit 501 of the clothing matching unit 402 according to the present embodiment.
  • the face detection unit 501 detects a face from the video from the video storage unit 406.
  • the face detection unit 501 includes a face image feature point extraction unit 601, a face detection DB 602, and a face image extraction unit 603.
  • the face image feature point extraction unit 601 extracts feature points of the face outline, face color, and face part (eyebrows, eyes, nose, mouth, etc.) from the video, and is stored in the face detection DB 602. A face area is determined by matching with a point.
  • the face detection DB 602 stores feature points indicating face images.
  • the face image extraction unit 603 extracts an image of an area determined as a face area by the face image feature point extraction unit 601 as a face image.
  • the face detection method described here is merely an example, and other face detection methods may be used. For example, an image may be directly input to a neural network in which the features of the face image are learned, and it may be determined whether the input image is a face without detecting individual feature points.
  • the face detection DB 602 may store the contours and edges of various characteristic face images, for example, the contours and edges of face images of Japanese and foreigners, men and women, and adults and children.
  • the face image to be detected may be any face image existing in the video.
  • the face detection unit 501 corresponds to a face image of a predetermined size (corresponding to the distance from the camera). ) Or a face image of a person who has become a search person candidate by other matching may be selected.
  • a plurality of face images are output to the face image degradation amount estimation unit 502, and the face image degradation amount estimation unit 502 calculates an average degradation amount of the plurality of face images or selects a face image suitable for estimation of the degradation amount. You may do it.
  • FIG. 7A is a block diagram illustrating a functional configuration of a face image deterioration amount estimation unit 502A of the first example of the clothing matching unit 402 according to the present embodiment.
  • the face image deterioration amount estimation unit 502A estimates the image deterioration amount from the face image detected by the face detection unit 501.
  • the face image deterioration amount estimation unit 502A includes a face image comparison unit 701, a face image DB 702, and a deterioration amount calculation unit 703.
  • the face image comparison unit 701 compares the contours and edges of the face image detected by the face detection unit 501 with the contours and edges of the standard face image stored in the face image DB 702, and compares the difference amount, for example, sharpness. Output the difference.
  • the face image DB 702 stores the contours and edges of standard face images. Actually, it is desirable to compare with the standard face image in the environment captured by each camera, so the contours and edges of the face image captured by each camera are stored in advance and associated with the imaging location. A standard face image may be selected using the video ID.
  • a standard face image corresponding to an imaging location or a feature amount such as a contour or an edge extracted from the face may be selected using a video ID and downloaded to the face image DB 702.
  • the deterioration amount calculation unit 703 estimates and calculates the image deterioration amount from the difference in sharpness between the standard face image output from the face image comparison unit 701 and the face image detected from the video.
  • FIG. 7B is a block diagram showing a functional configuration of the face image degradation amount estimation unit 502B of the second example of the clothing matching unit 402 according to the present embodiment.
  • the face image deterioration amount estimation unit 502B also estimates the image deterioration amount from the face image detected by the face detection unit 501.
  • the face image deterioration amount estimation unit 502B includes a face image DB 702 and an image deterioration amount identification unit 704.
  • the image deterioration amount identification unit 704 determines the face image deterioration amount using a discriminator learned for each degree of deterioration of the face image. For example, a face image may be input to a neural network learned for each degree of blur, and the degree of blur may be determined.
  • the classifier to be used is not limited to the neural network. For example, an SVM (support vector machine) classifier or a GLVQ (generalized learning vector) classifier may be used. In these cases, feature quantities such as contours and edges of the face image are extracted and input to the classifier. For this reason, learning images are prepared for each degree of blur, and the classifier is trained using the feature amounts of these images to determine the image deterioration amount.
  • FIG. 7C is a diagram showing a configuration of a face image deterioration amount estimation table 502a used by the face image deterioration amount estimation unit 502A according to the present embodiment.
  • This table is used when the image deterioration amount is determined in association with a parameter representing the degree of each image deterioration factor.
  • the face image deterioration amount estimation table 502a estimates the image deterioration amount corresponding to the deterioration factor from the difference between the standard face image output from the face image comparison unit 701 and the face image detected from the video. This table is used by the deterioration amount estimation unit 502A.
  • the face image degradation amount estimation table 502 a stores an image degradation amount 712 in association with the image degradation index 711.
  • the image deterioration amount is estimated in accordance with the deterioration factor, but the degree of difference between the standard face image output from the face image comparison unit 701 and the face image detected from the video is unchanged. It may be digitized. Also, when defining the image degradation factor and its parameter itself as the image degradation amount, this table is not used and the estimated image degradation factor and the parameter are combined to obtain the image degradation amount.
  • FIG. 8A is a block diagram illustrating a functional configuration of the clothing feature quantity matching unit 230 of the clothing matching unit 402 according to the present embodiment.
  • the clothing feature quantity matching unit 230 matches the feature quantity extracted from the video with the stored feature quantity, and determines whether or not there are clothes similar to the feature quantity in the video.
  • the clothing feature quantity matching unit 230 includes a feature quantity comparison unit 801 and a matching reliability addition unit 802.
  • the feature amount comparison unit 801 compares the feature amount extracted from the video by the clothing feature amount extraction unit 503 with the feature amount stored in the clothing feature amount DB 504.
  • the matching reliability adding unit 802 adds the image deterioration amount from the image deterioration estimating unit to the comparison result of the feature amount comparing unit 801 and outputs the result as a clothing matching result.
  • the image deterioration amount may be added after being converted into a reliability representing the reliability of the feature amount according to the degree of image deterioration.
  • the reliability value may be calculated in advance for each image degradation amount, for example, to what extent the matching result based on the clothing feature amount is correct, and the ratio may be calculated as the reliability.
  • the image deterioration amount is added to the comparison result of the feature amount comparison unit 801.
  • the comparison of the feature amount comparison unit 801 is changed or the comparison of the feature amount comparison unit 801 is performed.
  • the results may be weighted. In the case of weighting, for example, when the matching result of the clothing pattern is not used due to image deterioration, and the matching result of the color is used, the weight of the pattern comparison result is set to zero.
  • FIG. 8B is a diagram showing a configuration of a clothing feature value matching table 230a used by the clothing feature value matching unit 230 according to the present embodiment.
  • the clothing feature value matching table 230a is a table used by the clothing feature value matching unit 230 in order to perform clothing feature value matching.
  • an example described in a table format is shown, but the matching result may not necessarily be stored in a table format as in FIG. 4C.
  • the clothing feature quantity matching table 230a stores the estimated image degradation amount 813 from the image degradation estimation unit in association with the identification target ID 811 and the feature quantity target 812. Furthermore, the clothing feature amount matching table 230a may store a reliability determination result 814 based on the estimated image degradation amount 813 and a weighting 815 at the time of matching. Then, the matching result 816 is stored in correspondence with one clothing ID obtained by combining the matching results of the feature quantity targets.
  • FIG. 9 is a block diagram showing a hardware configuration of the video processing apparatus 200 according to the present embodiment.
  • FIG. 9 illustrates a configuration related to a clothing feature value, which is one feature value used when searching for a person in a video, and a configuration related to other feature values or a total of a plurality of feature values.
  • the configuration for matching is omitted. However, they can be realized by the same configuration as in FIG.
  • a CPU 910 is an arithmetic control processor, and the CPU 910 executes programs and modules stored in the storage 950 while using the RAM 940, whereby each functional configuration of the video processing apparatus 200 shown in FIG. The function of the part is realized.
  • the ROM 920 stores fixed data and programs such as initial data and programs.
  • the communication control unit 930 communicates with an external device via a network. Note that the number of CPUs 910 is not limited to one, and may be a plurality of CPUs or may include a GPU for image processing.
  • the RAM 940 is a random access memory that the CPU 910 uses as a work area for temporary storage. In the RAM 940, an area for storing data necessary for realizing the present embodiment is secured.
  • the input video 941 is a video stored in the video storage unit 406 or a read video for searching for an object (a person in this example) from the video storage unit 406.
  • the extracted face image 942 is a face image extracted for estimating the image deterioration of the video.
  • the image deterioration amount 943 is an image deterioration amount estimated from the extracted face image 942.
  • the extracted clothes feature quantity 944 is a feature quantity extracted from clothes worn by a person in the video.
  • the clothing region can be extracted by a known method such as estimating the body part from the extraction of the head or face region.
  • the search clothing feature value 945 is the feature value of the search clothing worn by the search person stored in the clothing feature value DB 504.
  • the matching result 946 is result information indicating whether or not the target clothing is obtained from a comparison between the extracted clothing feature value 944 and the retrieved clothing feature value 945 in consideration of the image deterioration amount 943.
  • the reliability (weighting) 947 is a degree of reliability of the matching result 946 corresponding to the image deterioration amount 943.
  • the reliability (weighting) 947 may be attached to the matching result 946 or may be incorporated into the matching result 946.
  • the input / output data 948 indicates input / output data input / output via the input / output interface 960.
  • Transmission / reception data 949 indicates transmission / reception data transmitted / received via the communication control unit 930.
  • the storage 950 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment.
  • the video storage unit 406 stores video collected from each camera 310.
  • the person feature amount DB 404 is a database that stores the feature amount of the person to be searched in association with the person ID.
  • the clothing feature DB 504 is a database that stores the clothing feature of a person to be searched in association with the clothing ID.
  • the clothing feature DB 504 may be included in the person feature DB 404.
  • the face detection DB 602 is a database that stores facial features (contour, color, part, etc.) for detecting a face image from a video.
  • the face image deterioration amount estimation table 502a is a table used by the face image deterioration amount estimation unit 502 for estimating the image deterioration amount.
  • the clothes feature quantity extraction table 503a is a table used by the clothes feature quantity extraction unit 503 to extract clothes feature quantities from the video.
  • the clothing feature value matching table 230a is a table used by the clothing feature value matching unit 230 for matching clothing feature values. Each table may be secured in the RAM 940.
  • the storage 950 stores the following programs.
  • the video processing device control program 951 is a control program that controls the entire video processing device 200.
  • the clothing matching module 952 is a module that matches the clothing feature quantity in the video with the clothing feature quantity stored in the clothing feature quantity DB 504 for the person search in the video processing device control program 951.
  • the image degradation estimation module 953 is a module that extracts an image of a predetermined area from a video and estimates image degradation in the video based on the extracted image.
  • the feature amount extraction module 954 is a module that extracts a feature amount of a person for searching for a person from a video.
  • the feature amount matching module 955 is a module that matches the feature amount extracted by the feature amount extraction module 954 with the feature amount of the person to be searched in order to find the person to be searched.
  • the image degradation estimation module 953 estimates image degradation from a face image, and the feature quantity extraction module 954 and the feature quantity extraction module 954 extract and match clothes feature quantities, particularly feature quantities of clothes patterns. Do.
  • the input / output interface 960 interfaces input / output data with input / output devices.
  • the input / output interface 960 is connected to an operation unit 962 such as a display unit 961, a keyboard, a touch panel, and a pointing device.
  • RAM 940 and storage 950 in FIG. 9 do not show programs and data related to general-purpose functions and other realizable functions of the video processing apparatus 200.
  • FIG. 10 is a flowchart showing a processing procedure of the video processing apparatus 200 according to the present embodiment. This flowchart is executed by the CPU 910 in FIG. 9 using the RAM 940 and the storage 950, and implements the functional configuration unit in FIG. 4A or 5A.
  • step S1001 the video processing apparatus 200 acquires a video for searching for a target person from the video storage unit 406.
  • step S1003 the video processing device 200 detects a person image from the acquired video.
  • step S ⁇ b> 1005 the video processing apparatus 200 determines whether or not to perform clothes matching of specific clothes for the detected person.
  • the video processing device 200 executes clothing matching processing in step S1007 (see FIG. 11A).
  • the video processing apparatus 200 determines in step S1009 whether to execute another matching (such as a face or a portable object).
  • another matching such as a face or a portable object.
  • the video processing apparatus 200 selects a video including the search target object from the clothes matching result in step S1011.
  • the video processing apparatus 200 executes other matching processing in step S1013, and in step S1011, the video including a search target object by combining a plurality of matching results. Sort out.
  • FIG. 11A is a flowchart showing a procedure of clothing matching processing (S1007) according to the present embodiment.
  • step S1101 the video processing apparatus 200 executes image degradation estimation processing for detecting a face image from the video and estimating image degradation.
  • step S ⁇ b> 1103 the video processing apparatus 200 executes clothing feature value extraction processing for extracting the feature value of clothes detected from the video.
  • step S ⁇ b> 1105 the video processing apparatus 200 executes a clothing feature amount matching process that matches the extracted clothing feature amount with the clothing feature amount of the search person prepared in advance.
  • FIG. 11B is a flowchart illustrating a procedure of image degradation estimation processing (S1101) according to the present embodiment.
  • step S1111 the video processing device 200 detects a face image from the video.
  • step S1113 the video processing device 200 reads a standard face image.
  • step S1115 the video processing apparatus 200 compares the sharpness of the face image extracted from the video with the standard face image.
  • step S ⁇ b> 1117 the video processing device 200 estimates the image deterioration amount from the face image comparison result in step S ⁇ b> 1115.
  • the image deterioration amount may be generated not as a comparison with the standard face image, but as an image deterioration amount corresponding to the numerical value of the sharpness of the detected face image such as the contour or the part edge.
  • the image deterioration amount estimation process described here is merely an example, and the other method described above that does not use a standard image may be used.
  • FIG. 11C is a flowchart illustrating a procedure of the feature amount extraction process (S1103) according to the present embodiment.
  • step S1131 the video processing apparatus 200 extracts an image of the clothing area from the video.
  • the clothing region can be extracted by a known method such as estimating the body part from the extraction of the head or face region.
  • step S ⁇ b> 1133 the video processing device 200 extracts a feature amount from the clothing image in the clothing region.
  • the feature amount is, for example, a color feature amount, a pattern feature amount, or a combination feature amount thereof.
  • FIG. 11D is a flowchart illustrating a procedure of feature amount matching processing (S1105) according to the present embodiment.
  • step S1151 the video processing apparatus 200 acquires the image degradation amount estimated by the image degradation amount estimation process.
  • step S1153 the video processing apparatus 200 acquires the feature amount extracted by the clothing feature amount extraction process.
  • step S ⁇ b> 1155 the video processing apparatus 200 acquires the clothing feature value of the person to be searched (or the clothing to be searched) from the clothing feature value DB 504.
  • step S1157 the video processing apparatus 200 selects a feature amount used for clothing matching based on the image deterioration amount acquired in step S1151. Alternatively, weighting indicating a contribution rate to clothing matching is performed on a plurality of feature amounts.
  • step S ⁇ b> 1159 the video processing apparatus 200 executes clothing feature amount matching in consideration of the image deterioration amount.
  • step S1161 the video processing apparatus 200 outputs a clothing matching result.
  • image degradation is estimated based on the face image of a person in the video, and in particular, by controlling the matching of the feature amount of the clothes pattern that is easily affected by the image degradation, It is possible to suppress a decrease in human search accuracy based on the feature amount extracted from the image.
  • the video processing apparatus differs from the second embodiment in that the search target object is a vehicle.
  • the color of the vehicle body, the feature amount of the pattern, the feature amount of the load, or the feature amount of the load is used as one of the feature amounts for searching for the vehicle.
  • the degree of image deterioration is estimated from the contour or edge of a license plate image that is a part of the vehicle image. Based on the degree of the image deterioration, the matching of the feature amount of the color or pattern of the vehicle body or the attachment or load is controlled to search for the vehicle. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 12 is a diagram showing an outline of processing of the video processing apparatus 1200 according to the present embodiment.
  • the search target is changed from the person in FIG. 2 to the vehicle, and the area where image degradation is estimated is changed from the face in FIG. 2 to the license plate, but the process is the same.
  • the video processing device 1200 searches for characteristic vehicles from video data of various videos 1211 to 21n.
  • the vehicle 1241 is identified from the video 1240 and the video in which the vehicle 1241 is shown is selected.
  • features such as the color and pattern of the vehicle body (contour line pattern) are extracted as feature amounts, and the vehicle body feature amount matching unit 1220 and the feature amount 1220 stored in advance such as the body color and body pattern of the search target are extracted.
  • the vehicle is identified by matching.
  • the images 1211 to 121n are in the state of the camera (for example, blur or defocus). May cause image degradation, or image degradation may occur due to an imaging environment such as weather (for example, fog, raindrops, or backlight).
  • a video 1211 is a video without image degradation
  • a video 1212 is a video with image degradation due to fog
  • a video 121n is a video with image degradation due to blurring or defocusing. If matching is performed using a car body pattern as a feature amount from the image of such image degradation, the reliability of the vehicle search is lowered due to the accuracy degradation of the feature amount. That is, since the pattern of the vehicle body is a line pattern, if the line is blurred or blurred due to image deterioration, it is not clearly recognized.
  • the degree of image degradation that tends to reduce the accuracy of vehicle body pattern feature amount matching is determined from a comparison of license plate images. Estimate and generate estimated degradation. Then, in the feature amount matching, the matching reliability is generated and notified corresponding to the estimated deterioration amount.
  • the estimated deterioration amount exceeds a predetermined threshold and the reliability is significantly reduced, for example, the feature amount matching of the vehicle body pattern is not performed, and the reliability of the feature amount matching does not decrease, for example, the feature of the vehicle color Adopt the result of quantity matching.
  • each feature amount matching is weighted to generate a matching result.
  • FIG. 13A is a block diagram illustrating a functional configuration of the video processing apparatus 1200 according to the present embodiment.
  • the video processing apparatus 1200 includes a plurality of matching units 1301 to 1303, a vehicle feature DB 1304, a search vehicle matching unit 1305, and a video storage unit 1306. Furthermore, the video processing apparatus 1200 may also include a video selection unit 1307 indicated by a broken line.
  • the plurality of matching units 1301 to 1303 include, for example, a license plate matching unit 1301, a vehicle body matching unit 1302, and an attachment matching unit 1303.
  • the license plate matching unit 1301 performs matching using the license plate of the search vehicle.
  • the vehicle body matching unit 1302 performs matching on the vehicle body including colors and line patterns by the search vehicle.
  • the attachment matching unit 1303 performs matching using the attachment of the search vehicle. In addition, you may include the matching by the color and pattern of the load of a vehicle.
  • the vehicle feature DB 1304 provides each of the matching units 1301 to 1303 with respective feature amounts for searching for a vehicle for matching stored in advance.
  • the video storage unit 1306 stores the video transmitted from the camera 310 in a searchable manner.
  • the search vehicle matching unit 1305 searches for a vehicle in the video by combining the matching results of the plurality of matching units 1301 to 1303.
  • the video selection unit 1307 takes out the video including the vehicle matched by the search vehicle matching unit 1305 from the video storage unit 1306 and sends it to the next processing such as analysis.
  • the video to be selected may be a video unit, a time unit, or a video including a search vehicle.
  • FIG. 13B is a diagram showing a configuration of a vehicle matching table 1305a used by the search vehicle matching unit 1305 according to the present embodiment.
  • the vehicle matching table 1305a is a table used by the search vehicle matching unit 1305 to perform a total vehicle search from various matching results.
  • an example described in a table format is shown, but the matching result may not necessarily be stored in a table format as in FIG. 4C.
  • the vehicle matching table 1305a stores the extracted feature amount 1322 extracted by each of the matching units 1301 to 1303, each matching result 1323, and the matching result reliability 1324 in association with each matching feature amount ID 1321. . And the vehicle matching table 1305a memorize
  • FIG. 14A is a block diagram illustrating a functional configuration of the vehicle body matching unit 1302 of the video processing device 1200 according to the present embodiment.
  • the vehicle body matching unit 1302 will be mainly described, but the configuration of other matching units is the same.
  • a line pattern of a vehicle body that is affected by image degradation in vehicle matching will be described in detail.
  • the same processing as the line pattern can be performed on the feature amount affected by the image deterioration in the other matching units.
  • the vehicle body matching unit 1302 includes a license plate detection unit 1401, a plate image deterioration amount estimation unit 1402, a vehicle body feature amount extraction unit 1403, a vehicle body feature amount DB 1404, and a vehicle body feature amount matching unit 1230.
  • the license plate detection unit 1401 detects a license plate image of a vehicle (hereinafter referred to as a plate image) from the video.
  • the plate image deterioration amount estimation unit 1402 estimates the image deterioration amount from the plate image detected by the license plate detection unit 1401. Note that the license plate detection unit 1401 and the plate image degradation amount estimation unit 1402 constitute an image degradation estimation unit of the present embodiment.
  • the vehicle body feature amount extraction unit 1403 extracts the vehicle body feature amount (color or outline pattern) reflected in the video read from the video storage unit 1306.
  • the vehicle body feature value DB 1404 stores a search vehicle feature value for matching with the feature value extracted by the vehicle body feature value extraction unit 1403.
  • the vehicle body feature value DB 1404 may be shared with the vehicle feature value DB 1304 of FIG. 13A or may store the feature value of the vehicle body acquired from the vehicle feature value DB 1304.
  • the vehicle body feature amount matching unit 1230 matches the feature amount extracted by the vehicle body feature amount extraction unit 1403 with the feature amount stored in the vehicle body feature amount DB 1404. Output to.
  • FIG. 14B is a diagram showing a configuration of the vehicle body feature amount DB 1404 of the vehicle body matching unit 1302 according to the present embodiment.
  • the vehicle body feature value DB 1404 acquires a vehicle feature value for vehicle matching for vehicle search from the vehicle feature value DB 1304 and stores it.
  • the configuration of the body feature DB 1404 is not limited to FIG. 14B.
  • binary feature amount data such as HSV histogram and representative color feature amount may be stored for the color
  • edge histogram and Gabor wavelet feature may be stored for the pattern.
  • the body feature DB 1404 includes a feature table 1410 for identifying the body of the search vehicle and an image degradation table 1420 for storing the effect of image degradation on the matching result.
  • the image deterioration table 1420 is stored in the vehicle body feature amount DB 1404 and is used by the vehicle body feature amount matching unit 1230 to control the matching, but the vehicle body feature amount matching unit 1230 and the plate image deterioration are used. It may be stored in the quantity estimation unit 1402.
  • the feature value table 1410 stores a color feature value 1412, a pattern feature value 1413, and a shape feature value 1414 used for vehicle body matching in association with a search vehicle ID 1411 that identifies the vehicle body of the search vehicle.
  • the image deterioration table 1420 stores the determination reliability 1423 in association with the feature amount target 1421 of the vehicle body matching.
  • the feature amount table 1410 may also store a reliability lowering factor 1422 and a weighting 1424 at the time of matching. The cause of the decrease in reliability is the same as in the case of the image deterioration table 520.
  • the weighting 1424 When the influence of image deterioration is large and is not used for vehicle search, zero is stored in the weighting 1424 at the time of matching, and the feature amount is not used for vehicle search. Further, in the image deterioration table 1420, the reliability is determined for the details of the feature quantity target. However, the details need not be divided, and are calculated for each target unit such as color, pattern, and shape. It may be like this.
  • FIG. 14C is a block diagram illustrating a functional configuration of the license plate detection unit 1401 of the vehicle body matching unit 1302 according to the present embodiment.
  • the license plate detection unit 1401 detects the license plate from the video from the video storage unit 1306.
  • the license plate detection unit 1401 includes a plate image feature point extraction unit 1431, a plate detection DB 1432, and a plate image extraction unit 1433.
  • the plate image feature point extraction unit 1431 extracts the license plate outline, the license plate color, and the feature points of the license plate portion from the video and matches the feature points stored in the plate detection DB 1432 to obtain the number. Determine that it is a plate area.
  • the plate detection DB 1432 stores feature points indicating plate images.
  • the plate image extraction unit 1433 extracts an image of an area determined as a license plate area by the plate image feature point extraction unit 1431 as a plate image. Note that the license plate detection method described here is merely an example, and other license plate detection methods may be used as in the case of the face detection unit 501.
  • the plate detection DB 1432 may store the contours and edges of various characteristic plate images, for example, the contours and edges of plate images of passenger cars and freight vehicles, private and business vehicles, mini vehicles, motorcycles, and the like. . Further, the plate image to be detected may be any plate image existing in the video. However, when a plurality of plate images are detected, the license plate detection unit 1401 uses a plate image of a predetermined size (corresponding to the distance from the camera). Select (Yes). Or you may select the plate image of the vehicle used as the search vehicle candidate by other matching.
  • a plurality of plate images are output to the plate image degradation amount estimation unit 1402, and the plate image degradation amount estimation unit 1402 calculates an average degradation amount of the plurality of plate images or selects a plate image suitable for estimation of the degradation amount. You may do it.
  • image degradation is estimated based on the plate image of the vehicle in the video, and in particular, the degradation in the video is controlled by controlling the matching of the feature amount of the vehicle body that is easily affected by the image degradation. It is possible to suppress a decrease in vehicle search accuracy based on the feature amount extracted from the image.
  • the video processing apparatus uses a known marker image in a specific area in the video in a fixed camera, instead of a face image, for estimating the degree of video degradation.
  • the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 15 is a diagram showing an outline of processing of the video processing apparatus 1500 according to the present embodiment.
  • the same elements as those in FIG. 15 are identical to FIG. 15 and the same elements as those in FIG. 15;
  • the video processing device 1500 searches for characteristic persons from video data of various videos 1511 to 151n. For example, a person 241 wearing a skull pattern is identified from the image 1540, and an image showing the person 241 is selected. In this person search, features such as the color and pattern of clothes worn by the person are extracted as feature amounts, and the feature amount 220 such as clothes color and pattern stored in advance is matched with the clothing feature amount matching unit 230 to obtain a person. Is identified.
  • the images 1511 to 151n are in the state of the camera (for example, blurring or defocusing). May cause image degradation, or image degradation may occur due to an imaging environment such as weather (for example, fog, raindrops, or backlight).
  • a video 1511 is a video with no image degradation
  • a video 1512 is a video with image degradation due to fog
  • a video 151n is a video with image degradation due to blurring or defocusing. If matching is performed by using a pattern of a person's clothes as a feature amount from the image of such image deterioration, the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • the degree of image degradation that tends to reduce the accuracy of the feature amount matching of the clothing pattern is specified in the video. Estimated from the comparison of the sign images imaged at the position, an estimated deterioration amount is generated. Then, in the feature amount matching, the matching reliability is generated and notified corresponding to the estimated deterioration amount. Alternatively, when the estimated deterioration amount exceeds a predetermined threshold value and the reliability is significantly reduced, for example, the clothing pattern feature amount matching is not performed, and the reliability of the feature amount matching is not reduced. The result of feature amount matching is used. In an intermediate state, each feature amount matching is weighted to generate a matching result.
  • image degradation is estimated from the sign image captured at a specific position in the video, preventing a reduction in the accuracy of feature amount matching due to the occurrence of the image degradation, and improving the accuracy of the person search even in the image degradation. maintain.
  • FIG. 16A is a block diagram illustrating a functional configuration of the clothing matching unit 1600 of the video processing device 1500 according to the present embodiment.
  • the same functional components as those in FIG. 5A are denoted by the same reference numerals, and description thereof is omitted.
  • the clothing matching unit 1600 includes a sign extraction unit 1601, a sign image deterioration amount estimation unit 1602, a clothing feature amount extraction unit 503, a clothing feature amount DB 504, and a clothing feature amount matching unit 230.
  • the sign extraction unit 1601 extracts signs picked up in a specific area from the video.
  • the sign image deterioration amount estimation unit 1602 estimates the image deterioration amount from the sign image extracted by the sign extraction unit 1601.
  • the sign extraction unit 1601 and the sign image degradation amount estimation unit 1602 constitute an image degradation estimation unit of the present embodiment.
  • FIG. 16B is a block diagram illustrating a functional configuration of the sign extraction unit 1601 of the clothes matching unit 1600 according to the present embodiment.
  • the sign extraction unit 1601 includes a sign image extraction unit 1611 and a video frame template 1612.
  • the sign image extraction unit 1611 extracts a sign image from a specific area at a specific position in the video stored in the video frame template 1612.
  • the video frame template 1612 stores a specific area at a specific position in the video of the sign.
  • the camera is fixed, and when the camera position, the imaging direction, or the sign position is changed, the video frame template 1612 is changed so that the sign can always be extracted.
  • FIG. 16C is a diagram showing a configuration of a sign image deterioration amount estimation table 1602a used by the sign image deterioration amount estimation unit 1602 according to this embodiment. Since the sign image degradation amount estimation table 1602a estimates the image degradation amount corresponding to the degradation factor from the difference between the standard sign image captured in the normal state and the sign image detected from the video, the sign image degradation amount estimation is performed. This is a table used by the unit 1602.
  • the marker image degradation amount estimation table 1602a stores a marker position 1622, an extracted marker image 1623, extracted data 1624 such as an outline and an edge, and a standard marker image 1625 to be referenced in association with the marker ID 1621.
  • the sign image deterioration amount estimation table 1602a stores an image deterioration amount 1626 generated from the comparison result between the extracted sign image 1623 and the standard sign image 1625 to be referred to.
  • the feature amount extracted from the degraded image in the video by estimating the image degradation based on the sign image in the video, and in particular, controlling the matching of the feature amount that is easily affected by the image degradation. It is possible to suppress a decrease in the search accuracy of an object to be searched based on.
  • the video processing apparatus according to the present embodiment is different from the fourth embodiment in that an image having a flat surface is extracted as a specific area in the video and image degradation is estimated from pixel variation. Since other configurations and operations are the same as those in the fourth embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 17 is a diagram showing an outline of processing of the video processing apparatus 1700 according to this embodiment.
  • the same elements as those in FIG. 17 are identical elements as those in FIG. 17
  • the video processing apparatus 1700 searches for characteristic persons from video data of various videos 1711 to 171n. For example, a person 241 wearing a skull pattern is identified from the video 1740 and the video showing the person 241 is selected. In this person search, features such as the color and pattern of clothes worn by the person are extracted as feature amounts, and the feature amount 220 such as clothes color and pattern stored in advance is matched with the clothing feature amount matching unit 230 to obtain a person. Is identified.
  • the images 1711 to 171n are in the state of the camera (for example, blurring or defocusing). May cause image degradation, or image degradation may occur due to an imaging environment such as weather (for example, fog, raindrops, or backlight).
  • a video 1711 is a video with no image degradation
  • a video 1712 is a video with image degradation due to fog
  • a video 171n is a video with image degradation due to blurring or defocusing. If matching is performed by using a pattern of a person's clothes as a feature amount from the image of such image deterioration, the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • the image degradation environment in which the accuracy of the feature amount matching of the clothes pattern is likely to be reduced is captured in a flat image captured environment at a specific position in the video.
  • a sign or signboard with a flat surface, or an object in a video that does not change with time, such as a part of a building is selected.
  • the flat surface around the large signboard on the road side is selected. Then, in the feature amount matching, the matching reliability is generated and notified corresponding to the estimated deterioration amount.
  • each feature amount matching is weighted to generate a matching result.
  • image degradation is estimated from the sign image captured at a specific position in the video, preventing a reduction in the accuracy of feature amount matching due to the occurrence of the image degradation, and improving the accuracy of the person search even in the image degradation. maintain.
  • FIG. 18A is a block diagram illustrating a functional configuration of the clothing matching unit 1800 of the video processing device 1700 according to the present embodiment.
  • the same functional components as those in FIG. 5A are denoted by the same reference numerals, and description thereof is omitted.
  • the clothing matching unit 1800 includes a flat area extraction unit 1801, a flat image degradation amount estimation unit 1802, a clothing feature amount extraction unit 503, a clothing feature amount DB 504, and a clothing feature amount matching unit 230.
  • the flat area extraction unit 1801 extracts a flat area captured in a specific area from the video.
  • the flat image degradation amount estimation unit 1802 estimates the image degradation amount from pixel variation or the like depending on the imaging environment of the flat image extracted by the flat region extraction unit 1801.
  • the flat area extraction unit 1801 and the flat image degradation amount estimation unit 1802 constitute the image degradation estimation unit of this embodiment.
  • FIG. 18B is a diagram showing a configuration of a flat image deterioration amount estimation table 1802a used by the flat image deterioration amount estimation unit 1802 according to this embodiment. Since the flat image degradation amount estimation table 1802a estimates the image degradation amount corresponding to the degradation factor from the difference between the flat image captured in the normal state and the flat image detected from the video, the flat image degradation amount estimation unit 1802 is a table used.
  • the flat image degradation amount estimation table 1802a stores a flat region position 1822, an extracted flat image 1823, extracted data 1824 such as pixel variation, and a referenced flat image 1825 in association with the flat region ID 1821.
  • the flat image degradation amount estimation table 1802a stores an image degradation amount 1826 generated from the comparison result between the extracted flat image 1823 and the referenced flat image 1825.
  • image degradation is estimated based on pixel variation of a flat image in a video, and in particular, matching of feature quantities that are easily affected by image degradation is controlled.
  • image degradation is estimated based on pixel variation of a flat image in a video, and in particular, matching of feature quantities that are easily affected by image degradation is controlled.
  • the video processing apparatus selects from the degree of estimated image degradation generated based on the images of a plurality of regions based on the characteristics of the object, It is different in that it is used to control feature amount matching. Since other configurations and operations are the same as those of the second to fifth embodiments, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 19 is a diagram showing an outline of processing of the video processing apparatus 1900 according to this embodiment.
  • FIG. 19 shows the process up to the generation of the image deterioration amount, but the process of searching for an object from the video using the image deterioration amount is the same as in FIG.
  • the video processing apparatus 1900 searches for characteristic persons from video data of various videos 1911 to 191n.
  • the images 1911 to 191n are subject to image degradation due to camera conditions (for example, blurring and defocusing), and image degradation due to imaging environments such as weather (for example, fog, raindrops, or backlight).
  • image degradation due to camera conditions for example, blurring and defocusing
  • image degradation due to imaging environments such as weather (for example, fog, raindrops, or backlight).
  • video 1911 is video with image degradation due to fog
  • video 1912 is video with image degradation due to raindrops
  • video 1913 is video with image degradation due to backlight
  • video 1914 is video with video degradation due to night street lights
  • video Reference numeral 21n denotes an image having image degradation due to blurring or defocusing.
  • the cause of image degradation is not limited to the above example. For example, it includes reflections such as morning sun and smog.
  • the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • a pattern of a person's clothes as a feature amount from the image of such image deterioration
  • the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • lines and polka dots are clearly separated and cannot be recognized due to image degradation.
  • a person who is originally wearing a blurred pattern may be recognized as a search target.
  • the estimated deterioration amount selection unit 1902 has an image deterioration that affects a matching feature amount from a plurality of image deterioration amounts obtained from a plurality of image regions that can estimate the image deterioration by comparison with a known image. Select the amount. Alternatively, a plurality of image deterioration amounts are combined to generate an image deterioration amount used for clothing feature amount matching. Then, in the feature amount matching, the matching reliability is generated and notified corresponding to the estimated deterioration amount. Alternatively, when the estimated deterioration amount exceeds a predetermined threshold value and the reliability is significantly reduced, for example, the clothing pattern feature amount matching is not performed, and the reliability of the feature amount matching is not reduced. The result of feature amount matching is used. In an intermediate state, each feature amount matching is weighted to generate a matching result.
  • Modeling may be determined heuristically from empirical values or by learning using a plurality of images.
  • an image deterioration amount corresponding to the feature amount to be matched is generated from a plurality of image deterioration amounts, preventing a decrease in the accuracy of feature amount matching due to the occurrence of the image deterioration. Maintain accuracy.
  • FIG. 20A is a block diagram illustrating a functional configuration of the clothing matching unit 2000 of the video processing device 1900 according to the present embodiment.
  • the same functional components as those in FIG. 5A are denoted by the same reference numerals, and the description thereof is omitted.
  • the clothing matching unit 2000 includes an image degradation estimation unit 2001 based on a face image, an image degradation estimation unit 2002 based on a sign image, an image degradation estimation unit 2003 based on a flat image, and an estimated degradation amount selection unit 1902 that constitute an image degradation estimation unit. And comprising.
  • Each image degradation estimation unit 2001, 2002, and 2003 corresponds to the image degradation estimation unit in FIGS. 5A, 16A, and 18A.
  • the estimated deterioration amount selection unit 1902 selects an image deterioration amount to be used from the plurality of image deterioration estimation units 2001 to 2003.
  • FIG. 20B is a diagram showing a configuration of an estimated deterioration amount selection table 1902a used by the estimated deterioration amount selection unit 1902 according to the present embodiment.
  • the estimated deterioration amount selection table 1902a is a table used by the estimated deterioration amount selection unit 1902 to estimate the image deterioration amount based on images of a plurality of regions.
  • the estimated deterioration amount selection table 1902a is associated with the image 2011 for estimating the deterioration amount, the estimated estimated deterioration amount 2012, the weight 2013 for determining the contribution degree to the feature amount matching, and the priority order 2014 for selection. ,
  • the estimated deterioration amount selection table 1902a stores the image deterioration amount 2015 generated by the estimated deterioration amount selection unit 1902.
  • an appropriate image degradation is estimated corresponding to the feature of an object to be searched, and in particular, feature amount matching that is easily affected by the image degradation is performed. Control. By this control, it is possible to suppress a decrease in search accuracy of an object to be searched based on a feature amount extracted from a deteriorated image in the video.
  • the video processing apparatus according to the present embodiment is selected based on an appropriate deterioration factor from the degree of estimated image deterioration generated based on a plurality of image deterioration factors, as compared with the second to sixth embodiments. However, it is different in that it is used to control feature amount matching. Since other configurations and operations are the same as those of the second to fifth embodiments, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted. In the present embodiment, a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 21A is a block diagram illustrating a functional configuration of the clothing matching unit 2100 of the video processing device according to the present embodiment.
  • the same functional components as those in FIG. 5A are denoted by the same reference numerals, and description thereof is omitted.
  • the clothing matching unit 2100 forms an image deterioration estimation unit, a fog detection unit 2111 that detects the appearance of fog from the video, a raindrop detection unit 2112 that detects the presence of raindrops from the video, and a sign extraction unit 1601 And an image degradation amount estimation unit 2102.
  • the image degradation amount estimation unit 2102 estimates an image degradation amount that affects the matching feature amount based on information from the fog detection unit 2111, the raindrop detection unit 2112, and the sign extraction unit 1601.
  • the fog detection unit 2111 detects the fog using a detector that has learned the tendency that the entire screen is difficult to see due to the fog. For example, it is possible to prepare learning images both in a foggy state and in a state where it is not fogged, learn a neural network, and detect the fog using the learned neural network. At this time, when an on-site image can be acquired in advance, more accurate fog detection is possible by including the on-site image in the learning image.
  • a detector can be constructed by inputting and learning an image in a rainy state and an image that is not. The case where raindrops adhere to the lens of the camera can be detected in the same manner.
  • the detection method of fog and raindrop shown here is an example to the last, and methods other than this may be used. Furthermore, not only mist and raindrops can be detected, but also the degree (mist density, amount of raindrops, etc.) can be detected simultaneously. This can be realized by acquiring and learning images for each degree of fog and raindrops.
  • FIG. 21B is a diagram showing a configuration of an image degradation amount estimation table 2102a used by the image degradation amount estimation unit 2102 according to the present embodiment.
  • the image deterioration amount estimation table 2102a is a table used by the image deterioration amount estimation unit 2102 in order to estimate the image deterioration amount based on images of a plurality of deterioration factors.
  • the image deterioration amount estimation table 2102a stores a weighting 2122 that determines the degree of contribution to feature amount matching and a priority order 2123 for selection in association with a deterioration factor 2121 that causes image deterioration.
  • the image deterioration amount estimation table 2102a stores the image deterioration amount 2124 generated by the image deterioration amount estimation unit 2102.
  • an appropriate image degradation is estimated from the degree of image degradation estimated based on a plurality of degradation factors in the video, corresponding to or in combination with the degradation factors, and is particularly affected by the image degradation. Controls easy matching of feature values. By this control, it is possible to suppress a decrease in search accuracy of an object to be searched based on a feature amount extracted from a deteriorated image in the video.
  • the video processing apparatus estimates image degradation corresponding to the type of target image that is the basis of a feature amount for searching for an object. It is different in point.
  • the video processing apparatus estimates image degradation corresponding to the type of target image that is the basis of a feature amount for searching for an object. It is different in point.
  • an example will be described in which, when searching for a person from a video, different degrees of image degradation are estimated corresponding to the type of clothing pattern. Since other configurations and operations are the same as those of the second to seventh embodiments, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 22 is a diagram showing an outline of processing of the video processing apparatus 2200 according to the present embodiment.
  • FIG. 22 shows the generation of the image deterioration amount
  • the processing for searching for an object from the video using the image deterioration amount is the same as that in FIG.
  • the same reference numerals are given to the same elements as in FIG. 19, and the description will be omitted.
  • the video processing apparatus 2200 searches for characteristic persons from video data of various videos 1911 to 191n.
  • the images 1911 to 191n are subject to image degradation due to camera conditions (for example, blurring and defocusing), and image degradation due to imaging environments such as weather (for example, fog, raindrops, or backlight).
  • image degradation due to camera conditions for example, blurring and defocusing
  • image degradation due to imaging environments such as weather (for example, fog, raindrops, or backlight).
  • weather for example, fog, raindrops, or backlight.
  • the reliability of the person search decreases due to the deterioration of the accuracy of the feature amount.
  • lines and polka dots are clearly separated and cannot be recognized due to image degradation.
  • a person who is originally wearing a blurred pattern may be recognized as a search target.
  • the estimated deterioration amount calculation unit 2202 uses a plurality of image deterioration amounts obtained from a plurality of image regions where image deterioration can be estimated by comparison with a known image, as a feature to be matched according to the pattern type in this example. An image degradation amount that affects the feature amount is selected. Alternatively, a plurality of image deterioration amounts are combined to calculate an image deterioration amount used for clothing feature amount matching.
  • the image degradation amount corresponding to the feature to be matched is calculated, the accuracy degradation of the feature amount matching due to the occurrence of the image degradation is prevented, and the accuracy of the person search is maintained even in the image degradation.
  • FIG. 23 is a block diagram illustrating a functional configuration of the clothing matching unit 2300 of the video processing device 2200 according to the present embodiment.
  • the same reference numerals are assigned to the same functional components as those in FIGS. 5A and 20A, and description thereof is omitted.
  • the clothing matching unit 2300 constitutes an image degradation estimation unit, an image degradation estimation unit 2001 based on a face image, an image degradation estimation unit 2002 based on a sign image, an image degradation estimation unit 2003 based on a flat image, and an estimated degradation amount calculation unit 2202. And comprising.
  • the estimated deterioration amount calculation unit 2202 calculates the estimated deterioration amount based on the pattern type for feature amount matching from the plurality of image deterioration estimation units 2001 to 2003.
  • FIG. 24 is a diagram showing a configuration of an estimated deterioration amount calculation table 2202a used by the estimated deterioration amount calculation unit 2202 according to this embodiment.
  • the estimated deterioration amount calculation table 2202a is a table used by the estimated deterioration amount calculation unit 2202 in order to calculate the estimated deterioration amount based on the pattern type for which feature amount matching is performed.
  • the estimated deterioration amount calculation table 2202a stores a plurality of deterioration amount estimated images 2402 in association with the pattern type 2401 for feature amount matching. Then, the estimated deterioration amount calculation table 2202a corresponds to the deterioration amount estimated image 2402, and is calculated based on the estimated deterioration amount 2403 estimated from the deterioration amount estimated image 2402 and the estimated deterioration amount 2403 corresponding to the pattern type. The deterioration amount 2404 is stored. Further, the estimated deterioration amount calculation table 2202a stores feature amount matching weights 2405.
  • the calculated deterioration amount is a deterioration amount obtained by correcting the estimated deterioration amount according to the pattern type. For example, if the pattern is essentially solid, it is not easily affected by deterioration, but if it is a stripe-like pattern with many fine edges, the accuracy of matching decreases sharply as the degree of deterioration increases. . For this reason, the calculated deterioration amount is set to be small for a pattern close to a plain color, and the calculated deterioration amount is set to be large for a pattern such as a stripe. This degree may be calculated by learning or heuristically determined based on experience or the like.
  • the conversion model for obtaining the calculated deterioration amount from the estimated deterioration amount may be stored.
  • a calculated deterioration amount corresponding to each value of the estimated deterioration amount may be stored.
  • a regression model that approximates the relationship between the deterioration estimated amount and the calculated estimated amount may be obtained, a parameter describing the model may be stored, and the calculated estimated amount may be calculated from the deterioration estimated amount.
  • appropriate image degradation is estimated corresponding to the type of target image that is the basis of a feature quantity for searching for an object, and in particular, matching of feature quantities that are easily affected by image degradation is controlled. .
  • this control it is possible to suppress a decrease in search accuracy of an object to be searched based on a feature amount extracted from a deteriorated image in the video.
  • the video processing apparatus according to the present embodiment.
  • the video processing apparatus has an image degradation estimation, feature amount extraction, and feature amount stored in a feature amount database that stores feature amounts for matching. This is different in that learning is performed for subsequent processing by feeding back the matching result.
  • Other configurations and operations are the same as those in the second to eighth embodiments, and thus the same configurations and operations are denoted by the same reference numerals and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 25A is a block diagram illustrating a functional configuration of the clothing matching unit 2500 of the video processing device according to the present embodiment.
  • the same reference numerals are given to the same functional components as those in FIG. 5A, and description thereof will be omitted.
  • the clothing feature value DB 2504 of the clothing matching unit 2500 stores the feature values of the clothing for search for matching with the feature values extracted by the clothing feature value extraction unit 503. Further, the clothing feature DB 2504 associates the fed-back image degradation amount from the image degradation estimation unit, the clothing feature amount extracted by the clothing feature extraction unit 503, and the person matching result of the search person matching unit 405. And store. Then, it is used to more accurately reflect a person with more accurate image degradation reflected in the feature amount matching for the subsequent person search.
  • the relationship between the image degradation amount and the reliability is learned, and the parameters of the model for calculating the reliability from the image degradation amount are updated.
  • the amount of image degradation is calculated based on the feedback result to determine how much the feature amount of the same person's clothing has changed when the image is blurred compared to when the image is not blurred.
  • the amount of change is associated with the degree of change in the feature amount.
  • FIG. 25B is a diagram showing a configuration of the clothing feature DB 2504 of the clothing matching unit 2500 according to the present embodiment.
  • the same elements as those in FIG. 25B the same elements as those in FIG. 25B.
  • the clothing feature DB 2504 stores the fed back matching information 2530 in addition to the feature table 510 and the image degradation table 520 of FIG. 5B.
  • the matching information 2530 stores the extracted feature value 2532, the estimated image deterioration amount, the clothing matching result 2534, and the person matching result 2535 in association with the clothing ID 2531 to be searched.
  • the image degradation estimation, the feature quantity extraction, and the feature quantity matching result are fed back to the feature quantity database and used for subsequent processing.
  • this learning it is possible to further suppress a decrease in the search accuracy of the object to be searched based on the feature amount extracted from the deteriorated image in the video.
  • the video processing apparatus extracts the degree of image degradation of different images in the video in addition to the matching with the feature amount of the feature amount database. It differs in that the feature values are matched. Since other configurations and operations are the same as those in the second to ninth embodiments, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • a person search is described as an example, but the present invention is also applied to other object searches such as a vehicle search and has the same effect.
  • FIG. 26 is a block diagram showing a functional configuration of the clothing matching unit 2600 of the video processing apparatus according to the present embodiment.
  • the same functional components as those in FIG. 5A are denoted by the same reference numerals, and the description thereof is omitted.
  • the clothing matching unit 2600 includes a plurality of sets of a face detection unit 501, a face image degradation amount estimation unit 502, and a clothing feature amount extraction unit 503. Alternatively, the same face detection unit 501, face image degradation amount estimation unit 502, and clothing feature amount extraction unit 503 may be used repeatedly.
  • the clothing feature amount matching unit 2630 matches the image degradation amount from the image degradation estimation unit and the clothing feature amount from the clothing feature amount extraction unit 503, and generates a matching result.
  • FIG. 27A is a diagram illustrating a functional configuration of the clothing feature value matching unit 2630 of the clothing matching unit 2600 according to the present embodiment.
  • one of the comparisons is an image degradation amount A and a clothing feature amount A
  • the other is an image degradation amount B and a clothing feature amount B.
  • the clothing feature amount matching unit 2630 includes a degradation amount comparison unit 2701 that compares the image degradation amount A and the image degradation amount B, and a feature amount comparison unit 2702 that compares the clothing feature amount A and the clothing feature amount B. .
  • the clothing feature amount matching unit 2630 includes a matching result calculation unit 2703 that calculates a clothing matching result from the comparison result between the image deterioration amount and the clothing feature amount.
  • FIG. 27B is a diagram showing a configuration of a clothing feature value matching table 2630a used by the clothing feature value matching unit 2630 according to the present embodiment.
  • the clothing feature value matching table 2630a is a table used by the clothing feature value matching unit 2630 to generate a clothing matching result from a plurality of image deterioration amounts and clothing feature values.
  • an example described in a table format is shown, but the matching result may not necessarily be stored in a table format as in FIG. 4C.
  • the clothing feature amount matching table 2630a stores an image degradation amount A2712, an image degradation amount B2713, and a degradation amount comparison result 2714 in association with the clothing ID 2711 to be searched.
  • the clothing feature value matching table 2630a stores a clothing feature value A2715, a clothing feature value B2716, and a clothing feature value comparison result 2717 in association with the clothing ID 2711 to be searched.
  • the clothing feature amount matching table 2630a stores a deterioration amount comparison result 2714.
  • the clothing feature value matching table 2630a stores a matching algorithm 2718 that generates a clothing matching result from the deterioration amount comparison result 2714 and the clothing feature value comparison result 2717, and the generated clothing matching result 1719.
  • matching is performed using a combination of the estimated degree of image degradation and the extracted feature amount. Therefore, it is possible to search for an object with high accuracy from images in the same environment while suppressing a decrease in search accuracy of an object to be searched based on a feature amount extracted from a degraded image in the video.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a video processing program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a program installed on the computer, a medium storing the program, and a WWW (World Wide Web) server that downloads the program are also included in the scope of the present invention. . In particular, at least a non-transitory computer readable medium storing a program for causing a computer to execute the processing steps included in the above-described embodiments is included in the scope of the present invention.
  • An image degradation estimating means for extracting an image of an image area serving as an index of image degradation from the video and estimating a degree of image degradation of the image in the image area;
  • Feature quantity extraction means for extracting feature quantities of objects to be searched from the video;
  • a feature database for storing feature quantities of objects to be searched;
  • Matching means for controlling matching between the extracted feature quantity and the stored feature quantity based on the degree of image degradation estimated by the image degradation estimation means when searching for the object in the video;
  • a video processing apparatus comprising: (Appendix 2) The video processing device according to attachment 1, wherein the feature amount of the object is a feature amount of a pattern included in the object.
  • (Appendix 3) The video processing apparatus according to appendix 2, wherein the image deterioration estimation means estimates different degrees of image deterioration corresponding to the types of patterns of the object.
  • the feature amount of the object further includes a color feature amount of the object, The video processing apparatus according to appendix 2 or 3, wherein the matching unit controls to perform matching based on the feature amount of the color when reliability of matching based on the feature amount of the pattern is reduced due to the image deterioration.
  • (Appendix 5) The video processing apparatus according to any one of supplementary notes 1 to 4, wherein the image area is a part of the object to be searched.
  • the object to be searched is a person, The image degradation estimation means estimates the degree of image degradation from the contour or edge of a face image that is a part of a person image, The video processing apparatus according to appendix 5, wherein the feature amount is a feature amount of the person's clothes or portable items.
  • the object to be searched is a vehicle, The image degradation estimation means estimates the degree of image degradation from the contour or edge of a license plate image that is a part of the vehicle image, The video processing apparatus according to appendix 5, wherein the feature amount is a feature amount of a vehicle body or an attachment or a load of the vehicle.
  • the video processing apparatus according to any one of appendices 1 to 11, wherein a combination of at least the degree of image degradation, the extracted feature value, and the matching result is fed back to the feature value database.
  • Appendix 13 The video processing apparatus according to any one of supplementary notes 1 to 12, wherein the matching unit matches at least two combinations of the degree of image degradation and the extracted feature amount.
  • the object to be searched is a person, In the image degradation estimation step, the degree of image degradation is estimated from the contour or edge of the face image that is a part of the person image, The video processing method according to attachment 18, wherein the feature amount is a feature amount of the person's clothes or portable items.
  • the object to be searched is a vehicle, In the image degradation estimation means, the degree of image degradation is estimated from the contour or edge of the license plate image that is a part of the vehicle image, The video processing method according to appendix 18, wherein the feature amount is a feature amount of a vehicle body, an attachment, or a load of the vehicle.
  • (Appendix 21) The video processing method according to any one of appendices 14 to 20, wherein the image area is a specific area in the video.
  • (Appendix 22) The video processing method according to appendix 21, wherein in the image degradation estimation step, the degree of image degradation is estimated from an edge of a known sign image.
  • (Appendix 23) The video processing method according to appendix 21, wherein in the image degradation estimation step, the degree of image degradation is estimated from pixel variations of a known flat image.
  • (Appendix 24) The video processing method according to any one of appendices 14 to 23, wherein in the image degradation estimation step, a factor of image degradation is recognized from the video, and a degree of image degradation is estimated based on the factor.
  • the video processing program according to appendix 28 wherein in the image degradation estimation step, different degrees of image degradation are estimated corresponding to the types of patterns of the object.
  • the feature amount of the object further includes a color feature amount of the object, 30.
  • Appendix 31 The video processing program according to any one of appendices 27 to 30, wherein the image area is a part of an object to be searched.
  • the object to be searched is a person, In the image degradation estimation step, the degree of image degradation is estimated from the contour or edge of the face image that is a part of the person image, The video processing program according to attachment 31, wherein the feature amount is a feature amount of the person's clothes or portable items.
  • the object to be searched is a vehicle, In the image degradation estimation means, the degree of image degradation is estimated from the contour or edge of the license plate image that is a part of the vehicle image, The video processing program according to attachment 31, wherein the feature amount is a feature amount of a vehicle body or an attachment or a load of the vehicle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

 本発明は、映像中の劣化した画像から抽出した特徴量に基づく検索対象であるオブジェクトの検索精度の低下を抑制する映像処理装置である。映像処理装置は、映像中から画像劣化の指標となる画像領域の画像を抽出して、画像領域の画像の画像劣化の度合いを推定する画像劣化推定部と、映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出部と、検索対象となるオブジェクトの特徴量を格納する特徴量データベースと、オブジェクトを映像中から検索する際に、抽出された特徴量と格納された特徴量とのマッチングを、画像劣化推定部が推定した画像劣化の度合いに基づいて制御するマッチング部と、を備える。

Description

映像処理装置、映像処理方法および映像処理プログラム
 本発明は、映像中から対象とするオブジェクトを検索する技術に関する。
 上記技術分野において、特許文献1には、映像中から、服装クエリーテキストで指定した色あるいは模様の服装をした人物を検索する技術が開示されている。また、特許文献2には、映像中の人物の服装の色あるいは模様の特徴量を、あらかじめ記憶した色あるいは模様の特徴量と比較して、エリアセキュリティーを判定する技術が開示されている。そして、非特許文献1には、映像中から人物位置を頭部により検出し、胴体モデルの上半身の色および模様の特徴量を人物特徴量として抽出する技術が記載されている。
国際公開WO2011/046128号公報 特開2010-198207号公報
高橋祐介、平川康史、大網 亮磨、「プライバシーを考慮した人物特徴量抽出方式の検討」、映像情報メディア学会技術報告、36(18)、23-26、2012-03-23
 しかしながら、上記文献に記載の技術では、カメラで取得した映像中の画像そのものが、カメラのぶれなどの機器状態、あるいは、天候などの撮像環境により劣化することが考慮されていない。その結果、映像中の劣化した画像から抽出した特徴量に基づく人物の検索精度が低下する、という問題に対処ができなかった。
 本発明の目的は、上述の課題を解決し、映像中の劣化した画像から抽出した特徴量に基づく検索対象であるオブジェクトの検索精度の低下を抑制する技術を提供することにある。
 上記目的を達成するため、本発明に係る映像処理装置は、
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定手段と、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出手段と、
 前記検索対象となるオブジェクトの特徴量を格納する特徴量データベースと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定手段が推定した画像劣化の度合いに基づいて制御するマッチング手段と、
 を備える。
 上記目的を達成するため、本発明に係る映像処理方法は、
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
 前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
 を含む。
 上記目的を達成するため、本発明に係る映像処理プログラムは、
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
 前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
 をコンピュータに実行させる。
 本発明によれば、映像中の劣化した画像から抽出した特徴量に基づく検索対象であるオブジェクトの検索精度の低下を抑制することができる。
本発明の第1実施形態に係る映像処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第2実施形態に係る映像処理装置を含む映像処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る映像処理装置の機能構成を示すブロック図である。 本発明の第2実施形態に係る映像処理装置の人物特徴量DBの構成を示す図である。 本発明の第2実施形態に係る検索人物マッチング部が使用する人物マッチングテーブルの構成を示す図である。 本発明の第2実施形態に係る映像選別部が使用する映像選別テーブルの構成を示す図である。 本発明の第2実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第2実施形態に係る服マッチング部の服特徴量DBの構成を示す図である。 本発明の第2実施形態に係る服マッチング部の顔検出部の機能構成を示すブロック図である。 本発明の第2実施形態に係る服マッチング部の第1例の顔画像劣化量推定部の機能構成を示すブロック図である。 本発明の第2実施形態に係る服マッチング部の第2例の顔画像劣化量推定部の機能構成を示すブロック図である。 本発明の第2実施形態に係る顔画像劣化量推定部が使用する顔画像劣化量推定テーブルの構成を示す図である。 本発明の第2実施形態に係る服マッチング部の服特徴量マッチング部の機能構成を示すブロック図である。 本発明の第2実施形態に係る服特徴量マッチング部が使用する服特徴量マッチングテーブルの構成を示す図である。 本発明の第2実施形態に係る映像処理装置のハードウェア構成を示すブロック図である。 本発明の第2実施形態に係る映像処理装置の処理手順を示すフローチャートである。 本発明の第2実施形態に係る服マッチング処理の手順を示すフローチャートである。 本発明の第2実施形態に係る画像劣化推定処理の手順を示すフローチャートである。 本発明の第2実施形態に係る特徴量抽出処理の手順を示すフローチャートである。 本発明の第2実施形態に係る特徴量マッチング処理の手順を示すフローチャートである。 本発明の第3実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第3実施形態に係る映像処理装置の機能構成を示すブロック図である。 本発明の第3実施形態に係る検索車両マッチング部が使用する車両マッチングテーブルの構成を示す図である。 本発明の第3実施形態に係る映像処理装置の車体マッチング部の機能構成を示すブロック図である。 本発明の第3実施形態に係る車体マッチング部の車体特徴量DBの構成を示す図である。 本発明の第3実施形態に係る車体マッチング部のナンバープレート検出部の機能構成を示すブロック図である。 本発明の第4実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第4実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第4実施形態に係る服マッチング部の標識抽出部の機能構成を示すブロック図である。 本発明の第4実施形態に係る標識画像劣化量推定部が使用する標識画像劣化量推定テーブルの構成を示す図である。 本発明の第5実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第5実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第5実施形態に係るフラット画像劣化量推定部が使用するフラット画像劣化量推定テーブルの構成を示す図である。 本発明の第6実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第6実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第6実施形態に係る推定劣化量選択部が使用する推定劣化量選択テーブルの構成を示す図である。 本発明の第7実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第7実施形態に係る画像劣化量推定部が使用する画像劣化量推定テーブルの構成を示す図である。 本発明の第8実施形態に係る映像処理装置の処理概要を示す図である。 本発明の第8実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第8実施形態に係る制定劣化量算出部が使用する推定劣化量算出テーブルの構成を示す図である。 本発明の第9実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第9実施形態に係る服マッチング部の服特徴量DBの構成を示す図である。 本発明の第10実施形態に係る映像処理装置の服マッチング部の機能構成を示すブロック図である。 本発明の第10実施形態に係る服マッチング部の服特徴量マッチング部の機能構成を示す図である。 本発明の第10実施形態に係る服特徴量マッチング部が使用する服特徴量マッチングテーブルの構成を示す図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素は単なる例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 本明細書で使用される「検索対象であるオブジェクト」としては、特徴を有する人物や車両が含まれるが、これに限定されず、映像中から検索したい対象を全て含む概念である。例えば、人物の着る服や人物の携帯物として特定のカバンなどをオブジェクトとしても、車両の取付物や積載する荷物をオブジェクトとしてもよい。すなわち、検索しようとする全ての対象物がオブジェクトとなり得る。
 [第1実施形態]
 本発明の第1実施形態としての映像処理装置100について、図1を用いて説明する。映像処理装置100は、映像中から対象とするオブジェクトを検索する装置である。
 図1に示すように、映像処理装置100は、画像劣化推定部101と、特徴量抽出部102と、特徴量データベース103と、マッチング部104と、を含む。画像劣化推定部101は、映像中から画像劣化の指標となる画像領域の画像を抽出して、画像領域の画像の画像劣化の度合いを推定する。特徴量抽出部102は、映像中から検索対象となるオブジェクトの特徴量を抽出する。特徴量データベース103は、検索対象となるオブジェクトの特徴量を格納する。マッチング部104は、オブジェクトを映像中から検索する際に、抽出された特徴量と格納された特徴量とのマッチングを、画像劣化推定部101が推定した画像劣化の度合いに基づいて制御する。
 本実施形態によれば、映像中の劣化した画像から抽出した特徴量に基づく検索対象であるオブジェクトの検索精度の低下を抑制することができる。
 [第2実施形態]
 次に、本発明の第2実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、映像中からオブジェクトとして人物を検索して、その人物が写った映像を選別する。また、本実施形態においては、人物を検索する特徴量の1つとして人物が有する服の色や模様の特徴量あるいは携帯物の色や模様の特徴量などを使用する。そして、画像劣化の度合いを映像中の検索対象となる人物の一部である顔画像の輪郭または顔領域内に含まれるパターンやエッジなどから推定し、推定画像劣化量に基づいて、例えば服特徴量マッチングを制御する。
 ここで、画像劣化量とは、検索対象となるオブジェクトの画像の劣化の度合いを表す指標であり、劣化の要因(例えば、ぼけやぶれ、逆光など)ごとに定義されていてもよいし、要因ごとに求めた値から、要因ごとによらない抽象化した値に変換したものであってもよい。例えば、ぼけの場合には、推定される点広がり関数のパラメータの値でぼけの度合いを表現できるが、このパラメータと対応付けて画像劣化量を定義してもよい。あるいは、このパラメータそのものを画像劣化量として定義してもよい。なお、ぼけの度合いの記述方法はこの方式に限定されず、他の方法であってもよい。
 《映像処理装置の処理概要》
 図2は、本実施形態に係る映像処理装置200の処理概要を示す図である。
 映像処理装置200は、種々の映像211~21nの映像データから特徴ある人物を検索する。例えば、映像240からドクロ模様の服を着た人物241を特定して、人物241が映った映像を選別する。この人物検索において、人物が着る服の色や模様などの特徴を特徴量として抽出して、あらかじめ格納された服の色や模様などの特徴量220と服特徴量マッチング部230においてマッチングして人物を特定する。
 この時に、映像211~21nは、カメラの状態(例えば、ぶれや焦点ずれなど)によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。図2において、映像211は画像劣化のない映像、映像212は霧による画像劣化がある映像、映像21nはぶれや焦点ずれによる画像劣化がある映像である。かかる画像劣化の映像から、人物の服の模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により人物検索の信頼性が低下することになる。例えば、ストライプや水玉あるいは格子模様の服であれば、画像劣化により線や水玉が明確に分離して認識されなくなる。一方、もともとぼやけた模様の服を着ている人物を検索対象と認識してしまうこともあり得る。
 本実施形態においては、服の模様を1つの特徴量として、人物検索の特徴量マッチングを行なう場合に、服の模様の特徴量マッチングの精度が低下しやすい画像劣化の度合いを、顔画像の比較から推定して推定劣化量を生成する。そして、特徴量マッチングにおいて、推定劣化量に対応してマッチングの信頼度を生成して通知する。あるいは、推定劣化量が所定閾値を超えて信頼度が著しく低下した場合には、例えば、服の模様の特徴量マッチングは行なわずに、特徴量マッチングの信頼度が低下しない、例えば、服の色の特徴量マッチングの結果を採用する。なお、中間の状態では、それぞれの特徴量マッチングに重み付けをしてマッチング結果を生成する。
 このように処理することにより、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても人物検索の精度を維持する。
 《システム構成》
 図3は、本実施形態に係る映像処理装置200を含む映像処理システム300の構成を示すブロック図である。
 映像処理システム300は、監視用のカメラ310と、映像送信部320と、ネットワーク330と、本実施形態の映像処理装置200と、を有する。映像送信部320は、カメラ310が撮像した映像を、ネットワーク330を介して、映像処理装置200に送信する。なお、映像送信部320は、カメラ310と一体でもよい。本実施形態の映像処理装置200は、図2で示したように、カメラ310からの映像から検索対象であるオブジェクト(本例では、人物)を検索して、オブジェクトを含む映像を選別(例えば類似度が一定以上のものを選別)する。また、選別した映像からさらにオブジェクトを解析するようにしてもよい。なお、本実施形態においては、選別した映像からさらにオブジェクトを解析する処理については、詳説しない。
 《映像処理装置の機能構成》
 図4Aは、本実施形態に係る映像処理装置200の機能構成を示すブロック図である。
 映像処理装置200は、複数のマッチング部401~403と、人物特徴量DB404と、検索人物マッチング部405と、映像蓄積部406とを備える。さらに、映像処理装置200は、破線で示した映像選別部407も備えていてもよい。複数のマッチング部401~403は、例えば、検索人物の顔によるマッチングを行なう顔マッチング部401と、検索人物の服によるマッチングを行なう服マッチング部402と、検索人物の携帯物によるマッチングを行なう携帯物マッチング部403と、を含む。人物特徴量DB404は、複数のマッチング部401~403に、あらかじめ格納されたマッチングのための人物のそれぞれの特徴量を提供する。映像蓄積部406は、カメラ310から送信された映像を検索可能に蓄積する。検索人物マッチング部405は、複数のマッチング部401~403のマッチング結果を組み合わせて、映像中の人物を検索する。映像選別部407は、検索人物マッチング部405によりマッチングした人物を含む映像を、映像蓄積部406から取り出して、解析などの次の処理に送る。なお、選別する映像は、映像単位、時間単位、あるいは検索人物を含む映像であってもよい。
 (人物特徴量DB)
 図4Bは、本実施形態に係る映像処理装置200の人物特徴量DB404の構成を示す図である。人物特徴量DB404は、人物検索において種々のマッチングに使用される特徴量を格納する。なお、人物特徴量DB404の構成は、図4Bに限定されない。例えば、特徴量は、テキスト形式で数値化されたデータでなくてもよく、バイナリデータとして格納するようになっていてもよい。例えばMPEG-7で規格化された特徴量形式のバイナリデータであってもよい。また、顔特徴量は目鼻口などの個々の部分領域ごとに特徴化されていなくてもよく、顔全体として特徴量化されていてもよい。
 人物特徴量DB404は、検索するマッチングオブジェクトID(本例では、検索する人物ID)に対応付けて、使用される特徴量を格納する。例えば、顔マッチングに使用される顔特徴量412、服マッチングに使用される服特徴量413、携帯物マッチングに使用される携帯物特徴量414、姿(体形)マッチングに使用される姿(体形)特徴量415などを格納する。
 (人物マッチングテーブル)
 図4Cは、本実施形態に係る検索人物マッチング部405が使用する人物マッチングテーブル405aの構成を示す図である。人物マッチングテーブル405aは、種々のマッチング結果からトータルの人物検索を行なうために、検索人物マッチング部405が使用するテーブルである。ここでは、便宜上、テーブル形式で記述した例を示すが、マッチング結果の格納は、必ずしもテーブル形式で行う必要はなく、同等の内容を格納可能な任意の形式(例えば、これらの値を格納するための変数を有する構造体など)でもよい。
 人物マッチングテーブル405aは、各マッチング特徴量ID421に対応付けて、各マッチング部401~403において抽出された抽出特徴量422と、それぞれのマッチング結果423と、マッチング結果の信頼度424と、を記憶する。そして、人物マッチングテーブル405aは、それらを考慮したトータルマッチング結果425を記憶する。
 (映像選別テーブル)
 図4Dは、本実施形態に係る映像選別部407が使用する映像選別テーブル407aの構成を示す図である。映像選別テーブル407aは、検索人物マッチング部405のトータルマッチング結果から検索人物である信頼度が所定閾値より高ければ、その検索人物を含む映像の選別を行なうために、映像選別部407が使用するテーブルである。ここでは、便宜上、テーブル形式で記述した例を示すが、選別結果の格納は、図4Cと同様に、必ずしもテーブル形式でなくてもよい。
 映像選別テーブル407aは、映像ID431に対応付けて、検索する追跡人物ID432と、トータルのマッチング結果433と、映像選別結果434と、を記憶する。映像選別結果434には、選別あるいは非選別を記憶するが、例えば、後続の解析時に使用できるように信頼度を付してもよい。すなわち、後続の解析処理を行う際に、信頼度情報を見て、映像を用いるかどうかをそのときに判断するようにしてもよい。
 《服マッチング部の機能構成》
 図5Aは、本実施形態に係る映像処理装置200の服マッチング部402の機能構成を示すブロック図である。以下、本実施形態においては、服マッチング部402を主に説明するが、他のマッチング部の構成も同様である。本実施形態においては、服マッチングにおいて画像劣化の影響を受ける服の模様について詳細に説明する。しかしながら、他のマッチング部における画像劣化の影響を受ける特徴量についても、服の模様と同様の処理が可能である。
 服マッチング部402は、顔検出部501と、顔画像劣化量推定部502と、服特徴量抽出部503と、服特徴量DB504と、服特徴量マッチング部230と、を備える。顔検出部501は、映像から人物の顔を検出する。顔画像劣化量推定部502は、顔検出部501が検出した顔画像から画像劣化量を推定する。なお、顔検出部501と顔画像劣化量推定部502とにより、本実施形態の画像劣化推定部を構成する。服特徴量抽出部503は、映像蓄積部406から読み出された映像に映った人物の服の特徴量を抽出する。服特徴量DB504は、服特徴量抽出部503が抽出した特徴量とマッチングするための、検索用の服の特徴量を格納する。なお、服特徴量DB504は、図4Aの人物特徴量DB404と共用であっても、人物特徴量DB404から取得した服の特徴量を格納してもよい。服特徴量マッチング部230は、服特徴量抽出部503が抽出した特徴量と服特徴量DB504に格納された特徴量とをマッチングして、マッチした場合は服マッチング結果を、検索人物マッチング部405に出力する。
 (服特徴量DB)
 図5Bは、本実施形態に係る服マッチング部402の服特徴量DB504の構成を示す図である。服特徴量DB504は、人物検索のための服マッチング用の服の特徴量を人物特徴量DB404から取得して格納する。なお、服特徴量DB504の構成は、図5Bに限定されない。例えば、色はHSVヒストグラムや代表色特徴量、模様はエッジヒストグラムやガボールウェーブレット特徴など、バイナリの特徴量データを格納するようになっていてもよい。
 服特徴量DB504は、検索人物の服を識別するための特徴量テーブル510と、マッチング結果への画像劣化の影響を格納する画像劣化テーブル520と、を含む。なお、本実施形態においては、画像劣化テーブル520は、服特徴量DB504に格納されて、服特徴量マッチング部230がマッチングを制御するために使用するが、服特徴量マッチング部230や顔画像劣化量推定部502に格納されていてもよい。
 特徴量テーブル510は、検索人物の服を識別する検索服ID511に対応付けて、服マッチングに使用される色特徴量512と、模様特徴量513と、形状特徴量514と、を格納する。一方、画像劣化テーブル520は、服マッチングの特徴量対象521に対応付けて、判定信頼度523を格納する。また、特徴量テーブル510は、信頼度低下要因522と、マッチング時の重み付け524も格納してもよい。ここで、信頼度低下要因とは、信頼度が低下した要因が推定可能な場合に、その推定結果を格納するものである。例えば、ぶれが要因と推定される場合には、そのことを示す情報を記述する。なお、画像劣化の影響が大きく人物検索には使用されない場合には、マッチング時の重み付け524にゼロが格納されて、かかる特徴量は人物検索には使用しない。また、画像劣化テーブル520では、特徴量対象の詳細に対して信頼度を判定するようになっているが、詳細まで分かれていなくてもよく、色、模様、形状といった対象の単位ごとに算出するようになっていてもよい。
 (顔検出部)
 図6は、本実施形態に係る服マッチング部402の顔検出部501の機能構成を示すブロック図である。顔検出部501は、映像蓄積部406からの映像から顔を検出する。
 顔検出部501は、顔画像特徴点抽出部601と、顔検出用DB602と、顔画像抽出部603と、を備える。顔画像特徴点抽出部601は、映像中から顔の輪郭、顔の色、顔の部位(眉毛、目、鼻、口など)の特徴点を抽出して、顔検出用DB602に格納された特徴点とマッチングして、顔領域であることを判定する。顔検出用DB602は、顔画像であることを示す特徴点を格納する。顔画像抽出部603は、顔画像特徴点抽出部601で顔領域と判定された領域の画像を顔画像として抽出する。なお、ここで述べた顔検出方法はあくまでも一例であり、これ以外の顔検出方法を用いてもよい。例えば、顔画像の特徴を学習させたニューラルネットワークに画像を直接入力し、個別の特徴点を検出することなく、入力された画像が顔かどうかを判定するようにしてもよい。
 なお、顔検出用DB602には、種々の特徴ある顔画像の輪郭やエッジ、例えば、日本人と外人、男性と女性、大人と子供の顔画像の輪郭やエッジを格納してもよい。また、検出する顔画像は、映像中に存在するどの顔画像でもよいが、複数の顔画像が検出された場合は、顔検出部501において、所定サイズの顔画像(カメラからの距離に対応する)を選択したり、他のマッチングにより検索人物候補となった人物の顔画像を選択したりしてもよい。あるいは、複数の顔画像について顔画像劣化量推定部502に出力し、顔画像劣化量推定部502において複数の顔画像の平均劣化量を算出したり、劣化量の推定に適した顔画像を選択したりしてもよい。
 (顔画像劣化量推定部)
 図7Aは、本実施形態に係る服マッチング部402の第1例の顔画像劣化量推定部502Aの機能構成を示すブロック図である。顔画像劣化量推定部502Aは、顔検出部501が検出した顔画像から画像劣化量を推定する。
 顔画像劣化量推定部502Aは、顔画像比較部701と、顔画像DB702と、劣化量算出部703と、を備える。顔画像比較部701は、顔検出部501が検出した顔画像の輪郭やエッジなどを、顔画像DB702に格納された標準の顔画像の輪郭やエッジなどと比較して、その相違量、例えばシャープさの違いなどを出力する。顔画像DB702は、標準の顔画像の輪郭やエッジなどを格納する。なお、実際には、各カメラが撮像する環境における標準の顔画像と比較するのが望ましいので、あらかじめ各カメラで撮像した顔画像の輪郭やエッジなどを格納しておき、撮像場所に対応づけられた映像IDを用いて標準の顔画像を選択してもよい。また、撮像場所に対応する標準の顔画像、あるいはその顔から抽出した輪郭やエッジなどの特徴量を、映像IDを用いて選択して顔画像DB702にダウンロードしてもよい。劣化量算出部703は、顔画像比較部701が出力した標準顔画像と映像から検出した顔画像とのシャープさなどの相違から、画像の劣化量を推定算出する。
 図7Bは、本実施形態に係る服マッチング部402の第2例の顔画像劣化量推定部502Bの機能構成を示すブロック図である。顔画像劣化量推定部502Bも、顔検出部501が検出した顔画像から画像劣化量を推定する。
 顔画像劣化量推定部502Bは、顔画像DB702と、画像劣化量識別部704と、を備える。画像劣化量識別部704では、顔画像の劣化度ごとに学習させた識別器を用いて顔画像劣化量を判定する。例えば、ぼけの程度ごとに学習させたニューラルネットワークに対して顔画像を入力し、ぼけの程度を判定するようにしてもよい。また、用いる識別器はニューラルネットワークに限らない。例えば、SVM(サポートベクターマシン)識別器やGLVQ(一般化学習ベクトル)識別器でもよい。これらの場合には、顔画像の輪郭やエッジなどの特徴量を抽出し、識別器に入力する。このため、ぼけの程度ごとに学習画像を用意し、これらの画像の特徴量を用いて識別器を学習させておき、画像劣化量を判定する。
 図7Cは、本実施形態に係る顔画像劣化量推定部502Aが使用する顔画像劣化量推定テーブル502aの構成を示す図である。本テーブルは、画像劣化量が画像劣化要因ごとに、その程度を表すパラメータと対応付けて決められている場合に用いる。顔画像劣化量推定テーブル502aは、顔画像比較部701が出力した標準顔画像と映像から検出した顔画像との相違から、その劣化要因などに対応して画像劣化量を推定するため、顔画像劣化量推定部502Aが使用するテーブルである。
 顔画像劣化量推定テーブル502aは、画像劣化指標711に対応付けて画像劣化量712を記憶する。なお、図7Cにおいては、劣化要因などに対応して画像劣化量を推定するようにしたが、顔画像比較部701が出力した標準顔画像と映像から検出した顔画像との相違の程度をそのまま数値化してもよい。また、画像劣化要因とそのパラメータを対応づけたもの自体を画像劣化量として定義する場合には、このテーブルは用いずに、推定する画像劣化要因とパラメータを合わせて画像劣化量とする。
 (服特徴量マッチング部)
 図8Aは、本実施形態に係る服マッチング部402の服特徴量マッチング部230の機能構成を示すブロック図である。服特徴量マッチング部230は、映像から抽出した特徴量と格納された特徴量とをマッチングして、その特徴量に類似する服が映像中に有るか否かを判定する。
 服特徴量マッチング部230は、特徴量比較部801とマッチング信頼度付加部802とを備える。特徴量比較部801は、服特徴量抽出部503が映像から抽出した特徴量と、服特徴量DB504に格納された特徴量とを比較する。マッチング信頼度付加部802は、特徴量比較部801の比較結果に画像劣化推定部からの画像劣化量を付加して、服マッチング結果として出力する。あるいは、画像劣化量を画像劣化の度合いに応じた特徴量の信頼性を表す信頼度に変換して付加するようにしてもよい。信頼度の値は、例えば、服特徴量によるマッチング結果がどの程度正しいかを各画像劣化量に対してあらかじめ算出し、その割合を信頼度として算出しておけばよい。
 なお、図8Aにおいては、画像劣化量を特徴量比較部801の比較結果に付加したが、画像劣化量に基づいて、特徴量比較部801の比較を変更したり、特徴量比較部801の比較結果に重み付けをしたりしてもよい。重み付けの場合に、例えば、画像劣化により服の模様のマッチング結果は使用せず、色のマッチング結果を使用する場合には、模様の比較結果の重み付けをゼロにする。
 図8Bは、本実施形態に係る服特徴量マッチング部230が使用する服特徴量マッチングテーブル230aの構成を示す図である。服特徴量マッチングテーブル230aは、服特徴量マッチングを行なうために、服特徴量マッチング部230が使用するテーブルである。ここでは、便宜上、テーブル形式で記述した例を示すが、マッチング結果の格納は、図4Cと同様に、必ずしもテーブル形式でなくてもよい。
 服特徴量マッチングテーブル230aは、識別対象ID811と特徴量対象812とに対応付けて、画像劣化推定部からの推定画像劣化量813を記憶する。さらに、服特徴量マッチングテーブル230aは、推定画像劣化量813に基づく信頼度判定結果814と、マッチング時の重み付け815と、を記憶してもよい。そして、特徴量対象のマッチング結果を組み合わせた1つの服IDに対応して、マッチング結果816を記憶する。
 《映像処理装置のハードウェア構成》
 図9は、本実施形態に係る映像処理装置200のハードウェア構成を示すブロック図である。なお、図9には、映像中の人物検索時に使用する1つの特徴量である服の特徴量に関連する構成が図示されており、他の特徴量に関連する構成や複数の特徴量によるトータルマッチングのための構成については省略されている。しかしながら、それらは図9と同様の構成により実現できる。
 図9で、CPU910は演算制御用のプロセッサであり、CPU910がRAM940を使用しながらストレージ950に格納されたプログラムおよびモジュールを実行することで、図4Aに示された映像処理装置200の各機能構成部の機能が実現される。ROM920は、初期データおよびプログラムなどの固定データおよびプログラムを記憶する。また、通信制御部930は、ネットワークを介して外部装置と通信する。なお、CPU910は1つに限定されず、複数のCPUであっても、あるいは画像処理用のGPUを含んでもよい。
 RAM940は、CPU910が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM940には、本実施形態の実現に必要なデータを記憶する領域が確保されている。入力映像941は、映像蓄積部406に蓄積する映像あるいは映像蓄積部406からオブジェクト(本例では人物)を検索するための読み出された映像である。抽出顔画像942は、映像の画像劣化を推定するために抽出された顔画像である。画像劣化量943は、抽出顔画像942から推定された画像の劣化量である。抽出服特徴量944は、映像中の人物が着ている服から抽出された特徴量である。なお、服領域については、例えば、頭部あるいは顔領域の抽出から胴体部位を推定するなどの既知の方法により抽出が可能である。検索服特徴量945は、服特徴量DB504に格納された検索人物の着ている検索服の特徴量である。マッチング結果946は、画像劣化量943を考慮して、抽出服特徴量944と検索服特徴量945との比較から得られた、対象服か否かを示す結果情報である。信頼度(重み付け)947は、画像劣化量943に対応するマッチング結果946の信頼の程度である。なお、信頼度(重み付け)947は、マッチング結果946に添付されても、あるいは、マッチング結果946に組み込まれていてもよい。入出力データ948は、入出力インタフェース960を介して入出力される入出力データを示す。送受信データ949は、通信制御部930を介して送受信される送受信データを示す。
 ストレージ950には、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータまたはプログラムが記憶されている。映像蓄積部406は、各カメラ310から収集された映像を蓄積する。人物特徴量DB404は、検索する人物の特徴量を人物IDに対応付けて格納するデータベースである。服特徴量DB504は、検索する人物の服の特徴量を服IDに対応付けて格納するデータベースである。なお、服特徴量DB504は人物特徴量DB404に含まれてもよい。顔検出用DB602は、映像から顔画像を検出ための顔の特徴(輪郭、色、部位など)を格納するデータベースである。顔画像劣化量推定テーブル502aは、顔画像劣化量推定部502が画像劣化量の推定のために使用するテーブルである。服特徴量抽出テーブル503aは、服特徴量抽出部503が映像から服特徴量を抽出するために使用するテーブルである。服特徴量マッチングテーブル230aは、服特徴量マッチング部230が服特徴量のマッチングにために使用するテーブルである。なお、各テーブルはRAM940に確保されてもよい。
 ストレージ950には、以下のプログラムが格納される。映像処理装置制御プログラム951は、本映像処理装置200の全体を制御する制御プログラムである。服マッチングモジュール952は、映像処理装置制御プログラム951における人物検索のため、映像中の服特徴量と服特徴量DB504に格納された服特徴量とをマッチングするモジュールである。画像劣化推定モジュール953は、映像から所定領域の画像を抽出して、抽出画像に基づいて映像中の画像劣化を推定するモジュールである。特徴量抽出モジュール954は、映像から人物検索のために人物の有する特徴量を抽出するモジュールである。特徴量マッチングモジュール955は、検索対象の人物を見付けるため、特徴量抽出モジュール954が抽出した特徴量と検索する人物の特徴量とをマッチングするモジュールである。なお、本実施形態において、画像劣化推定モジュール953は顔画像から画像劣化を推定し、特徴量抽出モジュール954および特徴量抽出モジュール954は服特徴量、特に服の模様の特徴量の抽出およびマッチングを行なう。
 入出力インタフェース960は、入出力機器との入出力データをインタフェースする。入出力インタフェース960には、表示部961、キーボード、タッチパネル、ポインティンデバイスなどの操作部962が接続される。
 なお、図9のRAM940やストレージ950には、映像処理装置200が有する汎用の機能や他の実現可能な機能に関連するプログラムやデータは図示されていない。
 《映像処理装置の処理手順》
 図10は、本実施形態に係る映像処理装置200の処理手順を示すフローチャートである。このフローチャートは、図9のCPU910がRAM940およびストレージ950を使用しながら実行し、図4Aあるいは図5Aの機能構成部を実現する。
 映像処理装置200は、ステップS1001において、映像蓄積部406から対象人物を検索するための映像を取得する。次に、映像処理装置200は、ステップS1003において、取得した映像中から人物画像を検出する。映像処理装置200は、ステップS1005において、検出した人物について特定の服の服マッチングを実行するか否かを判定する。
 服マッチングを実行する場合、映像処理装置200は、ステップS1007において、服マッチング処理を実行する(図11A参照)。服マッチング処理を完了すると、映像処理装置200は、ステップS1009において、他のマッチング(顔や携帯物など)を実行するか否かを判定する。マッチングがオブジェクトとして特定の服を検索する場合、映像処理装置200は、ステップS1011において、服マッチング結果から検索対象オブジェクトを含む映像を選別する。一方、他のマッチングも含めたオブジェクトを検索する場合、映像処理装置200は、ステップS1013において、他のマッチング処理を実行し、ステップS1011においては、複数のマッチング結果を組み合わせて検索対象オブジェクトを含む映像を選別する。
 (服マッチング処理)
 図11Aは、本実施形態に係る服マッチング処理(S1007)の手順を示すフローチャートである。
 映像処理装置200は、ステップS1101において、映像から顔画像を検出して画像劣化を推定する画像劣化推定処理を実行する。次に、映像処理装置200は、ステップS1103において、映像から検出した服の特徴量を抽出する服特徴量抽出処理を実行する。そして、映像処理装置200は、ステップS1105において、抽出した服特徴量とあらかじめ準備した検索人物の服特徴量とをマッチングする服特徴量マッチング処理を実行する。
 (画像劣化推定処理)
 図11Bは、本実施形態に係る画像劣化推定処理(S1101)の手順を示すフローチャートである。
 映像処理装置200は、ステップS1111において、映像から顔画像を検出する。次に、映像処理装置200は、ステップS1113において、標準顔画像を読み出す。次に、映像処理装置200は、ステップS1115において、映像から抽出した顔画像と標準顔画像とのシャープさなどを比較する。そして、映像処理装置200は、ステップS1117において、ステップS1115の顔画像の比較結果から画像劣化量を推定する。なお、画像劣化量は、標準顔画像との比較ではなく、検出した顔画像の輪郭や部位エッジなどのシャープさの数値に対応する画像劣化量を生成してもよい。なお、ここで述べた画像劣化量推定処理はあくまでも一例であり、標準画像を用いない、前述の他の方法でもよい。
 (服特徴量抽出処理)
 図11Cは、本実施形態に係る特徴量抽出処理(S1103)の手順を示すフローチャートである。
 映像処理装置200は、ステップS1131において、映像から服領域の画像を抽出する。なお、服領域については、例えば、頭部あるいは顔領域の抽出から胴体部位を推定するなどの既知の方法により抽出が可能である。次に、映像処理装置200は、ステップS1133において、服領域中の服画像から特徴量を抽出する。特徴量は、例えば、色特徴量や模様特徴量など、あるいはそれらの組み合わせ特徴量である。
 (服特徴量マッチング処理)
 図11Dは、本実施形態に係る特徴量マッチング処理(S1105)の手順を示すフローチャートである。
 映像処理装置200は、ステップS1151において、画像劣化量推定処理で推定した画像劣化量を取得する。次に、映像処理装置200は、ステップS1153において、服特徴量抽出処理で抽出した特徴量を取得する。次に、映像処理装置200は、ステップS1155において、検索する人物(あるいは検索する服)の服特徴量を服特徴量DB504から取得する。次に、映像処理装置200は、ステップS1157において、ステップS1151において取得した画像劣化量に基づいて、服マッチングに使用する特徴量を選択する。あるいは、複数の特徴量に対して服マッチングへの寄与率を示す重み付けをする。そして、映像処理装置200は、ステップS1159において、画像劣化量を考慮した服特徴量のマッチングを実行する。映像処理装置200は、ステップS1161において、服マッチングの結果を出力する。
 本実施形態によれば、映像中の人物の顔画像に基づいて画像劣化を推定し、特に、画像劣化に影響され易い服の模様の特徴量のマッチングを制御することによって、映像中の劣化した画像から抽出した特徴量に基づく人物の検索精度の低下を抑制することができる。
 [第3実施形態]
 次に、本発明の第3実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態と比べると、検索対象のオブジェクトが車両である点で異なる。特に、本実施形態においては、車両を検索する特徴量の1つとして車両が有する車体の色や模様の特徴量あるいは積載物の色や模様の特徴量などを使用する。本実施形態においては、車両画像の一部であるナンバープレート画像の輪郭またはエッジから画像劣化の度合いを推定する。そして、この画像劣化の度合いに基づいて、車体または取付物ないし積載物の色や模様の特徴量のマッチングを制御して、車両の検索を行なう。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
 《映像処理装置の処理概要》
 図12は、本実施形態に係る映像処理装置1200の処理概要を示す図である。なお、図12においては、検索対象が図2の人物から車両に変わり、画像劣化を推定する領域が図2の顔からナンバープレートに変わっているが、その処理は同様である。
 映像処理装置1200は、種々の映像1211~21nの映像データから特徴ある車両を検索する。例えば、映像1240から車両1241を特定して、車両1241が映った映像を選別する。この車両検索において、車体の色や模様(輪郭線の模様)などの特徴を特徴量として抽出して、あらかじめ格納された検索対象の車体色や車体模様などの特徴量1220と車体特徴量マッチング部1230においてマッチングして車両を特定する。
 この時に、映像1211~121nは、カメラの状態(例えば、ぶれや焦点ずれなど)
によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。図12において、映像1211は画像劣化のない映像、映像1212は霧による画像劣化がある映像、映像121nはぶれや焦点ずれによる画像劣化がある映像である。かかる画像劣化の映像から、特に車体模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により車両検索の信頼性が低下することになる。すなわち、車体の模様は線模様なので、画像劣化により線がぼやけたりぶれたりすると、明確に認識されなくなる。
 本実施形態においては、車体模様を1つの特徴量として、車両検索の特徴量マッチングを行なう場合に、車体模様の特徴量マッチングの精度が低下しやすい画像劣化の度合いを、ナンバープレート画像の比較から推定して推定劣化量を生成する。そして、特徴量マッチングにおいて、推定劣化量に対応してマッチングの信頼度を生成して通知する。あるいは、推定劣化量が所定閾値を超えて信頼度が著しく低下した場合には、例えば、車体模様の特徴量マッチングは行なわずに、特徴量マッチングの信頼度が低下しない、例えば、車体色の特徴量マッチングの結果を採用する。なお、中間の状態では、それぞれの特徴量マッチングに重み付けをしてマッチング結果を生成する。
 このように処理することにより、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても車両検索の精度を維持する。
 《映像処理装置の機能構成》
 図13Aは、本実施形態に係る映像処理装置1200の機能構成を示すブロック図である。
 映像処理装置1200は、複数のマッチング部1301~1303と、車両特徴量DB1304と、検索車両マッチング部1305と、映像蓄積部1306とを備える。さらに、映像処理装置1200は、破線で示す映像選別部1307も備えていてもよい。複数のマッチング部1301~1303は、例えば、ナンバープレートマッチング部1301と、車体マッチング部1302と、取付物マッチング部1303と、を含む。ここで、ナンバープレートマッチング部1301は、検索車両のナンバープレートによるマッチングを行なう。車体マッチング部1302は、検索車両によるマッチングを色と線模様とを含む車体に対して行なう。取付物マッチング部1303は、検索車両の取付物によるマッチングを行なう。なお、車両の積載物の色や模様によるマッチングを含んでもよい。車両特徴量DB1304は、複数のマッチング部1301~1303に、あらかじめ格納されたマッチングのための車両を検索するためのそれぞれの特徴量を提供する。映像蓄積部1306は、カメラ310から送信された映像を検索可能に蓄積する。検索車両マッチング部1305は、複数のマッチング部1301~1303のマッチング結果を組み合わせて、映像中の車両を検索する。映像選別部1307は、検索車両マッチング部1305によりマッチングした車両を含む映像を、映像蓄積部1306から取り出して、解析などの次の処理に送る。なお、選別する映像は、映像単位、時間単位、あるいは検索車両を含む映像であってもよい。
 (車両マッチングテーブル)
 図13Bは、本実施形態に係る検索車両マッチング部1305が使用する車両マッチングテーブル1305aの構成を示す図である。車両マッチングテーブル1305aは、種々のマッチング結果からトータルの車両検索を行なうために、検索車両マッチング部1305が使用するテーブルである。ここでは、便宜上、テーブル形式で記述した例を示すが、マッチング結果の格納は、図4Cと同様に、必ずしもテーブル形式でなくてもよい。
 車両マッチングテーブル1305aは、各マッチング特徴量ID1321に対応付けて、各マッチング部1301~1303において抽出された抽出特徴量1322と、それぞれのマッチング結果1323と、マッチング結果の信頼度1324と、を記憶する。そして、車両マッチングテーブル1305aは、それらを考慮したトータルマッチング結果1325と、を記憶する。
 《車両マッチング部の機能構成》
 図14Aは、本実施形態に係る映像処理装置1200の車体マッチング部1302の機能構成を示すブロック図である。以下、本実施形態においては、車体マッチング部1302を主に説明するが、他のマッチング部の構成も同様である。本実施形態においては、車両マッチングにおいて画像劣化の影響を受ける車体の線模様について詳細に説明する。しかしながら、他のマッチング部における画像劣化の影響を受ける特徴量についても、線模様と同様の処理が可能である。
 車体マッチング部1302は、ナンバープレート検出部1401と、プレート画像劣化量推定部1402と、車体特徴量抽出部1403と、車体特徴量DB1404と、車体特徴量マッチング部1230と、を備える。ナンバープレート検出部1401は、映像から車両のナンバープレート画像(以下、プレート画像と呼ぶ)を検出する。プレート画像劣化量推定部1402は、ナンバープレート検出部1401が検出したプレート画像から画像劣化量を推定する。なお、ナンバープレート検出部1401とプレート画像劣化量推定部1402とにより、本実施形態の画像劣化推定部を構成する。車体特徴量抽出部1403は、映像蓄積部1306から読み出された映像に映った車両の車体の特徴量(色や輪郭線模様)を抽出する。車体特徴量DB1404は、車体特徴量抽出部1403が抽出した特徴量とマッチングするための、検索用の車体特徴量を格納する。なお、車体特徴量DB1404は、図13Aの車両特徴量DB1304と共用であっても、車両特徴量DB1304から取得した車体の特徴量を格納してもよい。車体特徴量マッチング部1230は、車体特徴量抽出部1403が抽出した特徴量と車体特徴量DB1404に格納された特徴量とをマッチングして、マッチした場合は車体マッチング結果を、検索車両マッチング部1305に出力する。
 (車両特徴量DB)
 図14Bは、本実施形態に係る車体マッチング部1302の車体特徴量DB1404の構成を示す図である。車体特徴量DB1404は、車両検索のための車体マッチング用の車体特徴量を車両特徴量DB1304から取得して格納する。なお、車体特徴量DB1404の構成は、図14Bに限定されない。例えば、色はHSVヒストグラムや代表色特徴量、模様はエッジヒストグラムやガボールウェーブレット特徴など、バイナリの特徴量データを格納するようになっていてもよい。
 車体特徴量DB1404は、検索車両の車体を識別するための特徴量テーブル1410と、マッチング結果への画像劣化の影響を格納する画像劣化テーブル1420と、を含む。なお、本実施形態においては、画像劣化テーブル1420は、車体特徴量DB1404に格納されて、車体特徴量マッチング部1230がマッチングを制御するために使用するが、車体特徴量マッチング部1230やプレート画像劣化量推定部1402に格納されていてもよい。
 特徴量テーブル1410は、検索車両の車体を識別する検索車体ID1411に対応付けて、車体マッチングに使用される色特徴量1412と、模様特徴量1413と、形状特徴量1414と、を格納する。一方、画像劣化テーブル1420は、車体マッチングの特徴量対象1421に対応付けて、判定信頼度1423を格納する。また、特徴量テーブル1410は、信頼度低下要因1422と、マッチング時の重みづけ1424も格納してもよい。信頼度低下要因については、画像劣化テーブル520の場合と同様である。なお、画像劣化の影響が大きく車両検索には使用されない場合には、マッチング時の重み付け1424にゼロが格納されて、かかる特徴量は車両検索には使用しない。また、画像劣化テーブル1420では、特徴量対象の詳細に対して信頼度を判定するようになっているが、詳細まで分かれていなくてもよく、色、模様、形状といった対象の単位ごとに算出するようになっていてもよい。
 (ナンバープレート検出部)
 図14Cは、本実施形態に係る車体マッチング部1302のナンバープレート検出部1401の機能構成を示すブロック図である。ナンバープレート検出部1401は、映像蓄積部1306からの映像からナンバープレートを検出する。
 ナンバープレート検出部1401は、プレート画像特徴点抽出部1431と、プレート検出用DB1432と、プレート画像抽出部1433と、を備える。プレート画像特徴点抽出部1431は、映像中からナンバープレートの輪郭、ナンバープレートの色、ナンバープレートの部位の特徴点を抽出して、プレート検出用DB1432に格納された特徴点とマッチングして、ナンバープレート領域であることを判定する。プレート検出用DB1432は、プレート画像であることを示す特徴点を格納する。プレート画像抽出部1433は、プレート画像特徴点抽出部1431でナンバープレート領域と判定された領域の画像をプレート画像として抽出する。なお、ここで述べたナンバープレート検出方法はあくまでも一例であり、これ以外のナンバープレート検出方法を用いてもよいのは、顔検出部501の場合と同様である。
 なお、プレート検出用DB1432には、種々の特徴あるプレート画像の輪郭やエッジ、例えば、乗用車と貨物車、自家用と事業用、軽自動車、二輪車などのプレート画像の輪郭やエッジを格納してもよい。また、検出するプレート画像は、映像中に存在するどのプレート画像でもよいが、複数のプレート画像が検出された場合は、ナンバープレート検出部1401において、所定サイズのプレート画像(カメラからの距離に対応する)を選択する。あるいは、他のマッチングにより検索車両候補となった車両のプレート画像を選択してもよい。あるいは、複数のプレート画像についてプレート画像劣化量推定部1402に出力し、プレート画像劣化量推定部1402において複数のプレート画像の平均劣化量を算出したり、劣化量の推定に適したプレート画像を選択したりしてもよい。
 本実施形態によれば、映像中の車両のプレート画像に基づいて画像劣化を推定し、特に、画像劣化に影響され易い車両の車体の特徴量のマッチングを制御することによって、映像中の劣化した画像から抽出した特徴量に基づく車両の検索精度の低下を抑制することができる。
 [第4実施形態]
 次に、本発明の第4実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態と比べると、映像劣化の度合い推定を顔画像でなく、固定カメラにおいては映像中の特定領域にある既知の標識画像を使用する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《映像処理装置の処理概要》
 図15は、本実施形態に係る映像処理装置1500の処理概要を示す図である。なお、図15において、図2と同様の要素には同じ参照番号を付して、説明を省略する。
 映像処理装置1500は、種々の映像1511~151nの映像データから特徴ある人物を検索する。例えば、映像1540からドクロ模様の服を着た人物241を特定して、人物241が映った映像を選別する。この人物検索において、人物が着る服の色や模様などの特徴を特徴量として抽出して、あらかじめ格納された服の色や模様などの特徴量220と服特徴量マッチング部230においてマッチングして人物を特定する。
 この時に、映像1511~151nは、カメラの状態(例えば、ぶれや焦点ずれなど)
によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。図15において、映像1511は画像劣化のない映像、映像1512は霧による画像劣化がある映像、映像151nはぶれや焦点ずれによる画像劣化がある映像である。かかる画像劣化の映像から、人物の服の模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により人物検索の信頼性が低下することになる。例えば、ストライプや水玉あるいは格子模様の服であれば、画像劣化により線や水玉が明確に分離して認識されなくなる。一方、もともとぼやけた模様の服を着ている人物を検索対象と認識してしまうこともあり得る。
 本実施形態においては、服の模様を1つの特徴量として、人物検索の特徴量マッチングを行なう場合に、服の模様の特徴量マッチングの精度が低下しやすい画像劣化の度合いを、映像内の特定位置に撮像された標識画像の比較から推定して推定劣化量を生成する。そして、特徴量マッチングにおいて、推定劣化量に対応してマッチングの信頼度を生成して通知する。あるいは、推定劣化量が所定閾値を超えて信頼度が著しく低下した場合には、例えば、服の模様の特徴量マッチングは行なわずに、特徴量マッチングの信頼度が低下しない、例えば、服の色の特徴量マッチングの結果を採用する。なお、中間の状態では、それぞれの特徴量マッチングに重み付けをしてマッチング結果を生成する。
 このように処理することにより、映像内の特定位置に撮像された標識画像から画像劣化を推定して、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても人物検索の精度を維持する。
 《服マッチング部の機能構成》
 図16Aは、本実施形態に係る映像処理装置1500の服マッチング部1600の機能構成を示すブロック図である。なお、図16Aにおいて、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部1600は、標識抽出部1601と、標識画像劣化量推定部1602と、服特徴量抽出部503と、服特徴量DB504と、服特徴量マッチング部230と、を備える。標識抽出部1601は、映像から特定領域に撮像された標識を抽出する。標識画像劣化量推定部1602は、標識抽出部1601が抽出した標識画像から画像劣化量を推定する。なお、標識抽出部1601と標識画像劣化量推定部1602とにより、本実施形態の画像劣化推定部を構成する。
 (標識抽出部)
 図16Bは、本実施形態に係る服マッチング部1600の標識抽出部1601の機能構成を示すブロック図である。
 標識抽出部1601は、標識画像抽出部1611と、映像フレーム・テンプレート1612とを備える。標識画像抽出部1611は、映像フレーム・テンプレート1612に記憶された映像内の特定位置の特定領域から標識画像を抽出する。映像フレーム・テンプレート1612は、標識の映像中の特定位置の特定領域を記憶している。なお、本実施形態において、カメラは固定であり、カメラ位置や撮像方向、あるいは標識位置が変更された場合は、映像フレーム・テンプレート1612を変更して、常に標識を抽出できるようにする。
 (標識画像劣化量推定テーブル)
 図16Cは、本実施形態に係る標識画像劣化量推定部1602が使用する標識画像劣化量推定テーブル1602aの構成を示す図である。標識画像劣化量推定テーブル1602aは、常態で撮像された標準標識画像と映像から検出した標識画像との相違から、その劣化要因などに対応して画像劣化量を推定するため、標識画像劣化量推定部1602が使用するテーブルである。
 標識画像劣化量推定テーブル1602aは、標識ID1621に対応付けて、標識位置1622と、抽出した標識画像1623と、輪郭やエッジなどの抽出データ1624と、参照する標準標識画像1625と、を記憶する。そして、標識画像劣化量推定テーブル1602aは、抽出した標識画像1623と参照する標準標識画像1625との比較結果から生成された画像劣化量1626を記憶する。
 本実施形態によれば、映像中の標識画像に基づいて画像劣化を推定し、特に、画像劣化に影響され易い特徴量のマッチングを制御することによって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制することができる。
 [第5実施形態]
 次に、本発明の第5実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第4実施形態と比べると、映像中の特定領域として表面がフラットな画像を抽出して画素のばらつきから画像劣化を推定する点で異なる。その他の構成および動作は、第4実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《映像処理装置の処理概要》
 図17は、本実施形態に係る映像処理装置1700の処理概要を示す図である。なお、図17において、図2と同様の要素には同じ参照番号を付して、説明を省略する。
 映像処理装置1700は、種々の映像1711~171nの映像データから特徴ある人物を検索する。例えば、映像1740からドクロ模様の服を着た人物241を特定して、人物241が映った映像を選別する。この人物検索において、人物が着る服の色や模様などの特徴を特徴量として抽出して、あらかじめ格納された服の色や模様などの特徴量220と服特徴量マッチング部230においてマッチングして人物を特定する。
 この時に、映像1711~171nは、カメラの状態(例えば、ぶれや焦点ずれなど)
によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。図17において、映像1711は画像劣化のない映像、映像1712は霧による画像劣化がある映像、映像171nはぶれや焦点ずれによる画像劣化がある映像である。かかる画像劣化の映像から、人物の服の模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により人物検索の信頼性が低下することになる。例えば、ストライプや水玉あるいは格子模様の服であれば、画像劣化により線や水玉が明確に分離して認識されなくなる。一方、もともとぼやけた模様の服を着ている人物を検索対象と認識してしまうこともあり得る。
 本実施形態においては、人物検索の特徴量マッチングを行なう場合に、服の模様の特徴量マッチングの精度が低下しやすい画像劣化の度合いを、映像内の特定位置に撮像されたフラット画像の撮像環境による画素ばらつきなどから推定する。なお、フラット画像としては、表面がフラットな標識や看板、あるいは、建物の一部などの経時変化の無い映像内の物が選択される。図17においては、路側にある大型看板の周囲のフラット面が選択されている。そして、特徴量マッチングにおいて、推定劣化量に対応してマッチングの信頼度を生成して通知する。あるいは、推定劣化量が所定閾値を超えて信頼度が著しく低下した場合には、例えば、服の模様の特徴量マッチングは行なわずに、特徴量マッチングの信頼度が低下しない、例えば、服の色の特徴量マッチングの結果を採用する。なお、中間の状態では、それぞれの特徴量マッチングに重み付けをしてマッチング結果を生成する。
 このように処理することにより、映像内の特定位置に撮像された標識画像から画像劣化を推定して、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても人物検索の精度を維持する。
 《服マッチング部の機能構成》
 図18Aは、本実施形態に係る映像処理装置1700の服マッチング部1800の機能構成を示すブロック図である。なお、図16Aにおいて、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部1800は、フラット領域抽出部1801と、フラット画像劣化量推定部1802と、服特徴量抽出部503と、服特徴量DB504と、服特徴量マッチング部230と、を備える。フラット領域抽出部1801は、映像から特定領域に撮像されたフラット領域を抽出する。フラット画像劣化量推定部1802は、フラット領域抽出部1801が抽出したフラット画像の撮像環境による画素ばらつきなどから画像劣化量を推定する。なお、フラット領域抽出部1801とフラット画像劣化量推定部1802とにより、本実施形態の画像劣化推定部を構成する。
 (フラット画像劣化量推定テーブル)
 図18Bは、本実施形態に係るフラット画像劣化量推定部1802が使用するフラット画像劣化量推定テーブル1802aの構成を示す図である。フラット画像劣化量推定テーブル1802aは、常態で撮像されたフラット画像と映像から検出したフラット画像との相違から、その劣化要因などに対応して画像劣化量を推定するため、フラット画像劣化量推定部1802が使用するテーブルである。
 フラット画像劣化量推定テーブル1802aは、フラット領域ID1821に対応付けて、フラット領域位置1822と、抽出したフラット画像1823と、画素ばらつきなどの抽出データ1824と、参照するフラット画像1825と、を記憶する。そして、フラット画像劣化量推定テーブル1802aは、抽出したフラット画像1823と参照するフラット画像1825との比較結果から生成された画像劣化量1826を記憶する。
 本実施形態によれば、映像中のフラット画像の画素ばらつきなどに基づいて画像劣化を推定し、特に、画像劣化に影響され易い特徴量のマッチングを制御する。かかる制御によって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制することができる。
 [第6実施形態]
 次に、本発明の第6実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態乃至第5実施形態と比べると、複数の領域の画像に基づいて生成した推定画像劣化の度合いからオブジェクトの特徴に基づいて選択して、特徴量のマッチングの制御に使用する点で異なる。その他の構成および動作は、第2実施形態乃至第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《映像処理装置の処理概要》
 図19は、本実施形態に係る映像処理装置1900の処理概要を示す図である。なお、図19には、画像劣化量の生成までを示すが、画像劣化量を使用して映像からオブジェクトを検索する処理は図2と同様であり、図示および説明を省略する。
 映像処理装置1900は、種々の映像1911~191nの映像データから特徴ある人物を検索する。この時に、映像1911~191nは、カメラの状態(例えば、ぶれや焦点ずれなど)によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。図19において、映像1911は霧による画像劣化がある映像、映像1912は雨滴による画像劣化がある映像、映像1913は逆光による画像劣化がある映像、映像1914は夜街燈による画像劣化がある映像、映像21nはぶれや焦点ずれによる画像劣化がある映像である。なお、画像劣化の要因は上記例に限定されない。例えば、朝日などの照り返しやスモッグなども含む。かかる画像劣化の映像から、人物の服の模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により人物検索の信頼性が低下することになる。例えば、ストライプや水玉あるいは格子模様の服であれば、画像劣化により線や水玉が明確に分離して認識されなくなる。一方、もともとぼやけた模様の服を着ている人物を検索対象と認識してしまうこともあり得る。
 本実施形態においては、推定劣化量選択部1902が、既知画像との比較で画像劣化を推定できる複数の画像領域から得られた複数の画像劣化量から、マッチングする特徴量に影響を与える画像劣化量を選択する。あるいは、複数の画像劣化量を組み合わせて、服特徴量マッチングに使用する画像劣化量を生成する。そして、特徴量マッチングにおいて、推定劣化量に対応してマッチングの信頼度を生成して通知する。あるいは、推定劣化量が所定閾値を超えて信頼度が著しく低下した場合には、例えば、服の模様の特徴量マッチングは行なわずに、特徴量マッチングの信頼度が低下しない、例えば、服の色の特徴量マッチングの結果を採用する。なお、中間の状態では、それぞれの特徴量マッチングに重み付けをしてマッチング結果を生成する。
 複数の画像劣化量を組み合わせて服特徴量マッチングに使用する画像劣化量を算出する方式はいろいろとあるが、例えば、最も画像劣化量が大きいものを選択する方式や、モデル化して算出する方式などがある。モデル化は、経験的な値からヒューリスティックに定めてもよいし、複数の画像を用いて学習させることにより、定めてもよい。
 このように処理することにより、複数の画像劣化量からマッチングする特徴量に対応した画像劣化量を生成して、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても人物検索の精度を維持する。
 《服マッチング部の機能構成》
 図20Aは、本実施形態に係る映像処理装置1900の服マッチング部2000の機能構成を示すブロック図である。なお、図20Aにおいて、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部2000は、画像劣化推定部を構成する、顔画像による画像劣化推定部2001と、標識画像による画像劣化推定部2002と、フラット画像による画像劣化推定部2003と、推定劣化量選択部1902と、を備える。なお、各画像劣化推定部2001、2002および2003は、図5A、図16Aおよび図18Aの画像劣化推定部に相当する。推定劣化量選択部1902は、複数の画像劣化推定部2001~2003から使用する画像劣化量を選択する。
 (推定劣化量選択テーブル)
 図20Bは、本実施形態に係る推定劣化量選択部1902が使用する推定劣化量選択テーブル1902aの構成を示す図である。推定劣化量選択テーブル1902aは、複数領域の画像に基づいて画像劣化量を推定するため、推定劣化量選択部1902が使用するテーブルである。
 推定劣化量選択テーブル1902aは、劣化量を推定する画像2011に対応付けて、推定された推定劣化量2012と、特徴量マッチングへの寄与度を決める重み付け2013と、選択する場合の優先順位2014と、を記憶する。そして、推定劣化量選択テーブル1902aは、推定劣化量選択部1902が生成した画像劣化量2015を記憶する。
 本実施形態によれば、映像中の複数領域の画像に基づいて、検索対象となるオブジェクトの特徴に対応して適切な画像劣化を推定し、特に、画像劣化に影響され易い特徴量のマッチングを制御する。この制御によって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制することができる。
 [第7実施形態]
 次に、本実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態乃至第6実施形態と比べると、複数の画像劣化要因に基づいて生成した推定画像劣化の度合いから適切な劣化要因に基づいて選択して、特徴量のマッチングの制御に使用する点で異なる。その他の構成および動作は、第2実施形態乃至第5実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《服マッチング部の機能構成》
 図21Aは、本実施形態に係る映像処理装置の服マッチング部2100の機能構成を示すブロック図である。なお、図21Aにおいて、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部2100は、画像劣化推定部を構成する、映像から霧が出ていることを検出する霧検出部2111と、映像から雨滴があることを検出する雨滴検出部2112と、標識抽出部1601と、画像劣化量推定部2102と、を備える。画像劣化量推定部2102は、霧検出部2111と、雨滴検出部2112と、標識抽出部1601とからの情報に基づいて、マッチングする特徴量に影響する画像劣化量を推定する。
 ここで、霧検出部2111は、例えば、画面全体が霧によって全体的に見えにくくなる傾向を学習した検出器を用いて霧を検出する。例えば、霧の状態とそうでない状態の両方の学習用画像を準備し、ニューラルネットワークを学習させ、学習させたニューラルネットワークを用いて霧を検出することができる。この際、現場の画像を事前に取得可能な場合には、学習画像に現場の画像を含めることで、より正確な霧検出が可能となる。同様に、雨滴についても、降雨状態の画像とそうでない画像とを入力し、学習させることで、検出器を構築可能である。カメラのレンズに雨滴が付着する場合も、同様に検出可能である。なお、ここで示した霧や雨滴の検出方法はあくまでも一例であり、これ以外の方法を用いてもよい。さらに、単に霧や雨滴を検出するだけでなく、その程度(霧の濃さや雨滴の量など)も同時に検出可能になっていてもよい。これは、霧や雨滴の程度ごとに映像を取得し、学習させることにより実現できる。
 (画像劣化量推定テーブル)
 図21Bは、本実施形態に係る画像劣化量推定部2102が使用する画像劣化量推定テーブル2102aの構成を示す図である。画像劣化量推定テーブル2102aは、複数の劣化要因の画像に基づいて画像劣化量を推定するため、画像劣化量推定部2102が使用するテーブルである。
 画像劣化量推定テーブル2102aは、画像劣化の原因となる劣化要因2121に対応付けて、特徴量マッチングへの寄与度を決める重み付け2122と、選択する場合の優先順位2123と、を記憶する。そして、画像劣化量推定テーブル2102aは、画像劣化量推定部2102が生成した画像劣化量2124を記憶する。
 本実施形態によれば、映像中からの複数の劣化要因に基づいて推定した画像劣化の度合いから、劣化要因に対応してあるいは組み合わせて適切な画像劣化を推定し、特に、画像劣化に影響され易い特徴量のマッチングを制御する。この制御によって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制することができる。
 [第8実施形態]
 次に、本発明の第8実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態乃至第7実施形態と比べると、オブジェクトを検索するための特徴量の基となる対象画像の種類に対応して、画像劣化を推定する点で異なる。本実施形態においては、映像中から人物を検索する場合に、服の模様の種類に対応して異なる度合いの画像劣化を推定する例を説明する。その他の構成および動作は、第2実施形態乃至第7実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《映像処理装置の処理概要》
 図22は、本実施形態に係る映像処理装置2200の処理概要を示す図である。なお、図22には、画像劣化量の生成までを示すが、画像劣化量を使用して映像からオブジェクトを検索する処理は図2と同様であり、図示および説明を省略する。また、図19と同様の要素には同じ参照番号を付して、説明を省略する。
 映像処理装置2200は、種々の映像1911~191nの映像データから特徴ある人物を検索する。この時に、映像1911~191nは、カメラの状態(例えば、ぶれや焦点ずれなど)によって画像劣化が発生したり、天候などの撮像環境(例えば、霧や雨滴、あるいは逆光など)によって画像劣化が発生したりする。かかる画像劣化の映像から、人物の服の模様を特徴量としてマッチングを行なうと、特徴量の精度劣化により人物検索の信頼性が低下することになる。例えば、ストライプや水玉あるいは格子模様の服であれば、画像劣化により線や水玉が明確に分離して認識されなくなる。一方、もともとぼやけた模様の服を着ている人物を検索対象と認識してしまうこともあり得る。
 本実施形態においては、推定劣化量算出部2202が、既知画像との比較で画像劣化を推定できる複数の画像領域から得られた複数の画像劣化量から、マッチングする特徴として本例では模様種類により特徴量に影響を与える画像劣化量を選択する。あるいは、複数の画像劣化量を組み合わせて、服特徴量マッチングに使用する画像劣化量を算出する。
 このように処理することにより、マッチングする特徴に対応した画像劣化量を算出して、画像劣化の発生による特徴量マッチングの精度低下を防ぎ、画像劣化においても人物検索の精度を維持する。
 《服マッチング部の機能構成》
 図23は、本実施形態に係る映像処理装置2200の服マッチング部2300の機能構成を示すブロック図である。なお、図23において、図5Aおよび図20Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部2300は、画像劣化推定部を構成する、顔画像による画像劣化推定部2001と、標識画像による画像劣化推定部2002と、フラット画像による画像劣化推定部2003と、推定劣化量算出部2202と、を備える。推定劣化量算出部2202は、複数の画像劣化推定部2001~2003から特徴量マッチングする模様種類に基づいて推定劣化量を算出する。
 (推定劣化量算出テーブル)
 図24は、本実施形態に係る推定劣化量算出部2202が使用する推定劣化量算出テーブル2202aの構成を示す図である。推定劣化量算出テーブル2202aは、特徴量マッチングする模様種類に基づいて推定劣化量を算出するため、推定劣化量算出部2202が使用するテーブルである。
 推定劣化量算出テーブル2202aは、特徴量マッチングする模様種類2401に対応付けて、複数の劣化量推定画像2402を記憶する。そして、推定劣化量算出テーブル2202aは、劣化量推定画像2402に対応して、劣化量推定画像2402から推定された推定劣化量2403と、推定劣化量2403から模様種類に対応して算出された算出劣化量2404と、を記憶する。さらに、推定劣化量算出テーブル2202aは、特徴量マッチングの重み付け2405を記憶する。
 ここで、算出劣化量は、推定劣化量を模様の種類に応じて補正した劣化量である。例えば、もともと無地に近い模様であれば、劣化の影響を受けにくいが、細かいエッジが多く出現するストライプのような模様の場合には、劣化の度合いが大きくなるにつれ、急激にマッチングの精度が落ちる。このため、無地に近い模様に対しては、算出劣化量が小さくなるように設定し、ストライプのような模様に対しては算出劣化量が大きくなるように設定する。この度合いは、学習によって算出してもよいし、経験等に基づいて、ヒューリスティックに定めてもよい。なお、ここでは、直接、劣化量推定画像を記憶している場合について述べたが、推定劣化量から算出劣化量を求める変換モデルのみを記憶するようにしてもよい。具体的には、劣化推定量の各値に対して対応する算出劣化量を記憶するようにしておけばよい。あるいは、劣化推定量と算出推定量の関係を近似する回帰モデルを求め、このモデルを記述するパラメータを格納しておき、劣化推定量から算出推定量を算出するようにしてもよい。
 本実施形態によれば、オブジェクトを検索するための特徴量の基となる対象画像の種類に対応して適切な画像劣化を推定し、特に、画像劣化に影響され易い特徴量のマッチングを制御する。この制御によって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制することができる。
 [第9実施形態]
 次に、本実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態乃至第8実施形態と比べると、マッチングのための特徴量を格納する特徴量データベースに、画像劣化の推定、特徴量の抽出、特徴量のマッチング結果をフィードバックすることにより、以後の処理のために学習する点で異なる。その他の構成および動作は、第2実施形態乃至第8実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《服マッチング部の機能構成》
 図25Aは、本実施形態に係る映像処理装置の服マッチング部2500の機能構成を示すブロック図である。なお、図25Aにおいて、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部2500の服特徴量DB2504は、服特徴量抽出部503が抽出した特徴量とマッチングするための、検索用の服の特徴量を格納する。さらに、服特徴量DB2504は、フィードバックされた、画像劣化推定部からの画像劣化量と、服特徴量抽出部503が抽出した服特徴量と、検索人物マッチング部405の人物マッチング結果とを対応付けて、格納する。そして、以降の人物検索のための特徴量マッチングに、画像劣化をより反映させて、かつ、より精度の高い人物検索をするために使用される。
 具体的には、画像劣化量と信頼度の関係を学習し、画像劣化量から信頼度を算出するモデルのパラメータを更新する。例えば、画像劣化がぶれの場合には、フィードバックした結果から、同一人物の服の特徴量が、ぶれていない場合に比べてぶれた場合にどの程度変化したかを求め、画像劣化量として求まるぶれの量と特徴量の変化の度合いを対応づける。これを複数のサンプルに対して行うことで、画像劣化量と信頼度の関係を求め、逐次更新していく。ここで、異なるフレーム間で同一人物の特徴量を対応づけるには、対象人物を追跡する必要があるが、この追跡処理には、既存の様々な方式を利用可能である。あるいは、オペレータが明示的に同一人物か否かを入力し、対応づけるようにしてもよい。同様に、霧や雨滴の場合も、その程度が異なるフレーム間で同一人物の特徴量同士を比較することによって、画像劣化量と信頼度の関係をフィードバックした結果から算出できる。
 (服特徴量DB)
 図25Bは、本実施形態に係る服マッチング部2500の服特徴量DB2504の構成を示す図である。なお、図25Bにおいて、図5Bと同様の要素には同じ参照番号を付して、説明を省略する。
 服特徴量DB2504は、図5Bの特徴量テーブル510と画像劣化テーブル520とに加えて、フィードバックされたマッチング情報2530が格納される。マッチング情報2530は、検索対象の服ID2531に対応付けて、抽出特徴量2532と、推定した画像劣化量と、服マッチング結果2534と、人物マッチング結果2535と、を格納する。
 本実施形態によれば、画像劣化の推定、特徴量の抽出、特徴量のマッチング結果を特徴量データベースにフィードバックして、以後の処理のために利用する。この学習によって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を、さらに抑制することができる。
 [第10実施形態]
 次に、本発明の第3実施形態に係る映像処理装置について説明する。本実施形態に係る映像処理装置は、上記第2実施形態乃至第9実施形態と比べると、特徴量データベースの特徴量とのマッチングに加えて、映像中の異なる画像の画像劣化の度合いおよび抽出した特徴量をマッチングする点で異なる。その他の構成および動作は、第2実施形態乃至第9実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。なお、本実施形態においては、人物検索を例に説明するが、車両検索など他のオブジェクト検索にも適用され、同様の効果を奏する。
 《服マッチング部の機能構成》
 図26は、本実施形態に係る映像処理装置の服マッチング部2600の機能構成を示すブロック図である。図26において、図5Aと同様の機能構成部には同じ参照番号を付して、説明を省略する。
 服マッチング部2600は、複数組みの、顔検出部501と、顔画像劣化量推定部502と、服特徴量抽出部503と、を備える。あるいは、同じ顔検出部501と、顔画像劣化量推定部502と、服特徴量抽出部503と、を繰り返して使用してもよい。服特徴量マッチング部2630は、この複数組みの、画像劣化推定部からの画像劣化量と、服特徴量抽出部503からの服特徴量とをマッチングさせて、マッチング結果を生成する。
 (服特徴量マッチング部)
 図27Aは、本実施形態に係る服マッチング部2600の服特徴量マッチング部2630の機能構成を示す図である。なお、図27Aにおいては、比較する一方を画像劣化量Aおよび服特徴量A、他方を画像劣化量Bおよび服特徴量B、とする。
 服特徴量マッチング部2630は、画像劣化量Aと画像劣化量Bとを比較する劣化量比較部2701と、服特徴量Aと服特徴量Bとを比較する特徴量比較部2702と、を備える。そして、服特徴量マッチング部2630は、画像劣化量の比較結果と服特徴量との比較結果から、服のマッチング結果を算出するマッチング結果算出部2703を備える。
 (服特徴量マッチングテーブル)
 図27Bは、本実施形態に係る服特徴量マッチング部2630が使用する服特徴量マッチングテーブル2630aの構成を示す図である。服特徴量マッチングテーブル2630aは、複数の画像劣化量および服特徴量から服マッチング結果を生成するために服特徴量マッチング部2630により使用されるテーブルである。ここでは、便宜上、テーブル形式で記述した例を示すが、マッチング結果の格納は、図4Cと同様に、必ずしもテーブル形式でなくてもよい。
 服特徴量マッチングテーブル2630aは、検索対象の服ID2711に対応付けて、画像劣化量A2712と、画像劣化量B2713と、劣化量比較結果2714と、を記憶する。また、服特徴量マッチングテーブル2630aは、検索対象の服ID2711に対応付けて、服特徴量A2715と、服特徴量B2716と、服特徴量比較結果2717と、を記憶する。そして、服特徴量マッチングテーブル2630aは、劣化量比較結果2714と、を記憶する。また、服特徴量マッチングテーブル2630aは、劣化量比較結果2714と服特徴量比較結果2717とにから服マッチング結果を生成するマッチングアルゴリズム2718と、生成された服マッチング結果1719と、を記憶する。
 本実施形態によれば、推定した画像劣化の度合いおよび抽出した特徴量の組み合わせでマッチングをする。したがって、映像中の劣化した画像から抽出した特徴量に基づく検索対象となるオブジェクトの検索精度の低下を抑制しながら、同じ環境中の画像から精度よくオブジェクトを検索できる。
 [他の実施形態]
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する映像処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
 [実施形態の他の表現]
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定手段と、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出手段と、
 前記検索対象となるオブジェクトの特徴量を格納する特徴量データベースと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定手段が推定した画像劣化の度合いに基づいて制御するマッチング手段と、
 を備える映像処理装置。
(付記2)
 前記オブジェクトの特徴量は、前記オブジェクトが有する模様の特徴量である付記1に記載の映像処理装置。
(付記3)
 前記画像劣化推定手段は、前記オブジェクトが有する模様の種類に対応して、異なる度合いの画像劣化を推定する付記2に記載の映像処理装置。
(付記4)
 前記オブジェクトの特徴量は、前記オブジェクトが有する色の特徴量をさらに含み、
 前記マッチング手段は、前記画像劣化により前記模様の特徴量によるマッチングの信頼度が低下する場合に、前記色の特徴量によるマッチングを行なうように制御する付記2または3に記載の映像処理装置。
(付記5)
 前記画像領域は、前記検索対象となるオブジェクトの一部である付記1乃至4のいずれか1項に記載の映像処理装置。
(付記6)
 前記検索対象となるオブジェクトは人物であり、
 前記画像劣化推定手段は、人物画像の一部である顔画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記人物の服または携帯物の特徴量である、付記5に記載の映像処理装置。
(付記7)
 前記検索対象となるオブジェクトは車両であり、
 前記画像劣化推定手段は、車両画像の一部であるナンバープレート画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記車両の車体または取付物ないし積載物の特徴量である、付記5に記載の映像処理装置。
(付記8)
 前記画像領域は、前記映像中の特定領域である付記1乃至7のいずれか1項に記載の映像処理装置。
(付記9)
 前記画像劣化推定手段は、既知の標識画像のエッジから画像劣化の度合いを推定する付記8に記載の映像処理装置。
(付記10)
 前記画像劣化推定手段は、既知のフラット画像の画素のばらつきから画像劣化の度合いを推定する付記8に記載の映像処理装置。
(付記11)
 前記画像劣化推定手段は、前記映像中から画像劣化の要因を認識して、前記要因に基づいて画像劣化の度合いを推定する付記1乃至10のいずれか1項に記載の映像処理装置。
(付記12)
 少なくとも、前記画像劣化の度合いと、前記抽出した特徴量と、前記マッチングの結果との組み合わせを前記特徴量データベースにフィードバックする付記1乃至11のいずれか1項に記載の映像処理装置。
(付記13)
 前記マッチング手段は、前記画像劣化の度合いと前記抽出した特徴量との、少なくとも2つの組み合わせをマッチングする付記1乃至12のいずれか1項に記載の映像処理装置。
(付記14)
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
 前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
 を含む映像処理方法。
(付記15)
 前記オブジェクトの特徴量は、前記オブジェクトが有する模様の特徴量である付記14に記載の映像処理方法。
(付記16)
 前記画像劣化推定ステップにおいては、前記オブジェクトが有する模様の種類に対応して、異なる度合いの画像劣化を推定する付記15に記載の映像処理方法。
(付記17)
 前記オブジェクトの特徴量は、前記オブジェクトが有する色の特徴量をさらに含み、
 前記マッチングステップにおいては、前記画像劣化により前記模様の特徴量によるマッチングの信頼度が低下する場合に、前記色の特徴量によるマッチングを行なうように制御する付記15または16に記載の映像処理方法。
(付記18)
 前記画像領域は、前記検索対象となるオブジェクトの一部である付記14乃至17のいずれか1項に記載の映像処理方法。
(付記19)
 前記検索対象となるオブジェクトは人物であり、
 前記画像劣化推定ステップにおいては、人物画像の一部である顔画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記人物の服または携帯物の特徴量である、付記18に記載の映像処理方法。
(付記20)
 前記検索対象となるオブジェクトは車両であり、
 前記画像劣化推定手段においては、車両画像の一部であるナンバープレート画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記車両の車体または取付物ないし積載物の特徴量である、付記18に記載の映像処理方法。
(付記21)
 前記画像領域は、前記映像中の特定領域である付記14乃至20のいずれか1項に記載の映像処理方法。
(付記22)
 前記画像劣化推定ステップにおいては、既知の標識画像のエッジから画像劣化の度合いを推定する付記21に記載の映像処理方法。
(付記23)
 前記画像劣化推定ステップにおいては、既知のフラット画像の画素のばらつきから画像劣化の度合いを推定する付記21に記載の映像処理方法。
(付記24)
 前記画像劣化推定ステップにおいては、前記映像中から画像劣化の要因を認識して、前記要因に基づいて画像劣化の度合いを推定する付記14乃至23のいずれか1項に記載の映像処理方法。
(付記25)
 少なくとも、前記画像劣化の度合いと、前記抽出した特徴量と、前記マッチングの結果との組み合わせを前記特徴量データベースにフィードバックする付記14乃至24のいずれか1項に記載の映像処理方法。
(付記26)
 前記マッチングステップにおいては、前記画像劣化の度合いと前記抽出した特徴量との、少なくとも2つの組み合わせをマッチングする付記14乃至25のいずれか1項に記載の映像処理方法。
(付記27)
 映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
 前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
 前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
 前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
 をコンピュータに実行させる映像処理プログラム。
(付記28)
 前記オブジェクトの特徴量は、前記オブジェクトが有する模様の特徴量である付記27に記載の映像処理プログラム。
(付記29)
 前記画像劣化推定ステップにおいては、前記オブジェクトが有する模様の種類に対応して、異なる度合いの画像劣化を推定する付記28に記載の映像処理プログラム。
(付記30)
 前記オブジェクトの特徴量は、前記オブジェクトが有する色の特徴量をさらに含み、
 前記マッチングステップにおいては、前記画像劣化により前記模様の特徴量によるマッチングの信頼度が低下する場合に、前記色の特徴量によるマッチングを行なうように制御する付記28または29に記載の映像処理プログラム。
(付記31)
 前記画像領域は、前記検索対象となるオブジェクトの一部である付記27乃至30のいずれか1項に記載の映像処理プログラム。
(付記32)
 前記検索対象となるオブジェクトは人物であり、
 前記画像劣化推定ステップにおいては、人物画像の一部である顔画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記人物の服または携帯物の特徴量である、付記31に記載の映像処理プログラム。
(付記33)
 前記検索対象となるオブジェクトは車両であり、
 前記画像劣化推定手段においては、車両画像の一部であるナンバープレート画像の輪郭またはエッジから画像劣化の度合いを推定し、
 前記特徴量は、前記車両の車体または取付物ないし積載物の特徴量である、付記31に記載の映像処理プログラム。
(付記34)
 前記画像領域は、前記映像中の特定領域である付記27乃至33のいずれか1項に記載の映像処理プログラム。
(付記35)
 前記画像劣化推定ステップにおいては、既知の標識画像のエッジから画像劣化の度合いを推定する付記34に記載の映像処理プログラム。
(付記36)
 前記画像劣化推定ステップにおいては、既知のフラット画像の画素のばらつきから画像劣化の度合いを推定する付記34に記載の映像処理プログラム。
(付記37)
 前記画像劣化推定ステップにおいては、前記映像中から画像劣化の要因を認識して、前記要因に基づいて画像劣化の度合いを推定する付記27乃至36のいずれか1項に記載の映像処理プログラム。
(付記38)
 少なくとも、前記画像劣化の度合いと、前記抽出した特徴量と、前記マッチングの結果との組み合わせを前記特徴量データベースにフィードバックする付記27乃至37のいずれか1項に記載の映像処理プログラム。
(付記39)
 前記マッチングステップにおいては、前記画像劣化の度合いと前記抽出した特徴量との、少なくとも2つの組み合わせをマッチングする付記27乃至38のいずれか1項に記載の映像処理プログラム。
 この出願は、2013年8月23日に出願された日本国特許出願 特願2013-173165号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (15)

  1.  映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定手段と、
     前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出手段と、
     前記検索対象となるオブジェクトの特徴量を格納する特徴量データベースと、
     前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定手段が推定した画像劣化の度合いに基づいて制御するマッチング手段と、
     を備える映像処理装置。
  2.  前記オブジェクトの特徴量は、前記オブジェクトが有する模様の特徴量である請求項1に記載の映像処理装置。
  3.  前記画像劣化推定手段は、前記オブジェクトが有する模様の種類に対応して、異なる度合いの画像劣化を推定する請求項2に記載の映像処理装置。
  4.  前記オブジェクトの特徴量は、前記オブジェクトが有する色の特徴量をさらに含み、
     前記マッチング手段は、前記画像劣化により前記模様の特徴量によるマッチングの信頼度が低下する場合に、前記色の特徴量によるマッチングを行なうように制御する請求項2または3に記載の映像処理装置。
  5.  前記画像領域は、前記検索対象となるオブジェクトの一部である請求項1乃至4のいずれか1項に記載の映像処理装置。
  6.  前記検索対象となるオブジェクトは人物であり、
     前記画像劣化推定手段は、人物画像の一部である顔画像の輪郭またはエッジから画像劣化の度合いを推定し、
     前記特徴量は、前記人物の服または携帯物の特徴量である、請求項5に記載の映像処理装置。
  7.  前記検索対象となるオブジェクトは車両であり、
     前記画像劣化推定手段は、車両画像の一部であるナンバープレート画像の輪郭またはエッジから画像劣化の度合いを推定し、
     前記特徴量は、前記車両の車体または取付物ないし積載物の特徴量である、請求項5に記載の映像処理装置。
  8.  前記画像領域は、前記映像中の特定領域である請求項1乃至7のいずれか1項に記載の映像処理装置。
  9.  前記画像劣化推定手段は、既知の標識画像のエッジから画像劣化の度合いを推定する請求項8に記載の映像処理装置。
  10.  前記画像劣化推定手段は、既知のフラット画像の画素のばらつきから画像劣化の度合いを推定する請求項8に記載の映像処理装置。
  11.  前記画像劣化推定手段は、前記映像中から画像劣化の要因を認識して、前記要因に基づいて画像劣化の度合いを推定する請求項1乃至10のいずれか1項に記載の映像処理装置。
  12.  少なくとも、前記画像劣化の度合いと、前記抽出した特徴量と、前記マッチングの結果との組み合わせを前記特徴量データベースにフィードバックする請求項1乃至11のいずれか1項に記載の映像処理装置。
  13.  前記マッチング手段は、前記画像劣化の度合いと前記抽出した特徴量との、少なくとも2つの組み合わせをマッチングする請求項1乃至12のいずれか1項に記載の映像処理装置。
  14.  映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
     前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
     前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
     前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
     を含む映像処理方法。
  15.  映像中から画像劣化の指標となる画像領域の画像を抽出して、前記画像領域の画像の画像劣化の度合いを推定する画像劣化推定ステップと、
     前記映像中から検索対象となるオブジェクトの特徴量を抽出する特徴量抽出ステップと、
     前記検索対象となるオブジェクトの特徴量を特徴量データベースに格納する格納ステップと、
     前記オブジェクトを前記映像中から検索する際に、前記抽出された特徴量と前記格納された特徴量とのマッチングを、前記画像劣化推定ステップにおいて推定した画像劣化の度合いに基づいて制御するマッチングステップと、
     をコンピュータに実行させる映像処理プログラム。
PCT/JP2014/070547 2013-08-23 2014-08-05 映像処理装置、映像処理方法および映像処理プログラム WO2015025704A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/913,469 US10037466B2 (en) 2013-08-23 2014-08-05 Video processing apparatus, video processing method, and video processing program
JP2015532795A JP6398979B2 (ja) 2013-08-23 2014-08-05 映像処理装置、映像処理方法および映像処理プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013173165 2013-08-23
JP2013-173165 2013-08-23

Publications (1)

Publication Number Publication Date
WO2015025704A1 true WO2015025704A1 (ja) 2015-02-26

Family

ID=52483484

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/070547 WO2015025704A1 (ja) 2013-08-23 2014-08-05 映像処理装置、映像処理方法および映像処理プログラム

Country Status (3)

Country Link
US (1) US10037466B2 (ja)
JP (1) JP6398979B2 (ja)
WO (1) WO2015025704A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017056948A1 (ja) * 2015-09-28 2017-04-06 株式会社日立国際電気 画像処理システム
JP2017140981A (ja) * 2016-02-12 2017-08-17 株式会社デンソー 車両用装置
WO2018173848A1 (ja) * 2017-03-22 2018-09-27 日本電気株式会社 オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体
JP2019185752A (ja) * 2018-03-30 2019-10-24 株式会社日立製作所 画像抽出装置
JP2021089711A (ja) * 2019-12-18 2021-06-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 動画ブレの検出方法及び装置
WO2023053410A1 (ja) * 2021-09-30 2023-04-06 日本電気株式会社 情報処理システム、情報処理方法、及び情報処理装置
JP7509144B2 (ja) 2019-06-19 2024-07-02 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
JP7571893B2 (ja) 2021-09-30 2024-10-23 日本電気株式会社 情報処理システム、情報処理方法、及び情報処理装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6573354B2 (ja) * 2014-11-28 2019-09-11 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US9914222B2 (en) * 2015-02-05 2018-03-13 Canon Kabushiki Kaisha Information processing apparatus, control method thereof, and computer readable storage medium that calculate an accuracy of correspondence between a model feature and a measurement data feature and collate, based on the accuracy, a geometric model and an object in an image
CN106296638A (zh) * 2015-06-04 2017-01-04 欧姆龙株式会社 显著性信息取得装置以及显著性信息取得方法
US10121515B2 (en) * 2016-06-06 2018-11-06 Avigilon Corporation Method, system and computer program product for interactively identifying same individuals or objects present in video recordings
GB2573703B (en) * 2017-03-06 2020-09-09 Mitsubishi Electric Corp Object tracking device and object tracking method
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
US11068141B1 (en) * 2018-02-02 2021-07-20 Snap Inc. Device-based image modification of depicted objects
JP6573346B1 (ja) * 2018-09-20 2019-09-11 パナソニック株式会社 人物検索システムおよび人物検索方法
CN110119456A (zh) * 2019-05-14 2019-08-13 深圳市商汤科技有限公司 检索图像的方法及装置
CN111126153B (zh) * 2019-11-25 2023-07-21 北京锐安科技有限公司 基于深度学习的安全监测方法、系统、服务器及存储介质
US11868393B2 (en) * 2020-12-18 2024-01-09 Capital One Services, Llc Methods and systems for determining color labeling for a vehicle search service
CN114333005A (zh) * 2021-12-27 2022-04-12 深圳市商汤科技有限公司 对象识别方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008791A (ja) * 2010-06-24 2012-01-12 Hitachi Computer Peripherals Co Ltd 帳票認識装置及び帳票認識方法
JP2013065119A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 顔認証装置及び顔認証方法
WO2013088707A1 (ja) * 2011-12-16 2013-06-20 日本電気株式会社 辞書学習装置、パターン照合装置、辞書学習方法および記憶媒体

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5627915A (en) * 1995-01-31 1997-05-06 Princeton Video Image, Inc. Pattern recognition system employing unlike templates to detect objects having distinctive features in a video field
US6741655B1 (en) * 1997-05-05 2004-05-25 The Trustees Of Columbia University In The City Of New York Algorithms and system for object-oriented content-based video search
US20050162515A1 (en) * 2000-10-24 2005-07-28 Objectvideo, Inc. Video surveillance system
JP4482031B2 (ja) * 2005-07-11 2010-06-16 日本電信電話株式会社 映像整合装置、方法、およびプログラム
JP5358083B2 (ja) * 2007-11-01 2013-12-04 株式会社日立製作所 人物画像検索装置及び画像検索装置
JP4881278B2 (ja) * 2007-10-31 2012-02-22 株式会社東芝 物体認識装置及びその方法
WO2010044214A1 (ja) * 2008-10-14 2010-04-22 パナソニック株式会社 顔認識装置および顔認識方法
JP5305979B2 (ja) 2009-02-24 2013-10-02 株式会社東芝 監視システム及び監視方法
WO2011046128A1 (ja) 2009-10-16 2011-04-21 日本電気株式会社 人物服装特徴抽出装置、人物検索装置、及びその処理方法
US10424342B2 (en) * 2010-07-28 2019-09-24 International Business Machines Corporation Facilitating people search in video surveillance
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
KR101381439B1 (ko) 2011-09-15 2014-04-04 가부시끼가이샤 도시바 얼굴 인식 장치 및 얼굴 인식 방법
US9530079B2 (en) * 2012-11-09 2016-12-27 Nikon Corporation Point spread function classification using structural properties

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012008791A (ja) * 2010-06-24 2012-01-12 Hitachi Computer Peripherals Co Ltd 帳票認識装置及び帳票認識方法
JP2013065119A (ja) * 2011-09-15 2013-04-11 Toshiba Corp 顔認証装置及び顔認証方法
WO2013088707A1 (ja) * 2011-12-16 2013-06-20 日本電気株式会社 辞書学習装置、パターン照合装置、辞書学習方法および記憶媒体

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017056948A1 (ja) * 2015-09-28 2017-04-06 株式会社日立国際電気 画像処理システム
JP2017140981A (ja) * 2016-02-12 2017-08-17 株式会社デンソー 車両用装置
WO2018173848A1 (ja) * 2017-03-22 2018-09-27 日本電気株式会社 オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及び記憶媒体
JPWO2018173848A1 (ja) * 2017-03-22 2020-01-30 日本電気株式会社 オブジェクト追跡システム、インテリジェント撮像装置、オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びプログラム
JP7180590B2 (ja) 2017-03-22 2022-11-30 日本電気株式会社 オブジェクト特徴量抽出装置、オブジェクト特徴量抽出方法及びオブジェクト特徴量抽出プログラム
JP2019185752A (ja) * 2018-03-30 2019-10-24 株式会社日立製作所 画像抽出装置
JP7509144B2 (ja) 2019-06-19 2024-07-02 日本電気株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021089711A (ja) * 2019-12-18 2021-06-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. 動画ブレの検出方法及び装置
JP7079294B2 (ja) 2019-12-18 2022-06-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 動画ブレの検出方法及び装置
US11546577B2 (en) 2019-12-18 2023-01-03 Beijing Baidu Netcom Science Technology Co., Ltd. Video jitter detection method and apparatus
WO2023053410A1 (ja) * 2021-09-30 2023-04-06 日本電気株式会社 情報処理システム、情報処理方法、及び情報処理装置
JP7571893B2 (ja) 2021-09-30 2024-10-23 日本電気株式会社 情報処理システム、情報処理方法、及び情報処理装置

Also Published As

Publication number Publication date
US10037466B2 (en) 2018-07-31
US20160203367A1 (en) 2016-07-14
JPWO2015025704A1 (ja) 2017-03-02
JP6398979B2 (ja) 2018-10-03

Similar Documents

Publication Publication Date Title
JP6398979B2 (ja) 映像処理装置、映像処理方法および映像処理プログラム
CN110738101B (zh) 行为识别方法、装置及计算机可读存储介质
CN110419048B (zh) 用于标识所定义的对象的系统
Biswas et al. Classification of objects in video records using neural network framework
KR101612605B1 (ko) 얼굴 특징점 추출 방법 및 이를 수행하는 장치
CN111191667B (zh) 基于多尺度生成对抗网络的人群计数方法
KR20180080081A (ko) Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템
CN104008370A (zh) 一种视频人脸识别方法
JP2016062610A (ja) 特徴モデル生成方法及び特徴モデル生成装置
JP2014093023A (ja) 物体検出装置、物体検出方法及びプログラム
CN107529659B (zh) 安全带佩戴检测方法、装置及电子设备
JP6351243B2 (ja) 画像処理装置、画像処理方法
CN105868690A (zh) 识别驾驶员打手机行为的方法和装置
CN110490171B (zh) 一种危险姿态识别方法、装置、计算机设备及存储介质
WO2020195732A1 (ja) 画像処理装置、画像処理方法、およびプログラムが格納された記録媒体
TW201224955A (en) System and method for face detection using face region location and size predictions and computer program product thereof
JP6947005B2 (ja) 属性認識装置、属性認識方法、及び機械学習装置
JP2012221162A (ja) 対象物検出装置及びプログラム
CN107844742A (zh) 人脸图像眼镜去除方法、装置及存储介质
CN108108703A (zh) 减速带缺失检测方法、装置及电子设备
JP2019106193A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
CN114005149A (zh) 一种目标角度检测模型的训练方法及装置
Sulyman et al. REAL-TIME NUMERICAL 0-5 COUNTING BASED ON HAND-FINGER GESTURES RECOGNITION.
CN112541394A (zh) 黑眼圈及鼻炎识别方法、系统及计算机介质
JP2019106149A (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14837693

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015532795

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14913469

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14837693

Country of ref document: EP

Kind code of ref document: A1