WO2022254787A1 - 人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム - Google Patents

人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム Download PDF

Info

Publication number
WO2022254787A1
WO2022254787A1 PCT/JP2022/004351 JP2022004351W WO2022254787A1 WO 2022254787 A1 WO2022254787 A1 WO 2022254787A1 JP 2022004351 W JP2022004351 W JP 2022004351W WO 2022254787 A1 WO2022254787 A1 WO 2022254787A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
feature amount
image feature
whole
similarity
Prior art date
Application number
PCT/JP2022/004351
Other languages
English (en)
French (fr)
Inventor
整明 岸下
亮史 服部
祐貴 大西
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023525373A priority Critical patent/JPWO2022254787A1/ja
Priority to EP22815546.1A priority patent/EP4350616A1/en
Publication of WO2022254787A1 publication Critical patent/WO2022254787A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to a person search device that searches for images containing a specific person from among a plurality of images.
  • Patent Document 1 a technique for identifying a person included in an image, there is a technique for identifying a person using a feature amount of the person in the image.
  • a first feature amount related to the face of the person and a second feature amount related to the body of the person are extracted, and the extracted first It is described that a person is identified based on a third feature amount calculated by weighting the feature amount and the second feature amount, respectively.
  • An object of the present disclosure is to provide a person search device that searches for images containing a specific person with high accuracy from among images captured by a plurality of cameras.
  • a person search device of the present disclosure is a person search device that searches for an image containing a person to be searched from among a plurality of images captured by a plurality of cameras, and is a person search device in which a specific person in which a person to be searched is indicated. After acquiring the full-body image feature amount and face image feature amount of the person in the image, the full-body image feature amount, face image feature amount, camera identification information, shooting position, and shooting date and time are obtained for each image output from a plurality of cameras.
  • the shooting information including the a similarity calculating unit for calculating a second similarity indicating a similarity between the face image feature quantity of the specific person image and the face image feature quantity in the database; and determining whether the first similarity exceeds a first threshold.
  • the second similarity exceeds the second threshold from the database. a region and a time zone in which the person shown in the image of the specific person may have been photographed using the acquired photographing information; and a person search unit for generating specific person photographing information including the photographing date and time of the band.
  • FIG. 1 illustrates a person search system including a person search device according to the present disclosure
  • FIG. 1 is a diagram showing a configuration of a person search system including a person search device according to Embodiment 1 of the present disclosure
  • FIG. FIG. 4 is a diagram showing an example of an image used in the present disclosure
  • FIG. 4 is a flowchart showing data generation processing in the person search device according to Embodiment 1 of the present disclosure
  • 6 is a flowchart showing person search processing in the person search device according to Embodiment 1 of the present disclosure.
  • FIG. 8 is a flowchart showing detailed processing in ST180 in FIG. 7;
  • FIG. 10 is a diagram showing Modification 1 of the configuration of the person search system including the person search device according to Embodiment 1 of the present disclosure
  • FIG. 10 is a diagram showing a modified example 2 of the configuration of the person search system including the person search device according to the first embodiment of the present disclosure
  • FIG. 10 is a diagram showing a configuration of a person search system including a person search device according to Embodiment 2 of the present disclosure
  • FIG. 10 is a flowchart showing correction value update processing in the person search device according to Embodiment 2 of the present disclosure
  • FIG. FIG. 10 is a flow chart showing processing for extracting an image using a whole-body image feature amount in the person search device according to Embodiment 2 of the present disclosure
  • FIG. 13 is a diagram showing a configuration of a person search system including a person search device according to Embodiment 3 of the present disclosure; It is a figure which shows the structure of the threshold value determination part in this indication.
  • 4 is a flowchart showing first threshold adjustment processing according to the present disclosure
  • 6 is a flowchart showing second threshold adjustment processing according to the present disclosure
  • 1 is a diagram illustrating a first example of a hardware configuration of a person search device according to the present disclosure
  • FIG. It is a figure which shows the 2nd example of the hardware constitutions of the person search device which concerns on this indication.
  • FIG. 1 is a diagram showing a person search system 1 including a person search device 100 according to the present disclosure.
  • FIG. 2 is a diagram showing the configuration of the person search system 1 including the person search device 100 according to Embodiment 1 of the present disclosure.
  • the person search system 1 shown in FIG. 1 has a person search device 100, a database 200, a monitoring terminal 300, a camera 400, and an image recording device 500.
  • the person search device 100 is communicably connected to the database 200, the monitoring terminal 300, the camera 400, and the image recording device 500.
  • the monitoring terminal 300, the camera 400, and the image recording device 500 are connected so as to be able to communicate with each other.
  • the person retrieval system 1 is a system for retrieving an image containing a person to be retrieved from among a plurality of images captured by a plurality of cameras 400 (400-n: n is an arbitrary integer equal to or greater than 1).
  • a person search device 100 and a database 200 are connected by a communication line or the like.
  • the devices are connected to each other by a communication network 600, such as an IP network.
  • the database 200 may also be configured to be connected using the communication network 600 .
  • the person search device 100 searches for an image including a person to be searched from among a plurality of images captured by a plurality of cameras 400 .
  • the person search device 100 extracts the full-body image feature amount and the face image feature amount of the person included in the image from the image taken by each camera 400, associates them with the shooting information indicating the shooting conditions of the image, and stores them in a database. Save to 200.
  • the person search device 100 receives, for example, a specific person image including a person to be searched and a search request from the monitoring terminal 300 via the communication network 600 .
  • the person search apparatus 100 refers to the database 200 to refer to the whole body image feature amount of the specific person image. and the whole body image feature amount in the database 200, and a second similarity indicating the similarity between the face image feature amount of the specific person image and the face image feature amount in the database 200 Calculate degrees.
  • the person search device 100 determines whether the first similarity exceeds the first threshold and determines whether the second similarity exceeds the second threshold.
  • the person search device 100 uses the determination result to acquire, from the database 200, the photographing information linked to the face image feature amount whose second similarity exceeds the second threshold, and uses the acquired photographing information. Then, a region and a time period in which the person shown in the specific person image may have been photographed are calculated, and specific person photographing information including the camera identification information in the area and the time period is generated.
  • the person search device 100 outputs, for example, specific person photographed information as a search result to the monitoring terminal 300 via the communication network 600 .
  • the search result may include an image specified by the specific person photographing information. Details of the person search device 100 will be described later.
  • the whole-body image feature amount, face image feature amount, and shooting information 270 including camera identification information, shooting position, and shooting date and time are linked. Saved. More specifically, the database 200 includes a program 210, whole body information 220, face information 230, a correction value 240, a whole body similarity determination threshold (first threshold) 250, a face similarity determination threshold (second threshold) 260 and shooting information 270 .
  • the program 210 is a program for operating a computer as the person search device 100 .
  • the whole-body information 220 includes a whole-body image feature amount for each image and a person's identification number.
  • the whole-body image feature amount is a numerical value of features such as clothing, build, camera angle of view, and the like, and is a value that indicates the features of the whole body of each person.
  • the face information 230 includes a face image feature amount for each image and a person's identification number.
  • the facial image feature amount is a value obtained by digitizing the facial features of each person.
  • the correction value 240 is set according to the imaging conditions of each camera, and is used when extracting the whole body image feature quantity in the whole body image feature quantity extraction unit 140, which will be described later.
  • the whole-body similarity determination threshold (first threshold) 250 is determined by the classifying unit 180, which will be described later. , is used in determining the classification.
  • the face similarity determination threshold (second threshold) 260 is determined by the classification unit 180, which will be described later. , is used in determining the classification.
  • the shooting information 270 indicates shooting conditions for each camera, and includes at least camera identification information, shooting position, and shooting date and time.
  • the camera identification information is, for example, a camera number that differs for each camera.
  • the database 200 when the information storage command is received, the information is newly added or the information is updated. Also, the database 200 presents the stored data in response to a request from the person search device 100 . Note that the database 200 may be configured to be included inside the person search device 100 .
  • the monitoring terminal 300 requests the person search device 100 to search for an image in which the same person as the person shown in the specific person image representing the person to be searched is captured. Also, the monitoring terminal 300 is configured to be able to acquire an image captured by the camera 400 via the communication network 600 . Also, the monitoring terminal 300 is configured to be able to acquire the image recorded in the image recording device 500 via the communication network 600 . Also, the monitoring terminal 300 is configured to be able to acquire an image from outside other than the camera 400 and the image recording device 500 . A specific person image is an image designated from images acquired by the monitoring terminal 300 .
  • the monitoring terminal 300 After requesting an image search, the monitoring terminal 300 receives search results from the person search device 100 .
  • the search result is, for example, specific person photographed information generated by the person search device 100 .
  • the monitoring terminal 300 acquires an image from the camera 400 or the image recording device 500 using the specific person photographing information.
  • the monitoring terminal 300 does not need to perform processing using the specific person photographing information.
  • Camera 400 indicates a plurality of cameras 400-1, 400-2, 400-3, .
  • the plurality of cameras 400 are, for example, surveillance cameras that are installed so as to capture different imaging target ranges.
  • An image captured by a plurality of cameras is given a camera identification number for identifying each camera 400 and a shooting date and time. Furthermore, information indicating the shooting position may be attached.
  • the image recording device 500 records the image output from the camera 400, the camera identification information, and the shooting date and time. Also, if the image contains information indicating the shooting position, the information indicating the shooting position may be recorded.
  • the person search device 100 includes a camera image acquisition unit 110, a whole body image extraction unit 120, a face image extraction unit 130, a whole body image feature amount extraction unit 140, a face image feature amount extraction unit 150, a person feature storage unit 160, and a similarity calculation unit. 170, a classification unit 180, a person search unit 190, and a control unit (not shown).
  • the camera image acquisition unit 110 acquires images (camera images) captured by a plurality of cameras 400 and shooting information. Specifically, camera image acquisition section 110 receives camera images distributed at a constant frame rate from a plurality of cameras 400, and outputs the received camera images to whole body image extraction section 120 and face image extraction section 130. do.
  • FIG. 3 is a diagram showing an example of an image used in the present disclosure.
  • An image 700 shown in FIG. 3 includes full-body images 701 (701a, 701b) for each person and face images 702 (702a, 702b) for each person.
  • the whole body image 701 shows the whole body from the tip of the head to the tip of the foot, but it is not limited to this.
  • the whole-body image 701 may be an image from which body features can be extracted compared to the face image 702, and may be an image that includes a portion of the whole body other than the face.
  • Whole-body image extraction unit 120 receives an image and extracts a person's whole-body image 701 from the received image.
  • the whole-body image extraction unit 120 extracts, for example, a person's whole-body image 701 from the camera image acquired by the camera image acquisition unit 110 .
  • the whole-body image extraction unit 120 receives a specific person image from the monitoring terminal 300 and extracts a person's whole body image 701 from the received specific person image.
  • the whole body image extraction unit 120 extracts the whole body region of the person based on the image of the person learned in advance by machine learning such as deep learning, and extracts the whole body image feature amount.
  • An image of the whole body region (whole body image) is output to the unit 140 .
  • Face image extraction unit 130 receives an image and extracts face image 702 from the received image.
  • the face image extraction unit 130 receives a camera image from the camera image acquisition unit 110 and extracts a person's face image 702 from the received image.
  • the facial image extracting unit 130 receives a specific person image from the monitoring terminal 300, and extracts a person's facial image 702 from the received specific person image.
  • the face image extraction unit 130 extracts the face region of a person based on the face image learned in advance by machine learning such as deep learning, and extracts the face image feature amount.
  • An image of the face area (face image) is output to the unit 150 .
  • face image extraction section 130 may be configured to receive whole body image 701 extracted by whole body image extraction section 120 . In this case, facial image extraction section 130 extracts facial image 702 from whole body image 701 .
  • the whole-body image feature amount extraction unit 140 extracts a whole-body image feature amount from the whole-body image extracted by the whole-body image extraction unit 120 . Specifically, whole-body image feature amount extraction section 140 extracts the whole-body image feature amount from the whole-body image of the camera image acquired by camera image acquisition section 110 , and outputs the extracted whole-body image feature amount to person feature storage section 160 . In this case, when receiving a whole-body image, the whole-body image feature amount extraction unit 140 determines the image of the person who has been learned in advance by machine learning such as deep learning, based on the person's clothes, physique, camera angle of view, etc.
  • a whole-body image feature amount (X1) obtained by digitizing the feature is extracted, and the whole-body image feature amount of the camera image is output to the person feature storage unit 160 .
  • the whole-body image feature amount extraction unit 140 extracts the whole-body image feature amount from the whole-body image of the specific person image, and outputs the extracted whole-body image feature amount to the similarity calculation unit 170 .
  • the whole-body image feature amount extraction unit 140 extracts clothing, physique, camera
  • a whole-body image feature amount (X1) obtained by quantifying the feature based on the angle of view and the like is extracted, and the whole-body image feature amount of the specific person image is output to the similarity calculation unit 170 .
  • the face image feature amount extraction unit 150 extracts a face image feature amount from the face image extracted by the face image extraction unit 130 .
  • facial image feature amount extraction section 150 extracts the facial image feature amount from the face image of the camera image acquired by camera image acquisition section 110 , and outputs the facial image feature amount to person feature storage section 160 .
  • the facial image feature amount extraction unit 150 digitizes the facial features based on the facial image learned in advance by machine learning such as deep learning.
  • a facial image feature amount (Y1) is extracted, and the facial image feature amount of the camera image is output to the person feature storage unit 160 .
  • the face image feature amount extraction unit 150 extracts the face image feature amount from the face image of the specific person image, and outputs the extracted face image feature amount to the similarity calculation unit 170 .
  • the facial image feature amount extraction unit 150 digitizes the facial features based on the facial image learned in advance by machine learning such as deep learning.
  • a facial image feature amount (Y1) is extracted, and the facial image feature amount of the image of the specific person is output to the similarity calculation section 170 .
  • the personal feature storage unit 160 acquires the whole body image feature amount and face image feature amount of the image captured by each camera, and the shooting information of the image, and stores the acquired whole body image feature amount, face image feature amount, and , is associated with the photographing information and stored in the database 200 . Specifically, the person feature storage unit 160 associates the whole body image feature amount and the face image feature amount extracted from the same image, and also stores the camera number, shooting position, shooting date and time, whole body image and face image. The clipped thumbnail image and the like are also saved.
  • the similarity calculation unit 170 When the similarity calculation unit 170 acquires the person's whole body image feature amount and face image feature amount in the specific person image showing the person to be searched, the similarity calculation unit 170 refers to the database 200 to obtain the full body image feature amount and the face image feature amount of the specific person image.
  • a first degree of similarity indicating the degree of similarity (similarity of the whole body image) with the whole body image feature amount in the database 200 is calculated, and the similarity between the face image feature amount of the specific person image and the face image feature amount in the database 200 is calculated.
  • a second degree of similarity indicating the degree of similarity (similarity of face images) is calculated.
  • the degree of similarity indicates the degree of similarity between the compared images, and takes a value, for example, from 0 to 1. The closer to 1, the higher the degree of similarity.
  • the classification unit 180 determines whether the first similarity exceeds the first threshold and determines whether the second similarity exceeds the second threshold.
  • the classification unit 180 classifies the whole body image feature amount, face image feature amount, photographing information, and thumbnail image set using the determination result, and according to the classification result, sets the information set together with the classification information indicating the classification.
  • Output set information.
  • the set information includes classification information in addition to full-body image feature amounts, face image feature amounts, photographing information, and thumbnail images. Specifically, the classification unit 180 classifies into classifications 1 to 4 below using the determination result.
  • the person search unit 190 uses the determination result of the classification unit 180 to acquire, from the database 200, the photographing information linked to the facial image feature amount whose second similarity exceeds the second threshold, and extracts the acquired photographing information. is used to calculate a region and a time period in which the person shown in the specific person image may have been photographed, and specific person photographing information including the camera identification information in the area and the time period is generated.
  • person search unit 190 receives a specific person image together with a search request from monitoring terminal 300 , and outputs the specific person image to whole body image extraction unit 120 and face image extraction unit 130 .
  • Person search unit 190 outputs to whole body image extraction unit 120 and face image extraction unit 130, receives the information thus output from classification unit 180, uses the classification information and set information, and outputs the search results to monitoring terminal 300. to notify.
  • the person search unit 190 selects, for example, a certain number of pieces of set information of Class 1 and Class 2 in descending order of similarity of face images (second similarity).
  • the fixed number is not particularly limited as long as it is the number required as a search result.
  • the person search unit 190 acquires information such as the camera position, the adjacency relationship of the cameras, the relative distance, etc. using the set information of the category 1 and the category 2, and the person to be searched shown in the specific person image is captured. Calculate areas and time periods that may have been The person search unit 190 uses the area and the time period calculated from the set information of the category 3 other than the categories 1 and 2, and includes the camera identification information in the area and the shooting date and time of the time period. Select set information.
  • the person search unit 190 selects a certain number of whole body images in descending order of similarity (first similarity) from the selected set information.
  • the person search unit 190 uses the set information of categories 1 and 2 and the selected set information of category 3 to generate specific person photographing information including the camera identification information and the time period.
  • the person search unit 190 outputs specific person photographing information as a search result.
  • the person search unit 190 may perform thinning such that a plurality of images from the same camera are not selected within a certain period of time in order to avoid bias in search results for a specific camera or time period. In this case, if a plurality of pieces of camera identification information indicating the same camera are included when generating specific person photographing information, the person search unit 190 thins out the camera identification information indicating the same camera at predetermined time intervals. do.
  • the person search unit 190 further outputs, as a search result, the specific person photographing information and the image photographed by the camera indicated by the camera identification information of the specific person photographing information to the monitoring terminal 300 requesting the search.
  • FIG. 4 is a flowchart showing data generation processing in the person search device 100 according to Embodiment 1 of the present disclosure.
  • the person search device 100 starts processing, for example, when a control unit (not shown) receives an instruction to start processing.
  • Camera image acquisition section 110 acquires an image (step ST10). Specifically, the camera image acquisition unit 110 acquires images and imaging information respectively captured by a plurality of cameras.
  • Whole body image extraction section 120 receives the camera image from camera image acquisition section 110, and extracts full body image 701 of the person from the image acquired by camera image acquisition section 110 (step ST20).
  • Whole body image extraction section 120 outputs whole body image 701 to whole body image feature quantity extraction section 140 .
  • Whole-body image feature amount extraction section 140 extracts a whole-body image feature amount from the whole-body image extracted by whole-body image extraction section 120 (step ST30). Specifically, whole-body image feature amount extraction section 140 extracts the whole-body image feature amount from the whole-body image of the camera image acquired by camera image acquisition section 110 , and outputs the extracted whole-body image feature amount to person feature storage section 160 . Upon receiving the whole body image, whole body image feature quantity extraction section 140 extracts the whole body image feature quantity (X1) and outputs the whole body image feature quantity of the camera image to person feature storage section 160 .
  • the whole-body image feature quantity extraction unit 140 refers to the correction value for each camera in the database 200, and multiplies the whole-body image feature quantity by the correction value to correct the whole-body image feature quantity (x correction value). Note that, as will be described later, the correction may be performed on the similarity of the whole-body image feature amount.
  • Face image extraction section 130 receives a camera image from camera image acquisition section 110, and extracts face image 702 of a person from the received image (step ST40).
  • face image extraction section 130 may receive the whole body image extracted by whole body image extraction section 120 .
  • Face image extraction section 130 outputs face image 702 to face image feature amount extraction section 150 .
  • the facial image feature amount extraction unit 150 extracts the facial image feature amount (step ST50).
  • the face image feature amount extraction unit 150 extracts a face image feature amount from the face image extracted by the face image extraction unit 130 .
  • facial image feature amount extraction section 150 extracts the facial image feature amount from the face image of the camera image acquired by camera image acquisition section 110 , and outputs the facial image feature amount to person feature storage section 160 .
  • Face image feature amount extraction section 150 receives a face image, extracts a face image feature amount (Y1), and outputs the face image feature amount to person feature storage section 160 .
  • the person feature storage unit 160 stores the feature amount of the whole body image and the face image in the database 200 as a pair (step ST60). Specifically, the person feature storage unit 160 acquires the whole body image feature amount and the face image feature amount of the image captured by each camera, and the shooting information of the image, and acquires the acquired whole body image feature amount, the face image feature amount, and the Set information that links the image feature amount and the shooting information is stored in the database 200 .
  • FIG. 5 is a flowchart showing person search processing in the person search device 100 according to Embodiment 1 of the present disclosure.
  • the person search device 100 starts processing, for example, when a control unit (not shown) receives an instruction to start processing.
  • the person search unit 190 receives a search request from the monitoring terminal 300 and acquires a specific person image including the person to be searched (step ST110).
  • Person search portion 190 outputs the specific person image to whole body image extraction portion 120 and face image extraction portion 130 .
  • the whole-body image extraction unit 120 receives a specific person image from the monitoring terminal 300, and extracts a person's whole body image 701 from the received specific person image (step ST120).
  • Whole-body image feature amount extraction section 140 extracts a whole-body image feature amount (step ST130). Specifically, when the whole-body image of the specific person image is received, the whole-body image feature amount extraction unit 140 extracts the whole-body image feature amount (X1), and sends the whole-body image feature amount of the specific person image to the similarity calculation unit 170. Output.
  • the similarity calculation unit 170 calculates the similarity between the whole-body image of the person to be searched and the whole-body image in the database 200 (step ST140). Specifically, when the similarity calculation unit 170 acquires the full-body image feature amount of the person in the specific person image showing the person to be searched, the similarity calculation unit 170 refers to the database 200 to obtain the full-body image feature amount of the specific person image. A first degree of similarity indicating the degree of similarity with the whole-body image feature quantity stored in the database 200 is calculated. At this time, the similarity calculation unit 170 refers to the correction value for each camera in the database 200, and corrects the first similarity by multiplying the first similarity by the correction value (x correction value). Note that the correction may be performed on the whole-body image feature amount described above.
  • the face image extraction unit 130 receives a specific person image from the monitoring terminal 300, and extracts a person's face image 702 from the received specific person image (step ST150).
  • Facial image feature amount extraction section 150 extracts a facial image feature amount (step ST160). Specifically, face image feature amount extraction section 150 extracts the face image feature amount from the face image of the specific person image, and outputs the feature amount to similarity degree calculation section 170 . In this case, when the facial image is received, the facial image feature amount extraction unit 150 extracts, for example, the facial image feature amount (Y1), and outputs the facial image feature amount of the specific person image to the similarity calculation unit 170 .
  • the facial image feature amount extraction unit 150 extracts, for example, the facial image feature amount (Y1), and outputs the facial image feature amount of the specific person image to the similarity calculation unit 170 .
  • the similarity calculator 170 calculates the similarity between the facial image of the person to be searched and the facial images in the database 200 (step ST170). Specifically, when the similarity calculation unit 170 acquires the full-body image feature amount and the face image feature amount of the person in the specific person image showing the person to be searched, the similarity calculation unit 170 refers to the database 200 to obtain the specific person image. A second degree of similarity indicating the degree of similarity between the face image feature quantity and the face image feature quantity stored in the database 200 is calculated. Similarity calculation section 170 outputs set information used for calculation to classification section 180 together with the first similarity and the second similarity.
  • the classification unit 180 compares the similarity with a threshold value and classifies (step ST180). Specifically, the classification unit 180 determines whether the first similarity exceeds the first threshold and determines whether the second similarity exceeds the second threshold. The classification unit 180 classifies the whole body image feature amount, face image feature amount, photographing information, and thumbnail image set using the determination result, and classifies classification information indicating classification 1 to classification 4 according to the classification result. Outputs the set information (set information).
  • the person search unit 190 selects search result 1 from category 1 and category 2 using the determination result of the classification unit 180 (step ST190).
  • the person search unit 190 selects images and shooting information in which a person to be searched exists (step ST200). Specifically, the person search unit 190 acquires, from the database 200, the photographing information linked to the face image feature amount whose second similarity exceeds the second threshold, and uses the acquired photographing information to identify A region and a time period in which the person shown in the person image may have been photographed are calculated, and specific person photographing information including the camera identification information in the area and the time period is generated. This narrows down the cameras and time ranges in which the person to be searched may exist.
  • the person search unit 190 further selects search result 2 from Category 3, which satisfies the camera and time range conditions in which the person to be searched may exist (step ST210).
  • Person search section 190 outputs the search result (step ST220). Specifically, the person search unit 190 uses the set information of Category 1 and Category 2 and the selected set information of Category 3 to generate specific person photographing information including the camera identification information and the time period. The person search unit 190 outputs specific person photographing information as a search result.
  • FIG. 6 is a flow chart showing detailed processing in ST180 in FIG.
  • the classification unit 180 starts processing, for example, when the similarity calculation unit 170 calculates the first similarity and the second similarity.
  • Classifying section 180 determines whether the second similarity exceeds the second threshold (second similarity>second threshold?) (step ST181). When the second similarity exceeds the second threshold in step ST181 (“YES” in step ST181), the classification section 180 determines whether the first similarity exceeds the first threshold (first similarity > first threshold?). is determined (step ST182). If the first similarity exceeds the first threshold in step ST182 (“YES” in step ST182), the classification section 180 classifies the set information into classification 1 (step ST183). If the first similarity does not exceed the first threshold in step ST182 (“NO” in step ST182), classifying section 180 classifies the set information into category 2 (step ST184).
  • step ST181 determines whether the second similarity exceeds the second threshold in step ST181 (“NO” in step ST181) is determined (step ST185). If the first similarity exceeds the first threshold in step ST185 (“YES” in step ST185), the classification section 180 classifies the set information into classification 3 (step ST186). If the first similarity does not exceed the first threshold in step ST185 (step ST185 "NO"), the classification section 180 classifies the set information into classification 4 (step ST187).
  • FIG. 7 is a diagram showing Modification 1 of the configuration of a person search system 1'' including the person search device 100' according to Embodiment 1 of the present disclosure.
  • FIG. 8 is a diagram showing Modification 2 of the configuration of the person search system 1'''' including the person search device 100'' according to the first embodiment of the present disclosure.
  • Person search system 1' shown in FIG. The image feature extraction unit 150 is taken out and transformed into the image analysis device 102 .
  • the processing load of the person search device 100' is distributed, and the input to the person search device 100' is a full-body image, a face image, and a full-body image feature amount from the video stream of the camera. and the face image feature amount, the effect of reducing the transmission band can be expected.
  • the person search system 1 ′′ shown in FIG. 8 includes the person search device 100 shown in FIG. , the face image feature amount extraction unit 150 is taken out and processed in the camera 400''. As a result, the processing load is distributed, and the person search device 100′′ can be realized with an inexpensive CPU. Also, the transmission band can be suppressed.
  • the person search device is a person search device that searches for an image that includes a search target person from among a plurality of images captured by a plurality of cameras.
  • the full-body image feature amount and the face image feature amount of the person in the displayed specific person image are obtained, the whole-body image feature amount, the face image feature amount, the camera identification information, and the photographing are obtained for each image output from a plurality of cameras.
  • a first degree of similarity indicating the degree of similarity between the whole-body image feature amount of the specific person image and the whole-body image feature amount in the database by referring to the database in which the shooting information including the position and the shooting date and time are associated and stored.
  • a similarity calculation unit that calculates a second similarity indicating the similarity between the face image feature amount of the specific person image and the face image feature amount in the database; Using a classification unit that determines whether or not the second similarity exceeds the second threshold, and the determination result of the classification unit, a face whose second similarity exceeds the second threshold is extracted from the database. Acquire the shooting information linked to the image feature amount, use the acquired shooting information to calculate the area and time period where the person shown in the specific person image may have been shot, and the camera in the area and a person search unit for generating specific person photographing information including the identification information and the time zone. As a result, it is possible to provide a person search device that searches for images containing a specific person with high accuracy from images captured by a plurality of cameras.
  • the person search unit further includes the specific person photographing information and the image photographed by the camera indicated by the camera identification information of the specific person photographing information in the monitoring terminal requesting the search. configured to output to As a result, it is possible to provide a person search device that presents search results including images in the search results.
  • the person search device further acquires the whole-body image feature amount and the face image feature amount of the image captured by each camera, and the shooting information of the image, and acquires the acquired whole-body image feature amount and the face image. It is configured to include a person feature storage unit that associates feature amounts and shooting information with each other and stores them in a database. This provides the effect of being able to add and update data in the database and provide a person search device. Play.
  • the person search device further includes a whole body image extraction unit that extracts a whole body image from the received image, a face image extraction unit that extracts a face image from the received image, and a whole body image extracted by the whole body image extraction unit.
  • a similarity calculation unit further comprising: a whole body image feature calculation unit for extracting a whole body image feature amount from an image; and a face image feature calculation unit for extracting a face image feature amount from the face image extracted by the face image extraction unit. acquires the whole-body image feature amount from the whole-body image feature calculation unit and acquires the face image feature amount from the face image feature calculation unit.
  • the person search device further includes a camera image acquisition unit that acquires images and shooting information taken by a plurality of cameras, and a full-body image feature amount and a face image feature amount of the image taken by each camera. , and photographing information of the image, and the acquired whole body image feature amount, face image feature amount, and photographing information are associated with each other and stored in a database, and the whole body image is extracted.
  • the unit extracts a whole body image from the image acquired by the camera image acquisition unit, the face image extraction unit extracts a face image from the image acquired by the camera image acquisition unit, and the whole body image feature calculation unit extracts the camera image acquisition unit.
  • the face image feature calculation unit extracts the face image feature amount from the face image of the image acquired by the camera image acquisition unit and output to the person feature storage unit.
  • the person search unit when the person search unit generates the specific person photographing information, if a plurality of camera identification information indicating the same camera are included, the camera identification information indicating the same camera is It is configured to thin out at predetermined time intervals. As a result, it is possible to provide a person search device that outputs search results that are less likely to be biased toward a specific camera or time period.
  • a person search system includes a person search device that searches for an image containing a person to be searched from among a plurality of images captured by a plurality of cameras in accordance with a search request from a monitoring terminal.
  • a system comprising a monitoring terminal, a plurality of cameras, and a person search device, wherein the person search device includes a full-body image feature amount and a face image feature amount of a person in a specific person image showing a person to be searched. , for each image output from multiple cameras, the whole body image feature amount, face image feature amount, and shooting information including camera identification information, shooting position, and shooting date and time are linked and saved.
  • a first similarity indicating the similarity between the whole body image feature amount of the specific person image and the whole body image feature amount in the database is calculated, and the face image feature amount of the specific person image and the face in the database a similarity calculation unit that calculates a second similarity indicating the similarity to the image feature quantity; determines whether the first similarity exceeds the first threshold; and determines whether the second similarity exceeds the second threshold.
  • the photographing information linked to the face image feature amount whose second similarity exceeds the second threshold is acquired from the database, and the acquired photographing information is used to calculate an area and time period in which the person shown in the specific person image may have been photographed, and to generate specific person photographing information including camera identification information in the area and the time period. and a part.
  • a person search system that searches for images containing a specific person with high accuracy from images captured by a plurality of cameras.
  • a person search program is a person search program that causes a computer to operate as a person search device that searches for images containing a person to be searched from among a plurality of images captured by a plurality of cameras,
  • the computer acquires the full-body image feature amount and the face image feature amount of the person in the specific person image showing the person to be searched, the full-body image feature amount and the face image feature amount are obtained for each image output from a plurality of cameras.
  • photographing information including camera identification information, photographing position, and photographing date and time, are linked and stored in a database, and the whole-body image feature amount of the specific person image and the whole-body image feature amount in the database are referenced.
  • a similarity calculating unit that calculates a first similarity indicating similarity and calculates a second similarity indicating similarity between the face image feature quantity of the specific person image and the face image feature quantity in the database; Using the classification unit that determines whether the similarity exceeds the first threshold and the second similarity exceeds the second threshold, and the determination result of the classification unit, from the database, the second similarity Acquire the shooting information linked to the face image feature amount exceeding the second threshold, and use the acquired shooting information to calculate the area and time period in which the person shown in the specific person image may have been shot. and operates as a person search unit that generates specific person photographing information including camera identification information in the area and the time period. As a result, it is possible to provide a person search program that searches for an image containing a specific person with high accuracy from images captured by a plurality of cameras.
  • FIG. 9 is a diagram showing the configuration of the person search system 2 including the person search device 101 according to Embodiment 2 of the present disclosure.
  • the person search system 2 shown in FIG. 9 is different in that the person search device 100 shown in Embodiment 1 is changed to a person search device 101 . Specifically, it differs in that a whole-body image feature amount correction unit 145 is provided. Also, the person search system 2 shown in FIG.
  • the database 200 shown in the first embodiment is changed to a database 202 .
  • the database 202 differs in that it has a feature quantity difference determination threshold (third threshold) 280 . Therefore, in the following description, the whole-body image feature amount correction unit 145 and the database 202 in the person search system 2 will be described, and the already described contents will be omitted as appropriate.
  • the person search device 101 in the person search system 2 includes a camera image acquisition unit 110, a whole body image extraction unit 120, a face image extraction unit 130, a whole body image feature amount extraction unit 140, a face image feature amount extraction unit 150, and a person feature storage unit 160. , a similarity calculation unit 170, a classification unit 180, a person search unit 190, a whole body image feature value correction unit 145, and a control unit (not shown).
  • the whole body image feature quantity correction unit 145 determines whether the second similarity exceeds the second threshold with respect to the correction value 240 for correcting the whole body image feature quantity.
  • the correction value 240 is corrected using the whole-body image feature amount linked to the face image feature amount obtained.
  • the whole-body image feature quantity correcting unit 145 acquires set information to which classification information indicating classification 1 and classification 2 is added from among the set information output by the classification unit 180 .
  • the whole-body image feature amount correction unit 145 weights, for example, based on the result of the highest similarity between the whole-body image feature amounts of Class 1 and Class 2 so that the other whole-body image feature amounts or similarities are at the same level.
  • a correction value for each camera 400 (400-1, 400-2, 400-3, . . . , 400-n).
  • the whole-body image feature value correction unit 145 statistically processes the results of multiple calculations to determine the correction value for each camera 400 (400-1, 400-2, 400-3, . . . , 400-n). , updates the correction values 240 stored in the database 202 .
  • the statistical processing may be set so as to derive a plausible correction value from the results of multiple calculations, such as calculating the average value of a plurality of correction values.
  • FIG. 10 is a flowchart showing correction value update processing in the person search device 101 according to Embodiment 2 of the present disclosure.
  • person search device 101 of Embodiment 2 proceeds to step ST310.
  • Whole-body image feature amount correction section 145 extracts the whole-body image feature amounts of the images classified into Class 1 and Class 2 from database 202 (step ST310).
  • the whole-body image feature quantity correction unit 145 calculates a correction value using the whole-body image feature quantity, and statistically processes the results of multiple calculations (step ST320).
  • the whole-body image feature amount correction unit 145 determines the correction value based on the result of the statistical processing (step ST330).
  • the whole-body image feature amount correction unit 145 updates the correction value (step ST340).
  • the database 202 includes a program 210, whole body information 220, face information 230, a correction value 240, a whole body similarity determination threshold (first threshold) 250, a face similarity determination threshold (second threshold) 260, and photographing information 270.
  • it has a feature quantity difference determination threshold (third threshold) 280 .
  • the feature amount difference determination threshold (third threshold) 280 is set when the similarity of the face image is high and there is a high possibility that the person in the image of the specific person is the same person, and the difference in the feature amount of the whole body image is determined by the photographing camera.
  • the whole body image feature amount correction unit 145 further determines that the difference value between the whole body image feature amount linked to the face image feature amount whose second similarity exceeds the second threshold and the whole body image feature amount of the specific person image is , when the feature amount difference determination threshold (third threshold) 280 is exceeded, the whole body image feature amount of the specific person image is determined as the whole body image feature associated with the face image feature amount whose second similarity exceeds the second threshold. replace quantity.
  • the whole-body image feature quantity correcting unit 145 acquires set information to which classification information indicating classification 2 is attached, from among the set information output by the classification unit 180 .
  • the whole body image feature amount correction unit 145 determines that the difference value between the whole body image feature amount of the set information and the whole body image feature amount of the specific person image, among the set information of Classification 2, is the whole body feature amount difference determination threshold (third threshold ) is exceeded.
  • the whole-body image feature amount correction unit 145 corrects the whole-body image feature amount of the specific person image used for calculating the difference value in the database 202 so that the second similarity exceeds the second threshold.
  • a second whole-body image feature amount of the specific person image is obtained by replacing it with the whole-body image feature amount linked to the exceeded face image feature amount.
  • the similarity calculation unit 170 calculates the similarity (third similarity) between the second whole body image feature quantity of the specific person image and the whole body image feature quantity in the database 202 .
  • the classification unit 180 classifies the set information by determining whether the third similarity exceeds the first threshold.
  • the person search unit 190 selects, from the database 202, the set information having the whole-body image feature quantity with the third similarity exceeding the first threshold, and outputs it as a search result.
  • FIG. 11 is a flowchart showing processing for extracting an image using the whole-body image feature amount in the person search device 101 according to Embodiment 2 of the present disclosure.
  • person search device 101 of Embodiment 2 proceeds to step ST410.
  • Whole-body image feature quantity correcting section 145 extracts the whole-body image feature quantity of the image classified as Class 2 from database 202 (step ST410).
  • Whole-body image feature amount correction unit 145 determines whether the difference value between the whole-body image feature amount of the person image (specific person image) to be searched and the whole-body image feature amount of database 202 exceeds the third threshold (difference value > third threshold ) is determined (step ST420).
  • the whole-body image feature amount correction unit 145 determines the second whole-body image feature amount (step ST430).
  • Whole-body image feature amount correcting section 145 outputs the second whole-body image feature amount to similarity calculating section 170 .
  • the similarity calculation unit 170 calculates the similarity (third similarity) between the second whole body image feature amount of the specific person image and the whole body image feature amount linked to the imaging information selected in step ST200.
  • Similarity calculation section 170 outputs set information used for calculation to classification section 180 together with the third similarity.
  • the classification unit 180 determines whether the third degree of similarity exceeds the first threshold, and uses the determination result to classify the set information in the same manner as in the first embodiment.
  • the classification unit 180 classifies using the third similarity instead of the first similarity described in the first embodiment.
  • the person detection unit selects set information whose third similarity exceeds the first threshold as search result 3 from the set information of category 2 (step ST450).
  • the person search device 101 proceeds to step ST220.
  • person search section 190 outputs search results including search result 3 .
  • the correction of the variation in the whole body image feature value due to the camera angle of view and the change in the external light and the clothing difference are performed. Since it is possible to cope with changes in the feature amount due to, etc., it is possible to improve the accuracy of person identification using whole-body images between cameras.
  • the whole body image feature amount extraction unit receives the image acquired by the camera image acquisition unit, the whole body image feature amount corrected using the correction amount for each camera indicated by the camera identification information is calculated, and the correction amount used in the whole body image feature amount extraction unit is corrected using the whole body image feature amount linked to the face image feature amount whose second similarity exceeds the second threshold , and a whole-body image feature value correction unit.
  • the whole body image feature amount extraction unit receives the image acquired by the camera image acquisition unit
  • the whole body image feature amount corrected using the correction amount for each camera indicated by the camera identification information is calculated, and the correction amount used in the whole body image feature amount extraction unit is corrected using the whole body image feature amount linked to the face image feature amount whose second similarity exceeds the second threshold , and a whole-body image feature value correction unit.
  • the difference value between the whole body image feature amount linked to the face image feature amount whose second similarity exceeds the second threshold and the whole body image feature amount of the specific person image is , when the third threshold is exceeded, the whole-body image feature amount of the specific person image is replaced with the whole-body image feature amount linked to the face image feature amount in which the second similarity exceeds the second threshold, the whole-body image A feature correction unit is provided.
  • the whole-body image A feature correction unit is provided.
  • Embodiment 3 is a form including a configuration for adjusting the first and second thresholds used in Embodiment 1 or Embodiment 2.
  • FIG. FIG. 12 is a diagram showing a configuration of a person search system 2A including a person search device 101A according to Embodiment 3 of the present disclosure.
  • a person search system 2A shown in FIG. 12 differs from the configuration described so far in that the person search device 101 in the person search system 2 shown in FIG. 9 is changed to a person search device 101A.
  • the person search device 101A differs in that it further includes a threshold adjustment unit 1110 and a relearning determination unit 1120 . Therefore, the following description will focus on the threshold adjustment unit 1110 and the re-learning determination unit 1120 in the person search system 2A, and will appropriately omit the description that overlaps with the content that has already been described.
  • the person search device 101A in the person search system 2A includes a camera image acquisition unit 110, a whole body image extraction unit 120, a face image extraction unit 130, a whole body image feature amount extraction unit 140, a face image feature amount extraction unit 150, and a person feature storage unit 160. , a similarity calculation unit 170, a classification unit 180, a person search unit 190, a whole body image feature value correction unit 145, a threshold value adjustment unit 1110, a re-learning determination unit 1120, and a control unit (not shown).
  • the threshold adjuster 1110 implements a threshold setting function that automatically adjusts the first threshold and the second threshold.
  • FIG. 13 is a diagram showing the configuration of the threshold adjustment unit 1110 according to the present disclosure.
  • the threshold adjuster 1110 shown in FIG. 13 includes a first threshold adjuster 1111 and a second threshold adjuster 1112 .
  • the first threshold adjustment unit 1111 adjusts and sets the first threshold. Specifically, the first threshold adjustment unit 1111 calculates the first similarity accumulated based on the result determined in advance by the classification unit 180, and the similarity calculated based on the whole-body image feature amount of each different person. (Whole-body feature similarity between different persons) is used to adjust and set the first threshold.
  • the first threshold adjustment unit 1111 first calculates a first similarity statistic value, which is a statistic value of the first similarity. Based on the determination result of the classification unit 180, the first threshold adjustment unit 1111 determines the similarity of the whole-body image of the person classified as “(classification 2)” in which only the similarity of the face image exceeds the threshold (first similarity ). The first threshold adjustment unit then calculates a first similarity statistic using the accumulated first similarities.
  • the first similarity statistic is, for example, the average value of the first similarities or the weighted average value of the first similarities. Also, the first similarity statistic may be all of the accumulated first similarities or a portion of the accumulated first similarities.
  • the first threshold adjustment unit 1111 then calculates a second similarity statistic, which is a statistic of whole-body feature similarities between different persons. For example, the first threshold adjustment unit 1111 determines that persons photographed by different cameras at the same time are different persons, calculates the whole-body feature similarity based on the whole-body image feature amount of each of the different persons, Accumulate the whole-body feature similarity between them. The first threshold adjustment unit 1111 calculates a second similarity statistic using the accumulated systemic feature similarities between different persons.
  • the second similarity statistic value is, for example, an average value of whole-body feature similarities between different persons or a weighted average value of whole-body feature similarities between different persons.
  • the second similarity statistic value may be all of the accumulated whole-body feature similarities between different persons, or may be a part of the accumulated whole-body feature similarities between different persons.
  • the first threshold adjustment unit 1111 then adjusts and sets the first threshold using the first similarity statistic and the second similarity statistic.
  • the first threshold adjustment unit 1111 adjusts and sets the first threshold such that, for example, the relationship of second similarity statistic ⁇ first threshold ⁇ first similarity statistic is satisfied. This is based on the idea that the second similarity statistic value is considered to be the statistic value of whole-body feature similarity between different persons, so the first threshold is set larger than the second similarity statistic value. Also, since the first similarity statistic value is considered to be the similarity statistic value of the same person, it is based on the idea that the first threshold value is smaller than the first similarity statistic value. With the configuration as described above, the first threshold can be automatically adjusted and set.
  • the second threshold adjustment unit 1112 adjusts and sets the second threshold using similarities (facial feature similarities between different persons) calculated based on facial image feature amounts of different persons. Specifically, the second threshold adjustment unit 1112 calculates a third similarity statistic value, which is a statistic value of facial feature similarity between different persons. For example, the second threshold adjustment unit 1112 determines that persons photographed by different cameras at the same time are different persons, calculates the facial feature similarity based on the facial image feature amount of each of the different persons, Accumulate the facial feature similarity between them. The second threshold adjustment unit 1112 calculates a third similarity statistical value using the accumulated facial feature similarities between different persons.
  • the third similarity statistic value is, for example, an average value of facial feature similarities between different persons or a weighted average value of facial feature similarities between different persons. Further, the third similarity statistic value may be all of the accumulated facial feature similarities between different persons, or may be a part of the accumulated facial feature similarities between different persons.
  • the second threshold adjuster 1112 then adjusts and sets the second threshold using the third similarity statistic.
  • the second threshold adjustment unit 1112 adjusts and sets the second threshold such that, for example, the third similarity statistical value ⁇ the second threshold. This is based on the idea that the third similarity statistic value is the statistic value of the facial feature similarity between different persons, so the second threshold is set larger than the third similarity statistic value. With the configuration as described above, the second threshold can be automatically adjusted and set.
  • the threshold adjusting process (first threshold adjusting process, second threshold adjusting process) by the threshold adjusting unit 1110 may be performed at any timing. For example, it may be implemented when the person search system is installed, or may be implemented when the person search system is operated. In addition, when it is performed during operation of the person search system, it may be performed at predetermined intervals, or it may be performed by an appropriate command.
  • the relearning determination unit 1120 causes the whole body image feature amount extraction unit 140 to perform learning processing for extracting the whole body image feature amount from the whole body image. order to Specifically, when the relearning determination unit 1120 receives notification from the threshold adjustment unit 1110 that the first threshold cannot be adjusted and set, the whole body image feature amount extraction unit 140 performs learning processing (pre-learning processing) in advance. It determines that re-learning of the information (information used for extracting the feature amount from the image) obtained by the above is necessary, and instructs the whole-body image feature amount extraction unit 140 to perform the learning process.
  • learning processing pre-learning processing
  • the relearning determination unit 1120 may acquire the whole-body image used to calculate each degree of similarity when receiving the notification from the threshold value adjustment unit 1110, and store the image in the database 200, for example. In this case, specifically, the relearning determination unit 1120 determines, for example, the relationship of the first similarity used for the first similarity statistical value (only the similarity of the face image exceeds the threshold "(classification 2) ) are accumulated so that they can be identified as the same person. As a result, a true value indicating that the person is the same is assigned to a plurality of full-body images that should be determined as the same person.
  • the relearning determination unit 1120 accumulates whole-body images having a relationship of the whole-body feature similarity used for the second similarity statistic so that it can be determined that they are different persons.
  • the whole-body image feature quantity extraction unit 140 that has received the instruction from the relearning determination unit 1120 executes learning processing using the accumulated images. By executing the learning process, the whole-body image feature quantity extraction unit 140 extracts the whole-body image feature quantity of a person who is likely to be the same person included in different images. will be extracted.
  • the whole-body image feature amount extraction unit 140 extracts whole-body image feature amounts that are not similar to each other. . As a result, the whole-body image feature amount extraction unit 140 can extract the whole-body image feature amount more accurately.
  • FIG. 14 is a flowchart illustrating an example of first threshold adjustment processing according to the present disclosure.
  • first threshold adjustment section 1111 first calculates a first similarity statistical value (step ST510). Specifically, based on the determination result of the classification unit 180, the first threshold adjustment unit 1111 determines the similarity of the whole-body image of the person classified as “(classification 2)” in which only the similarity of the face image exceeds the threshold (first degree of similarity). At this time, the first degree of similarity is accumulated in the database 200, for example. The first threshold adjustment unit 1111 then calculates a first similarity statistic using the accumulated first similarities.
  • first threshold adjustment section 1111 calculates a second similarity statistical value (step ST520). Specifically, for example, the first threshold adjustment unit 1111 determines that persons photographed by different cameras at the same time are different persons, and calculates the whole-body feature similarity based on the whole-body image feature amount of each of the different persons. Calculations are performed, and systemic feature similarities between different persons are accumulated. At this time, the whole-body feature similarities between different persons are accumulated in the database 200, for example. The first threshold adjustment unit 1111 calculates a second similarity statistic using the accumulated systemic feature similarities between different persons.
  • first threshold adjustment section 1111 adjusts and sets the first threshold using the first similarity statistic and the second similarity statistic (step ST530). Specifically, the first threshold adjustment unit 1111 adjusts and sets the first threshold so that the relationship of second similarity statistic ⁇ first threshold ⁇ first similarity statistic is satisfied.
  • first threshold adjustment section 1111 determines whether adjustment is impossible (step ST540). Specifically, the first threshold adjustment unit 1111 determines that adjustment is not possible when the above relationship is not satisfied, for example, when the second similarity statistic is greater than the first similarity statistic.
  • first threshold adjustment section 1111 determines that adjustment is not possible (“YES” in step ST540)
  • first threshold adjustment section 1111 notifies relearning determination section 1120 (step ST550).
  • Re-learning determination section 1120 upon receiving the notification from first threshold adjustment section 1111, instructs whole body image feature amount extraction section 140 to perform learning processing.
  • the whole-body image feature amount extraction unit 140 receives an instruction to execute the learning process from the relearning determination unit 1120, the whole body image feature amount extraction unit 140 executes the learning process.
  • the first threshold adjustment section 1111 repeats the processing from step ST510.
  • step ST540 when the first threshold adjustment section 1111 determines that the adjustment is not possible ("NO" in step ST540), it ends the process.
  • FIG. 15 is a flowchart illustrating an example of second threshold adjustment processing according to the present disclosure.
  • the second threshold adjustment section first calculates a third similarity statistical value (step ST610). Specifically, for example, the second threshold adjustment unit 1112 determines that persons photographed by different cameras at the same time are different persons, and calculates the facial feature similarity based on the facial image feature amount of each of the different persons. Calculation is performed, and the degree of facial feature similarity between different persons is accumulated. At this time, the facial feature similarities between different persons are accumulated in the database 200, for example. The second threshold adjustment unit 1112 calculates a third similarity statistical value using the accumulated facial feature similarities between different persons.
  • the second threshold adjustment unit 1112 adjusts and sets the second threshold using the third similarity statistical value (step ST620). Specifically, the second threshold adjustment unit 1112 adjusts and sets the second threshold so that, for example, the third similarity statistic value ⁇ second threshold.
  • the second threshold adjustment unit 1112 After adjusting and setting the second threshold, the second threshold adjustment unit 1112 ends the process.
  • the threshold adjustment unit calculates the first similarity accumulated based on the results determined in advance by the classification unit, and the full-body image feature amount of each different person.
  • the first threshold value is set using the degree of similarity.
  • the threshold adjustment unit is configured to set the second threshold using similarities calculated based on face image feature amounts of different persons. As a result, it is possible to provide a person search device capable of automatically setting the second threshold.
  • the whole body image feature amount extraction unit learns information used for extracting the whole body image feature amount from the whole body image. and a re-learning determination unit that instructs to execute the processing.
  • a re-learning determination unit that instructs to execute the processing.
  • FIG. 16 is a diagram illustrating a first example of a hardware configuration of person search devices 100, 101, and 101A according to the present disclosure.
  • FIG. 17 is a diagram showing a second example of the hardware configuration of person search devices 100, 101, and 101A according to the present disclosure.
  • Person search devices 100, 101, and 101A according to Embodiment 1 (including modifications) or Embodiment 2 are implemented by hardware as shown in FIG. 16 or 17, respectively.
  • Each of the person search devices 100, 101 and 101A is composed of a processor 10001 and a memory 10002 as shown in FIG.
  • a processor 10001 and a memory 10002 are installed in a computer, for example.
  • the memory 10002 stores the computer as a camera image acquisition unit 110, a whole body image extraction unit 120, a face image extraction unit 130, a whole body image feature amount extraction unit 140, a whole body image feature amount correction unit 145, and a face image feature amount extraction unit 150.
  • a person feature storage unit 160 a person feature storage unit 160, a similarity degree calculation unit 170, a classification unit 180, a person search unit 190, a threshold adjustment unit 1110, a first threshold adjustment unit 1111, a second threshold adjustment unit 1112, a relearning determination unit 1120, and A program for functioning as a control unit that does not operate is stored.
  • the program stored in the memory 10002 is read out and executed by the processor 10001, whereby the camera image acquisition unit 110, the whole body image extraction unit 120, the face image extraction unit 130, the whole body image feature quantity extraction unit 140, the face image feature quantity extraction unit 150, whole body image feature amount correction unit 145, person feature storage unit 160, similarity calculation unit 170, classification unit 180, person search unit 190, threshold adjustment unit 1110, first threshold adjustment unit 1111, second threshold adjustment unit 1112, Functions of the relearning determination unit 1120 and the control unit (not shown) are realized. Also, the databases 200 and 202 are implemented by the memory 10002 or another memory (not shown).
  • the processor 10001 uses, for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), a microprocessor, a microcontroller, or a DSP (Digital Signal Processor).
  • the memory 10002 is a non-volatile or volatile semiconductor memory such as RAM (Random Access Memory), ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable Read Only Memory), or flash memory.
  • RAM Random Access Memory
  • ROM Read Only Memory
  • EPROM Erasable Programmable ROM
  • EEPROM Electrical Erasable Programmable Read Only Memory
  • flash memory Alternatively, it may be a magnetic disk such as a hard disk or flexible disk, an optical disk such as a CD (Compact Disc) or a DVD (Digital Versatile Disc), or a magneto-optical disc.
  • the functions of the similarity calculation unit 170, the classification unit 180, the person search unit 190, the threshold adjustment unit 1110, the first threshold adjustment unit 1111, the second threshold adjustment unit 1112, the relearning determination unit 1120, and the control unit are As shown in FIG. 17, it may be implemented by a dedicated processing circuit 10003 .
  • the processing circuit 10003 is, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), FPGA (Field-Programmable Gate Array), SoC (System-on-a-Chip) or system LSI (Large-Scale Integration).
  • ASIC Application Specific Integrated Circuit
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • SoC System-on-a-Chip
  • system LSI Large-Scale Integration
  • the functions of a similarity calculation unit 170, a classification unit 180, a person search unit 190, a threshold adjustment unit 1110, a first threshold adjustment unit 1111, a second threshold adjustment unit 1112, a relearning determination unit 1120, and a control unit are It may be realized by another processing circuit 10003 or may be realized by the processing circuit 10003 collectively.
  • the function of the part may be realized by the processor 10001 and the memory 10002 and the remaining functions may be realized by the processing circuit 10003 .
  • the present disclosure can freely combine each embodiment, modify any component of each embodiment, or omit any component of each embodiment. .
  • 400-n, 400'', 400''-1, 400''-2, 400 ''-3, ... 400''-n camera 500 image recording device, 600 communication network, 700 image, 701 whole body image, 702 face image, 1110 threshold determination unit, 1111 first threshold determination unit, 1112 second Threshold determination unit 1120 Re-learning determination unit 10001 Processor 10002 Memory 10003 Processing circuit 10004 Memory.

Abstract

複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置であって、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部(170)と、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する、分類部(180)と、分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯の撮影日時を含む特定人物撮影情報を生成する、人物検索部(190)と、を備えた。

Description

人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム
 本開示は、複数の画像の中から、特定人物が含まれる画像を検索する人物検索装置に関する。
 画像に含まれる人物を識別する技術の中には、画像における人物の特徴量を用いて人物を識別する技術がある。
 例えば、特許文献1には、撮像部(カメラ)により撮像された人物を含む画像から、人物の顔に関する第1の特徴量および体に関する第2の特徴量を抽出し、抽出された第1の特徴量および第2の特徴量にそれぞれ重み付けを付与して算出した第3の特徴量に基づいて人物を識別することが記載されている。
特開2019-23785号公報
 しかし、複数の画像が複数のカメラで撮影された画像である場合、例えば、異なる撮影条件において撮影された画像が含まれ、撮影条件ごとに画像における人物の特徴量が異なる場合が多い。
 このような場合、従来の技術では、人物を識別する精度にばらつきが生じてしまうため、複数のカメラで撮影された画像の中から特定人物が含まれる画像を検索する精度が低くなる傾向がある、という課題があった。
 特許文献1に記載の人物識別装置は、複数のカメラ全ての撮影条件に合うように、重み付けを最適に定めることが困難であり、依然として、上記課題を解決できるものではない。
 本開示は、複数のカメラで撮影された画像の中から特定人物が含まれる画像を高い精度で検索する、人物検索装置を提供することを目的とする。
 本開示の人物検索装置は、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置であって、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部と、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する、分類部と、分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯の撮影日時を含む特定人物撮影情報を生成する、人物検索部と、を備えた。
 本開示によれば、複数のカメラで撮影された画像の中から特定人物が含まれる画像を高い精度で検索する、人物検索装置を提供することができる、という効果を奏する。
本開示に係る人物検索装置を含む人物検索システムを示す図である。 本開示の実施の形態1に係る人物検索装置を含む人物検索システムの構成を示す図である。 本開示において用いられる画像の一例を示す図である。 本開示の実施の形態1に係る人物検索装置におけるデータ生成処理を示すフローチャートである。 本開示の実施の形態1に係る人物検索装置における人物検索処理を示すフローチャートである。 図7におけるST180における詳細な処理を示すフローチャートである。 本開示の実施の形態1に係る人物検索装置を含む人物検索システムの構成の変形例1を示す図である。 本開示の実施の形態1に係る人物検索装置を含む人物検索システムの構成の変形例2を示す図である。 本開示の実施の形態2に係る人物検索装置を含む人物検索システムの構成を示す図である。 本開示の実施の形態2に係る人物検索装置における補正値更新処理を示すフローチャートである。 本開示の実施の形態2に係る人物検索装置における全身画像特徴量を用いて画像を抽出する処理を示すフローチャートである。 本開示の実施の形態3に係る人物検索装置を含む人物検索システムの構成を示す図である。 本開示における閾値決定部の構成を示す図である。 本開示における第1閾値調整処理を示すフローチャートである。 本開示における第2閾値調整処理を示すフローチャートである。 本開示に係る人物検索装置のハードウェア構成の第1の例を示す図である。 本開示に係る人物検索装置のハードウェア構成の第2の例を示す図である。
 以下、本開示をより詳細に説明するために、本開示を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、本開示に係る人物検索装置100を含む人物検索システム1を示す図である。
 図2は、本開示の実施の形態1に係る人物検索装置100を含む人物検索システム1の構成を示す図である。
 図1に示す人物検索システム1は、人物検索装置100、データベース200、監視端末300、カメラ400、および、画像記録装置500、を有する。
 人物検索システム1において、人物検索装置100は、データベース200、監視端末300、カメラ400、および、画像記録装置500、と通信可能に接続される。
 また、監視端末300、カメラ400、および、画像記録装置500は、相互に通信可能に接続される。
 人物検索システム1は、複数のカメラ400(400-n:nは1以上の任意の整数)により撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索するシステムである。
 人物検索システム1は、例えば図2に示すように、人物検索装置100とデータベース200とが通信線等により接続されており、また、人物検索装置100、監視端末300、カメラ400、および、画像記録装置が、相互に、IPネットワーク等の通信ネットワーク600で接続されている。なお、データベース200も通信ネットワーク600を用いて接続されるように構成してもよい。
 人物検索装置100は、複数のカメラ400により撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する。
 また、人物検索装置100は、各カメラ400により撮影された画像から、画像に含まれる人物の全身画像特徴量および顔画像特徴量を抽出し、画像の撮影条件を示す撮影情報と紐付けてデータベース200に保存する。
 人物検索装置100は、例えば、監視端末300から通信ネットワーク600を介して、検索対象の人物が含まれる特定人物画像および検索要求を受け付ける。
 また、人物検索装置100は、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、データベース200を参照して、特定人物画像の全身画像特徴量とデータベース200内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース200内の顔画像特徴量との類似度を示す第2類似度を算出する。また、人物検索装置100は、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する。また、人物検索装置100は、判定結果を用いて、データベース200から、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する。
 人物検索装置100は、例えば、検索結果として特定人物撮影情報を、通信ネットワーク600を介して、監視端末300に出力する。検索結果には、特定人物撮影情報に特定される画像が含まれてもよい。
 人物検索装置100の詳細は、後述する。
 データベース200には、複数のカメラ400から出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報270、が紐づけられて保存されている。
 さらに、具体的には、データベース200は、プログラム210、全身情報220、顔情報230、補正値240、全身の類似度判定閾値(第1閾値)250、顔の類似度判定閾値(第2閾値)260、および、撮影情報270を有している。
 プログラム210は、コンピュータを、人物検索装置100として動作させるためのプログラムである。
 全身情報220は、画像ごとの全身画像特徴量、人物の識別番号を含む。全身画像特徴量は、服装、体格、カメラ画角等による特徴を数値化したものであり、人物ごとの全身の特徴を示す値である。
 顔情報230は、画像ごとの顔画像特徴量、人物の識別番号を含む。顔画像特徴量は、人物ごとの顔の特徴を数値化した値である。
 補正値240は、カメラごとの撮影条件に応じて設定され、後述する全身画像特徴量抽出部140において、全身画像特徴量を抽出する際に用いられる。
 全身の類似度判定閾値(第1閾値)250は、後述する分類部180において、特定人物画像の全身画像特徴量とデータベース200の全身画像特徴量との類似度を示す第1類似度を用いて、分類を判定する際に用いられる。
 顔の類似度判定閾値(第2閾値)260は、後述する分類部180において、特定人物画像の顔画像特徴量とデータベース200の顔画像特徴量との類似度を示す第2類似度を用いて、分類を判定する際に用いられる。
 撮影情報270は、カメラごとの撮影条件を示し、少なくともカメラ識別情報と撮影位置と撮影日時とを含む。カメラ識別情報は、例えば、カメラごとに異なるカメラ番号である。
 データベース200においては、情報の保存指令を受けると、情報が新たに追加され、または、上記情報が更新される。
 また、データベース200は、人物検索装置100からの要求に応じて、保存されているデータを提示する。
 なお、データベース200は、人物検索装置100の内部に含むように構成してもよい。
 監視端末300は、人物検索装置100に対して、検索対象の人物を示す特定人物画像に示される人物と同一の人物が撮影された画像の検索を要求する。
 また、監視端末300は、カメラ400により撮影された画像を、通信ネットワーク600を介して取得できるように構成されている。
 また、監視端末300は、画像記録装置500に記録された画像を、通信ネットワーク600を介して取得できるように構成されている。
 また、監視端末300は、カメラ400および画像記録装置500以外の外部から、画像を取得できるように構成されている。
 特定人物画像は、監視端末300が取得した画像の中から指定される画像である。
 監視端末300は、画像の検索を要求した後、人物検索装置100から検索結果を受け取る。
 検索結果は、例えば、人物検索装置100において生成された特定人物撮影情報である。この場合、監視端末300は、特定人物撮影情報を用いてカメラ400または画像記録装置500から画像を取得する。ただし、検索結果に画像が含まれる場合、監視端末300は、特定人物撮影情報を用いた処理を行わなくてもよい。
 カメラ400は、複数のカメラ400-1,400-2,400-3,・・・,400-nを示し、それぞれ撮影を行って画像を出力する。
 複数のカメラ400は、例えば、それぞれ異なる撮影対象範囲を撮影するように設置されている、監視カメラである。
 複数のカメラが撮影した画像には、それぞれのカメラ400を識別するカメラ識別番号、撮影日時が付される。また、さらに、撮影位置を示す情報が付されるようにしてもよい。
 画像記録装置500は、カメラ400から出力された画像およびカメラ識別情報および撮影日時を記録する。また、画像に撮影位置を示す情報が含まれる場合は、撮影位置を示す情報を記録してもよい。
 人物検索装置100の詳細を説明する。
 人物検索装置100は、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、および、図示しない制御部等を備える。
 カメラ画像取得部110は、複数のカメラ400により撮影された画像(カメラ画像)および撮影情報を取得する。
 具体的には、カメラ画像取得部110は、複数のカメラ400から一定のフレームレートで配信されるカメラ画像を受信し、受信したカメラ画像を、全身画像抽出部120および顔画像抽出部130に出力する。
 本開示で用いられる画像について説明する。
 図3は、本開示において用いられる画像の一例を示す図である。
 図3に示す画像700においては、人物ごとの全身画像701(701a,701b)、および、人物ごとの顔画像702(702a,702b)が含まれる。
 ただし、画像700においては、2人の人物が含まれているが、画像に含まれる人数は画像により異なる。
 また、画像700において、全身画像701は、頭の先から足の先までの全身が示されているが、これに限定するものではない。例えば、全身画像701は、顔画像702に比べ、体の特徴が抽出できる画像であって、全身のうちの顔以外の一部が含まれる画像であればよい。
 全身画像抽出部120は、画像を受け付け、受け付けた画像から人物の全身画像701を抽出する。
 全身画像抽出部120は、例えば、カメラ画像取得部110が取得したカメラ画像から人物の全身画像701を抽出する。
 また、全身画像抽出部120は、例えば、監視端末300から特定人物画像を受け付け、受け付けた特定人物画像から人物の全身画像701を抽出する。
 全身画像抽出部120は、例えば、画像を受け付けると、深層学習(Deep Learning)等の機械学習により事前に学習させた人物の画像に基づいて、人物の全身領域を抽出し、全身画像特徴量抽出部140に全身領域の画像(全身画像)を出力する。
 顔画像抽出部130は、画像を受け付け、受け付けた画像から顔画像702を抽出する。
 顔画像抽出部130は、例えば、カメラ画像取得部110からカメラ画像を受け付け、受け付けた画像から人物の顔画像702を抽出する。
 また、顔画像抽出部130は、例えば、監視端末300から特定人物画像を受け付け、受け付けた特定人物画像から人物の顔画像702を抽出する。
 顔画像抽出部130は、例えば、画像を受け付けると、深層学習(Deep Learning)等の機械学習により事前に学習させた顔の画像に基づいて、人物の顔領域を抽出し、顔画像特徴量抽出部150に顔領域の画像(顔画像)を出力する。
 なお、顔画像抽出部130は、全身画像抽出部120により抽出された全身画像701を受け付けるように構成してもよい。この場合、顔画像抽出部130は、全身画像701から顔画像702を抽出する。
 全身画像特徴量抽出部140は、全身画像抽出部120により抽出された全身画像から全身画像特徴量を抽出する。
 具体的には、全身画像特徴量抽出部140は、カメラ画像取得部110が取得したカメラ画像の全身画像から全身画像特徴量を抽出して、人物特徴保存部160へ出力する。この場合、全身画像特徴量抽出部140は、全身画像を受け付けると、深層学習(Deep Learning)等の機械学習により事前に学習させた人物の画像に基づいて、服装、体格、カメラ画角等による特徴を数値化した全身画像特徴量(X1)を抽出し、カメラ画像の全身画像特徴量を人物特徴保存部160へ出力する。
 また、具体的には、全身画像特徴量抽出部140は、特定人物画像の全身画像から全身画像特徴量を抽出して、類似度算出部170へ出力する。この場合、全身画像特徴量抽出部140は、特定人物画像の全身画像を受け付けると、深層学習(Deep Learning)等の機械学習により事前に学習させた人物の画像に基づいて、服装、体格、カメラ画角等による特徴を数値化した全身画像特徴量(X1)を抽出し、特定人物画像の全身画像特徴量を類似度算出部170へ出力する。
 顔画像特徴量抽出部150は、顔画像抽出部130により抽出された顔画像から顔画像特徴量を抽出する。
 具体的には、顔画像特徴量抽出部150は、カメラ画像取得部110が取得したカメラ画像の顔画像から顔画像特徴量を抽出して、人物特徴保存部160へ出力する。この場合、顔画像特徴量抽出部150は、顔画像を受け付けると、例えば、深層学習(Deep Learning)等の機械学習により事前に学習させた顔の画像に基づいて、顔の特徴を数値化した顔画像特徴量(Y1)を抽出し、カメラ画像の顔画像特徴量を人物特徴保存部160へ出力する。
 また、具体的には、顔画像特徴量抽出部150は、特定人物画像の顔画像から顔画像特徴量を抽出して、類似度算出部170へ出力する。この場合、顔画像特徴量抽出部150は、顔画像を受け付けると、例えば、深層学習(Deep Learning)等の機械学習により事前に学習させた顔の画像に基づいて、顔の特徴を数値化した顔画像特徴量(Y1)を抽出し、特定人物画像の顔画像特徴量を類似度算出部170へ出力する。
 人物特徴保存部160は、カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけて、データベース200に保存する。
 具体的には、人物特徴保存部160は、同一の画像から抽出された全身画像特徴量および顔画像特徴量を紐づけし、また、カメラ番号、撮影位置、撮影日時、全身画像および顔画像を切り出したサムネイル画像等も合わせて保存する。
 類似度算出部170は、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、データベース200を参照して、特定人物画像の全身画像特徴量とデータベース200内の全身画像特徴量との類似度(全身画像の類似度)を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース200内の顔画像特徴量との類似度(顔画像の類似度)を示す第2類似度を算出する。
 類似度は、比較した画像が類似している度合いを示すもので、例えば0から1までの値をとり、1に近いほど類似度が高いものとする。
 分類部180は、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する。
 分類部180は、判定結果を用いて、全身画像特徴量、顔画像特徴量、撮影情報、および、サムネイル画像のセットを分類し、分類した結果に応じて、分類を示す分類情報とともにセットした情報(セット情報)を出力する。セット情報は、全身画像特徴量、顔画像特徴量、撮影情報、および、サムネイル画像、に加え、分類情報を含む。
 具体的には、分類部180は、判定結果を用いて、以下の分類1から分類4のように分類する。

(分類1)全身画像の類似度、顔画像の類似度がともに閾値を上回る
(分類2)顔画像の類似度のみが閾値を上回る
(分類3)全身画像の類似度のみが閾値を上回る
(分類4)全身画像の類似度、顔画像の類似度がとも閾値を下回る
 人物検索部190は、分類部180の判定結果を用いて、データベース200から、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する。
 具体的には、人物検索部190は、監視端末300から検索要求とともに特定人物画像を受け取り、特定人物画像を、全身画像抽出部120および顔画像抽出部130へ出力する。
 人物検索部190は、全身画像抽出部120および顔画像抽出部130へ出力した後、これにより分類部180から出力された情報を受け取り、分類情報およびセット情報を用いて、検索結果を監視端末300へ通知する。
 さらに具体的には、人物検索部190は、例えば、分類1および分類2のセット情報を、顔画像の類似度(第2類似度)が高い順に一定数を選定する。一定数は、検索結果として必要な数であればよく、特に限定しない。
 また、人物検索部190は、分類1および分類2のセット情報を用いて、カメラ位置、カメラの隣接関係、相対距離等の情報を取得し、特定人物画像に示される検索対象の人物が撮影された可能性がある領域および時間帯を算出する。
 人物検索部190は、分類1および分類2以外である、分類3のセット情報の中から、算出した領域および時間帯を用いて、当該領域内のカメラ識別情報および当該時間帯の撮影日時を含むセット情報を選び出す。
 人物検索部190は、選び出したセット情報を対象にして、全身画像の類似度(第1類似度)が高い順に一定数を選定する。
 人物検索部190は、分類1および分類2のセット情報および選び出した分類3のセット情報を用いて、カメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する。
 人物検索部190は、特定人物撮影情報を検索結果として出力する。
 ここで、人物検索部190は、特定のカメラや時間帯に検索結果が偏ることを避けるため、一定時間内では同一カメラの画像を複数選択しないといった間引きを行うようにしてもよい。
 この場合、人物検索部190は、特定人物撮影情報を生成する際に、同一のカメラを示すカメラ識別情報が複数含まれる場合、同一のカメラを示すカメラ識別情報を、所定の時間間隔ごとに間引きする。
 人物検索部190は、検索結果として、さらに、特定人物撮影情報と、当該特定人物撮影情報のカメラ識別情報に示されるカメラが撮影した画像とを、検索を要求した監視端末300へ出力するようにしてもよい。
 人物検索装置100の処理について説明する。
 まず、人物検索装置100が参照するデータベース200のデータを生成し、保存する処理を説明する。
 図4は、本開示の実施の形態1に係る人物検索装置100におけるデータ生成処理を示すフローチャートである。
 人物検索装置100は、例えば、図示しない制御部が処理を開始する指令を受けると、処理を開始する。
 カメラ画像取得部110は、画像を取得する(ステップST10)。
 具体的には、カメラ画像取得部110は、複数のカメラによりそれぞれ撮影された画像および撮影情報を取得する。
 全身画像抽出部120は、カメラ画像取得部110からカメラ画像を受け付け、カメラ画像取得部110が取得した画像から人物の全身画像701を抽出する(ステップST20)。
 全身画像抽出部120は、全身画像701を全身画像特徴量抽出部140へ出力する。
 全身画像特徴量抽出部140は、全身画像抽出部120により抽出された全身画像から全身画像特徴量を抽出する(ステップST30)。
 具体的には、全身画像特徴量抽出部140は、カメラ画像取得部110が取得したカメラ画像の全身画像から全身画像特徴量を抽出して、人物特徴保存部160へ出力する。全身画像特徴量抽出部140は、全身画像を受け付けると、全身画像特徴量(X1)を抽出し、カメラ画像の全身画像特徴量を人物特徴保存部160へ出力する。
 この際、全身画像特徴量抽出部140は、データベース200のカメラごとの補正値を参照し、全身画像特徴量に補正値を乗じることで、全身画像特徴量を補正する(×補正値)。なお、当該補正は、後述するように、全身画像特徴量の類似度に対して実施するようにしてもよい。
 顔画像抽出部130は、カメラ画像取得部110からカメラ画像を受け付け、受け付けた画像から人物の顔画像702を抽出する(ステップST40)。ステップST40において、顔画像抽出部130は、全身画像抽出部120により抽出された全身画像を受け付けてもよい。
 顔画像抽出部130は、顔画像702を顔画像特徴量抽出部150へ出力する。
 顔画像特徴量抽出部150は、顔画像特徴量を抽出する(ステップST50)。
 顔画像特徴量抽出部150は、顔画像抽出部130により抽出された顔画像から顔画像特徴量を抽出する。
 具体的には、顔画像特徴量抽出部150は、カメラ画像取得部110が取得したカメラ画像の顔画像から顔画像特徴量を抽出して、人物特徴保存部160へ出力する。顔画像特徴量抽出部150は、顔画像を受け付けると、顔画像特徴量(Y1)を抽出し、顔画像特徴量を人物特徴保存部160へ出力する。
 人物特徴保存部160は、全身画像と顔画像の特徴量をペアでデータベース200に保存する(ステップST60)。
 具体的には、人物特徴保存部160は、カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけた、セット情報を、データベース200に保存する。
 セット情報をデータベース200に保存すると、次回の処理開始まで待機する。
 次に、人物検索処理について説明する。
 図5は、本開示の実施の形態1に係る人物検索装置100における人物検索処理を示すフローチャートである。
 人物検索装置100は、例えば、図示しない制御部が処理を開始する指令を受けると、処理を開始する。
 人物検索部190は、監視端末300から検索要求受け付けるとともに、検索対象の人物を含む特定人物画像を取得する(ステップST110)。
 人物検索部190は、特定人物画像を、全身画像抽出部120および顔画像抽出部130へ出力する。
 全身画像抽出部120は、例えば、監視端末300から特定人物画像を受け付け、受け付けた特定人物画像から人物の全身画像701を抽出する(ステップST120)。
 全身画像特徴量抽出部140は、全身画像特徴量を抽出する(ステップST130)
 具体的には、全身画像特徴量抽出部140は、特定人物画像の全身画像を受け付けると、全身画像特徴量(X1)を抽出し、特定人物画像の全身画像特徴量を類似度算出部170へ出力する。
 類似度算出部170は、検索対象の人物の全身画像と、データベース200内の全身画像との類似度を算出する(ステップST140)
 具体的には、類似度算出部170は、検索対象の人物が示された特定人物画像における人物の全身画像特徴量を取得すると、データベース200を参照して、特定人物画像の全身画像特徴量とデータベース200に保存された全身画像特徴量との類似度を示す第1類似度を算出する。
 この際、類似度算出部170は、データベース200のカメラごとの補正値を参照し、第1類似度に補正値を乗じることで、第1類似度を補正する(×補正値)。なお、当該補正は、上述した全身画像特徴量に対して実施するようにしてもよい。
 顔画像抽出部130は、例えば、監視端末300から特定人物画像を受け付け、受け付けた特定人物画像から人物の顔画像702を抽出する(ステップST150)。
 顔画像特徴量抽出部150は、顔画像特徴量を抽出する(ステップST160)
 具体的には、顔画像特徴量抽出部150は、特定人物画像の顔画像から顔画像特徴量を抽出して、類似度算出部170へ出力する。この場合、顔画像特徴量抽出部150は、顔画像を受け付けると、例えば、顔画像特徴量(Y1)を抽出し、特定人物画像の顔画像特徴量を類似度算出部170へ出力する。
 類似度算出部170は、検索対象の人物の顔画像と、データベース200内の顔画像との類似度を算出する(ステップST170)。
 具体的には、類似度算出部170は、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、データベース200を参照して、特定人物画像の顔画像特徴量とデータベース200に保存された顔画像特徴量との類似度を示す第2類似度を算出する。類似度算出部170は、第1類似度および第2類似度と併せて、算出に用いたセット情報を分類部180へ出力する。
 分類部180は、類似度と閾値とを比較し、分類する(ステップST180)
 具体的には、分類部180は、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する。
 分類部180は、判定結果を用いて、全身画像特徴量、顔画像特徴量、撮影情報、および、サムネイル画像のセットを分類し、分類した結果に応じて、分類1から分類4を示す分類情報とともにセットした情報(セット情報)を出力する。
 人物検索部190は、分類部180の判定結果を用いて、分類1および分類2から検索結果1を選出する(ステップST190)。
 人物検索部190は、検索対象の人物が存在する画像および撮影情報を選出する(ステップST200)
 具体的には、人物検索部190は、データベース200から、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する。
 これにより、検索対象の人物が存在する可能性があるカメラと時間範囲が絞り込まれる。
 人物検索部190は、さらに、分類3から、検索対象の人物が存在する可能性があるカメラと時間範囲の条件を満たす、検索結果2を選出する(ステップST210)。
 人物検索部190は、検索結果を出力する(ステップST220)。
 具体的には、人物検索部190は、分類1および分類2のセット情報および選び出した分類3のセット情報を用いて、カメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する。人物検索部190は、特定人物撮影情報を検索結果として出力する。
 ここで、ステップST180のさらに詳細な処理を説明する。
 図6は、図5におけるST180における詳細な処理を示すフローチャートである。
 分類部180は、例えば、類似度算出部170が第1類似度および第2類似度を算出すると処理を開始する。
 分類部180は、第2類似度が第2閾値を超えるか(第2類似度>第2閾値?)を判定する(ステップST181)。
 分類部180は、ステップST181において、第2類似度が第2閾値を超える場合(ステップST181“YES”)、第1類似度が第1閾値を超えるか(第1類似度>第1閾値?)を判定する(ステップST182)。
 分類部180は、ステップST182において、第1類似度が第1閾値を超える場合(ステップST182“YES”)、セット情報を分類1に分類する(ステップST183)。
 分類部180は、ステップST182において、第1類似度が第1閾値を超えない場合(ステップST182“NO”)、セット情報を分類2に分類する(ステップST184)。
 分類部180は、ステップST181において、第2類似度が第2閾値を超えない場合(ステップST181“NO”)、第1類似度が第1閾値を超えるか(第1類似度>第1閾値?)を判定する(ステップST185)。
 分類部180は、ステップST185において、第1類似度が第1閾値を超える場合(ステップST185“YES”)、セット情報を分類3に分類する(ステップST186)。
 分類部180は、ステップST185において、第1類似度が第1閾値を超えない場合(ステップST185“NO”)、セット情報を分類4に分類する(ステップST187)。
 以上説明したように、特定人物画像に示される人物の顔特徴と類似している顔特徴を有する画像が撮影された領域および時間帯の画像を検索することができる。そして、普遍的な特徴量を用いた顔認証により同一人物の保証を得たうえで、検索されたカメラ画像の日時、カメラ位置、カメラの隣接関係及び相対距離等の情報から同一人物が存在する可能性があるカメラと時間範囲の絞込みを行ったうえで、全身画像特徴量の類似度による人物同定を行うことにより、特定人物の人物検索の高速化及び高精度化の効果が得られる。
 ここで、本開示の人物検索装置の変形例を説明する。
 本開示においては、図2に示す人物検索装置100および人物検索システム1を、人物検索装置100の負荷低減を目的として、負荷分散させる構成にしてもよい。
 図7は、本開示の実施の形態1に係る人物検索装置100´を含む人物検索システム1´´の構成の変形例1を示す図である。
 図8は、本開示の実施の形態1に係る人物検索装置100´´を含む人物検索システム1´´´´の構成の変形例2を示す図である。
 図7に示す人物検索システム1´は、図2に示す人物検索装置100から、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、および、顔画像特徴量抽出部150を取り出して画像解析装置102に変形したものである。
 図7に示す人物検索装置100´によれば、人物検索装置100´の処理負荷の分散、および、人物検索装置100´への入力がカメラの映像ストリームから全身画像、顔画像、全身画像特徴量及び顔画像特徴量となることで、伝送帯域の削減効果が期待できる。
 図8に示す、人物検索システム1´´は、図2に示す人物検索装置100から、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、および、顔画像特徴量抽出部150を取り出して、カメラ400´´内において処理する構成に変形したものである。
 これにより、処理負荷が分散され、安価なCPUで人物検索装置100´´を実現させることができる。また、伝送帯域を抑制できる。
 図7および図8においては、人物検索装置100´、100´´に、人物特徴保存部160を備えるものを示しているが、人物特徴保存部160を人物検索装置の外部構成にすることも実現可能である。
 上述した通り、本開示に係る人物検索装置は、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置であって、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部と、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する、分類部と、分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索部と、を備えるように構成した。
 これにより、複数のカメラで撮影された画像の中から特定人物が含まれる画像を高い精度で検索する、人物検索装置を提供することができる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、人物検索部は、さらに、特定人物撮影情報と、当該特定人物撮影情報のカメラ識別情報に示されるカメラが撮影した画像とを、検索を要求した監視端末へ出力する、ように構成した。
 これにより、検索結果に画像を含めた検索結果を提示する、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけて、データベースに保存する、人物特徴保存部を備える、ように構成した
 これにより、データベースのデータを追加および更新する、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、受け付けた画像から全身画像を抽出する全身画像抽出部と、受け付けた画像から顔画像を抽出する顔画像抽出部と、全身画像抽出部により抽出された全身画像から全身画像特徴量を抽出する全身画像特徴算出部と、顔画像抽出部により抽出された顔画像から顔画像特徴量を抽出する顔画像特徴算出部と、を、さらに備え、類似度算出部は、全身画像特徴算出部から全身画像特徴量を取得するとともに、顔画像特徴算出部から顔画像特徴量を取得する、ように構成した。
 これにより、特定人物画像による検索要求を受け付ける、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、複数のカメラにより撮影された画像および撮影情報を取得する、カメラ画像取得部と、カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけて、データベースに保存する、人物特徴保存部と、を備え、全身画像抽出部は、カメラ画像取得部が取得した画像から全身画像を抽出し、顔画像抽出部は、カメラ画像取得部が取得した画像から顔画像を抽出し、全身画像特徴算出部は、カメラ画像取得部が取得した画像の全身画像から全身画像特徴量を抽出して、人物特徴保存部へ出力し、顔画像特徴算出部は、カメラ画像取得部が取得した画像の顔画像から顔画像特徴量を抽出して、人物特徴保存部へ出力する、ように構成した。
 これにより、カメラからの画像を取得してデータベースのデータを追加および更新する、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、人物検索部は、特定人物撮影情報を生成する際に、同一のカメラを示すカメラ識別情報が複数含まれる場合、同一のカメラを示すカメラ識別情報を、所定の時間間隔ごとに間引きする、ように構成した。
 これにより、特定のカメラや時間帯に偏りにくい検索結果を出力する、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索システムは、監視端末からの検索要求にしたがって、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置を有する人物検索システムであって、監視端末と、複数のカメラと、人物検索装置とを有し、人物検索装置は、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部と、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する、分類部と、分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索部と、を備えたことを特徴とする、ように構成した。
 これにより、複数のカメラで撮影された画像の中から特定人物が含まれる画像を高い精度で検索する、人物検索システムを提供することができる、という効果を奏する。
 本開示に係る人物検索プログラムは、コンピュータを、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置として動作させる人物検索プログラムであって、コンピュータを、検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する類似度算出部と、第1類似度が第1閾値を超えたかを判定するとともに、第2類似度が第2閾値を超えたかを判定する、分類部と、分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索部と、して動作させる、ように構成した。
 これにより、複数のカメラで撮影された画像の中から特定人物が含まれる画像を高い精度で検索する、人物検索プログラムを提供することができる、という効果を奏する。
実施の形態2.
 実施の形態2は、実施の形態1において、さらに、監視カメラの設置位置、画角及び外光差異等による見え方の違いまたは服装の違いにより生じる全身画像特徴量の差異を調整することで、人物検索の精度向上を図る形態を示す。
 図9は、本開示の実施の形態2に係る人物検索装置101を含む人物検索システム2の構成を示す図である。
 図9に示す人物検索システム2は、実施の形態1に示した人物検索装置100を、人物検索装置101に変更した点が異なる。具体的には、全身画像特徴量補正部145を備えた点が異なる。
 また、図9に示す人物検索システム2は、実施の形態1に示したデータベース200を、データベース202に変更した点が異なる。具体的には、データベース202は、特徴量差分判定閾値(第3閾値)280を有する点で異なる。
 そこで、以下、説明においては、人物検索システム2における、全身画像特徴量補正部145およびデータベース202に係る説明を行い、既に説明した内容については適宜省略する。
 人物検索システム2における人物検索装置101は、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、全身画像特徴量補正部145、および、図示しない制御部等を備える。
 全身画像特徴量補正部145は、全身画像特徴量抽出部140が全身画像特徴量を算出する際に、全身画像特徴量を補正する補正値240に対し、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量を用いて、補正値240を修正する。
 具体的には、全身画像特徴量補正部145は、分類部180により出力されたセット情報のうち、分類1および分類2を示す分類情報が付されたセット情報を取得する。
 全身画像特徴量補正部145は、例えば、分類1および分類2の全身画像特徴量の類似度が最も高い結果を基準に、他の全身画像特徴量もしくは類似度が同程度となるよう重みづけし、カメラ400(400-1,400-2,400-3,・・・,400-n)ごとの補正値を算出する。全身画像特徴量補正部145は、複数回の算出結果を統計処理して、カメラ400(400-1,400-2,400-3,・・・,400-n)ごとの補正値を確定し、データベース202に保存された補正値240を更新する。
 統計処理は、例えば、複数の補正値の平均値を算出するなど、複数回の算出結果から尤もらしい補正値を導出する統計処理を行うように設定されていればよい。
 この機能を有する場合の処理を説明する。
 図10は、本開示の実施の形態2に係る人物検索装置101における補正値更新処理を示すフローチャートである。
 実施の形態2の人物検索装置101は、例えば、図5におけるステップST210が終わると、ステップST310へ進む。
 全身画像特徴量補正部145は、データベース202から分類1および分類2に分類された画像の全身画像特徴量を抽出する(ステップST310)。
 全身画像特徴量補正部145は、全身画像特徴量を用いて補正値を算出するとともに、複数回の算出結果を統計処理する(ステップST320)。
 全身画像特徴量補正部145は、統計処理の結果により補正値を確定する(ステップST330)。
 全身画像特徴量補正部145は、補正値を更新する(ステップST340)。
 これにより、カメラ400(400-1,400-2,400-3,・・・,400-n)ごとの画角や外光変化による全身画像特徴量のばらつきを、顔認証との連携により補正することで、全身画像による人物同定の精度を向上させることができる。
 以下、実施の形態2に係る人物検索装置101を含む人物検索システム2の構成の説明に戻る。
 データベース202は、プログラム210、全身情報220、顔情報230、補正値240、全身の類似度判定閾値(第1閾値)250、顔の類似度判定閾値(第2閾値)260、および、撮影情報270に加え、さらに、特徴量差分判定閾値(第3閾値)280を有している。
 特徴量差分判定閾値(第3閾値)280は、顔画像の類似度が高く、特定人物画像の人物と同一人物である可能性が高い場合に、全身画像特徴量の差異が、撮影したカメラの違い等による見え方の違いまたは服装の違いであるかどうかを判定する際に用いられる。
 全身画像特徴量補正部145は、さらに、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量と、特定人物画像の全身画像特徴量との差分値が、特徴量差分判定閾値(第3閾値)280を超えた場合、特定人物画像の全身画像特徴量を、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量に置き換える。
 具体的には、全身画像特徴量補正部145は、分類部180により出力されたセット情報のうち、分類2を示す分類情報が付されたセット情報を取得する。
 全身画像特徴量補正部145は、分類2のセット情報のうち、セット情報の全身画像特徴量と、特定人物画像の全身画像特徴量との差分値が、全身特徴量差分判定閾値(第3閾値)を超えるかを判定する。
 全身画像特徴量補正部145は、差分値が第3閾値を超えた場合、差分値の算出に用いた特定人物画像の全身画像特徴量を、データベース202における、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量に置き換えて、特定人物画像の第2全身画像特徴量とする。
 これにより、類似度算出部170は、特定人物画像の第2全身画像特徴量と、データベース202内の全身画像特徴量との類似度(第3類似度)を算出する。分類部180は、第3類似度が第1閾値を超えるかを判定してセット情報を分類する。人物検索部190は、第3類似度が第1閾値を超えた全身画像特徴量を有するセット情報を、データベース202から選び出し、検索結果として出力する。
 この機能を有する場合の処理を説明する。
 図11は、本開示の実施の形態2に係る人物検索装置101における全身画像特徴量を用いて画像を抽出する処理を示すフローチャートである。
 実施の形態2の人物検索装置101は、例えば、図5におけるステップST210が終わると、ステップST410へ進む。
 全身画像特徴量補正部145は、データベース202から、分類2に分類された画像の全身画像特徴量を抽出する(ステップST410)。
 全身画像特徴量補正部145は、検索対象の人物画像(特定人物画像)の全身画像特徴量とデータベース202の全身画像特徴量との差分値が第3閾値を超えるか(差分値>第3閾値)を判定する(ステップST420)。
 全身画像特徴量補正部145は、第2全身画像特徴量を決定する(ステップST430)。全身画像特徴量補正部145は、第2全身画像特徴量を類似度算出部170へ出力する。
 類似度算出部170は、特定人物画像の第2全身画像特徴量と、ステップST200において選出した撮影情報に紐づけられた全身画像特徴量との類似度(第3類似度)を算出する。類似度算出部170は、第3類似度と併せて、算出に用いたセット情報を分類部180へ出力する。
 分類部180は、第3類似度が第1閾値を超えるかを判定し、判定結果を用いて、実施の形態1と同様に、セット情報を分類する。分類部180は、実施の形態1に説明した第1類似度に替えて第3類似度を用いて分類する。
 人物検出部は、分類2のセット情報から、第3類似度が第1閾値を超えるセット情報を、検索結果3として選出する(ステップST450)。
 ステップST450の処理が終わると、人物検索装置101において、ステップST220へ処理が移る。
 ステップST220において、人物検索部190は、検索結果3を含めた検索結果を出力する。
 これにより、同一人物の服装の差異等による全身画像特徴量の大きな変化に追随させ、顔認証との連携により特定人物の全身画像特徴量を時間毎に更新するので、全身画像による人物同定の精度を向上させることができる。
 以上説明したように、普遍的な特徴量である顔画像特徴量の類似度から同一人物の保証を得たうえで、カメラ画角や外光変化による全身画像特徴量のばらつきの補正及び服装差異等による特徴量の変化に対応可能とするので、カメラ間での全身画像による人物同定の精度向上させることができる。
 本開示に係る人物検索装置は、さらに、全身画像特徴量抽出部は、カメラ画像取得部が取得した画像を受け付けると、カメラ識別情報が示すカメラごとの補正量を用いて補正した全身画像特徴量を算出するものであって、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量を用いて、全身画像特徴量抽出部に用いられる補正量を修正する、全身画像特徴量補正部を、備える、ように構成した。
 これにより、カメラ間での全身画像による人物同定の精度をさらに向上させる、人物検索装置を提供できる、という効果を奏する。
 本開示に係る人物検索装置は、さらに、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量と、特定人物画像の全身画像特徴量との差分値が、第3閾値を超えた場合、当該特定人物画像の全身画像特徴量を、当該第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量に置き換える、全身画像特徴量補正部を、備える、ように構成した。
 これにより、カメラ間での全身画像による人物同定の精度をさらに向上させる、人物検索装置を提供できる、という効果を奏する。
実施の形態3.
 実施の形態3は、実施の形態1または実施の形態2において用いられた第1閾値および第2閾値を調整する構成を含む形態である。
 図12は、本開示の実施の形態3に係る人物検索装置101Aを含む人物検索システム2Aの構成を示す図である。
 図12に示す人物検索システム2Aは、図9に示した人物検索システム2における人物検索装置101を、人物検索装置101Aに変更した点でこれまで説明した構成と異なる。具体的には、人物検索装置101Aは、閾値調整部1110と再学習判定部1120とをさらに備えた点で異なる。
 そこで、以下、説明においては、人物検索システム2Aにおける、閾値調整部1110と再学習判定部1120に係る説明を中心に記載し、既に説明した内容と重複する説明については適宜省略する。
 人物検索システム2Aにおける人物検索装置101Aは、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、全身画像特徴量補正部145、閾値調整部1110、再学習判定部1120、および、図示しない制御部等を備える。
 閾値調整部1110は、第1閾値および第2閾値を自動調整する閾値設定機能を実現する。
 図13は、本開示における閾値調整部1110の構成を示す図である。
 図13に示す閾値調整部1110は、第1閾値調整部1111、および、第2閾値調整部1112、を備える。
 第1閾値調整部1111は、第1閾値を調整して設定する。
 具体的には、第1閾値調整部1111は、分類部180により事前に判定された結果に基づき蓄積された第1の類似度、および、異なる人物それぞれの全身画像特徴量に基づき算出した類似度(異なる人物同士の全身特徴類似度)を用いて、第1閾値を調整して設定する。
 さらに具体的には、第1閾値調整部1111は、まず、第1の類似度の統計値である第1の類似度統計値を算出する。第1閾値調整部1111は、分類部180による判定結果に基づき、顔画像の類似度のみが閾値を上回る「(分類2)」に分類された人物の全身画像の類似度(第1の類似度)を蓄積する。第1閾値調整部は、続いて、蓄積された第1の類似度を用いて、第1の類似度統計値を算出する。第1の類似度統計値は、例えば、第1の類似度の平均値、または、第1の類似度の加重平均値である。また、第1の類似度統計値は、蓄積された第1の類似度すべてでもよく、蓄積された第1の類似度の一部でもよい。
 第1閾値調整部1111は、次に、異なる人物同士の全身特徴類似度の統計値である第2の類似度統計値を算出する。第1閾値調整部1111は、例えば同時刻において異なるカメラにて撮影された人物を異なる人物であると判定し、異なる人物のそれぞれの全身画像特徴量に基づき全身特徴類似度を算出し、異なる人物同士の全身特徴類似度を蓄積する。第1閾値調整部1111は、蓄積された、異なる人物同士の全身特徴類似度を用いて、第2の類似度統計値を算出する。第2の類似度統計値は、例えば、異なる人物同士の全身特徴類似度の平均値、または、異なる人物同士の全身特徴類似度の加重平均値である。また、第2の類似度統計値は、蓄積された異なる人物同士の全身特徴類似度すべてでもよく、蓄積された異なる人物同士の全身特徴類似度の一部でもよい。
 第1閾値調整部1111は、次に、第1の類似度統計値および第2の類似度統計値を用いて、第1閾値を調整して設定する。第1閾値調整部1111は、例えば、第2の類似度統計値 < 第1閾値 < 第1の類似度統計値、といった関係になるように第1閾値を調整して設定する。これは、第2の類似度統計値が異なる人物同士の全身特徴類似度の統計値であると考えられるため、第2の類似度統計値より第1閾値を大きくするといった考え方に基づく。また、第1の類似度統計値が同じ人物の類似度の統計値であると考えられるため、第1の類似度統計値より第1閾値を小さくするといった考え方に基づく。
 上記のような構成を有することにより、第1閾値を自動で調整して設定することができる。
 第2閾値調整部1112は、異なる人物それぞれの顔画像特徴量に基づき算出した類似度(異なる人物同士の顔特徴類似度)を用いて、第2閾値を調整して設定する。
 具体的には、第2閾値調整部1112は、異なる人物同士の顔特徴類似度の統計値である第3の類似度統計値を算出する。第2閾値調整部1112は、例えば同時刻において異なるカメラにて撮影された人物を異なる人物であると判定し、異なる人物のそれぞれの顔画像特徴量に基づき顔特徴類似度を算出し、異なる人物同士の顔特徴類似度を蓄積する。第2閾値調整部1112は、蓄積された、異なる人物同士の顔特徴類似度を用いて、第3の類似度統計値を算出する。第3の類似度統計値は、例えば、異なる人物同士の顔特徴類似度の平均値、または、異なる人物同士の顔特徴類似度の加重平均値である。また、第3の類似度統計値は、蓄積された異なる人物同士の顔特徴類似度すべてでもよく、蓄積された異なる人物同士の顔特徴類似度の一部でもよい。
 第2閾値調整部1112は、次に、第3の類似度統計値を用いて、第2閾値を調整して設定する。第2閾値調整部1112は、例えば、第3の類似度統計値 < 第2閾値、といった関係になるように第2閾値を調整して設定する。これは、第3の類似度統計値が異なる人物同士の顔特徴類似度の統計値であると考えられるため、第3の類似度統計値より第2閾値を大きくするといった考え方に基づく。
 上記のような構成を有することにより、第2閾値を自動で調整して設定することができる。
 なお、閾値調整部1110により閾値調整処理(第1閾値調整処理、第2閾値調整処理)は、任意のタイミングで実施するものでよい。例えば、人物検索システム設置時に実施してもよく、人物検索システム運用時に実施してもよい。また、人物検索システム運用時に実施する場合、予め決められた一定期間ごとに実施してもよく、適宜指令されて実施してもよい。
 再学習判定部1120は、閾値調整部1110により第1閾値の調整および設定ができない場合、全身画像特徴量抽出部140に対し、全身画像から全身画像特徴量を抽出するための学習処理を実行するよう指令する。
 具体的には、再学習判定部1120は、閾値調整部1110から第1閾値の調整および設定ができない旨の通知を受けると、全身画像特徴量抽出部140において事前に学習処理(事前学習処理)により得られていた情報(画像から特徴量を抽出するために用いる情報)の再学習が必要であると判定し、全身画像特徴量抽出部140に対して学習処理を実行するよう指令する。
 再学習判定部1120は、閾値調整部1110から上記通知を受ける際に、各類似度の算出に用いられた全身画像を取得し、例えばデータベース200に蓄積するようにしてもよい。この場合、具体的には、再学習判定部1120は、例えば第1の類似度統計値に用いられた第1の類似度の関係(顔画像の類似度のみが閾値を上回る「(分類2)」に分類される関係)にある全身画像同士を、同一人物であると判別可能に蓄積する。これにより、同一人物であると判別されるべき複数の全身画像に対し、同一人物であることを示す真値を付与することになる。また、再学習判定部1120は、第2の類似度統計値に用いられた全身特徴類似度の関係にある全身画像同士を、別人物であると判別可能に蓄積する。
 再学習判定部1120から指令を受けた全身画像特徴量抽出部140は、上記蓄積した画像を用いて学習処理を実行する。
 学習処理を実行することにより、全身画像特徴量抽出部140は、異なる画像に含まれる同一人物である可能性が高い人物の全身画像特徴量それぞれを抽出する際、相互に類似した全身画像特徴量を抽出するようになる。また、全身画像特徴量抽出部140は、異なる画像に含まれる別人物である可能性が高い人物の全身画像特徴量それぞれを抽出する際、相互に類似しない全身画像特徴量を抽出するようになる。
 その結果、全身画像特徴量抽出部140は、より精度よく全身画像特徴量を抽出することができるようになる。
 ここで、本開示に係る閾値調整処理の例を説明する。以下、第1閾値調整処理の説明、第2閾値調整処理の説明の順に記載する。
 図14は、本開示における第1閾値調整処理の例を示すフローチャートである。
 閾値調整部1110において第1閾値調整処理を開始すると、第1閾値調整部1111は、まず、第1の類似度統計値を算出する(ステップST510)。
 具体的には、第1閾値調整部1111は、分類部180による判定結果に基づき、顔画像の類似度のみが閾値を上回る「(分類2)」に分類された人物の全身画像の類似度(第1の類似度)を蓄積する。このとき、第1の類似度は例えばデータベース200に蓄積される。第1閾値調整部1111は、続いて、蓄積された第1の類似度を用いて、第1の類似度統計値を算出する。
 次に、第1閾値調整部1111は、第2の類似度統計値を算出する(ステップST520)。
 具体的には、第1閾値調整部1111は、例えば同時刻において異なるカメラにて撮影された人物を異なる人物であると判定し、異なる人物のそれぞれの全身画像特徴量に基づき全身特徴類似度を算出し、異なる人物同士の全身特徴類似度を蓄積する。このとき、異なる人物同士の全身特徴類似度は例えばデータベース200に蓄積される。第1閾値調整部1111は、蓄積された、異なる人物同士の全身特徴類似度を用いて、第2の類似度統計値を算出する。
 次に、第1閾値調整部1111は、第1の類似度統計値および第2の類似度統計値を用いて第1閾値を調整して設定する(ステップST530)。
 具体的には、第1閾値調整部1111は、第2の類似度統計値 < 第1閾値 < 第1の類似度統計値、の関係になるように第1閾値を調整して設定する。
 次に、第1閾値調整部1111は、調整不可であるかを判定する(ステップST540)。
 具体的には、第1閾値調整部1111は、上記関係を満たさない、例えば第2の類似度統計値が第1の類似度統計値より大きい場合、に調整不可であると判定する。
 次に、第1閾値調整部1111は、調整不可であると判定した場合(ステップST540“YES”)、再学習判定部1120へ通知する(ステップST550)。
 再学習判定部1120は、第1閾値調整部1111から通知を受けると、全身画像特徴量抽出部140に対して学習処理を実行するよう指令する。全身画像特徴量抽出部140は、再学習判定部1120から学習処理を実行するよう指令を受けると、学習処理を実行する。
 第1閾値調整部1111は、再学習判定部1120へ通知したあと、ステップST510からの処理を繰り返す。
 次に、第1閾値調整部1111は、調整不可でないと判定した場合(ステップST540“NO”)、処理を終了する。
 第2閾値調整処理を説明する。
 図15は、本開示における第2閾値調整処理の例を示すフローチャートである。
 閾値調整部1110において第2閾値調整処理を開始すると、第2閾値調整部は、まず、第3の類似度統計値を算出する(ステップST610)。
 具体的には、第2閾値調整部1112は、例えば同時刻において異なるカメラにて撮影された人物を異なる人物であると判定し、異なる人物のそれぞれの顔画像特徴量に基づき顔特徴類似度を算出し、異なる人物同士の顔特徴類似度を蓄積する。このとき、異なる人物同士の顔特徴類似度は例えばデータベース200に蓄積される。第2閾値調整部1112は、蓄積された、異なる人物同士の顔特徴類似度を用いて、第3の類似度統計値を算出する。
 第2閾値調整部1112は、第3の類似度統計値を用いて第2閾値を調整して設定する(ステップST620)。具体的には、第2閾値調整部1112は、例えば、第3の類似度統計値 < 第2閾値、といった関係になるように第2閾値を調整して設定する。
 第2閾値調整部1112は、第2閾値を調整して設定すると、処理を終了する。
 本開示に係る人物検索装置において、前記閾値調整部は、前記分類部により事前に判定された結果に基づき蓄積された前記第1の類似度、および、異なる人物それぞれの全身画像特徴量に基づき算出した類似度を用いて、前記第1閾値を設定する、ように構成した。
 これにより、第1閾値を自動で設定することができる人物検索装置を提供することができる、という効果を奏する。
 本開示に係る人物検索装置において、前記閾値調整部は、異なる人物それぞれの顔画像特徴量に基づき算出した類似度を用いて、前記第2閾値を設定する、ように構成した。
 これにより、第2閾値を自動で設定することができる人物検索装置を提供することができる、という効果を奏する。
 本開示に係る人物検索装置は、前記閾値調整部により前記第1閾値の調整ができない場合、前記全身画像特徴量抽出部に対し、全身画像から全身画像特徴量を抽出するために用いる情報の学習処理を実行するよう指令する再学習判定部、をさらに備える、ように構成した。
 これにより、全身画像特徴量抽出部により抽出される全身画像特徴量が適当でない可能性がある場合に、全身画像特徴量抽出部が抽出する全身画像特徴量を調整できる、という効果を奏する。
 ここで、本開示の人物検索装置100,101,101Aのハードウェア構成を説明する。
 図16は、本開示に係る人物検索装置100,101,101Aのハードウェア構成の第1の例を示す図である。
 図17は、本開示に係る人物検索装置100,101,101Aのハードウェア構成の第2の例を示す図である。
 実施の形態1(変形例を含む)、または、実施の形態2に係る人物検索装置100,101,101Aはそれぞれ、図16または図17に示されるようなハードウェアにより実現される。
 人物検索装置100,101,101Aはそれぞれ、図16に示すように、プロセッサ10001、メモリ10002により構成される。
 プロセッサ10001、メモリ10002は、例えば、コンピュータに搭載されているものである。
 メモリ10002には、当該コンピュータを、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、全身画像特徴量補正部145、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、閾値調整部1110、第1閾値調整部1111、第2閾値調整部1112、再学習判定部1120、および、図示しない制御部として機能させるためのプログラムが記憶されている。メモリ10002に記憶されたプログラムをプロセッサ10001が読み出して実行することにより、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、顔画像特徴量抽出部150、全身画像特徴量補正部145、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、閾値調整部1110、第1閾値調整部1111、第2閾値調整部1112、再学習判定部1120、および、図示しない制御部の機能が実現される。
 また、メモリ10002または図示しない他のメモリにより、データベース200,202が実現される。
 プロセッサ10001は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、マイクロプロセッサ、マイクロコントローラ又はDSP(Digital Signal Processor)などを用いたものである。
 メモリ10002は、RAM(Random Access Memory)、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable Read Only Memory)又はフラッシュメモリ等の不揮発性もしくは揮発性の半導体メモリであってもよいし、ハードディスク又はフレキシブルディスク等の磁気ディスクであってもよいし、CD(Compact Disc)又はDVD(Digital VersatileDisc)等の光ディスクであってもよいし、光磁気ディスクであってもよい。
 または、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、全身画像特徴量補正部145、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、閾値調整部1110、第1閾値調整部1111、第2閾値調整部1112、再学習判定部1120、および、図示しない制御部の機能は、図17に示すように、専用の処理回路10003により実現されるものであっても良い。
 処理回路10003は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field-Programmable Gate Array)、SoC(System-on-a-Chip)またはシステムLSI(Large-Scale Integration)等を用いたものである。
 なお、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、全身画像特徴量補正部145、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、閾値調整部1110、第1閾値調整部1111、第2閾値調整部1112、再学習判定部1120、および、図示しない制御部の機能をそれぞれ別の処理回路10003で実現しても良いし,まとめて処理回路10003で実現しても良い。
 または、カメラ画像取得部110、全身画像抽出部120、顔画像抽出部130、全身画像特徴量抽出部140、全身画像特徴量補正部145、顔画像特徴量抽出部150、人物特徴保存部160、類似度算出部170、分類部180、人物検索部190、閾値調整部1110、第1閾値調整部1111、第2閾値調整部1112、再学習判定部1120、および、図示しない制御部のうちの一部の機能がプロセッサ10001およびメモリ10002により実現され、かつ、残りの機能が処理回路10003により実現されるものであっても良い。
 なお、本開示は、その開示の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
 1,1´,1´´,2,2A 人物検索システム、100,100´,100´´,101,101A 人物検索装置、102 画像解析装置、110 カメラ画像取得部、120 全身画像抽出部、130 顔画像抽出部、140 全身画像特徴量抽出部、145 全身画像特徴量補正部、150 顔画像特徴量抽出部、160 人物特徴保存部、170 類似度算出部、180 分類部、190 人物検索部、200,202 データベース、210 プログラム、220 全身情報、230 顔情報、240 補正値、250 類似度判定閾値(第1閾値)、260 類似度判定閾値(第2閾値)、270 撮影情報、280 特徴量差分判定閾値(第3閾値)、300 監視端末、400,400-1,400-2,400-3,・・・400-n,400´´,400´´-1,400´´-2,400´´-3,・・・400´´-n カメラ、500 画像記録装置、600 通信ネットワーク、700 画像、701 全身画像、702 顔画像、1110 閾値決定部、1111 第1閾値決定部、1112 第2閾値決定部、1120 再学習判定部、10001 プロセッサ、10002 メモリ、10003 処理回路、10004 メモリ。

Claims (14)

  1.  複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置であって、
     検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、前記複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、前記特定人物画像の全身画像特徴量と前記データベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、前記特定人物画像の顔画像特徴量と前記データベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部と、
     前記第1類似度が第1閾値を超えたかを判定するとともに、前記第2類似度が第2閾値を超えたかを判定する、分類部と、
     前記分類部の判定結果を用いて、前記データベースから、前記第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、前記特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯の撮影日時を含む特定人物撮影情報を生成する、人物検索部と、
    を備えた、人物検索装置。
  2.  前記人物検索部は、
     さらに、前記特定人物撮影情報と、当該特定人物撮影情報のカメラ識別情報に示されるカメラが撮影した画像とを、検索を要求した監視端末へ出力する、
    請求項1に記載の人物検索装置。
  3.  カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけて、データベースに保存する、人物特徴保存部を、さらに備えた、
    請求項1または請求項2に記載の人物検索装置。
  4.  受け付けた画像から全身画像を抽出する全身画像抽出部と、
     受け付けた画像から顔画像を抽出する顔画像抽出部と、
     前記全身画像抽出部により抽出された全身画像から全身画像特徴量を抽出する全身画像特徴量抽出部と、
     前記顔画像抽出部により抽出された顔画像から顔画像特徴量を抽出する顔画像特徴量抽出部と、をさらに備え、
     前記類似度算出部は、
     前記全身画像特徴量抽出部から全身画像特徴量を取得するとともに、前記顔画像特徴量抽出部から顔画像特徴量を取得する、
    請求項1または請求項2に記載の人物検索装置。
  5.  複数のカメラにより撮影された画像および撮影情報を取得する、カメラ画像取得部と、
     カメラごとに撮影された画像の全身画像特徴量および顔画像特徴量と、当該画像の撮影情報と、を取得し、取得した全身画像特徴量、顔画像特徴量、および、撮影情報を紐づけて、前記データベースに保存する、人物特徴保存部と、を備え、
     前記全身画像抽出部は、前記カメラ画像取得部が取得した画像から全身画像を抽出し、
     前記顔画像抽出部は、前記カメラ画像取得部が取得した画像から顔画像を抽出し、
     前記全身画像特徴量抽出部は、前記カメラ画像取得部が取得した画像の全身画像から全身画像特徴量を抽出して、前記人物特徴保存部へ出力し、
     前記顔画像特徴量抽出部は、前記カメラ画像取得部が取得した画像の顔画像から顔画像特徴量を抽出して、前記人物特徴保存部へ出力する、請求項4に記載の人物検索装置。
  6.  前記人物検索部は、
     前記特定人物撮影情報を生成する際に、同一のカメラを示すカメラ識別情報が複数含まれる場合、同一のカメラを示すカメラ識別情報を、所定の時間間隔ごとに間引きする、
    請求項1または請求項2に記載の人物検索装置。
  7.  前記全身画像特徴量抽出部は、前記カメラが撮影した画像を受け付けると、カメラ識別情報が示すカメラごとの補正量を用いて補正した全身画像特徴量を算出するものであって、
     前記第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量を用いて、前記全身画像特徴量抽出部に用いられる補正量を修正する、全身画像特徴量補正部、をさらに備えた、請求項4に記載の人物検索装置。
  8.  前記第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量と、前記特定人物画像の全身画像特徴量との差分値が、第3閾値を超えた場合、当該特定人物画像の全身画像特徴量を、当該第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた全身画像特徴量に置き換える、全身画像特徴量補正部を、さらに備えた請求項4に記載の人物検索装置。
  9.  前記分類部により事前に判定された結果に基づき蓄積された前記第1の類似度、および、異なる人物それぞれの全身画像特徴量に基づき算出した類似度を用いて、前記第1閾値を設定する、閾値調整部をさらに備える、請求項1に記載の人物検索装置。
  10.  前記閾値調整部は、さらに、
     異なる人物それぞれの顔画像特徴量に基づき算出した類似度を用いて、前記第2閾値を設定する、
     請求項9に記載の人物検索装置。
  11.  前記閾値調整部により前記第1閾値の調整ができない場合、前記全身画像特徴量抽出部に対し、全身画像から全身画像特徴量を抽出するための学習処理を実行するよう指令する再学習判定部、
     をさらに備えた、請求項9または請求項10に記載の人物検索装置。
  12.  監視端末からの検索要求にしたがって、前記複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置を有する人物検索システムであって、
     前記監視端末と、前記複数のカメラと、前記人物検索装置とを有し、
     前記人物検索装置は、
     検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、前記特定人物画像の全身画像特徴量と前記データベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出部と、
     前記第1類似度が第1閾値を超えたかを判定するとともに、前記第2類似度が第2閾値を超えたかを判定する、分類部と、
     前記分類部の判定結果を用いて、前記データベースから、前記第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、前記特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索部と、
    を備えたことを特徴とする、人物検索システム。
  13.  人物検索装置を用いて、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索方法であって、
     前記人物検索装置における類似度算出部が、
     検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、前記複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、前記特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、前記特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する、類似度算出ステップと、
     前記人物検索装置における分類部が、
     前記第1類似度が第1閾値を超えたかを判定するとともに、前記第2類似度が第2閾値を超えたかを判定する、分類ステップと、
     前記人物検索装置における人物検索部が、
     前記分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索ステップと、
     備えた人物検索方法。
  14.  コンピュータを、複数のカメラにより撮影された複数の画像の中から、検索対象の人物が含まれる画像を検索する人物検索装置として動作させる人物検索プログラムであって、
     前記コンピュータを、
     検索対象の人物が示された特定人物画像における人物の全身画像特徴量および顔画像特徴量を取得すると、前記複数のカメラから出力された画像ごとに、全身画像特徴量、顔画像特徴量、および、カメラ識別情報と撮影位置と撮影日時とを含む撮影情報、が紐づけられて保存されたデータベースを参照して、前記特定人物画像の全身画像特徴量とデータベース内の全身画像特徴量との類似度を示す第1類似度を算出するとともに、前記特定人物画像の顔画像特徴量とデータベース内の顔画像特徴量との類似度を示す第2類似度を算出する類似度算出部と、
     前記第1類似度が第1閾値を超えたかを判定するとともに、前記第2類似度が第2閾値を超えたかを判定する、分類部と、
     前記分類部の判定結果を用いて、データベースから、第2類似度が第2閾値を超えた顔画像特徴量に紐づけられた撮影情報を取得し、取得した撮影情報を用いて、特定人物画像に示される人物が撮影された可能性がある領域および時間帯を算出し、当該領域内のカメラ識別情報および当該時間帯を含む特定人物撮影情報を生成する、人物検索部と、
    して動作させる、人物検索プログラム。
PCT/JP2022/004351 2021-06-04 2022-02-04 人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム WO2022254787A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023525373A JPWO2022254787A1 (ja) 2021-06-04 2022-02-04
EP22815546.1A EP4350616A1 (en) 2021-06-04 2022-02-04 Person retrieval device, person retrieval system, person retrieval method, and person retrieval program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021094044 2021-06-04
JP2021-094044 2021-06-04

Publications (1)

Publication Number Publication Date
WO2022254787A1 true WO2022254787A1 (ja) 2022-12-08

Family

ID=84324095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/004351 WO2022254787A1 (ja) 2021-06-04 2022-02-04 人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム

Country Status (3)

Country Link
EP (1) EP4350616A1 (ja)
JP (1) JPWO2022254787A1 (ja)
WO (1) WO2022254787A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009124264A (ja) * 2007-11-12 2009-06-04 Ricoh Co Ltd 画像処理装置および画像処理方法
JP2014225082A (ja) * 2013-05-15 2014-12-04 富士通株式会社 監視装置、プログラムおよび方法
WO2018008575A1 (ja) * 2016-07-05 2018-01-11 日本電気株式会社 不審者検出装置、不審者検出方法およびプログラム
JP2019023785A (ja) 2017-07-24 2019-02-14 富士ゼロックス株式会社 人物識別装置及びプログラム
JP2019185205A (ja) * 2018-04-04 2019-10-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
JP2020178167A (ja) * 2019-04-15 2020-10-29 パナソニックi−PROセンシングソリューションズ株式会社 人物監視システムおよび人物監視方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009124264A (ja) * 2007-11-12 2009-06-04 Ricoh Co Ltd 画像処理装置および画像処理方法
JP2014225082A (ja) * 2013-05-15 2014-12-04 富士通株式会社 監視装置、プログラムおよび方法
WO2018008575A1 (ja) * 2016-07-05 2018-01-11 日本電気株式会社 不審者検出装置、不審者検出方法およびプログラム
JP2019023785A (ja) 2017-07-24 2019-02-14 富士ゼロックス株式会社 人物識別装置及びプログラム
JP2019185205A (ja) * 2018-04-04 2019-10-24 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2020047110A (ja) * 2018-09-20 2020-03-26 パナソニック株式会社 人物検索システムおよび人物検索方法
JP2020178167A (ja) * 2019-04-15 2020-10-29 パナソニックi−PROセンシングソリューションズ株式会社 人物監視システムおよび人物監視方法

Also Published As

Publication number Publication date
EP4350616A1 (en) 2024-04-10
JPWO2022254787A1 (ja) 2022-12-08

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
KR101615254B1 (ko) 디지털 이미지들에서 얼굴 표정들을 검출
US8965061B2 (en) Person retrieval apparatus
JP5174045B2 (ja) 分類器チェーンを用いた照明検出
US8358837B2 (en) Apparatus and methods for detecting adult videos
JP6089577B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US9996554B2 (en) Search apparatus, search method, and storage medium
JP6544900B2 (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
US8526742B2 (en) Image processing apparatus, method, and program that classifies data of images
JP5992276B2 (ja) 人物認識装置、及び方法
US20120148118A1 (en) Method for classifying images and apparatus for the same
US20120039514A1 (en) Image processing apparatus, image processing method, and program
US10353954B2 (en) Information processing apparatus, method of controlling the same, and storage medium
JP2010072708A (ja) 顔識別特徴量登録装置、顔識別特徴量登録方法、顔識別特徴量登録プログラム及び記録媒体
JP6557592B2 (ja) 映像シーン分割装置及び映像シーン分割プログラム
US9721153B2 (en) Image processing apparatus, image processing method, and storage medium that recognize an image based on a designated object type
US10664523B2 (en) Information processing apparatus, information processing method, and storage medium
JP2019057815A (ja) 監視システム
JP2010271861A (ja) オブジェクト識別装置及びオブジェクト識別方法
KR20180015101A (ko) 소스 비디오 내에서 관심 동영상을 추출하는 장치 및 방법
JP2017058833A (ja) オブジェクト識別装置、オブジェクト識別方法及びプログラム
US11841902B2 (en) Information processing apparatus, information processing method, and storage medium
JP2007179224A (ja) 情報処理装置および方法、並びにプログラム
JP2024045460A (ja) 情報処理システム、情報処理装置、情報処理方法、およびプログラム
WO2022254787A1 (ja) 人物検索装置、人物検索システム、人物検索方法、および、人物検索プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22815546

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023525373

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 2022815546

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022815546

Country of ref document: EP

Effective date: 20240104