WO2022064565A1 - 照合装置、照合方法、プログラム - Google Patents

照合装置、照合方法、プログラム Download PDF

Info

Publication number
WO2022064565A1
WO2022064565A1 PCT/JP2020/035822 JP2020035822W WO2022064565A1 WO 2022064565 A1 WO2022064565 A1 WO 2022064565A1 JP 2020035822 W JP2020035822 W JP 2020035822W WO 2022064565 A1 WO2022064565 A1 WO 2022064565A1
Authority
WO
WIPO (PCT)
Prior art keywords
collation
face
area
feature points
program
Prior art date
Application number
PCT/JP2020/035822
Other languages
English (en)
French (fr)
Inventor
博志 橋本
昭裕 早坂
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022536700A priority Critical patent/JP7272510B2/ja
Priority to US18/025,844 priority patent/US20230351802A1/en
Priority to PCT/JP2020/035822 priority patent/WO2022064565A1/ja
Priority to EP20955159.7A priority patent/EP4220544A4/en
Publication of WO2022064565A1 publication Critical patent/WO2022064565A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • This disclosure relates to collation equipment, collation methods, and programs.
  • Patent Document 1 discloses a collation processing technique.
  • the collating device detects feature points from the face area of the person in the image and identifies a specific area in the face area where the person's face is not covered by a shield. Then, the collation process is performed using the feature points in the specific area.
  • the collation method detects feature points from the face area of the person in the image and identifies a specific area in the face area where the person's face is not covered by a shield. Then, the collation process is performed using the feature points in the specific area.
  • the program uses the computer of the collating device as a means for detecting feature points from the face area of the person in the image, in which the face of the person is covered with a shield. It functions as a means for specifying a specific area that has not been used, and a means for performing collation processing using the feature points in the specific area.
  • FIG. 1 is a schematic configuration diagram of a collation system according to the present embodiment.
  • the collation system 100 includes a collation device 1, a camera 2, and a display device 3 as an example.
  • the collation system 100 may include at least the collation device 1.
  • the collation device 1 is connected to each of the camera 2 and the display device 3 via a communication network.
  • the camera 2 outputs the face image of the person to be collated to the collation device 1.
  • the collation device 1 acquires a face image from the camera 2.
  • the collation device 1 performs collation processing of the face image.
  • the collation device 1 outputs the result of the collation process to an output device such as the display device 3.
  • the collation process performed by the collation device 1 is, for example, a person who matches a face image acquired from the camera 2 by using a face image of a plurality of persons stored in the collation device 1 and a face image acquired from the camera 2. Refers to a process of specifying a face image of No. 1 from a plurality of face images stored in the collation device 1.
  • FIG. 2 is a diagram showing a hardware configuration of the collation device.
  • the collation device 1 includes hardware such as a CPU (Central Processing Unit) 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, a database 104, and a communication module 105. It's a computer.
  • the display device 3 is also a computer having a similar hardware configuration.
  • FIG. 3 is a functional block diagram of the collation device.
  • the collation device 1 executes a collation processing program stored in the ROM 102 or the like by the CPU 101. As a result, the collation device 1 exerts the functions of the input unit 11, the collation processing unit 12, and the output unit 13.
  • the input unit 11 acquires a face image from the camera 2.
  • the collation processing unit 12 performs collation processing.
  • the output unit 13 outputs the result of the collation process.
  • the collation processing unit 12 detects feature points from the face area of a person in the face image acquired from the camera 2. Further, when the reliability indicated by the feature point detection result is equal to or higher than the first threshold value, the collation processing unit 12 performs the first collation process using the feature points in the face region. When the reliability indicated by the feature point detection result is lower than the first threshold value, the collation processing unit 12 performs the second collation process using the feature points in the specific region in the face region.
  • the "reliability” here means the naked face-likeness indicated by the distribution of the detected feature points. A naked face is a face whose part of the face is not covered with a shield such as a mask or sunglasses.
  • the collation processing unit 12 performs the first collation processing by the first collation function that machine-learns the face image including the entire face area of the person as teacher data.
  • the collation processing unit 12 performs the second collation processing by the second collation function machine-learned using an image including a specific area excluding the lower region of the face region of the person as teacher image data.
  • the collation processing unit 12 performs the first collation processing when the range in which the reliability indicated by the feature point detection result is equal to or higher than the first threshold value is large in the range including the eyes, nose, mouth, and eyebrows of the face image, and the eyes and eyebrows.
  • the second collation process may be performed when the reliability indicated by the feature point detection result in the range other than the range including is low.
  • FIG. 4 is a diagram showing an outline of processing of the collation device.
  • the collation device 1 acquires a face image (41) without a mask or a face image (42) with a mask from the camera 2.
  • the collation device 1 first detects a face in the collation process (43).
  • the collating device 1 determines the type of collation processing to be performed thereafter based on the processing corresponding to the determination of whether or not the mask is worn (44).
  • the collating device 1 determines that it corresponds to the absence of wearing a mask, the collating device 1 performs a first collating process (face collation for a normal face) (45).
  • the collating device 1 determines that the mask is attached, the collating device 1 identifies a specific area 40 including a highly reliable range indicated by the feature point detection result, and uses the information of the specific area 40 for a second collating process (mask). Face matching for the face) is performed (46). The collation device 1 outputs the result of the collation process (47).
  • the collation program includes a first collation program for exerting the function of the first collation process and a second collation program for exerting the function of the second collation process.
  • the first collation program and the second collation program learn teacher data corresponding to multiple face images without masks and face images using machine learning processing such as a neural network, and compare them with the input face images. It is a program that at least calculates the degree of matching with the target facial image.
  • the first collation program is a program using a model of the result of learning by machine learning processing using an image of a face image including the entire face
  • the second collation program is a lower part of a person's face region in a face image.
  • the specific area 40 is not limited to the upper area excluding the lower area of the face area of the person.
  • the specific region 40 is a region including a highly reliable range indicated by the feature point detection result in the human face region.
  • the second collation program learns the teacher data corresponding to multiple face images with masks and face images using machine learning processing such as a neural network, and matches the input face image with the face image to be compared. It may be a program that calculates at least the degree of agreement between the two.
  • the collation device 1 uses a face image including the entire face as input information, and uses the matching degree indicating the correct answer of a plurality of comparison target face images recorded in a database as output information.
  • the input / output relationship is learned using machine learning processing such as a neural network, and the first model is generated.
  • the collation device 1 generates a first collation program including a first model, a neural network program, and the like.
  • the collation device 1 uses a face image including the entire face as input information, and uses a known technique to generate a first model for calculating the degree of matching of a plurality of face images to be compared recorded in a database. good.
  • the collation device 1 uses a specific area 40 including eyes and eyebrows excluding the lower area of the face area of a person in the face image as input information, and correct answers of a plurality of face images to be compared recorded in a database.
  • the input / output relationship is learned using a machine learning process such as a neural network, and a second model is generated.
  • the collation device 1 generates a second collation program including a second model, a neural network program, and the like.
  • the collation device 1 uses a specific area 40 including eyes and eyebrows excluding the lower area of the face area of the person in the face image as input information, and calculates the degree of matching of a plurality of face images to be compared recorded in the database.
  • the first model may be generated using a known technique.
  • the collation device 1 stores a collation program including the first collation program and the second collation program.
  • the collation processing unit 12 exerts the functions of the face detection unit 21, the feature point extraction unit 22, the collation processing determination unit 23, the first collation processing unit 24, and the second collation processing unit 25.
  • the face detection unit 21 detects a face region from the face image.
  • the feature point extraction unit 22 calculates the position of the feature point included in the face image, and calculates the reliability indicated by the feature point detection result.
  • the collation processing determination unit 23 determines whether to perform collation processing by the first collation program or collation processing by the second collation program based on each feature point included in the face image and its reliability. This process corresponds to determining whether or not the mask is worn. That is, the collation process by the first collation program corresponds to the collation process in the case where the mask is not attached. Further, the collation process by the second collation program corresponds to the collation process when the mask is attached.
  • the first collation processing unit 24 performs the first collation processing of the face image using the first collation program.
  • the first collation processing unit 24 states that the distribution of feature points whose reliability indicated by the feature point detection result detected in a predetermined region (for example, the entire face) in the face region is equal to or higher than the first threshold value is significant.
  • the first collation process is performed using the feature points in the face area.
  • the second collation processing unit 25 uses the second collation program to specify a specific area 40 in the face image, and performs collation processing of the face image based on the specific area 40.
  • the second collation processing unit 25 determines in this process that the distribution of feature points whose reliability indicated by the feature point detection result detected in a predetermined region (for example, the entire face) is less than the first threshold value is not significant.
  • the second collation process is performed using the feature points in the specific area (the above-mentioned rectangular specific area 40) different from the predetermined area.
  • the user may be wearing both a mask and sunglasses.
  • the specific area 40 is too small. Therefore, when the area of the specific area 40 is smaller than a certain size, the second collation processing unit 25 tells the user to remove a mask, sunglasses, or something that hides a part of the face by voice message or display. You may request it. After that, the second collation processing unit 25 again uses the second collation program to specify the specific area 40 in the face image.
  • the collation device 1 may possess two or more second collation programs.
  • the plurality of second collation programs are associated with specific regions 40 that are different from each other.
  • one second collation program corresponds to the case where the specific area 40 is the upper area (that is, the upper half of the user's face is not covered).
  • Another second collation program corresponds to the case where the specific area 40 is a lower area (that is, the lower half of the user's face is not covered).
  • the second collation processing unit 25 first identifies the specific area 40 in the face image. The second collation processing unit 25 selects any one of the second collation programs according to the position or range of the specific area 40. Then, the second collation processing unit 25 executes the second collation process as described above by using the selected second collation program.
  • the collation device 1 uses a plurality of second collation programs properly regardless of whether the user wears a mask or the user wears sunglasses. Users can be matched accurately.
  • FIG. 5 is a diagram showing a processing flow of the collating device according to the first embodiment.
  • the user of the collation system 100 approaches the camera 2 when receiving his / her collation.
  • the camera 2 captures the user's face and generates a face image.
  • the camera 2 outputs the face image to the collation device 1.
  • the input unit 11 of the collation device 1 inputs a face image (step S101).
  • the input unit 11 outputs the face image to the collation processing unit 12.
  • the camera 2 may take a picture of the user when the user is not aware of the camera 2. For example, the camera 2 may determine the timing at which the user's face is photographed based on a state such as the orientation or position of the user's face.
  • the face detection unit 21 acquires a face image in the collation processing unit 12.
  • the face detection unit 21 detects a face region based on the user reflected in the face image (step S102).
  • the facial area may be a range including eyes, nose, mouth, eyebrows, chin, forehead, cheeks and the like. As an example, the facial area does not include the hair area.
  • a known technique may be used for detecting the face region in the face detection unit 21.
  • the face detection unit 21 may acquire the face area output by the face detection program.
  • the face detection program is a program generated by using a model obtained by machine learning the input / output relationship using a face image as input information and a face area as output information.
  • the face detection unit 21 determines whether or not the face region could be detected based on the detection result of the face region (step S103). When the face detection unit 21 can detect the face region, it outputs the image information of the face region to the feature point extraction unit 22. If the face detection unit 21 cannot detect the face area, the face detection unit 21 ends the process and waits for the input of the next face image.
  • the feature point extraction unit 22 calculates the coordinates of the feature points included in the face region and the reliability indicated by the feature point detection result based on the image information of the face region (step S104). As a result of inputting the image information of the face region into the feature point extraction program, the feature point extraction unit 22 may acquire the feature points output by the feature point extraction program and the reliability indicated by each feature point detection result.
  • the feature point extraction program is generated using a model obtained by machine learning the input / output relationship using the image information of the face area as input information and the feature points included in the face area as output information. It may be a program.
  • the feature point extraction unit 22 outputs the feature points (coordinates and the like) calculated from the face area and the reliability indicated by each feature point detection result to the collation processing determination unit 23.
  • the feature point extraction unit 22 may calculate the coordinates of the feature points of the face and the reliability indicated by each feature point detection result by using a known technique.
  • the feature point extraction program uses the image information of the face area as input information, and the feature points included in the face area and the parameters (for example, 0 or 1) corresponding to the presence or absence of a part of the face obstruction. It may be a program generated by using a model obtained by machine learning the input / output relationship with the output information. In this case, the feature point extraction program is learned in advance to determine the presence or absence of a part of the face obstruction based on the input information and output a parameter indicating the determination result.
  • the feature point extraction unit 22 may output a parameter corresponding to the presence / absence of a part of the face obstruction instead of the reliability.
  • the "reliability indicated by the point detection result" in the following description can be read as a "parameter".
  • the collation processing determination unit 23 acquires the feature points included in the face area calculated by the feature point extraction unit 22 and their reliability. The collation processing determination unit 23 determines the collation process based on the reliability indicated by each feature point detection result detected in the face region (step S105).
  • the collation processing determination unit 23 identifies feature points whose reliability indicated by each feature point detection result detected in the face region is equal to or higher than a predetermined first threshold value.
  • a feature point having a reliability of the first threshold value or higher is a feature point that can be trusted as a feature point.
  • the collation processing determination unit 23 wears a mask when the distribution of feature points with reliability equal to or higher than the first threshold value in the face region can be detected at positions corresponding to facial parts such as eyebrows, eyes, nose, and mouth. It is determined that the first collation process is performed because it corresponds to none.
  • the collation processing determination unit 23 first places the feature points having a reliability equal to or higher than the first threshold value at positions corresponding to facial parts such as eyebrows, eyes, nose, and mouth based on the distribution in the face region.
  • the first collation process is performed because it corresponds to no mask wearing.
  • the collation processing determination unit 23 identifies the lower region in the face region based on the coordinate information indicating the face region, and collates the lower region based on the number, distribution, and statistical information of highly reliable feature points in the lower region. May be determined. When the number of highly reliable feature points in the lower region of the face region is smaller than the threshold value, the collation processing determination unit 23 determines that the distribution of the feature points and the statistical information do not have significant feature points. It may be determined that the second collation process is performed (when it corresponds to wearing a mask), and the first collation process is performed when it is not.
  • the collation processing determination unit 23 inputs the coordinates of the feature points detected in the face area and the reliability indicated by each feature point detection result into the collation processing determination program, and as a result, performs the first collation process or the first collation process.
  • the collation processing determination program uses the coordinates and reliability of the feature points detected in the face area as input information, and is the first collation process because it corresponds to the presence of a mask, or the second collation because it corresponds to no mask attachment. It may be a program generated by using a model obtained by machine learning the input / output relationship, in which the result indicating that the processing is performed is used as output information.
  • the collation processing determination unit 23 calculates a determination result indicating either the first collation process or the second collation process.
  • the collation processing determination unit 23 determines that the first collation processing is to be performed, the collation processing determination unit 23 instructs the first collation processing unit 24 to perform the processing.
  • the collation processing determination unit 23 instructs the second collation processing unit 25 to perform the processing.
  • the first collation processing unit 24 When it is determined that the first collation processing is performed, the first collation processing unit 24 inputs a face image.
  • the first collation processing unit 24 starts processing using the first collation program (step S106). In this process, the first collation processing unit 24 inputs the face image acquired from the camera 2. Further, the first collation processing unit 24 inputs a face image specified in order from a plurality of face images included in the database 104.
  • the first collation processing unit 24 sets the degree of matching between the face image input from the camera 2 and the face image specified from the plurality of face images (comparison targets) included in the database 104 in the database 104. Calculation is performed for each of the face images specified in order from the face images (step S107).
  • the first collation program is a program using a model generated by machine learning processing.
  • the first collation processing unit 24 can calculate the degree of matching between the face image input from the camera 2 and each face image specified from the database 104.
  • the first collation processing unit 24 outputs to the output unit 13 the degree of matching between the face image input from the camera 2 and each face image specified from the database 104.
  • the output unit 13 outputs the face image specified from the database 104, which is the target for calculating the highest degree of matching, to the display device 3 by specifying the face image having the highest degree of matching with the face image input from the camera 2. (Step S108).
  • the second collation processing unit 25 When it is determined that the second collation processing is performed, the second collation processing unit 25 inputs a face image.
  • the second collation processing unit 25 starts processing using the second collation program (step S109). In this process, the second collation processing unit 25 inputs the face image acquired from the camera 2.
  • the second collation processing unit 25 calculates a rectangular specific area 40 in the upper part of the face area using the coordinate information of the face area of the face image (step S110).
  • the specific region 40 is a region including feature points whose reliability indicated by the feature point detection result is equal to or higher than the first threshold value. Thereby, the range not covered with the mask or the like can be determined as the specific area 40.
  • the specific area 40 may be a range covering the range of the eyes, eyebrows, and forehead.
  • the specific area 40 may be a range showing a shape other than the rectangular range.
  • the calculation of the specific area 40 is an area in which a face image or a face area calculated in the face image in the process using the specific area calculation program included in the second collation program is input as input information and output as a result. good.
  • the specific area calculation program machine-learns the input / output relationship using the face image or the face area calculated in the face image as input information and the rectangular specific area 40 at the upper part of the face area as output information. It is a program generated using the obtained model.
  • By specifying the rectangular area it is possible to determine the range to be collated when the face area of the face image is covered with a mask or the like.
  • the second collation processing unit 25 may determine the size of the area according to the size of the face image. Further, the second collation processing unit 25 may expand the specific area 40 in the face area of the face image to a range including highly reliable feature points. According to this process, when the user wears a shield such as an eye patch that partially shields the face in one eye, the area (eye patch) with low reliability indicated by the feature point detection result by the shield is used. The range in which highly reliable feature points are distributed, excluding the area of the eye that is marked with, may be calculated as the specific area 40. Specifically, when the eye patch is worn on the right eye, the second collation processing unit 25 may calculate the range other than the right eye as the specific area 40.
  • the second collation processing unit 25 trusts the image acquired from the camera 2 in the second collation program including the model generated by machine learning according to the type of the shield such as the mask, eye patch, and hat.
  • a second collation program corresponding to a region (that is, a specific region 40) in which feature points with a high degree are distributed may be specified, and the second collation process may be performed using the program.
  • the specific area 40 is not limited to the case where it is a rectangular area above the face area. The present disclosure is based on the determination result of whether or not the face is covered with a shield other than the mask such as an eye patch in addition to the mask, and the position and / or range of the specific area 40 where the face is not hidden by the shield. It includes those that execute either the first collation process or the second collation process.
  • the second collation processing unit 25 inputs a face image specified in order from a plurality of face images included in the database 104.
  • the second collation processing unit 25 has a specific area 40 in the face area of the face image input from the camera 2 and a corresponding specific area 40 in the face area of the face image specified from the plurality of face images included in the database 104.
  • the degree of matching is calculated for each of the face images specified in order from the plurality of face images included in the database 104 (step S111).
  • the second collation program is a program using a model generated by machine learning processing.
  • the second collation processing unit 25 calculates the degree of coincidence between the specific area 40 specified in the face area of the face image input from the camera 2 and the specific area 40 of the face area in each face image specified from the database 104. be able to.
  • the second collation processing unit 25 outputs to the output unit 13 the degree of matching between the specific area 40 in the face area of the face image input from the camera 2 and the specific area 40 in the face area of each face image specified from the database 104. do.
  • the output unit 13 outputs the face image specified from the database 104, which is the target for calculating the highest degree of matching, to the display device 3 by specifying the face image having the highest degree of similarity to the face image input from the camera 2. (Step S112).
  • the collation device 1 is acquired from the camera 2 by using the first collation process because the reliability shown by the detection result of each feature point in the face area is high when the user does not wear the mask.
  • a face image matching the face image is specified from a plurality of face images stored in the collating device 1.
  • the collation device 1 uses the second collation process because the reliability of each feature point detection result in the lower region including the mouth and nose of the face region is low.
  • a face image matching the face image acquired from the camera 2 is specified from a plurality of face images stored in the collating device 1.
  • the specific area 40 used in the second collation process is specified according to the size of the face image or the face area specified in the face image. This makes it possible to ensure appropriate collation accuracy according to the size of the face image.
  • the collation device 1 normalizes and outputs a score indicating the degree of matching output as a result of performing the first collation process or a score indicating the degree of matching output as a result of performing the second collation process. You may try to do it.
  • the collation device 1 may normalize the score indicating the degree of agreement according to the size of the face region and the specific region 40, the number of feature points, and the reliability indicated by the feature point detection result.
  • the collation device 1 adds a weight to the score according to the number of feature points used to calculate the score. The smaller the number of feature points used to calculate the score, the smaller the weight of the score.
  • the collating device 1 discounts the score as the number of feature points used in calculating the score decreases.
  • the collation device 1 uses a normalized score calculation formula.
  • the collating device 1 inputs the size of the face area, the number of feature points, the reliability indicated by the feature point detection result, and the score indicating the degree of matching into the normalized score calculation formula, and the score value after normalization as the output. To get.
  • the output unit 13 may output the score value of the degree of coincidence after normalization by such processing. Alternatively, the output unit 13 may specify and output the face image having the highest score value indicating the degree of matching among the face images recorded in the database 104.
  • the output unit 13 may output the user information recorded in association with the face image having the highest score value indicating the degree of matching among the face images recorded in the database 104.
  • the reliability indicated by the feature point detection result is the above-mentioned first. It is expected to approach one threshold.
  • the collation processing determination unit 23 cannot specify which of the first collation process and the second collation process is to be used from the reliability indicated by each feature point detection result of the face image acquired from the camera 2, the collation process determination unit 23 may not specify which collation process to use.
  • the collation device 10 may request the user to remove something that hides a part of the face, such as a mask or sunglasses, by voice message or display.
  • the collation process determination unit 23 again determines which of the first collation process and the second collation process is to be used based on the reliability.
  • the collation process determination unit 23 may decide to perform the collation process using both collation processes.
  • the collation processing determination unit 23 shows the reliability shown by each feature point detection result in the predetermined region (the region including the mouth and nose) specified in the face image, and many feature point detection results in the face image.
  • the reliability is between the second threshold value equal to or higher than the first threshold value and the third threshold value lower than the first threshold value, it is unclear whether or not the reliability is covered with a mask or the like. It is determined that the collation process is performed using both of the second collation process.
  • the first collation processing unit 24 and the second collation processing unit 25 perform the collation processing as in the first embodiment. Then, the first collation processing unit 24 and the second collation processing unit 25 output to the output unit 13 the degree of matching between the face image input from the camera 2 and each face image specified from the database 104, respectively.
  • the output unit 13 calculates the average value of the degree of matching calculated by each collation process for each face image specified from the database 104, and matches the face image with the highest average value with the face image acquired from the camera 2. It may be specified and output as a face image to be used.
  • the output unit 13 performs statistical processing other than the average value, calculates the score after statistical processing of the degree of matching calculated by each collation processing for each face image specified from the database 104, and among the values.
  • the face image with the highest score may be specified and output as a face image matching the face image acquired from the camera 2.
  • the output unit 13 performs a predetermined weighting on the matching degree calculated in each matching process for each face image specified from the database 104, calculates a matching degree score in which each process is integrated, and the value is the highest.
  • a high face image may be specified and output as a face image matching the face image acquired from the camera 2.
  • the accuracy of collation can be improved regardless of how the user wears the mask and even when the user wears a special type of mask.
  • FIG. 6 is a diagram showing the minimum configuration of the collating device.
  • FIG. 7 is a diagram showing a processing flow by the collation device having the minimum configuration.
  • the collation device 1 may include at least the feature point extraction means 61, the collation processing determination means 62, and the collation processing means 63.
  • the feature point extraction means 61 calculates feature points from the face area of a person appearing in an image (step S701).
  • the collation processing determination means 62 identifies a specific area 40 in which the face of a person is not covered with a shield in the face area (step S702).
  • the collation processing means 63 performs collation processing using the feature points in the specific region (step S703).
  • Each of the above devices has a computer system inside.
  • the process of each process described above is stored in a computer-readable recording medium in the form of a program, and the process is performed by the computer reading and executing this program.
  • the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like.
  • this computer program may be distributed to a computer via a communication line, and the computer receiving the distribution may execute the program.
  • the above program may be for realizing a part of the above-mentioned functions.
  • a so-called difference file difference program
  • difference program difference program
  • collation processing unit 2 1 ... collation device 2 ... camera 3 ... display device 11 ... input unit 12 ... collation processing unit 13 ... output unit 21 ... face detection unit 22 ... feature point extraction Unit 23 ... Collation processing determination unit 24 ... First collation processing unit 25 ... Second collation processing unit 40 ... Specific area 100 ... Collation system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)

Abstract

画像に写る人物の顔領域から特徴点を検出する。顔領域において、人物の顔が遮蔽物により覆われていない特定領域を特定する。特定領域内の特徴点を用いて照合処理を行う。

Description

照合装置、照合方法、プログラム
 この開示は、照合装置、照合方法、プログラムに関する。
 照合対象となる人物の顔の照合を行う場合に、多くは顔の特徴量を用いて照合処理を行っている。特許文献1には照合処理の技術が開示されている。
特開2007-280250号公報
 照合対象の照合範囲が一部覆われている場合でも精度よく照合できることが望まれている。
 そこでこの発明は、上述の課題を解決する照合装置、照合方法、プログラムを提供することを目的としている。
 この開示の第1の態様によれば、照合装置は、画像に写る人物の顔領域から特徴点を検出し、前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定し、前記特定領域内の特徴点を用いて照合処理を行う。
 この開示の第2の態様によれば、照合方法は、画像に写る人物の顔領域から特徴点を検出し、前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定し、前記特定領域内の特徴点を用いて照合処理を行う。
 この開示の第3の態様によれば、プログラムは、照合装置のコンピュータを、画像に写る人物の顔領域から特徴点を検出する手段、前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定する手段、前記特定領域内の特徴点を用いて照合処理を行う手段、として機能させる。
この開示の一実施形態による照合システムの概略構成図である。 この開示の一実施形態による照合装置のハードウェア構成を示す図である。 この開示の一実施形態による照合装置の機能ブロック図である。 この開示の一実施形態による照合装置の処理概要を示す図である。 この開示の一実施形態による照合装置の処理フローを示す図である。 この開示の一実施形態による照合装置の最小構成を示す図である。 この開示の最小構成の照合装置による処理フローを示す図である。
 以下、この開示の一実施形態による照合装置を図面を参照して説明する。
 図1は本実施形態による照合システムの概略構成図である。
 照合システム100は、照合装置1、カメラ2、表示装置3を一例として含む。照合システム100は、照合装置1を少なくとも含めばよい。本実施形態において照合装置1は、カメラ2、表示装置3それぞれと通信ネットワークを介して接続する。カメラ2は照合対象である人物の顔画像を照合装置1へ出力する。照合装置1は顔画像をカメラ2から取得する。照合装置1は顔画像の照合処理を行う。照合装置1は照合処理の結果を表示装置3などの出力装置へ出力する。
 なお照合装置1が行う照合処理とは、一例として照合装置1の記憶する複数の人物の顔画像と、カメラ2から取得した顔画像とを用いて、カメラ2から取得した顔画像に一致する人物の顔画像を、照合装置1が記憶する複数の顔画像の中から特定する処理を言う。
 図2は照合装置のハードウェア構成を示す図である。
 図2で示すように、照合装置1は、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Random Access Memory)103、データベース104、通信モジュール105等の各ハードウェアを備えたコンピュータである。なお、表示装置3も同様のハードウェア構成を備えたコンピュータである。
 図3は照合装置の機能ブロック図である。
 照合装置1は、CPU101がROM102等に記憶する照合処理プログラムを実行する。これにより照合装置1は、入力部11、照合処理部12、出力部13の各機能を発揮する。
 入力部11は、カメラ2から顔画像を取得する。
 照合処理部12は、照合処理を行う。
 出力部13は、照合処理の結果を出力する。
 より具体的には照合処理部12は、カメラ2から取得した顔画像に写る人物の顔領域から特徴点を検出する。また照合処理部12は、特徴点検出結果が示す信頼度が第一閾値以上である場合、顔領域内の特徴点を用いて第一照合処理を行う。照合処理部12は、特徴点検出結果が示す信頼度が第一閾値より低い場合、顔領域内の特定領域内の特徴点を用いて第二照合処理を行う。ここでの「信頼度」とは、検出された特徴点の分布が示す裸の顔らしさを意味する。裸の顔とは、マスクやサングラスなどの遮蔽物によって顔の一部を覆われていない顔である。
 ここで照合処理部12は、人物の顔領域の全体を含む顔画像を教師データとして機械学習した第一照合機能により第一照合処理を行う。
 照合処理部12は、人物の顔領域の下部領域を除いた特定領域を含む画像を教師画像データとして機械学習した第二照合機能により第二照合処理を行う。
 照合処理部12は、特徴点検出結果が示す信頼度が第一閾値以上である範囲が顔画像の目、鼻、口、眉毛を含む範囲で多い場合に第一照合処理を行い、目、眉毛を含む範囲を除く他の範囲における特徴点検出結果が示す信頼度が低い場合に第二照合処理を行うようにしてよい。
 図4は、照合装置の処理概要を示す図である。
 照合装置1は、マスク装着無しの顔画像(41)、またはマスク装着有りの顔画像(42)をカメラ2から取得する。照合装置1は照合処理においてまず顔を検出する(43)。照合装置1は顔を検出するとマスクの装着有無の判定に相当する処理に基づいて、その後に行う照合処理の種別を判定する(44)。照合装置1はマスクの装着無しに相当すると判定した場合、第一照合処理(通常顔用の顔照合)を行う(45)。照合装置1はマスクの装着有りに相当すると判定した場合、特徴点検出結果が示す信頼度の高い範囲を含む特定領域40を特定し、その特定領域40の情報を用いて第二照合処理(マスク顔用の顔照合)を行う(46)。照合装置1は照合処理の結果を出力する(47)。
 照合プログラムには、第一照合処理の機能を発揮するための第一照合プログラムと、第二照合処理の機能を発揮するための第二照合プログラムとが含まれる。第一照合プログラムと、第二照合プログラムは、マスクの装着されていない複数の顔画像や顔画像に対応する教師データをニューラルネットワークなどの機械学習処理を用いて学習し、入力した顔画像と比較対象となった顔画像との間の一致度を少なくとも算出するプログラムである。しかしながら、第一照合プログラムは、顔全体が含まれる顔画を像用いて機械学習処理により学習した結果のモデルを用いたプログラムであり、第二照合プログラムは、顔画像における人物の顔領域の下部領域を除いた目や眉毛を含む特定領域40の画像を用いて機械学習処理により学習した結果のモデルを用いたプログラムである。ただし、特定領域40は、人物の顔領域の下部領域を除いた上部領域に限定されない。上述の通り、特定領域40は、人物の顔領域において、特徴点検出結果が示す信頼度の高い範囲を含む領域である。第二照合プログラムは、マスクの装着された複数の顔画像や顔画像に対応する教師データをニューラルネットワークなどの機械学習処理を用いて学習し、入力した顔画像と比較対象となった顔画像との間の一致度を少なくとも算出するプログラムであってもよい。
 より具体的には、照合装置1は、一例として、顔全体を含む顔画像を入力情報とし、データベースに記録されている複数の比較対象の顔画像の正解を示す一致度を出力情報として、その入出力関係をニューラルネットワークなどの機械学習処理を用いて学習し第一モデルを生成する。照合装置1は第一モデルやニューラルネットのプログラムなどを含む第一照合プログラムを生成する。照合装置1は、顔全体を含む顔画像を入力情報とし、データベースに記録されている複数の比較対象の顔画像についての一致度を算出する第一モデルの生成を公知の技術を用いて行ってよい。
 また照合装置1は、一例として、顔画像における人物の顔領域の下部領域を除いた目や眉毛を含む特定領域40を入力情報とし、データベースに記録されている複数の比較対象の顔画像の正解を示す一致度を出力情報として、その入出力関係をニューラルネットワークなどの機械学習処理を用いて学習し第二モデルを生成する。照合装置1は第二モデルやニューラルネットのプログラムなどを含む第二照合プログラムを生成する。照合装置1は、顔画像における人物の顔領域の下部領域を除いた目や眉毛を含む特定領域40を入力情報とし、データベースに記録されている複数の比較対象の顔画像についての一致度を算出する第一モデルの生成を公知の技術を用いて行ってよい。
 照合装置1は第一照合プログラムと第二照合プログラムとを含む照合プログラムを記憶する。
 照合処理部12は、顔検出部21、特徴点抽出部22、照合処理判定部23、第一照合処理部24、第二照合処理部25の機能を発揮する。
 顔検出部21は、顔画像から顔の領域を検出する。
 特徴点抽出部22は、顔画像に含まれる特徴点の位置を算出し、特徴点検出結果が示す信頼度を算出する。
 照合処理判定部23は、顔画像に含まれる各特徴点とその信頼度に基づいて、第一照合プログラムによる照合処理を行うか、第二照合プログラムによる照合処理を行うかを判定する。この処理は、マスクの装着有無を判定することに相当する。つまり第一照合プログラムによる照合処理は、マスクの装着無しの場合における照合処理に相当する。また第二照合プログラムによる照合処理は、マスクの装着有りの場合における照合処理に相当する。
 第一照合処理部24は、第一照合プログラムを用いて顔画像の第一照合処理を行う。第一照合処理部24は、この処理において、顔領域における所定領域(例えば顔全体)に検出された特徴点検出結果が示す信頼度が第一閾値以上である特徴点の分布が有意であると判定された場合に、顔領域内の特徴点を用いて第一照合処理を行う。
 第二照合処理部25は、第二照合プログラムを用いて、顔画像において特定領域40を特定し、その特定領域40に基づいて顔画像の照合処理を行う。第二照合処理部25は、この処理において、所定領域(例えば顔全体)に検出された特徴点検出結果が示す信頼度が第一閾値未満である特徴点の分布が有意でないと判定された場合に、所定領域と異なる特定領域(上述の矩形の特定領域40)内の特徴点を用いて第二照合処理を行う。
 ユーザは、マスク及びサングラスをどちらも装着している場合がありうる。この場合、特定領域40が小さすぎることが想定される。そこで、第二照合処理部25は、特定領域40の面積がある一定の大きさよりも小さい場合、音声メッセージあるいは表示により、マスクやサングラスなど、顔の一部が隠れるものを外すように、ユーザに要求してもよい。その後、第二照合処理部25は、再度、第二照合プログラムを用いて、顔画像において特定領域40を特定する。
 以上では、照合装置1が1つの第二照合プログラムを所持している場合を例示した。しかしながら、照合装置1は、2つ以上の複数の第二照合プログラムを所持していてよい。一変形例では、複数の第二照合プログラムは、互いに異なる特定領域40と対応付けられている。例えば、1つの第二照合プログラムは、特定領域40が上部領域である場合(つまりユーザの顔の上半分が覆われていない場合)に対応する。別の1つの第二照合プログラムは、特定領域40が下部領域である場合(つまりユーザの顔の下半分が覆われていない場合)に対応する。この場合、第二照合処理部25は、まず、顔画像において特定領域40を特定する。第二照合処理部25は、特定領域40の位置あるいは範囲に応じて、いずれか1つの第二照合プログラムを選択する。そして、第二照合処理部25は、選択した第二照合プログラムを用いて、上述したように、第二照合処理を実行する。
 本変形例では、ユーザがマスクを装着している場合であっても、またユーザがサングラスを装着している場合であっても、照合装置1は、複数の第二照合プログラムを使い分けることで、ユーザを正確に照合することができる。
<第一実施形態>
 図5は第一実施形態による照合装置の処理フローを示す図である。
 以下、照合装置1の処理フローについて順を追って説明する。
 照合システム100のユーザは、自身の照合を受ける際にカメラ2に近づく。カメラ2はユーザの顔を撮影して顔画像を生成する。カメラ2は顔画像を照合装置1へ出力する。照合装置1の入力部11は顔画像を入力する(ステップS101)。入力部11は顔画像を照合処理部12へ出力する。ただし、ステップS101において、ユーザがカメラ2を意識していないときに、カメラ2がユーザを撮影してもよい。例えば、カメラ2は、ユーザの顔の向きあるいは位置などの状態などに基づいて、ユーザの顔を撮影するタイミングを決定してよい。
 照合処理部12において顔検出部21が顔画像を取得する。顔検出部21は顔画像に写るユーザに基づいて顔領域を検出する(ステップS102)。当該顔領域は、眼、鼻、口、眉毛、顎、額、頬などが含まれる範囲であってよい。一例として、当該顔領域には髪の毛の領域は含まれない。顔検出部21における顔領域の検出は公知の技術を用いてよい。顔検出部21は顔検出プログラムに顔画像を入力した結果、当該顔検出プログラムの出力した顔領域を取得してよい。顔検出プログラムは、顔画像を入力情報とし、顔領域を出力情報とする入出力の関係を機械学習して得られたモデルを用いて生成されたプログラムである。顔検出部21は顔領域の検出結果に基づいて顔領域を検出できたかを判定する(ステップS103)。顔検出部21は顔領域を検出できると、当該顔領域の画像情報を特徴点抽出部22へ出力する。顔検出部21は顔領域を検出できない場合、処理を終了して次の顔画像の入力を待つ。
 特徴点抽出部22は、顔領域の画像情報に基づいて当該顔領域に含まれる特徴点の座標と、特徴点検出結果が示す信頼度を算出する(ステップS104)。特徴点抽出部22は特徴点抽出プログラムに顔領域の画像情報を入力した結果、当該特徴点抽出プログラムの出力した特徴点や各特徴点検出結果が示す信頼度を取得してよい。特徴点抽出プログラムは、顔領域の画像情報を入力情報とし、顔領域に含まれる特徴点とその信頼度を出力情報とする入出力の関係を機械学習して得られたモデルを用いて生成されたプログラムであってよい。特徴点抽出部22は、顔領域から算出した特徴点(座標など)と各特徴点検出結果が示す信頼度を、照合処理判定部23へ出力する。特徴点抽出部22は、顔の特徴点の座標の算出と、各特徴点検出結果が示す信頼度の算出を公知の技術を用いて行ってよい。一変形例では、特徴点抽出プログラムは、顔領域の画像情報を入力情報とし、顔領域に含まれる特徴点と、顔の一部の遮蔽物の有無と対応するパラメータ(例えば0または1)とを出力情報とする入出力の関係を機械学習して得られたモデルを用いて生成されたプログラムであってよい。この場合、特徴点抽出プログラムが、入力情報に基づいて、顔の一部の遮蔽物の有無を判定し、判定結果を示すパラメータを出力するようにあらかじめ学習される。以下では、特徴点抽出部22が信頼度を出力する場合について説明する。しかしながら、特徴点抽出部22は、信頼度の代わりに、顔の一部の遮蔽物の有無と対応するパラメータを出力してもよい。この場合、以下の説明における「徴点検出結果が示す信頼度」を「パラメータ」に読み替えることができる。
 照合処理判定部23は、特徴点抽出部22の算出した顔領域に含まれる特徴点とその信頼度を取得する。照合処理判定部23は、顔領域において検出された各特徴点検出結果が示す信頼度に基づいて、照合処理を決定する(ステップS105)。
 具体的には、照合処理判定部23は、顔領域において検出された各特徴点検出結果が示す信頼度が所定の第一閾値以上となる特徴点を特定する。第一閾値以上の信頼度の特徴点は、特徴点として信頼できる特徴点である。照合処理判定部23は、第一閾値以上の信頼度の特徴点の顔領域における分布が、眉毛、目、鼻、口、などの顔の部位に相当する位置に検出できる場合には、マスク装着無しに相当するため第一照合処理を行うと判定する。この判定において照合処理判定部23は、第一閾値以上の信頼度の特徴点の顔領域における分布に基づいて、眉毛、目、鼻、口、などの顔の部位に相当する位置に、第一閾値以上の信頼度の特徴点が統計的に有意な数検出できる場合に、マスク装着無しに相当するため第一照合処理を行うと判定してよい。
 または照合処理判定部23は、顔領域における下部領域を、顔領域を示す座標情報などに基づいて特定し、その下部領域における信頼度の高い特徴点の数や分布や統計情報に基づいて照合処理を判定してもよい。照合処理判定部23は、顔領域における下部領域における信頼度の高い特徴点の数が閾値と比較して少ない場合、その特徴点の分布や統計情報が有意な特徴点が無いと判定される場合(マスクを装着していることに相当する場合)には第二照合処理を行い、そうでない場合には第一照合処理を行うと判定してもよい。
 または照合処理判定部23は、顔領域に検出された特徴点の座標と各特徴点検出結果が示す信頼度とを照合処理判定プログラムに入力し、その結果、第一照合処理を行うか、第二照合処理を行うかを判定してよい。照合処理判定プログラムは、顔領域に検出された特徴点の座標と信頼度とを入力情報とし、マスク装着有りに相当するため第一照合処理となることまたはマスク装着無しに相当するため第二照合処理となることを示す結果を出力情報とする、入出力関係を機械学習して得られたモデルを用いて生成されたプログラムであってよい。
 このように照合処理判定部23は、第一照合処理、または第二照合処理の何れかを示す判定結果を算出する。照合処理判定部23は、第一照合処理を行うと判定した場合、第一照合処理部24へ処理を指示する。照合処理判定部23は、第二照合処理を行うと判定した場合、第二照合処理部25へ処理を指示する。
 第一照合処理を行うと判定された場合、第一照合処理部24は顔画像を入力する。第一照合処理部24は、第一照合プログラムを用いた処理を開始する(ステップS106)。この処理において第一照合処理部24は、カメラ2から取得した顔画像を入力する。また第一照合処理部24は、データベース104に含まれる複数の顔画像の中から順に特定した顔画像を入力する。第一照合処理部24は、カメラ2から入力した顔画像と、データベース104に含まれる複数の顔画像(比較対象)の中から特定した顔画像との一致度を、データベース104に含まれる複数の顔画像の中から順に特定した顔画像それぞれについて算出する(ステップS107)。上述した通り、第一照合プログラムは機械学習処理によって生成されたモデルを用いたプログラムである。これにより第一照合処理部24は、カメラ2から入力した顔画像と、データベース104から特定した各顔画像との一致度を算出することができる。第一照合処理部24は、カメラ2から入力した顔画像と、データベース104から特定した各顔画像との一致度を、出力部13へ出力する。出力部13は、最も値の高い一致度の算出対象となったデータベース104から特定した顔画像を、カメラ2から入力した顔画像に最も一致度の高い顔画像を特定して表示装置3へ出力する(ステップS108)。
 第二照合処理を行うと判定された場合、第二照合処理部25は顔画像を入力する。第二照合処理部25は、第二照合プログラムを用いた処理を開始する(ステップS109)。この処理において第二照合処理部25は、カメラ2から取得した顔画像を入力する。第二照合処理部25は顔画像の顔領域の座標情報を用いて、顔領域の上部における矩形の特定領域40を算出する(ステップS110)。特定領域40は、特徴点検出結果が示す信頼度が第一閾値以上である特徴点を含む領域である。これによりマスクなどで覆われていない範囲を特定領域40と決定することができる。特定領域40は、目、眉毛、額の範囲を覆う範囲であってよい。特定領域40は矩形の範囲以外の形状を示す範囲であってもよい。特定領域40の算出は、第二照合プログラムに含まれる特定領域算出プログラムを用いた処理において顔画像や当該顔画像において算出された顔領域を入力情報として入力し、その結果出力した領域であってよい。この場合、特定領域算出プログラムは、顔画像や当該顔画像において算出された顔領域を入力情報とし、当該顔領域の上部における矩形の特定領域40を出力情報とする入出力関係を機械学習して得られたモデルを用いて生成されたプログラムである。矩形領域を特定することにより、顔画像の顔領域がマスクなどで覆われている場合に、照合処理を行う範囲を決定することができる。
 上述の特定領域40の算出において、第二照合処理部25は、顔画像の大きさに応じてその領域の大きさを決定してよい。また第二照合処理部25は、顔画像の顔領域における特定領域40を、信頼度の高い特徴点を含む範囲に広げてよい。この処理によれば、ユーザが片目に眼帯などの顔を部分的に遮蔽している遮蔽物を装着している場合などにおいて、その遮蔽物によって特徴点検出結果が示す信頼度が低い領域(眼帯をしている目の領域)を除いた、信頼度の高い特徴点が分布する範囲を特定領域40として算出するようにしてもよい。具体的には、第二照合処理部25は右目に眼帯が装着されている場合には、右目以外の範囲を特定領域40と算出するようにしてもよい。この場合、第二照合処理部25は、マスク、眼帯、帽子などの遮蔽物の種類に応じてそれぞれ機械学習によって生成されたモデルを含む第二照合プログラムのうち、カメラ2から取得した画像において信頼度が高い特徴点が分布する領域(すなわち特定領域40)に対応する第二照合プログラムを特定し、そのプログラムを用いて第二照合処理を行うようにしてよい。特定領域40は、顔領域の上部の矩形領域である場合に限定されない。本開示は、マスクの他、眼帯などのマスク以外の遮蔽物によって顔が覆われているか否かの判定結果、および遮蔽物によって顔が隠されていない特定領域40の位置及び/または範囲に基づいて、第一照合処理と第二照合処理の何れかを実行するものを包含する。
 第二照合処理部25は、データベース104に含まれる複数の顔画像の中から順に特定した顔画像を入力する。第二照合処理部25は、カメラ2から入力した顔画像の顔領域における特定領域40と、データベース104に含まれる複数の顔画像の中から特定した顔画像の顔領域における対応する特定領域40との一致度を、データベース104に含まれる複数の顔画像の中から順に特定した顔画像それぞれについて算出する(ステップS111)。上述した通り、第二照合プログラムは機械学習処理によって生成されたモデルを用いたプログラムである。これにより第二照合処理部25は、カメラ2から入力した顔画像の顔領域において特定した特定領域40と、データベース104から特定した各顔画像における顔領域の特定領域40との一致度を算出することができる。第二照合処理部25は、カメラ2から入力した顔画像の顔領域における特定領域40と、データベース104から特定した各顔画像の顔領域における特定領域40との一致度を、出力部13へ出力する。出力部13は、最も値の高い一致度の算出対象となったデータベース104から特定した顔画像を、カメラ2から入力した顔画像に最も類似度の高い顔画像を特定して表示装置3へ出力する(ステップS112)。
 以上の処理により、照合装置1は、ユーザがマスクを装着していない場合においては、顔領域の各特徴点検出結果が示す信頼度が高いため第一照合処理を用いて、カメラ2から取得した顔画像に一致する顔画像を、照合装置1が記憶する複数の顔画像の中から特定する。また照合装置1は、ユーザがマスクを装着している場合においては、顔領域の口や鼻を含む下部の領域の各特徴点検出結果が示す信頼度が低いため第二照合処理を用いて、カメラ2から取得した顔画像に一致する顔画像を、照合装置1が記憶する複数の顔画像の中から特定する。これにより、ユーザの顔の一部がマスクなどで覆われていない場合と、覆われている場合とでそれぞれ適切な照合処理を用いることができ、照合の精度を向上させることができる。
 また上述の処理において、顔画像や顔画像において特定した顔領域の大きさに応じて第二照合処理で用いる特定領域40を特定する。これにより、顔画像の大きさに応じた適切な照合の精度を確保することができる。
<第二実施形態>
 上述の処理において、照合装置1は、第一照合処理を行った結果出力される一致度を示すスコア、あるいは、第二照合処理を行った結果出力される一致度を示すスコアを正規化して出力するようにしてもよい。この場合、照合装置1は、一致度を示すスコアを、顔領域及び特定領域40の大きさ、特徴点の数、特徴点検出結果が示す信頼度に応じて正規化するようにしてもよい。一例では、照合装置1は、スコアの算出に用いられた特徴点の数に応じた重みを、スコアに対して付加する。スコアの算出に用いられた特徴点の数が少ないほど、スコアの重みは小さくなる。換言すれば、照合装置1は、スコアの算出に用いられた特徴点の数が少ないほど、スコアを割り引く。この場合、照合装置1は正規化スコア算出式を用いる。照合装置1は顔領域の大きさ、特徴点の数、特徴点検出結果が示す信頼度と、一致度を示すスコアを正規化スコア算出式に入力し、その出力となる正規化後のスコア値を得る。出力部13はこのような処理により正規化後の一致度のスコア値を出力してもよい。または出力部13は、データベース104に記録されている顔画像のうち、最も一致度の示すスコア値の最も高い顔画像を特定し出力するようにしてもよい。または出力部13は、データベース104に記録されている顔画像のうち、最も一致度の示すスコア値の最も高い顔画像に紐づいて記録されているユーザ情報を出力するようにしてもよい。このような正規化処理により、第一照合処理と第二照合処理の結果が示す一致度のスコアの信頼性を統一することができる。
<第三実施形態>
 照合システム100のユーザが、鼻を出すようにマスクを装着していたり、あるいは、口元だけを覆う特殊なマスクを装着したりしている場合、特徴点検出結果が示す信頼度は、上述した第一閾値に近づくことが想定される。
 照合処理判定部23はカメラ2から取得した顔画像の各特徴点検出結果が示す信頼度から、第一照合処理と第二照合処理の何れの照合処理を利用するかを特定できない場合には、照合装置10は、音声メッセージあるいは表示により、マスクやサングラスなど、顔の一部が隠れるものを外すように、ユーザに要求してもよい。その後、照合処理判定部23は、再度、信頼度に基づいて、第一照合処理と第二照合処理の何れの照合処理を利用するかを判定する。
 あるいは、照合処理判定部23は、両方の照合処理を用いて照合処理を行うことを決定してもよい。具体的には、照合処理判定部23は、顔画像において特定した所定領域(口や鼻を含む領域)の各特徴点検出結果が示す信頼度や、顔画像における多くの特徴点検出結果が示す信頼度が、上記第一閾値以上の第二閾値と、第一閾値未満の第三閾値との間にある場合には、マスクなどで覆われているかどうかが不明なため、第一照合処理と第二照合処理の両方を用いて照合処理を行うと決定する。
 この場合、第一実施形態と同様に第一照合処理部24と、第二照合処理部25が照合処理を行う。そして第一照合処理部24と第二照合処理部25はそれぞれ、カメラ2から入力した顔画像と、データベース104から特定した各顔画像の一致度を、出力部13へ出力する。出力部13は、データベース104から特定した各顔画像に対して各照合処理で算出された一致度の平均値を算出し、最も平均値が高い顔画像を、カメラ2から取得した顔画像に一致する顔画像として特定し出力してよい。または出力部13は、平均値以外の統計処理を行って、データベース104から特定した各顔画像に対して各照合処理で算出された一致度の統計処理後のスコアを算出し、その値のうち最も高いスコアの顔画像を、カメラ2から取得した顔画像に一致する顔画像として特定し出力してよい。出力部13は、データベース104から特定した各顔画像に対して各照合処理で算出された一致度に所定の重みづけを行って各処理を統合した一致度のスコアを算出し、その値が最も高い顔画像を、カメラ2から取得した顔画像に一致する顔画像として特定し出力してよい。
 以上の処理により、ユーザのマスクの装着の仕方によらず、またユーザが特殊なタイプのマスクを装着している場合でも、照合の精度を向上させることができる。
 図6は照合装置の最小構成を示す図である。
 図7は最小構成の照合装置による処理フローを示す図である。
 照合装置1は、少なくとも、特徴点抽出手段61、照合処理判定手段62、照合処理手段63を備えればよい。
 特徴点抽出手段61は、画像に写る人物の顔領域から特徴点を算出する(ステップS701)。
 照合処理判定手段62は、顔領域において、人物の顔が遮蔽物により覆われていない特定領域40を特定する(ステップS702)。
 照合処理手段63は、特定領域内の特徴点を用いて照合処理を行う(ステップS703)。
 上述の各装置は内部に、コンピュータシステムを有している。そして、上述した各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD-ROM、DVD-ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
 また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1・・・照合装置
2・・・カメラ
3・・・表示装置
11・・・入力部
12・・・照合処理部
13・・・出力部
21・・・顔検出部
22・・・特徴点抽出部
23・・・照合処理判定部
24・・・第一照合処理部
25・・・第二照合処理部
40・・・特定領域
100・・・照合システム

Claims (9)

  1.  画像に写る人物の顔領域から特徴点を検出し、
     前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定し、
     前記特定領域内の特徴点を用いて照合処理を行う
     照合装置。
  2.  前記特徴点の検出結果が示す信頼度が第一閾値以上である場合、前記顔領域内の特徴点を用いて第一照合処理を行い、
     前記特徴点の検出結果が示す信頼度が前記第一閾値より低い場合、前記顔領域内の特定領域内の特徴点を用いて第二照合処理を行う
     請求項1に記載の照合装置。
  3.  人物の顔領域の全体を含む画像を教師データとして機械学習した第一照合機能により前記第一照合処理を行い
     人物の顔領域の下部領域を除いた前記特定領域を含む画像を教師画像データとして機械学習した第二照合機能により前記第二照合処理を行う
     請求項2に記載の照合装置。
  4.  前記特定領域は、前記顔領域の上部の矩形領域である
     請求項2から請求項3の何れか一項に記載の照合装置。
  5.  前記第一照合処理を行った結果出力される一致度を示すスコア、あるいは、前記第二照合処理を行った結果出力される一致度を示すスコアを正規化して出力する
     請求項2から請求項4の何れか一項に記載の照合装置。
  6.  当該信頼度が高いと判定するために用いる前記第一閾値と当該第一閾値よりも大きい第二閾値の範囲と、前記第一閾値未満かつ当該第一閾値よりも小さい第三閾値の範囲との間に前記信頼度が含まれる場合は、前記第一照合処理および前記第二照合処理の両方を行う
     請求項2から請求項5の何れか一項に記載の照合装置。
  7.  前記特定領域は、前記特徴点の検出結果が示す信頼度が前記第一閾値以上である領域である
     請求項2から請求項6の何れか一項に記載の照合装置。
  8.  画像に写る人物の顔領域から特徴点を検出し、
     前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定し、
     前記特定領域内の特徴点を用いて照合処理を行う
     照合方法。
  9.  照合装置のコンピュータを、
     画像に写る人物の顔領域から特徴点を検出する手段、
     前記顔領域において、前記人物の顔が遮蔽物により覆われていない特定領域を特定する手段、
     前記特定領域内の特徴点を用いて照合処理を行う手段、
     として機能させるプログラム。
PCT/JP2020/035822 2020-09-23 2020-09-23 照合装置、照合方法、プログラム WO2022064565A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022536700A JP7272510B2 (ja) 2020-09-23 2020-09-23 照合装置、照合方法、プログラム
US18/025,844 US20230351802A1 (en) 2020-09-23 2020-09-23 Comparison device, comparison method, and program
PCT/JP2020/035822 WO2022064565A1 (ja) 2020-09-23 2020-09-23 照合装置、照合方法、プログラム
EP20955159.7A EP4220544A4 (en) 2020-09-23 2020-09-23 COMPARISON DEVICE, COMPARISON METHOD AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/035822 WO2022064565A1 (ja) 2020-09-23 2020-09-23 照合装置、照合方法、プログラム

Publications (1)

Publication Number Publication Date
WO2022064565A1 true WO2022064565A1 (ja) 2022-03-31

Family

ID=80844563

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/035822 WO2022064565A1 (ja) 2020-09-23 2020-09-23 照合装置、照合方法、プログラム

Country Status (4)

Country Link
US (1) US20230351802A1 (ja)
EP (1) EP4220544A4 (ja)
JP (1) JP7272510B2 (ja)
WO (1) WO2022064565A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280250A (ja) 2006-04-11 2007-10-25 Matsushita Electric Ind Co Ltd 顔認証システム
JP2016081212A (ja) * 2014-10-15 2016-05-16 日本電気株式会社 画像認識装置、画像認識方法、および、画像認識プログラム
CN111597910A (zh) * 2020-04-22 2020-08-28 深圳英飞拓智能技术有限公司 一种人脸识别方法、装置、终端设备及介质
CN111626213A (zh) * 2020-05-27 2020-09-04 北京嘀嘀无限科技发展有限公司 一种身份验证方法、装置、电子设备及可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017120609A (ja) * 2015-12-24 2017-07-06 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
US10956717B2 (en) * 2016-08-08 2021-03-23 Panasonic Intellectual Property Management Co., Ltd. Collator and method for displaying result of collation
WO2018122960A1 (ja) 2016-12-27 2018-07-05 株式会社オプティム 撮影者特定システム、撮影者特定方法およびプログラム
US11210498B2 (en) * 2017-06-26 2021-12-28 Nec Corporation Facial authentication device, facial authentication method, and program recording medium
JPWO2019097784A1 (ja) * 2017-11-16 2020-10-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN111373408B (zh) * 2017-11-27 2023-05-02 三菱电机株式会社 表情识别装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007280250A (ja) 2006-04-11 2007-10-25 Matsushita Electric Ind Co Ltd 顔認証システム
JP2016081212A (ja) * 2014-10-15 2016-05-16 日本電気株式会社 画像認識装置、画像認識方法、および、画像認識プログラム
CN111597910A (zh) * 2020-04-22 2020-08-28 深圳英飞拓智能技术有限公司 一种人脸识别方法、装置、终端设备及介质
CN111626213A (zh) * 2020-05-27 2020-09-04 北京嘀嘀无限科技发展有限公司 一种身份验证方法、装置、电子设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4220544A4

Also Published As

Publication number Publication date
JP7272510B2 (ja) 2023-05-12
US20230351802A1 (en) 2023-11-02
JPWO2022064565A1 (ja) 2022-03-31
EP4220544A1 (en) 2023-08-02
EP4220544A4 (en) 2023-11-22

Similar Documents

Publication Publication Date Title
Czajka Pupil dynamics for iris liveness detection
JP6550094B2 (ja) 認証装置および認証方法
JP3337988B2 (ja) 個体識別装置
EP3680794A1 (en) Device and method for user authentication on basis of iris recognition
JP2006293644A (ja) 情報処理装置、情報処理方法
CN109886080A (zh) 人脸活体检测方法、装置、电子设备及可读存储介质
JP2016157420A (ja) 画像テンプレートマスキング
CN109766785A (zh) 一种人脸的活体检测方法及装置
US11682235B2 (en) Iris authentication device, iris authentication method and recording medium
JP2004265267A (ja) 顔認証方法、および顔認証装置。
JP5480532B2 (ja) 画像処理装置、画像処理方法、及び同方法をコンピュータに実行させるプログラム
JP5730044B2 (ja) 顔画像認証装置
WO2022064565A1 (ja) 照合装置、照合方法、プログラム
Quintiliano et al. Face recognition based on eigeneyes
Bhandwalkar et al. Continuous user authentication using soft biometric traits for E-learning
Dewantara et al. Estimating head orientation using a combination of multiple cues
Huang et al. Point-of-regard measurement via iris contour with one eye from single image
CN111937005A (zh) 生物特征识别方法、装置、设备及存储介质
WO2021245932A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
Colak et al. Eyematch: An Eye Localization Method For Frontal Face Images
US20230360436A1 (en) Synthetic masked biometric signatures
Gupta et al. A study on Evolution of Facial Recognition Technology
US20220180629A1 (en) Information providing device, information providing method, and storage medium
WO2024100891A1 (ja) 情報処理装置、情報処理方法、及び、記録媒体
Middendorff et al. Multibiometrics using face and ear

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20955159

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022536700

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020955159

Country of ref document: EP

Effective date: 20230424