WO2022244357A1 - 生体の認証システムおよび認証方法 - Google Patents

生体の認証システムおよび認証方法 Download PDF

Info

Publication number
WO2022244357A1
WO2022244357A1 PCT/JP2022/006798 JP2022006798W WO2022244357A1 WO 2022244357 A1 WO2022244357 A1 WO 2022244357A1 JP 2022006798 W JP2022006798 W JP 2022006798W WO 2022244357 A1 WO2022244357 A1 WO 2022244357A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
authentication
period
face
feature
Prior art date
Application number
PCT/JP2022/006798
Other languages
English (en)
French (fr)
Inventor
直人 三浦
渓一郎 中崎
友輔 松田
洋 野々村
晃朗 長坂
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to US18/278,057 priority Critical patent/US20240126853A1/en
Priority to EP22804278.4A priority patent/EP4343689A1/en
Publication of WO2022244357A1 publication Critical patent/WO2022244357A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/117Identification of persons
    • A61B5/1171Identification of persons based on the shapes or appearances of their bodies or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/14Vascular patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities

Definitions

  • the present invention relates to an authentication system and an authentication method for authenticating an individual using biometric information.
  • biometric authentication technology has been used as a means of reducing the risk of information leakage and unauthorized use of mobile terminals such as smartphones and notebook PCs.
  • mobile terminals used in remote environments have a high risk of being illegally used by others. Therefore, when accessing a terminal or information system, it is required to perform personal authentication each time. However, it is troublesome to enter a password every time, and there is a risk of forgetting or leaking the password.
  • Cashless payments are becoming popular at retail stores such as convenience stores and restaurants.
  • Cashless payment is highly convenient because there is no need to pay cash on the spot, and it is also highly advantageous for stores to introduce it because it can promote customer purchases by linking with various point services. If biometric authentication is used for such cashless payment, there is no need to carry a card or the like, and since the identity of the person can be confirmed with certainty, a convenient and effective service can be provided.
  • biometric authentication has many advantages in preventing unauthorized access and realizing cashless payments
  • the need for additional dedicated biometric authentication devices increases the introduction cost, which hinders its widespread use.
  • biometric authentication can be performed using biometric images captured by general-purpose cameras installed in smartphones, notebook PCs, etc.
  • the barriers to introducing biometric authentication can be lowered.
  • the authentication operation can be performed without contact, the risk of the spread of infectious diseases, which is a recent social problem, will be reduced, so it is thought that it can be introduced and used with peace of mind.
  • biometric authentication the user's own biometrics such as fingers, hands, and face are held over the authentication terminal, and the identity of the registrant is confirmed after matching with pre-registered biometric information. Login and payment are performed only when the registered user is authenticated.
  • biometric authentication based on features of the inside of a living body such as finger veins is known as one capable of realizing highly accurate authentication.
  • Finger vein authentication uses a complicated blood vessel pattern inside the finger, so it achieves excellent authentication accuracy, and is more difficult to forge and falsify than fingerprint authentication, so it can achieve a high level of security.
  • Biometric authentication using a general-purpose camera is more difficult to photograph under suitable conditions than biometric authentication using a dedicated sensor that specializes in photographing a living body, and authentication accuracy tends to decrease due to deterioration in image quality.
  • multimodal biometric authentication technology that improves authentication accuracy by using multiple pieces of biometric information is effective. Basically, it is relatively easy to take images at the same time, and it is possible to combine a plurality of biometric features with low correlation between biometric features or imaging conditions, and play complementary roles in each biometric feature. It is possible to effectively improve authentication accuracy.
  • the former tends to take a long time to shoot, while the latter poses a challenge in that it is difficult to hold the body over at the same time.
  • the face may be tilted or the face may be blocked by the held finger.
  • Patent Document 1 is a multimodal authentication technology that simultaneously performs face and fingerprint matching.
  • Patent Document 2 discloses a technique for measuring the flatness of an image of a face while using the face and fingerprints for authentication.
  • Japanese Patent Laid-Open No. 2002-200001 has a first phase in which face matching is performed using face data, and a second phase in which finger matching and face photographing are performed.
  • a technique for detecting the face orientation (up, down, left, or right) of a face image while photographing a face is disclosed.
  • face image photography in the second phase is used not for face authentication but for gesture determination, and there is no mention of technology for solving problems related to accuracy improvement and speeding up of multimodal authentication.
  • Patent Document 2 when the finger is placed on the fingerprint sensor, the illumination for photography is turned on toward the face, and the face is photographed by the camera. A technology has been disclosed in which each feature amount for face authentication and each feature amount for fingerprint authentication are put into the same category, and individual authentication is performed using a minimum distance identification method or the like. Although Patent Document 2 discloses the viewpoint of performing highly accurate multimodal biometric authentication using a face and fingerprints, in addition to the need for a fingerprint sensor, accuracy can be improved by suppressing posture fluctuations. There is no mention of planning techniques.
  • the above-mentioned problems are not limited to multimodal biometric authentication of the face and fingers, but also include iris, auricle, facial vein, subconjunctival blood vessel, palm vein, back vein, palm print, joint print inside and outside the finger, vein on the back of the finger, etc.
  • iris auricle
  • facial vein subconjunctival blood vessel
  • palm vein back vein
  • palm print joint print inside and outside the finger
  • vein on the back of the finger etc.
  • An object of the present invention is to provide a biometric authentication system and a biometric authentication method that can achieve high-precision and high-speed authentication even when posture variation or shielding occurs during multimodal biometric imaging.
  • a storage device for storing a plurality of biometric feature values associated with each user, a photographing device for photographing the biometric body, an image photographed by the photographing device is inputted
  • the imaging device captures a first biometric image of a first user during a first period, which is different from the first period.
  • the first user's second and third living bodies are imaged.
  • the authentication processing device calculates a first feature amount from the first living body photographed during the first period, and calculates a second feature amount from the second living body and the third living body photographed during the second period.
  • a feature amount and a third feature amount are respectively calculated, and the biometric feature amount for each user stored in the storage device, the first feature amount, the second feature amount, and the third feature amount are calculated.
  • the user is authenticated by matching the
  • FIG. 1 is a diagram showing the overall configuration of a biometric authentication system according to Example 1;
  • FIG. 4 is a diagram illustrating an example of a functional configuration of a program stored in memory according to the first embodiment;
  • FIG. 1 is a schematic diagram showing the configuration of a multimodal biometrics authentication system using a general-purpose front camera according to the first embodiment;
  • FIG. 4 is a diagram illustrating an example of a processing flow of a registration processing unit of the biometric authentication system according to the first embodiment;
  • FIG. 4 is a diagram illustrating an example of a processing flow of an authentication processing unit of the biometric authentication system according to the first embodiment;
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by guiding the face and fingers at the same time.
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by simultaneously holding a face and a finger, according to the first embodiment;
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by simultaneously holding a face and a finger, according to the first embodiment;
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by simultaneously holding a face and a finger, according to the first embodiment;
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by simultaneously holding a face and a finger, according to the first embodiment;
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multi
  • FIG. 10 is an example of a screen transition diagram at the time of authentication of multimodal biometric authentication technology in which authentication is performed by simultaneously holding a face and a finger, according to the first embodiment;
  • FIG. 4 is an explanatory diagram of one method of buffering and selection processing of facial feature amounts according to the first embodiment;
  • FIG. 10 is an explanatory diagram of one method of buffering and selection processing of feature amounts of a face and fingers according to the first embodiment;
  • FIG. 10 is an explanatory diagram of one method of feature pair generation based on feature amounts of a face and fingers according to the first embodiment;
  • FIG. 4 is an explanatory diagram showing an example of a multimodal biometrics authentication technology based on alternate authentication using a face and fingers according to the first embodiment;
  • FIG. 4 is an explanatory diagram showing an example of a multimodal biometrics authentication technology based on alternate authentication using a face and fingers according to the first embodiment
  • FIG. 10 is a diagram showing an example of a processing flow of an authentication processing unit of a biometric authentication system capable of singly matching a face and fingers, according to the second embodiment
  • FIG. 10 is an explanatory diagram showing an example of a multimodal biometric authentication technique omitting processing of a face or fingers according to a second embodiment
  • a processor may be the subject of the processing to perform the processing while appropriately using storage resources (eg, memory) and/or interface devices (eg, communication ports).
  • a main body of processing executed by executing a program may be a controller having a processor, a device, a system, a computer, or a node.
  • the main body of processing performed by executing the program may be an arithmetic unit, and may include a dedicated circuit (for example, FPGA (Field-Programmable Gate Array) or ASIC (Application Specific Integrated Circuit)) that performs specific processing. .
  • biometric features include finger veins, fingerprints, joint patterns, skin patterns, finger contour shapes, fatty lobule patterns, length ratios of each finger, finger width, finger area, melanin pattern, and palm veins. , palmprints, veins on the back of the hand, facial veins, ear veins, or anatomically different biological features such as the face, ears, and irises.
  • FIG. 1A is a diagram showing an example of the overall configuration of a biometric authentication system 1000 using biometric features in this embodiment.
  • the configuration of this embodiment may be configured not as an authentication system but as an authentication device in which all or part of the configuration is mounted in a housing.
  • the authentication device may be a personal authentication device including authentication processing, or a finger image acquisition device or a finger feature image extraction device that performs authentication processing outside the device and specializes in acquiring a finger image.
  • the embodiment may be a terminal.
  • the authentication device includes an imaging unit that captures a living body, and an authentication processing unit that processes the captured image and performs biometrics authentication. It is a device that performs authentication processing, and a system including the authentication device is called a biometric authentication system or a biometric authentication system.
  • a biometric authentication system includes a biometric device and a biometric authentication system.
  • a biometric authentication system 1000 of this embodiment shown in FIG. 1A includes an input device 2 that is an imaging unit, an authentication processing device 10, a storage device 14, a display unit 15, an input unit 16, a speaker 17, and an image input unit 18.
  • the input device 2 includes an imaging device 9 installed inside a housing, and may include a light source 3 installed in the housing.
  • the authentication processing device 10 has an image processing function.
  • the light source 3 is, for example, a light-emitting element such as an LED (Light Emitting Diode), and irradiates the face 4 and fingers 1 with light as the living body of the user in a certain area presented on the input device 2 .
  • the light source 3 may emit various wavelengths, may emit light transmitted through the living body, or may emit light reflected by the living body.
  • the imaging device 9 captures images of the finger 1 and face 4 presented to the input device 2 . At the same time, a living body such as the iris, the back of the hand, or the palm may be photographed.
  • the imaging device 9 is an optical sensor capable of capturing light of a single wavelength or multiple wavelengths, may be a monochrome camera or a color camera, and can simultaneously capture ultraviolet light or infrared light in addition to visible light. It may be a multispectral camera. Also, a distance camera capable of measuring the distance to an object may be used, or a stereo camera configuration in which a plurality of the same cameras are combined may be used.
  • the input device 2 may include multiple imaging devices. Furthermore, the finger 1 may be plural, and plural fingers of both hands may be included at the same time.
  • the image input unit 18 acquires an image captured by the imaging device 9 in the input device 2 and outputs the acquired image to the authentication processing device 10 .
  • various reader devices for example, a video capture board
  • reading images can be used.
  • the authentication processing device 10 is composed of a computer including a central processing unit (CPU) 11, memory 12, and various interfaces (IF) 13, for example.
  • the CPU 11 executes programs stored in the memory 12 to implement functional units such as authentication processing.
  • FIG. 1B is a diagram showing an example of the functional configuration of a program stored in the memory 12 for realizing each function of the authentication processing device 10.
  • FIG. 1B is a diagram showing an example of the functional configuration of a program stored in the memory 12 for realizing each function of the authentication processing device 10.
  • the authentication processing device 10 includes a registration processing unit 20 that registers in advance a biometric feature of an individual in association with a personal ID, and an authentication processing unit 20 that performs authentication based on the biometric feature extracted by imaging.
  • An authentication processing unit 21 that outputs an authentication result as an authentication result
  • a living body detection unit 22 that detects the position of a living body and removes unnecessary background from the input image, and a shooting control that shoots the presented living body under appropriate conditions.
  • a quality judgment unit 24 for judging quality such as the image quality of a photographed living body and the posture of the living body, and a feature extraction for extracting biometric features by appropriately correcting the posture of the living body during registration processing and authentication processing.
  • the memory 12 stores programs executed by the CPU 11 .
  • the memory 12 temporarily stores images and the like input from the image input unit 18 .
  • the interface 13 connects the authentication processing device 10 and an external device.
  • the interface 13 is a device having ports and the like for connecting with the input device 2, the storage device 14, the display section 15, the input section 16, the speaker 17, the image input section 18, and the like.
  • the interface 13 functions as a communication unit, and is for the authentication processing device 10 to communicate with an external device via a communication network (not shown).
  • the communication unit is a device that performs communication according to the IEEE802.3 standard if the communication network is a wired LAN, and a device that performs communication according to the IEEE802.11 standard if the communication network 30 is a wireless LAN.
  • the storage device 14 is composed of, for example, an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores user registration data and the like.
  • the registration data is obtained during registration processing, is information for verifying users, and is stored in association with a plurality of biometric feature amounts for each user.
  • the user identification information includes facial feature quantity, finger feature quantity, image such as finger vein pattern, and biological feature data associated with the registrant ID.
  • the image of the finger vein pattern is an image of the finger vein, which is the blood vessel distributed under the skin of the finger, taken as a dark shadow pattern or a slightly bluish pattern.
  • the feature data of the finger vein pattern is generated from the data obtained by converting the image of the vein part into a binary or 8-bit image, or from the coordinates of the feature points such as the bends, branches, and end points of the veins, or the luminance information around the feature points. It is data consisting of features, or data obtained by encrypting them and converting them into a state that cannot be deciphered.
  • the display unit 15 is, for example, a liquid crystal display, and is an output device that displays the information received from the authentication processing device 10, the posture guidance information of the living body, and the posture determination result.
  • the input unit 16 is, for example, a keyboard or a touch panel, and transmits information input by the user to the authentication processing device 10.
  • the display unit 15 may have an input function such as a touch panel.
  • the speaker 17 is an output device that transmits the information received from the authentication processing device 10 as an acoustic signal such as voice.
  • FIG. 2 is a schematic diagram showing the configuration of a multimodal biometrics authentication system using a general-purpose front camera described in this embodiment.
  • multimodal biometric authentication is performed using the biometric features of the face and fingers of the left hand when the user logs into the notebook PC.
  • the user activates the authentication function to log in to the PC when performing work on the notebook PC.
  • the user is often positioned in front of the notebook PC 41 , and in a general notebook PC 41 , the camera 9 is installed above the display 42 in order to easily photograph the user's face 4 .
  • the camera 9 is installed so that the vicinity of the front surface of the display 42 can be photographed, that is, the user's face 4 and left hand 45 can be photographed as a whole.
  • the user's face 4 is photographed near the center of the angle of view of the image of the camera 9 .
  • the authentication system activates the camera 9 to photograph the biometric features of the user.
  • a preview image 47 which is an image in which the face guide 43 and the finger guide 44 are overlaid on the display 42 .
  • the guide display may be omitted. By displaying the guide as necessary, the user's authentication operation becomes easier and the effect of improving convenience can be obtained.
  • the user aligns the face 4, left hand 45 and finger 1 to the displayed guide position while viewing the preview image 47.
  • a guide message 46 may be displayed on the preview screen to clearly indicate to the user that each living body will be presented.
  • the authentication system performs authentication based on a plurality of biometric features when detecting the presentation of the biometric body, and shifts the notebook PC 41 to a login state when the user can be determined to be a pre-registered user. Specific methods of registration and authentication are described in detail below.
  • FIGS. 3 and 4 are diagrams showing an example of a schematic flow of registration processing and authentication processing of multimodal biometric authentication technology using a plurality of biometric features, respectively, described in this embodiment.
  • This registration processing and authentication processing are realized by, for example, a program executed by the CPU 11 of the authentication processing device 10 described above.
  • the present embodiment is described on the premise that the user's face and four fingers of the left hand are photographed, but the face may be a partial feature of the face rather than the entire face.
  • the fingers it may be one finger or any other number of fingers, or may be fingers of a plurality of hands. It may also be any number of biometric features of any type, such as generally and widely known iris, veins, fingerprints, palm prints, etc., other than the face and fingers.
  • the registration processing unit 20 is activated by the user's instruction for registration processing, and first, the authentication system displays a preview image on the display unit 15 to explain to the user that the biometric is to be registered (S301).
  • the user can understand the flow of the registration process from the displayed preview image.
  • the preview image allows the user to show the ideal way of holding the face and four fingers over, the procedure for holding the object over, or a sentence such as "first photograph the face, then hold the four fingers of the left hand".
  • the flow of registration processing will be described. As a result, errors in registration operations can be reduced.
  • the current camera image is displayed on the display unit 15 as a preview image so that the user can visually recognize that he or she is being photographed by the camera.
  • the display may be performed on the entire screen, or may be displayed in a small size on a part of the screen.
  • the camera image is horizontally reversed and displayed so that the left and right of the user and the left and right of the image match, thereby making it easier for the user to hold up his or her body.
  • face detection processing which is preprocessing for registering face feature amounts, is performed (S302).
  • a deep neural network is prepared in which the relationships between facial images, facial positions, and facial organs (facial parts or landmarks) are learned in advance.
  • the landmarks of the face include, for example, the center of the eye, the tips of the inner and outer corners of the eye, the edge of the eyelid (eyeline), the tip of the nose, the left and right corners of the mouth, the center position between the eyebrows, and the like.
  • a rectangle enclosing them can be defined as a face area.
  • biometric features relating to the face are registered without recognizing that the user is photographing the face as the biometric feature.
  • the user When logging into the PC as shown in FIG. 2, the user is usually positioned in front of the PC, and the biometric features of the face can be registered without the user being aware of it.
  • the frame of the bounding box of the face may be displayed superimposed on the preview image so that the user can see that the face is being detected.
  • a guide such as "please turn your face to the front” may be displayed.
  • a face guide simulating the outline of the face may be displayed so that the user can visually understand that the face is currently being photographed and where the face is to be held.
  • the photographing control unit 23 is activated, and face photographing control is performed to photograph the face while appropriately adjusting camera parameters such as camera exposure time, gain, white balance, and focus (S303).
  • camera parameters such as camera exposure time, gain, white balance, and focus
  • the exposure time of the camera is adjusted so as not to cause blown-out highlights or blocked-up shadows inside the detected face ROI image
  • the focus of the camera is adjusted so that the focus of the camera matches the face.
  • the white balance of the entire image is automatically adjusted based on methods such as the gray hypothesis, which assumes that the average color of the entire image is the color of the ambient lighting.
  • the exposure time may be adjusted by adjusting the exposure time of the camera, but the exposure time may be adjusted by software such as weighted integration of pixel values of a plurality of consecutive image frames.
  • the soft exposure adjustment method can partially correct the exposure of an image, and therefore has the advantage of being able to optimally correct the exposure independently for each living body, such as the face and a plurality of fingers.
  • the acquired face ROI image is normalized (S304).
  • normalization scaling is performed so that the size of the face (area of the face ROI, etc.) is constant. Generate, multiply by a constant so that the brightness of the face is a constant value, and so on.
  • This normalization is a pre-processing performed to stabilize the result of facial feature extraction performed later.
  • facial feature extraction is performed (S305).
  • a deep neural network is used that inputs a facial ROI image and outputs an arbitrary fixed-length feature vector.
  • the L1 distances of feature vectors obtained from multiple face ROI images of the same face are minimized with respect to each other, and the L1 distances of feature vectors obtained from face ROI images of different faces are maximized. learn to be
  • a deep neural network is used to obtain the feature vector from the face ROI image.
  • the feature amounts obtained from the same face image have a small L1 distance, and the feature amounts obtained from different face images are transformed with a large L1 distance. Therefore, whether or not the face images are the same can be evaluated based on the distance (dissimilarity) between the patterns.
  • L1 distance is described here, any distance space may be used, and distance learning of feature amounts is generally performed in order to classify the person himself/herself and others. Examples of widely known specific methods include a method using Triplet Loss, and a method such as ArcFace that can realize distance learning simply by learning a general class classification problem.
  • the quality value of the face image is calculated (S306).
  • the size of the face is the size of the above-described face ROI image, and if it is small, it can be determined that the face is not captured in a sufficiently large size, so the quality value is reduced.
  • the brightness of the face is obtained from the average brightness of the face ROI image before normalization, and it can be judged that the quality value is low if it is darker than expected, if it is too bright, or if there are many overexposed pixels.
  • the three-dimensional rotation angle is estimated with reference to the landmark position generated in the average front face, and the pitching rotation angle, rolling rotation angle, and yaw rotation angle of the face are estimated.
  • the quality is judged to be high, and when the value is large, it is judged that the face is not a frontal face and the quality value is low.
  • the facial feature amount is extracted from the facial ROI image, and the similarity of the facial feature amount to temporally preceding and succeeding frame images is determined by round-robin. In this case, it is judged that the quality value of the face image is low because the extracted feature amount is unstable.
  • Each of these evaluation items is quantified, weighted, summed up, and the values fused to obtain the final quality value of the face image.
  • a deep neural network is used that inputs multiple face ROI images arranged in time series and outputs an arbitrary scalar value.
  • a low value for example, 10
  • a high value for example, 1000
  • a high value can be obtained when a time-series image of a face ROI with a high tendency to succeed in authentication is input. Since the value obtained in this way becomes a higher value as it is suitable for authentication, it can be used as a quality value.
  • This method does not require manual enumeration of each evaluation item as described above, and therefore has the advantage of improving development efficiency and easily increasing the correlation between the quality value and authentication success.
  • an item for detecting blinks may be included in the face quality value evaluation items. Before the facial image is taken, guidance such as "Please blink a few times" is displayed, and a certain amount of time is set for the person to blink. If not, the face is considered to be a fake face such as a printed matter, and the quality value is lowered. As a result, it is possible to reject at least a fake face image in which blinking cannot be performed as having a low quality value.
  • face registration determination is performed (S307). Since the quality value of the face image is the criterion for judging whether the image quality and facial posture are suitable for registration and authentication, the quality value can be used to judge whether the currently acquired facial feature quantity registration is suitable or not. Therefore, it is possible to set a predetermined threshold for the quality value of the face image, and determine that registration is possible when the threshold is exceeded.
  • the quality value of the face image increases by accident, authentication may become unstable if the data is registered. It may be determined that the feature amount of the face can be registered when it exceeds a certain value by integrally.
  • a finger guide is displayed on the screen so as to be overlaid on the preview image, which is the camera image of the user (S309). While checking the finger guide displayed on the screen and a preview image of himself/herself, the user raises his or her left hand to match the finger guide. At this time, a guide message such as "please hold your left hand over" may be displayed.
  • finger detection processing is performed (S310).
  • the finger is first separated from the background, and then an ROI image of the finger is obtained by cutting out the finger on a finger-by-finger basis.
  • background separation processing a deep neural network that receives a camera image of a finger held as input and outputs a finger mask image in which only the finger area is 1 and other areas are 0, is applied to any input image.
  • learning is performed so that a mask image of the finger is output, and the mask image of the finger is acquired by the network and the background is masked (removed).
  • deep learning can be used to extract finger landmarks such as fingertips, finger roots, and finger joints. Based on this, the finger can be cut out in a rectangular shape.
  • finger shooting control is performed (S311).
  • the processing is the same as the above-described face photographing processing, so the description is omitted.
  • the finger image is normalized (S312).
  • finger image normalization there is a method of correcting the finger thickness and three-dimensional inclination to a constant value based on perspective projection transformation, and a method based on the landmarks performed in the face normalization as described above. method can be corrected.
  • a posture correction process for normalizing the thickness and orientation of all detected fingers two points, the fingertip point of each finger and the finger crotch on both sides, are included in the inside, and the central axis of the finger is the image. It is assumed that an image is generated that is rotated so as to be parallel to the horizontal axis and scaled so that the finger width of each finger is a constant value. As a result, the directions and thicknesses of the fingers on the ROI image of all the fingers are unified.
  • the feature extraction unit 26 is activated to extract the features of the finger (S313).
  • Finger feature extraction can be performed in the same manner as facial feature extraction described above. Note that finger veins, fingerprints, joint prints, epidermal prints, melanin prints, fat prints, and the like may be independently extracted as finger feature quantities, or they may be mixed.
  • filtering processing such as general edge enhancement filters, Gabor filters, and matched filters is used to emphasize biological features such as line pattern features of epidermis and blood vessels and spot features of fat lobules.
  • Biological features can be obtained by binarizing or ternarizing the result.
  • it may be obtained by a method of extracting brightness gradient features from key points such as SIFT (Scale-Invariant Feature Transform) features.
  • SIFT Scale-Invariant Feature Transform
  • the quality value of the finger image is calculated (S314).
  • a method of detecting the finger posture by extracting information on the fingertips, finger roots, and finger widths of multiple fingers from the finger video and determining whether the finger posture at that time is appropriate. There is In the finger posture determination, based on the results of finger posture detection, it is confirmed that the finger is in an appropriate position by confirming that it does not deviate significantly from the displayed finger guide, and that the finger is stationary for a certain period of time. It is an evaluation item that there is
  • the finger posture information such as the position of the fingertip does not change over time. Since it is difficult to keep the finger completely stationary, it may be determined that the finger is stationary when the movement amount is within a certain range. Even so, if the finger is not still or if the finger looks too far away (if the finger is far from the camera and the hand looks small), a guide will be displayed to that effect, Although not shown, the process may return to the process (S309) of urging the finger to be presented again.
  • data suitability determination may be performed to detect whether the pattern extracted in this process is appropriate and whether the photographed finger is not a foreign object or a forgery. If the result of this determination is inappropriate, the quality value is greatly reduced so that it is not selected as a candidate.
  • the data adequacy determination process it is difficult to extract a highly continuous pattern such as a blood vessel pattern even though it is a line feature, or a strong edge that cannot be observed with a real finger is extracted from the original image. If it is observed, it can be dismissed as a failure to extract the pattern or as an input forgery.
  • a method may be used in which pulsations in image brightness due to changes in finger blood flow are detected from a moving image, and if pulsations cannot be detected, they are discarded.
  • finger registration determination is performed (S315). This determination is performed based on the quality value of the finger image as described above, and the method can be performed in the same manner as the above-described method based on the quality value of the face image.
  • the feature data of three registration candidates are collated in a brute-force manner to calculate the similarity between each candidate, and the sum of the similarities of the two candidates with the other candidates is the highest.
  • the biometric body presented by the user is imaged, the feature amount of the biometric body is extracted, and compared with each feature data of the registered data.
  • a registrant ID is output, and an authentication failure notice is output when there is no registration data that can be identified as the person himself/herself.
  • the authentication processing unit 21 is activated by the user's instruction for authentication processing, and a preview image indicating that authentication has started is displayed (S401). For example, it displays "Left shooting will start”. The user can understand the flow of authentication processing from the displayed preview image.
  • Face and hands are photographed for authentication, but as described in Figure 2 above, users are often positioned in front of terminals such as notebook PCs, so users should be especially aware of photographing their faces. Therefore, the user can be guided to shoot only the left hand. As a result, the user can prepare in advance to hold the left hand over the device, and the biometric authentication can be performed smoothly. In addition, the preview image of the camera is displayed in the same manner as in the registration process.
  • the face detection process (S402) and the face image quality value calculation (S406) are performed for a predetermined period of time. These processes are the same as the face detection process (S302) to the facial image quality value calculation (S306) of the registration process in FIG.
  • This series of processes (S402 to S408) is a process related to shooting of a single face, and here, the first period is called a "single face shooting phase”.
  • the single face shooting phase is set for a certain period of time, but this phase is started when a certain number of high-quality face feature values are collected in the buffer, or when a single face is successfully compared with registered data. You can leave.
  • the advantage of using a fixed period of time is that if the loop is repeated until facial feature values with high quality values are obtained, it will take too much time to get through this phase if the shooting proceeds in an environment where it is difficult to increase the quality values. There may be delays in authentication.
  • this phase is limited to a fixed time, there is an advantage that it is difficult to delay.
  • a finger guide is displayed (S409) to prompt the user to hold his or her finger over, and then face and finger detection processing (S410) is performed to calculate the quality values of the face image and the finger image. (S414) is performed.
  • the facial feature amount is buffered (stored) in the memory 12 (buffer) of the authentication processing device 10, and the stored facial feature amount is selected (S415).
  • the facial feature amount having a certain quality value is buffered, and the facial feature amount to be used in the matching process to be performed later is selected from the buffer.
  • Facial feature quantities in the "single-face shooting phase” and “multi-shooting phase” are values obtained from images of the face. For example, if the captured image is a moving image with 30 frames per second, 30 facial feature amounts can be calculated per second. The same applies to the finger feature amount in the “multi-imaging phase”.
  • the facial feature amount and the finger feature amount are fused, and the matching unit 26 is activated to acquire the image by the processing shown in FIG.
  • Sequential collation of authentication data of face feature amount and finger feature amount with one or more registered data (usually, it is assumed that a plurality of registrants are registered) registered in advance in the storage device 14 to acquire a collation score (S417).
  • the finger feature amount and the face feature amount are separated internally, a matching score is calculated as the degree of difference from each registered feature amount, and finally the matching scores are weighted and summed up.
  • the finger feature amount and the face feature amount may be collated with registered data without being separated.
  • matching with registered data may be confirmed based on information obtained by converting biometric feature amounts into encrypted feature amounts by, for example, PBI (Public Biometric Infrastructure) technology.
  • Match scores may be scalar or vector, and the values may be binary or multi-valued.
  • authentication is determined based on the calculated matching score (S418).
  • a matching score for a single face feature amount and a matching score for a finger feature amount are obtained, and each of the matching results (dissimilarity) is below a threshold for recognizing similarity to a registrant.
  • This judgment method requires that both biometric features are similar to the registrant, and has the effect of reducing the false acceptance rate of falsely judging an unregistered person as a registrant.
  • score level fusion determination may be performed by linearly combining the matching scores of each living body, and furthermore, the matching scores of each living body are treated as a two-dimensional matching score vector, a threshold boundary hyperplane is defined in a multidimensional space, and the matching If the score vector is included in the area where the person can be identified, it may be determined that the data is similar to the registered data.
  • the vector-based method can flexibly set the authentication threshold, and if there is a correlation between the matching scores of each biometric, the boundary can be defined according to the correlation, so highly accurate authentication judgment can be realized. It is possible.
  • the degree of similarity between each of the extracted epidermal features and vein features and registered data may be calculated.
  • 1:N authentication that determines a unique registrant from a plurality of registrants has been described, but 1:1 verification is performed by designating a registrant ID in advance and verifying that the registrant is that registrant before authenticating. Needless to say, it may be configured for authentication.
  • the authentication determination (S418), it may be a requirement that the registration matches continuously. In this case, even if the registered data matches the registered data in the first authentication determination, the authentication is not successful, and the authentication is successful when the matching is confirmed a predetermined number of times or consecutive times. As a result, it is possible to prevent a false acceptance error in which a stranger accidentally succeeds in authentication, and it is possible to achieve stable and highly accurate authentication.
  • the face and finger feature amounts are merged as in S417, but a method may be used in which the face alone is collated and the finger feature amounts are collated alone. This method will be described later with reference to FIG. do.
  • An advantage of fusing both feature amounts is that it is possible to increase the strength against attacks by inputting forged many face images and finger images. If the authentication system is designed so that facial features and finger features can be individually verified, each matching result can be confirmed individually. Authentication can also be successfully attacked. On the other hand, if the features are fused so that they cannot be matched individually, the attack of multimodal authentication can only be successful if both are successfully attacked at the same time. is generated, the difficulty of the attack can be increased. In order to suppress such fraud, it is effective to use a feature level fusion method in which both feature quantities are merged and then verified.
  • Figs. 5A to 5E are examples of screen transition diagrams during authentication of multimodal biometric authentication technology that performs authentication by guiding the face and fingers at the same time.
  • a typical authentication failure that occurs when the face and fingers are guided simultaneously without providing the face-only shooting phase and the face image is not buffered.
  • FIG. 5A is a preview image 47 immediately after the user activates the authentication screen to log in to the notebook PC.
  • the user is often positioned in front of the terminal, and the camera 9 shoots the image centering around the front of the display 42, so the user's face 4 is shot near the center of the shot image.
  • a face guide 43 and a finger guide 44 for holding the face and hands at the same time are displayed.
  • a finger guide 44 is displayed on the left side of the screen and a face guide 43 is displayed on the right side of the screen in order to guide the user to hold the face and the left hand at the same time.
  • the user is guided by a message 46 or the like.
  • the user first holds the face over the correct position while checking the face 4 and the face guide 43 in the preview image 47 as shown in FIG. 5C.
  • the user's left hand 45 is held over the finger guide 44 as shown in FIG. 5D.
  • the user holds the left hand in front of the face, and at this time, the screen may be difficult to see because the user's left hand blocks the field of view. Therefore, in order to secure the field of view, the person may tilt the head and lay the face 4 sideways as shown in FIG. 5D. In this case, the face may not be detected correctly, or the feature amount of the face may fluctuate because the face is photographed in a posture different from that at the time of registration, making it difficult to recognize the registered face.
  • the screen may be peeped through between the fingers of the left hand in order to secure the field of vision. Pictures cannot be taken.
  • the color of the finger is often similar to the color of the face, if the face overlaps directly behind the finger, the boundary between the finger and the face becomes ambiguous, making it difficult to detect the finger. Detection may not be performed accurately. In either case, it becomes impossible to capture a face image of at least the same quality as the registered face image.
  • Figs. 6A to 6E are examples of screen transition diagrams of multimodal biometric authentication technology for the face and fingers, including the single face imaging phase, as shown in Fig. 4 above.
  • Fig. 4 the single face imaging phase
  • the authentication system activates the camera 9 to capture the biometric image.
  • the image at that time is presented to the user as a preview image 47, as in FIG. 5 described above.
  • a guide message 46 is displayed for a certain period of time as a preview image 47 for displaying that authentication will be performed.
  • the certain period of time is, for example, one second, and can be set to any number of seconds.
  • the user does not need to align his/her face or hand with the guide, but this is the single face shooting phase shown in FIG.
  • the value is calculated behind the scenes.
  • the user is positioned in front of the notebook PC in the single-face shooting phase, and the user does not particularly hold his/her hand over the notebook PC. Therefore, the face is not dared to be tilted, and it is not blocked by the hand. Therefore, a high-quality face image can be taken without making the user aware of any operation.
  • a finger guide 44 for holding the left hand is displayed as shown in FIG. 6C. Since the purpose of the multi-shooting phase is to shoot the left hand with high quality, display of the face guide may be omitted in this embodiment.
  • the user holds the left hand over the correct position while checking the image of the user and the guide for the left hand as shown in FIG. 6D.
  • the neck may be tilted sideways.
  • a relatively high-quality face image is captured and buffered in the single face capturing phase, even if the face posture varies in this phase, there is no significant effect.
  • multimodal biometric authentication is performed by combining the face image in the buffer and the finger image captured in the multi-photographing phase, and authentication can be performed with high-quality feature values for both.
  • the authentication process can also be performed using the face image captured in the multi-photographing phase.
  • facial images captured in the "single-face shooting phase" and “multi-shooting phase” can be used as information for authentication, and compared with the registered authentication data (facial features).
  • both living bodies can be optimally imaged.
  • both living bodies can be optimally imaged.
  • the difference in the degree of blur between the images is used to determine the PSF ( By estimating the Point Spread Function, blurring of the entire image may be corrected, and an all-focus image in which all subjects are in focus may be generated. As a result, a plurality of biological features can be clearly photographed.
  • the single face phase transitions to the next multi-photographing phase after a certain period of time. You can move to the next phase when you can confirm Alternatively, when a predetermined number of face images exceeding a predetermined quality value are collected, the process may proceed to the next phase.
  • the next phase will be performed, at least while suppressing the deterioration of the recognition accuracy of the face recognition. It also has the advantage of shortening the shooting time.
  • the drawback of the face-only matching method is the possibility that the information used to create the forgery may be leaked. Therefore, by always providing a single face phase for a certain period of time to prevent the user from guessing whether or not face recognition has succeeded, it is possible, for example, to determine whether at least single face recognition succeeds when a large number of forged face images are presented. Forgery can be made more difficult by making it impossible to guess from the behavior of the authentication system. Any method can be adopted according to the security policy of the authentication system.
  • the finger guide 44 is displayed in the multi-photographing phase, but as another embodiment, the face guide may also be displayed on the right side. In that case, the effect of moving the face to the right is obtained.
  • only the finger guide 44 may be displayed for a certain period of time to repeat multimodal authentication of the face and fingers, and if the authentication is not successful after the certain period of time has passed, the face guide may be additionally displayed. With this method, only the hand guide is displayed at first, so the user can focus on aligning the hand position. By displaying the face guide, it is expected that the user will move the position of the face away from the position of the hand. can increase the likelihood of
  • FIGS. 7A to 7C are explanatory diagrams of one method of buffering and selection processing of facial feature amounts in FIG. 4 proposed in this embodiment.
  • FIG. 7A is a graph plotting face feature amounts and their quality values in chronological order in the single face shooting phase, and schematically represents the part corresponding to the processing of S405 to S408 in FIG. 4 described above.
  • the horizontal axis is time and the vertical axis is the quality value, showing the transition of the quality value when Ft is the facial feature value at time t.
  • a threshold value for judging high quality is set, and feature amounts exceeding this threshold value are buffered.
  • the facial feature amounts F3, F4, F5, F8, and F9 exceed the high quality threshold, and the facial feature amounts F3, F4, F5, F8, and F9 are selected to are stored in the buffer 141 in chronological order.
  • the quality values can be plotted in chronological order for both the face feature amount and the finger feature amount.
  • the facial feature amounts F10, F14, F17, and F18 are of high quality, and it can be seen that they are stored in the facial feature amount buffer 142 in the multi-photographing phase.
  • the facial feature amounts F10, F14, F17, and F18 are also stored in the facial feature amount buffer 141 in chronological order.
  • Ht indicates the finger feature amount, and here, H12, H15, H17, H18, and H19 exceed the high quality value.
  • the buffers are clearly divided according to each of the face-only phase and the multi-photographing phase, but it goes without saying that the buffers may be managed by the same buffer. Further, in this embodiment, no buffer is provided for the finger feature amount, but the finger may be buffered in the same manner as the face, and the finger feature amount to be used may be selected according to the selection method described later.
  • the face and finger feature amount selection processing performed in S415 and S416 of FIG. 4 is performed.
  • the feature values of the face and fingers are not always of high quality. be.
  • the design is such that authentication is performed only when both are of high quality, there is no particular need to buffer the feature amount. and 18, only two opportunities to authenticate occur. Therefore, the authentication is likely to fail.
  • the face feature amount and the finger feature amount are selected from the buffered feature amounts and combined, that is, a feature pair (fused feature amount) is generated. This increases the chances of authentication, performs as many authentication processes as possible at the earliest possible timing, and increases the success rate of authentication.
  • the quality value of the finger feature quantity is higher than the threshold, it is always a candidate for selection.
  • the face feature quantity to be paired first select the face feature quantity from the buffer of the single face shooting phase, and then select from the buffer of the multi-shooting phase at the next opportunity.
  • the buffer is alternately selected. In each buffer, selection is made in chronological order from the past to the new. However, if the most recently selected feature amount is chronologically continuous, there is a high possibility that both feature amounts are similar, so the next stored feature amount is selected.
  • H12 is selected as the finger feature amount
  • F3 which is stored most recently in the buffer for the single face shooting phase, is selected as the face feature amount paired with H12.
  • the matching process is performed by pairing the finger feature amount of H12 and the face feature amount of F3. That is, using feature pairs, matching processing is performed based on the facial feature amount and finger feature amount for each user stored in the storage device.
  • H15 is selected as the finger feature quantity. , and select F10 stored most recently.
  • the face feature quantity paired with H18 is selected from the multi-imaging phase buffer, and since F10 was selected first, F14 is selected next this time. And finally H19 and F8 are selected as a pair.
  • the variation of the feature quantity can be increased more than using a face feature quantity with a small amount of change.
  • matching is performed by combining face feature amounts and finger feature amounts that are temporally different in timing. are observed at the same time (existing in the same image at the same time). Therefore, for example, at the time when the finger feature H17 is obtained in FIG. 7C, the facial feature F17 obtained at the same time is utilized, and the facial feature F5 to be combined with the finger feature H17 is the same person as F17 (similarity is high). As a result, if the face image at the current time is replaced with the face image taken in the single face shooting phase, it will be considered fraudulent and authentication will not be successful, making it a safer authentication system. can do.
  • the buffered face feature values are arranged in chronological order, but they may be arranged in descending order of the quality value of the face image and used in that order. Since face images are selected in registration so that the quality value is as high as possible, if the quality value of the face image is high, it is highly likely that it is similar to the registration data. Therefore, by fusing facial features in descending order of quality, the probability of successful authentication can be increased as early as possible. At this time, the acquired time is also buffered in the same way as the feature quantity and quality value. can be selected. In addition, it is also possible to check the feature amounts of faces in the buffer against each other so that feature amounts with high similarity are not selected (thinning).
  • the quality value includes a parameter related to face orientation, which may be selected so that the face orientation varies to some extent. For example, after selecting an image with the pitch angle of the face slightly upward from the front, an image with the face facing downward is preferentially selected next, or an image with the yaw angle of the face slightly to the left and right from the front are alternately extracted. It is also conceivable to do As a result, it is possible to exhaustively use the feature amounts of different face orientations for matching, so that the effect of increasing the success rate of authentication at an early stage can be obtained.
  • any of the selection methods it is possible to avoid selecting facial features that are similar in succession, so that as many variations of facial features as possible can be used for authentication at an early stage, and the authentication success rate is increased at an early stage. It has a boosting effect.
  • the facial feature amounts in the buffer may be reused in order from the beginning. At this time, if there are features that have not been selected as described above, they may be preferentially used. You can reuse it.
  • feature pairs of authentication data face features, finger features
  • registered face features face features
  • finger features finger features
  • the acquired finger features are obtained by combining the facial features acquired in the single-face imaging phase and the facial features acquired in the multi-imaging phase.
  • Figs. 8A and 8B are explanatory diagrams of an example of multimodal biometric authentication technology based on alternate authentication using the face and fingers.
  • the user simultaneously holds up their face and hands, performs face detection and facial feature extraction, finger detection and finger feature extraction, and performs multimodal biometric authentication. At this time, it is conceivable that the performance may be degraded due to simultaneous processing of the face and fingers.
  • finger feature extraction is performed by skipping one frame.
  • the horizontal axis represents the passage of time t
  • Ft and Ht represent the facial feature amount and the finger feature amount
  • the feature extraction of the fingers is processed for a maximum of four fingers, and since the matching is performed by brute-force matching one finger at a time, the processing time is longer than that for face matching.
  • the extraction process of the finger feature amount is simplified every other frame by utilizing the temporal locality that the feature amount close in time is unlikely to change greatly.
  • simplification of the process that is, speeding up of the authentication process can be realized without lowering the authentication accuracy as much as possible.
  • the previous finger feature amount is reused when the time is an even number as in FIG. 8A, but in the case of the face feature amount, the previous facial feature amount is reused when the time is an odd number. do. Since each is processed in turn, new feature pairs are always generated. As a result, it is possible to reduce the average processing time by half while always generating new feature pairs, and to improve the perceived speed without degrading the authentication accuracy.
  • FIG. 9 is an example of the processing flow of multimodal biometric authentication that independently matches the face and fingers. While FIG. 4 described above is an example of fusing face and finger patterns, FIG. 9 shows a processing flow in which matching is performed on a single face or a single finger, and the result is fused at the score level. Since the registration process can be performed in the same manner as in FIG. 3, the description is omitted.
  • the face matching result may be a match score indicating similarity to the registered data, or may be a result of match or mismatch with the registered data determined by thresholding the match score.
  • reset processing of the result according to the expiration date of the face matching result is performed (S909).
  • the face matching result obtained at a certain time is held for a predetermined period of time, after which the result is invalidated.
  • the fixed period of time during which the results are held is called an expiration date, and the invalidation of the results is called a reset.
  • multimodal biometric authentication which is a method of independently matching multiple biometric features
  • the success or failure of matching can be obtained for each of the multiple modals. It may hang.
  • setting an expiration date for each verification result and once successful verification is always considered successful within the validity term, the possibility of successful authentication in all modals increases. This has the effect of increasing the success rate and shortening the processing time up to authentication.
  • a successful verification is permanently enabled, for example, if another person accidentally succeeds in authentication in one modal, and the result is permanently enabled, erroneous false acceptance will occur. It becomes easier.
  • a loop of processing (S911 to S917) for confirming that the quality values of the face and fingers are sufficiently high from the display of the finger guide is entered, but this is also basically the same processing as in FIG.
  • processing for modals that have been successfully matched within the validity period at the present time is omitted. That is, at this time, if the facial feature amount is already sufficiently similar to the registered data, that is, if it can be determined that the face alone has been successfully authenticated within the validity period, face matching is omitted. Similarly, if a result that can be judged to be sufficiently similar to the registered data exists within the expiration date in the matching of the feature amount of the finger in the loop, the matching of the finger can be omitted.
  • each matching score is recorded in chronological order (S918). ).
  • each result is reset according to the expiration date of the matching result of the face and fingers (S919).
  • authentication determination is performed by score level fusion using the collation score group obtained so far (S920).
  • the process of authentication success is executed (S919, S921), and the authentication process is terminated. If the authentication fails, it is determined whether or not timeout has occurred (S922). If not, the process repeats from the display of the finger guide. If timeout occurs, authentication failure processing is performed (S923), and the authentication process ends.
  • authentication determination by score level fusion using a group of matching scores performed in process S920, first, among the matching scores obtained in the past for the face and fingers within the expiration date, the degree of difference is the smallest.
  • a fusion score is obtained by taking out each of the minimum scores and multiplying them by predetermined weights to sum them up, and if this falls below a predetermined threshold, score level fusion is performed to determine successful authentication. can also be adopted.
  • score level fusion is a more suitable process than AND determination and OR determination because it can achieve higher-precision authentication.
  • the authentication may be successful only when the scores are continuously below the authentication threshold, thereby suppressing accidental authentication acceptance errors of others.
  • FIG. 10 is an explanatory diagram of an example of multimodal biometric authentication technology based on alternate authentication using the face and fingers in multimodal biometric authentication in which the face and fingers are independently matched.
  • the single face shooting phase is limited to the face only, the amount of calculation is originally small, so the processing of F5 and F6 may be performed. In that case, for example, if the similarity is high even in F6, the facial feature processing up to F9 in the multi-photographing phase in the latter stage can be omitted, so that the amount of calculation in the latter stage can be further reduced.
  • the multi-photographing phase is entered, and processing is performed for the face and fingers respectively.
  • the finger feature quantity H7 has low similarity to the registered data, and the finger feature quantity H8 is subsequently processed.
  • the facial feature amount F8 is also processed at the same time.
  • the finger feature amount H8 has high similarity with registration, while the facial feature amount F8 has low similarity.
  • the facial feature quantity F8 has low similarity
  • the facial feature quantities F9 to F11 are again extracted and collated.
  • the processing speed is improved because the focus can be placed on processing only facial features during this period. Assume that none of F8 to F11 are similar to the registered data.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above embodiments have been described in detail for better understanding of the present invention, and are not necessarily limited to those having all the configurations described.

Abstract

複数の生体を用いたマルチモーダル生体認証において、複数の生体を撮像する時の姿勢変動を抑制し、かつ複数の生体特徴を処理するための計算量を抑え、高精度な認証を実現する。 利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、生体を撮影する撮影装置と、撮影装置から入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、撮影装置は、第1の期間で、第1の利用者の第1の生体を撮影し、第1の期間とは異なる第2の期間で、第1の利用者の第2の生体及び第3の生体とを撮影する。認証処理装置は、第1の期間において撮影した第1の生体から第1の特徴量を算出し、第2の期間において撮影した第2の生体及び第3の生体から、第2の特徴量と第3の特徴量をそれぞれ算出し、記憶装置に記憶された利用者毎の生体の特徴量とを照合する。

Description

生体の認証システムおよび認証方法
 本発明は、生体情報を用いて個人を認証する認証システムおよび認証方法に関する。
 近年、スマートフォンやノートPCなどのモバイル端末に対する情報漏洩や不正利用のリスクを低減するための一手段として生体認証技術が用いられている。特に、リモート環境で利用されるモバイル端末は、他者によって不正に利用されるリスクが高い。そのため、端末や情報システムにアクセスする際は、その都度、本人認証を行うことが求められる。しかしながら、毎回パスワードを入力することは煩わしく、またパスワードの忘却や漏洩のリスクもあることから、簡単で確実な生体認証を導入するケースが増加している。
 また、コンビニエンスストアなどの小売店や飲食店などにおいては、キャッシュレス決済が普及しつつある。キャッシュレス決済は、その場で現金を支払う煩わしさがないため利便性が高く、様々なポイントサービスとの連携により顧客の購買を促進できるため、店舗側の導入メリットも大きい。このようなキャッシュレス決済として生体認証を利用すると、カードなどを持ち歩く必要が無く、また確実にその本人であることが確認できることから、便利で効果的なサービスを提供できる。
 このように、不正アクセスの抑制やキャッシュレス決済の実現に際して生体認証を導入するメリットは高いものの、専用の生体認証装置が追加で必要となると導入コストが高まるため普及を妨げている。
 そこで、スマートフォンやノートPCなどに搭載されている汎用のカメラで撮影された生体の映像を用いて生体認証が実施できれば生体認証の導入障壁を下げることができる。さらに、認証操作が非接触で実施できれば、昨今の社会問題である感染症拡大のリスクも下げられることから、安心して導入、利用できると考えられる。
 生体による本人認証は、指、手、顔などの利用者自身の生体を認証端末にかざし、事前に登録した生体情報との照合を経て登録者本人であることを確認する。登録者として認証された場合にのみログインや決済などを実施するものである。特に、様々な生体認証技術の中でも、指静脈をはじめとする生体内部の特徴に基づく生体認証は高精度な認証を実現できるものとして知られている。指静脈認証は、指内部の複雑な血管パターンを使用するため優れた認証精度を実現し、かつ指紋認証に比べて偽造及び改ざんが困難であることによって、高度なセキュリティを実現できる。
 汎用カメラを用いた生体認証は、生体の撮影に特化した専用センサによる生体認証と比較して好適な条件での撮影が難しく、画質の劣化により認証精度が低下する傾向にある。この精度劣化を補う技術として、複数の生体情報を利用することで認証精度を向上させるマルチモーダル生体認証技術が有効である。基本的には、同時に撮影することが比較的容易であり、各々の生体特徴の相関あるいは撮影条件の相関が低い複数の生体特徴を組み合わせ、各々の生体特徴で互いに相補的な役割を担うことで効果的に認証精度を高めることが可能となる。
 汎用カメラを用いたマルチモーダル生体認証の一つとして、顔と手指の生体情報をフロントカメラにかざす方式が提案されている。従来では、顔を撮影した後に指を撮影する方式や、顔をかざす位置と指をかざす位置とをそれぞれ別途設けて同時に撮影する方式がある。
 前者は撮影時間が長く掛かる傾向があり、また後者は同時に生体をかざす操作の難しさが課題となる。特に、後者においては手指を所定の位置にかざすために画面をのぞき込んだ結果として顔が傾いてしまったり、あるいはかざした手指が顔を遮蔽してしまったりする場合がある。
 このように、複数の生体を同時にかざすマルチモーダル生体認証を実現するためには、生体のかざされる姿勢の変動や遮蔽の影響を受けにくい認証技術を提供することが課題となる。
 また、複数の生体を利用することから演算時間が長くなる傾向にあるため、できるだけ高速に認証処理が実施できることが望まれる。
 顔および指紋の照合を同時に実施するマルチモーダル認証技術として特許文献1がある。また、顔と指紋を認証に用いながらも顔の映像の平面度を計測する技術として特許文献2がある。
特開2009-20735号公報 特開2004-62846号公報
 複数の生体を同時に提示するマルチモーダル生体認証においては、姿勢変動や遮蔽によって状態の良好な生体特徴の撮影が困難となる場合があり、認証精度が劣化する課題がある。また、複数の生体特徴を処理する必要があるため認証時間が長くなる課題もある。
 特許文献1では、顔データを用いて顔の照合を行う第1フェーズと、指の照合と顔の撮影を行う第2フェーズとを有し、第2フェーズでは指照合処理と平行して顔画像を撮影しながら顔画像の顔の向き(上下左右)を検出する技術が開示されている。しかしながら特許文献1では第2フェーズでの顔画像撮影は顔認証ではなくジェスチャー判定に用いており、マルチモーダル認証の精度向上や高速化に関する課題を解決する技術についての言及はない。
 特許文献2では、指紋センサに指を置いたタイミングで顔に向けて撮影用照明を点灯し、カメラにて顔を撮影する。顔認証の各特徴量と指紋認証の各特徴量を同じカテゴリーにし、最小距離による識別法等を使って個人認証を行う技術が開示されている。特許文献2では、顔と指紋とを用いた高精度なマルチモーダル生体認証を実施する観点について開示されているものの、指紋センサが必要となることに加え、姿勢変動を抑制することで精度向上を図る技術に関する言及はない。
 上述した問題点は、顔と手指のマルチモーダル生体認証に限らず、虹彩、耳介、顔静脈、結膜下血管、掌静脈、手の甲静脈、掌紋、指内外の関節紋、指背面の静脈、などの様々な生体についても同様のことが言える。このように従来技術では、様々な生体を用いたマルチモーダル生体認証において、姿勢変動や遮蔽により正しく生体が観測できず、認証精度の低下を招く課題がある。
 本発明は、マルチモーダル生体撮像時の姿勢変動や遮蔽が生じる場合でも、高精度かつ高速な認証を実現することが可能な生体の認証システムおよび生体認証方法を提供することを目的とする。
 本発明の生体認証装置の好ましい例では、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、生体を撮影する撮影装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、前記撮影装置は、第1の期間で、第1の利用者の第1の生体を撮影し、前記第1の期間とは異なる第2の期間で、第1の利用者の第2の生体及び第3の生体とを撮影する。前記認証処理装置は、前記第1の期間において撮影した第1の生体から第1の特徴量を算出し、前記第2の期間において撮影した第2の生体及び第3の生体から、第2の特徴量と第3の特徴量をそれぞれ算出し、前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第1の特徴量、前記2の特徴量及び前記第3の特徴量とを照合することで利用者の認証を行う。
 本発明によれば、複数の生体を同時に提示するマルチモーダル生体認証における生体撮像時の姿勢変動や遮蔽が生じる場合でも、高精度な認証を実現することが可能となる。
実施例1に係る、生体認証システムの全体の構成を示す図である。 実施例1に係る、メモリに格納されているプログラムの機能構成の一例を示す図である。 実施例1に係る、汎用フロントカメラによるマルチモーダル生体認証装置の構成を示す概略図である。 実施例1に係る、生体認証システムの登録処理部の処理フローの一例を示す図である。 実施例1に係る、生体認証システムの認証処理部の処理フローの一例を示す図である。 顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 実施例1に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 実施例1に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 実施例1に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 実施例1に係る、顔と手指とを同時にかざして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。 実施例1に係る、顔の特徴量のバッファリングと選択処理の一手法の説明図である。 実施例1に係る、顔と指の特徴量のバッファリングと選択処理の一手法の説明図である。 実施例1に係る、顔と指の特徴量による特徴ペア生成の一手法の説明図である。 実施例1に係る、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例を示した説明図である。 実施例1に係る、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例を示した説明図である。 実施例2に係る、顔および指を単体で照合できる生体認証システムの認証処理部の処理フローの一例を示す図である。 実施例2に係る、顔または手指の処理を割愛したマルチモーダル生体認証技術の一例を示した説明図である。
 以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
 図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
 また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit)、GPU(Graphics Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)および/またはインターフェースデバイス(例えば通信ポート)等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路(例えばFPGA(Field-Programmable Gate Array)やASIC(Application Specific Integrated Circuit))を含んでいてもよい。
 なお、本明細書において、生体特徴とは、指静脈、指紋、関節模様、皮膚模様、指輪郭形状、脂肪小葉紋、各指の長さの比率、指幅、指面積、メラニン模様、掌静脈、掌紋、手の甲静脈、顔静脈、耳静脈、あるいは顔、耳、虹彩、などの解剖学的に異なる生体の特徴を意味する生体情報である。
 図1Aは、本実施例において生体特徴を用いた生体の認証システム1000の全体の構成の一例を示す図である。尚、本実施例の構成は認証システムとしてではなく、全てまたは一部の構成を筐体に搭載した認証装置としての構成としてもよいことは言うまでも無い。認証装置は、認証処理を含めた個人認証装置としても良いし、認証処理は装置外部で行い、指の画像の取得に特化した指画像取得装置、指の特徴画像抽出装置としてもよい。また、端末としての実施形態であってもよい。
 少なくとも、認証装置は、生体を撮影する撮像部と、撮影された画像を処理し、生体の認証を行う認証処理部を備える構成を生体認証装置と、生体を撮影する撮像部とをネットワークで接続され、認証処理を行う装置であり、認証装置を含むシステムを生体の認証システムあるいは生体認証システムと呼び。生体認証システムは、生体認証装置や生体認証システムを含む。
 図1Aに示す本実施例の生体の認証システム1000は、撮像部である入力装置2、認証処理装置10、記憶装置14、表示部15、入力部16、スピーカ17及び画像入力部18を含む。入力装置2は、筐体内部に設置された撮像装置9を含み、その筐体に設置された光源3が含まれていても良い。認証処理装置10は画像処理機能を備える。
 光源3は、例えば、LED(Light Emitting Diode)などの発光素子であり、入力装置2に提示された利用者の一定領域の生体として、顔4および指1に光を照射する。光源3は実施形態によって様々な波長が照射できるものであっても良く、また生体の透過光を照射できるものであっても良く、また生体の反射光を照射できるものであっても良い。
 撮像装置9は、入力装置2に提示された指1および顔4の画像を撮影する。なお、同時に虹彩、手の甲、掌などの生体を撮影しても良い。撮像装置9は、単一あるいは複数の波長の光を撮影できる光学センサであり、モノクロカメラであってもカラーカメラであってもよく、可視光に加えて紫外光あるいは赤外光が同時に撮影できるマルチスペクトルカメラであってもよい。また被写体の距離が計測できる距離カメラでもよく、また同じカメラを複数組み合わせたステレオカメラの構成でも良い。
 入力装置2は複数の撮像装置を含んでいても良い。さらに、指1は複数本であっても良く、両手の複数指を同時に含んでも良い。
 画像入力部18は、入力装置2内の撮像装置9で撮影された画像を取得し、取得した画像を認証処理装置10へ出力する。画像入力部18としては、例えば、画像を読み取るための各種リーダ装置(例えば、ビデオキャプチャボード)を用いることができる。
 認証処理装置10は、例えば、中央処理部(CPU)11、メモリ12、及び種々のインターフェイス(IF)13を含むコンピュータから構成される。CPU11は、メモリ12に記憶されているプログラムを実行することによって認証処理などの各機能部を実現する。
 図1Bは、認証処理装置10の各機能を実現するために、メモリ12に格納されているプログラムの機能構成の一例を示す図である。
 図1Bに示すように、認証処理装置10は、個人の生体特徴を個人IDと紐づけて予め登録する登録処理部20、撮像して抽出した生体特徴を登録されている生体特徴に基づいて認証して認証結果を出力する認証処理部21、入力された画像に対して生体の位置検出や不要な背景の除去などを行う生体検出部22、提示された生体を適切な条件で撮影する撮影制御部23、生体が撮影された画像の画質や生体の姿勢などの品質を判断する品質判定部24、登録処理や認証処理の際に生体の姿勢を適切に補正して生体特徴を抽出する特徴抽出部25、生体特徴の類似度を比較する照合部26、複数の生体特徴の照合結果から認証の結果を判定する認証判定部27、の各種処理ブロックを含む。これらの各種処理については後で詳述する。メモリ12は、CPU11によって実行されるプログラムを記憶する。また、メモリ12は、画像入力部18から入力された画像などを一時的に記憶する。
 インターフェイス13は、認証処理装置10と外部の装置とを接続する。具体的には、インターフェイス13は、入力装置2、記憶装置14、表示部15、入力部16、スピーカ17、及び画像入力部18などと接続するためのポート等を有した機器である。
 また、インターフェイス13は、通信部として機能し、認証処理装置10が通信ネットワーク(図示せず)経由で外部の装置と通信を行うためのものである。通信部は、通信ネットワークが有線LANであればIEEE802.3規格に則った通信を行う装置であり、通信ネットワーク30が無線LANであればIEEE802.11規格に則った通信を行う装置である。
 記憶装置14は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)から構成され、利用者の登録データなどを記憶する。登録データは、登録処理時に得られ、利用者を照合するための情報であり、利用者毎に複数の生体の特徴量を対応付けて記憶される。例えば、利用者識別情報として登録者IDに紐づけられた顔の特徴量、指の特徴量や指静脈パターンなどの画像や生体特徴のデータである。
 指静脈パターンの画像は、指の皮下に分布する血管である指静脈を暗い影のパターンもしくはやや青み掛かったパターンとして撮影した画像である。また指静脈パターンの特徴データは、静脈部分の画像を2値ないし8ビット画像に変換したデータ、あるいは静脈の屈曲部、分岐、端点などの特徴点の座標もしくは特徴点周辺の輝度情報から生成した特徴量からなるデータ、あるいはそれらを暗号化して解読できない状態に変換したデータ、である。
 表示部15は、例えば、液晶ディスプレイであり、認証処理装置10から受信した情報および生体の姿勢誘導情報および姿勢判定結果を表示する出力装置である。
 入力部16は、例えば、キーボードやタッチパネルであり、利用者から入力された情報を認証処理装置10に送信する。なお、表示部15はタッチパネルなどの入力機能を有していても良い。スピーカ17は、認証処理装置10から受信した情報を、例えば音声などの音響信号で発信する出力装置である。
 図2は、本実施例で説明する汎用フロントカメラによるマルチモーダル生体認証装置の構成を示す概略図である。ここでは利用者がノートPCにログインする際に、顔と左手の指の生体特徴を用いたマルチモーダル生体認証を行う例として説明する。
 利用者は、ノートPCでの作業を行うにあたり、PCにログインするための認証機能を起動する。このとき、利用者はノートPC41の正面に位置することが多く、また一般的なノートPC41では利用者の顔4を撮影しやすくするため、カメラ9がディスプレイ42の上部に設置される。カメラ9は、ディスプレイ42の前面付近を撮影できるよう、すなわち利用者の顔4や左手45が全体的に撮影されるよう、設置されている。これにより、利用者の顔4がカメラ9の映像の画角の中央付近に撮影される。
 認証システムは、カメラ9を起動して利用者の生体特徴を撮影するが、利用者がどのように生体をかざせば良いかを把握しやすくするため、カメラ9によって撮影された映像をディスプレイ42に表示すると共に、顔ガイド43および指ガイド44をディスプレイ42にオーバレイした映像であるプレビュー画像47を表示することができる。ただし、生体を任意の位置にかざしても認証が実施できる場合など、特にガイドを表示する必要がない場合ではガイド表示を割愛してもよい。必要に応じてガイドを表示することで利用者の認証操作が容易となり利便性を向上する効果が得られる。
 利用者は、このプレビュー画像47を見ながら表示されたガイド位置に顔4と左手45および指1を合わせる。このとき、それぞれの生体を提示することを利用者に明示するため、ガイドメッセージ46をプレビュー画面上に表示しても良い。認証システムは、生体が提示されたことを検知すると複数の生体特徴に基づき認証を行い、予め登録されている利用者であると判定できた場合は、ノートPC41をログイン状態に遷移させる。以下、登録および認証の具体的な方法について詳述する。
 図3、および図4は、それぞれ本実施例で説明する複数の生体特徴を用いたマルチモーダル生体認証技術の登録処理と認証処理の概略フローの一例を示す図である。
 この登録処理と認証処理は、例えば、上述した認証処理装置10のCPU11が実行するプログラムによって実現される。なお、本実施例では利用者の顔および左手の4本の指を撮影することを前提として説明するが、顔については顔全体ではなく顔の部分的な特徴であってもよい。また指に関しては1本の指あるいはそれ以外の任意の指の本数であっても、複数の手の指であってもよい。また顔および指以外の一般的に広く知られている虹彩、静脈、指紋、掌紋など、任意の種類の任意の数の生体特徴であってもよい。
 初めに、図3の登録処理の流れについて説明する。
 利用者による登録処理の指示により登録処理部20が起動され、まず、認証システムは、利用者に生体を登録する旨を説明するプレビュー画像を表示部15に表示する(S301)。利用者は、表示されたプレビュー画像により、登録処理に一連の流れを把握することができる。プレビュー画像により、利用者は、顔および指を4本かざす理想的なかざし方やかざす手順や「はじめに顔を撮影し、続いて左手の4本指をかざします」などの文章を示すことで、登録処理の流れを説明する。これにより、登録操作の誤りを減らすことができる。
 また、自分がカメラで撮影されていることを視認できるよう、現在のカメラ映像をプレビュー画像として表示部15に表示する。表示は全画面に対して行っても良く、画面の一部分に小さく表示しても良い。このとき、利用者の左右と画像の左右が一致するよう、カメラ映像を左右反転して表示することで利用者が自身の生体をかざしやすくなる。
 次に、顔の特徴量の登録を行う前処理である顔検出処理を行う(S302)。その一実施例として、予め顔画像と顔の位置および顔の器官(顔のパーツあるいはランドマーク)の位置との関係性を学習した深層ニューラルネットワークを用意し、このネットワークに顔画像を入力して、顔を含む矩形の顔領域(バウンディングボックス)もしくは顔ROI画像(ROI:Region of Interest)を獲得する技術を利用することができる。顔のランドマークは例えば目の中心、目頭や目尻の先端、まぶたの縁(アイライン)、鼻先、口の左右の口角、眉間の中心位置、などから構成されろ。また、これらを包含する矩形を顔領域と定義することができる。本実施例では、利用者が生体特徴として顔を撮影していることを認識することなく、顔に関する生体特徴を登録する。図2に示したようなPCにログインする場合など、通常、利用者はPCの正面に位置することが多く、利用者が意識することなく、顔の生体特徴が登録できる。但し、顔の検出が実施されていることが利用者に分かるよう、プレビュー画像の上に重畳して顔のバウンディングボックスの枠を表示しても良い。また「顔を正面に向けてください」などのガイドを表示しても良い。さらには顔の輪郭を模した顔ガイドを表示し、現在顔を撮影するフェーズであることや顔をかざす場所を視覚的に理解出るようにしても良い。
 次に、撮影制御部23を起動して、カメラの露光時間やゲイン、ホワイトバランス、フォーカスなどのカメラパラメータを適切に調整しながら顔を撮影する、顔の撮影制御を実施する(S303)。ここでは、検出された顔ROI画像の内部に白飛びや黒潰れが生じないようにカメラの露光時間を調整したり、カメラの焦点が顔に合うようにフォーカスを調整したりする。
 また、画像全体の平均色が環境照明の色であることを仮定した灰色仮説などの手法に基づき、画像全体のホワイトバランスを自動調整する。なお、露光時間の調整についてはカメラの露光時間を調整しても良いが、複数の連続する画像フレームの画素値を重み付け積分するなどでソフト的に露光時間を調整しても良い。ソフト的な露光調整手法では、画像の露光を部分的に補正することができるため、例えば顔と複数の手指のそれぞれの生体を独立して最適に露光補正できる利点を有する。
 次に、獲得した顔ROI画像を正規化する(S304)。正規化の一実施例として、顔の大きさ(顔ROIの面積など)が一定になるように拡大縮小を行う、顔の向きを正面向きに補正するため透視投影変換によって正面顔を疑似的に生成する、顔の明るさが一定値になるように定数を乗算する、などがある。この正規化は、後段で実施する顔の特徴抽出の結果を安定させるために行う前処理となる。
 続いて、顔の特徴抽出を実施する(S305)。顔の特徴抽出の一例として、顔ROI画像を入力として任意の固定長特徴ベクトルを出力する深層ニューラルネットワークを用いる。この深層ニューラルネットワークに対し、同一の顔である複数の顔ROI画像から得られる特徴ベクトルのL1距離が互いに最小化され、かつ異なる顔である顔ROI画像から得られる特徴ベクトルに対するL1距離が最大化されるように学習を行う。深層ニューラルネットワークを用いて顔ROI画像から特徴ベクトルを獲得する。
 これによると、同一の顔画像から獲得される特徴量は互いにL1距離が小さく、別の顔画像から得られる特徴量はL1距離が大きく変換される。そのため、顔画像が同一か否かをパターン間の距離(相違度)によって評価できるようになる。ここではL1距離について記載したが任意の距離空間でも良く、一般的に本人と他人とを分類するためには特徴量の距離学習が行われる。広く知られている具体的な手法としては、Triplet Lossを用いる手法や、一般的なクラス分類問題を学習させるだけで距離学習が実現できるArcFaceなどの手法を用いることができる。
 次に、顔画像の品質値を算出する(S306)。顔画像の品質値の具体的な算出方法の一実施例として、顔の大きさ、顔領域の明るさ、顔の向き、顔の表情、顔の移動速度、顔画像から抽出される顔特徴量の時間的変動、の各項目を数値化し、これらの重み付け和に基づいて判定される。顔の大きさは上述の顔ROI画像の大きさであり、これが小さい場合は顔が十分な大きさで撮影されていないと判断できるため品質値を小さくする。
 また、顔の明るさは正規化前の顔ROI画像の平均輝度から求められ、想定より暗い場合、あるいは明るすぎる場合、あるいは白飛び画素が多いなどは品質値が低いと判断できる。
 また、顔の向きは上述の顔のランドマークに対し、平均的な正面顔で生じるランドマーク位置を基準として3次元的な回転角を推定し、顔のピッチング回転角、ローリング回転角、ヨーイング回転角の重み付け総和が0に近い場合は品質が高いとし、値が大きい場合は正面顔ではないとしてその品質値が低いと判断する。
 また、顔の表情については無表情であることが理想的であるとし、一般的な機械学習手法によって笑顔度などを算出し、無表情であるほど品質値が高まるようにする。
 顔の移動速度は時間的に前後するフレーム画像の顔ROIの中心点の移動量が大きい場合は顔が静止していないため品質値が低いと判定する。顔特徴量の時間的変動については、上述の通り顔ROI画像から顔の特徴量を抽出し、時間的に前後するフレーム画像に対する顔特徴量の類似度を総当たりで判定し、そのバラつきが大きい場合は抽出される特徴量が不安定であるとして顔画像の品質値が低いと判断する。
 これらの各評価項目についてそれぞれ数値化を行い、重み付けによって合計して値を融合し、これを顔画像の最終的な品質値として獲得する。
 また、別の手法として、時系列に並べられた複数の顔ROI画像を入力とし、任意のスカラ値を出力とする深層ニューラルネットワークを用いる。この深層ニューラルネットワークに対し、同一顔同士の顔の特徴量の距離が大きい傾向にある顔ROIの時系列画像が入力された場合には、スカラ値として低い値(例えば10)を出力し、逆に距離が小さい傾向にある場合は高い値(例えば1000)を出力するように学習を行う。これにより、認証に成功する傾向の高い顔ROIの時系列画像が入力された場合に高い値を獲得できる。このように獲得した値は認証に好適であるほど高い値になるため、品質値として利用できる。この方式では前述のような各評価項目を人手で列挙する必要がないため開発効率が高められ、かつ品質値と認証成功の相関を高め易い利点がある。
 なお、顔の品質値の評価項目の中に、瞬きを検出する項目を含めても良い。顔画像を撮影する前に、「何度か瞬きをしてください」などのガイダンスを表示した上で一定時間瞬きを行う時間を設け、その期間中に瞬きが検出できたと判定された場合は本物の顔であることとして品質値を上昇させ、そうでない場合は印刷物などの偽物の顔であるとして品質値を低下させる。これにより、少なくとも瞬きが実施できない偽物の顔画像は品質値が低いものとして棄却することが可能となる。
 次に、顔の登録判定を行う(S307)。顔画像の品質値は画質や顔の姿勢が登録や認証に適していることを判断する基準となるため、この品質値によって現在獲得している顔の特徴量の登録の適合不適合を判定できる。そのため、顔画像の品質値に対して所定の閾値を設け、これを超えた場合に登録可能と判定することができる。
 ただし、偶発的に品質値が高まってしまった場合にそのデータを登録すると認証が不安定となる場合があるため、連続で所定の閾値を超えた場合、あるいは現時点の顔画像の品質値を時間的に積分していき一定値を超えた場合に、顔の特徴量を登録可能と判定しても良い。
 このとき、顔の品質値が所定の閾値を超えた特徴量が複数生じるが、最終的な登録データの決定方法の一例として、最も品質値の高いものを選択する方法、あるいは、それぞれの特徴量を総当たりで照合した際に、最も相違度の合計が低いものを登録する方法がある。後者の方法では、顔画像の画質や顔の姿勢などに揺らぎが生じた場合でも平均して最も安定に認証できる特徴量を選択することになるため、認証精度が向上する利点がある。
 次に、登録判定によって顔の登録データが獲得できたかを判定する(S308)。前段の登録判定において登録データが一意に決定できなかった場合は、再度顔の検出からやり直す。顔の登録データを決定した場合は、それを一時的にメモリ等に記憶しておき次のステップである指の登録へと移る。なお、図示はしていないが、登録処理にタイムアウト時間を設定し、その時間が経過してもなお顔の登録データが獲得できなかった場合は登録失敗(S321)へと遷移して処理を抜けても良い。
 続いて指の登録を実施する。まず、図6Cに示すように、画面上に利用者のカメラ映像であるプレビュー映像にオーバレイする形で指ガイドを表示する(S309)。利用者は画面に映る指ガイドと自身のプレビュー映像を確認しながら、指ガイドに合わせるよう左手をかざす。このとき「左手をかざしてください」などのガイドメッセージを表示しても良い。
 次に指の検出処理を行う(S310)。指の検出処理では、まず指と背景とを分離し、次に指単位で指を切り出す指のROI画像を獲得する。背景分離処理の一例としては、指をかざしたカメラ画像を入力として指領域だけが1でそれ以外が0となる指のマスク画像を出力する深層ニューラルネットワークに対し、あらゆる入力画像に対して正しく指のマスク画像が出力されるように学習を行い、そのネットワークによって指のマスク画像を獲得して背景をマスクする(除去する)方法がある。
 また、指単位で指を切り出す指のROI画像の獲得の一手法として、上述の顔のランドマーク検出手法と同様に、指先や指根元、指の関節といった指のランドマークを抽出できる深層学習に基づき指を矩形に切り出すことができる。
 その後、指の撮影制御を行う(S311)。ここでは指のROI画像の領域内が適切な明るさで、かつ適切なホワイトバランスや適切なフォーカスに制御することを除けば上述の顔の撮影処理と同様の処理となるため説明を割愛する。
 続いて、指画像の正規化を行う(S312)。指画像の正規化の一例としては、指の太さや3次元的な傾きを透視投影変換に基づいて一定値に補正する方法や、また上述のように顔の正規化で実施したランドマークに基づく方法で補正しても良い。例えば、検出されたすべての指の太さと向きとを正規化する姿勢補正処理として、各指の指先の点および両側面の指股の2点を内部に含み、かつ指の中心軸が画像の横軸と平行となるように回転し、かつ各指の指幅が一定値となるように拡大縮小した画像を生成するものとする。これにより、すべての指のROI画像に映る画像上の指の向きと太さとが統一化される。
 続いて、特徴抽出部26を起動して、指の特徴抽出を行う(S313)。指の特徴抽出は上述の顔の特徴抽出と同様に実施できる。なお、指の特徴量としては、指静脈、指紋、関節紋、表皮紋、メラニン紋、脂肪紋、などをそれぞれ独立して抽出してもよく、それらが混合していても良い。
 また、別の特徴抽出方法としては、一般的なエッジ強調フィルタ、ガボールフィルタ、マッチドフィルタなどのフィルタリング処理により、表皮や血管の線パターン特徴や、脂肪小葉の斑点特徴などの生体特徴を強調し、その結果を2値化あるいは3値化するなどで生体特徴を獲得することができる。あるいはSIFT(Scale-Invariant Feature Transform)特徴量などのキーポイントから輝度勾配特徴を抽出する手法で獲得しても良い。いずれにしても、画像から生体特徴を抽出し、それらの互いの類似度を算出できるいかなる特徴量であっても良い。
 次に、指画像の品質値の算出を行う(S314)。指画像の品質値算出の一例として、指の映像の中から複数の指の指先、指根元、指幅の情報を取り出す指姿勢検知を行い、その時の指の姿勢が適正かどうかを判定する方法がある。指の姿勢判定では、指姿勢検知の結果に基づき、表示した指ガイドから大幅にずれていないことを確認するなどにより指が適切な位置に存在していることや、指が一定時間静止していることを評価項目とする。
 指静止検知の一実施例として、指先の位置などの指姿勢情報が時間的に変化しないことを確認すればよい。なお、指を完全に静止することは困難であるため、ある一定の移動量の範囲に収まっている場合は指静止されていると判定しても良い。それでもなお、指が静止していない場合や指の見え方が遠すぎる場合(カメラから指が離れていて、手が小さく見える場合)など、適切な姿勢ではない場合はその旨をガイド表示し、図示は省略するが、改めて指の提示を促す処理(S309)に戻ってもよい。
 また、この処理の中で抽出されたパターンが適切なものであることと、撮影された指が異物や偽造物ではないことを検出するデータ適正判定を実施しても良い。もしこの判定結果が不適正である場合は品質値を大きく低下させ、候補として選択されないようにする。データ適正判定処理の一実施例としては、血管パターンのような線特徴でありながらも連続性の高いパターンが抽出できなかったり、あるいは本物の指では観測されることのない強いエッジが原画像から観測されたりした場合は、パターンの抽出に失敗したか、あるいは偽造物が入力されたとして棄却することができる。あるいは、指の血流の変化に伴う画像輝度の脈動を動画像から検知し、脈動が検出できない場合は棄却する方法であっても良い。
 続いて、指の登録判定を行う(S315)。この判定は上述の通り指画像の品質値に基づいて実施するが、その方法は上述の顔画像の品質値に基づく方式と同様に実施できる。
 そして、これら(S309~S315)を繰り返して登録候補が3回分蓄積されたかどうかを判定し(S316)、3回蓄積された場合は登録選択処理を行う(S317)。尚、登録候補の数は、3回に限定されるものではない。
 登録選択処理の一実施例としては、3回分の登録候補の特徴データを総当たりで照合して各候補間の類似度を算出し、他の候補との2件の類似度の合計が最も高い1つの登録候補を登録データとして選択する手法がある。この手法によると3回撮影したなかで最も再現されやすい安定した特徴データが登録されるため、認証精度が向上する。
 ただし、このとき選択された登録データと他の候補との2件の類似度が両方とも同一パターンと認められない値だった場合は、3回分の登録候補がいずれも不安定な生体特徴であったものとみなし、登録データが決定しなかったものとする。そして登録に適したとされる1つの特徴データが決定したかどうかを判定し(S318)、決定した場合はそのときの指の特徴データと前段で取得した顔の特徴データとを、登録処理の開始時に登録者により入力された登録者IDに紐づけて生体特徴の登録データとして記憶装置14に保存し(S319)する。一方、決定しなかった場合は、タイムアウトまで処理を繰り返し(S320)、タイムアウトとなった場合は登録に失敗した状況を報告して終了する(S321)。
 続いて、図4の認証処理の流れについて説明する。認証処理は、既に、登録処理によって個人の生体特徴を登録している利用者(基本的に認証処理中において同一の利用者であることが前提である)が、生体認証システム1000に登録本人であることを認証させる処理である。
 認証処理は、利用者が提示した生体を撮像して、生体の特徴量を抽出して、登録データの各特徴データと照合して、本人と判定できる登録データが在る場合は認証成功結果と登録者IDを出力し、本人と判定できる登録データが無い場合は認証失敗通知を出力する。
 利用者による認証処理の指示により認証処理部21が起動され、認証が開始された旨を表示するプレビュー画像を表示(S401)する。例えば「左手の撮影を開始します」と表示する。利用者は、表示されたプレビュー画像により、認証処理に一連の流れを把握することができる。
 認証では顔と手を撮影するが、前述の図2にて記載した通り、利用者はノートPCなどの端末の正面に位置することが多いため、顔の撮影は利用者が特に撮影を意識することなく実施できるため、利用者には左手の撮影のみをガイダンスすることができる。これにより利用者は左手をかざす準備を予め行うことができ、スムーズに生体認証が実施できる。また、登録処理と同様にカメラのプレビュー画像を表示する。
 次に、予め定めた一定時間の間、顔の検出処理(S402)から顔画像の品質値の算出(S406)を行う。これらの処理は図3の登録処理の顔の検出処理(S302)から顔画像の品質値の算出(S306)と同様であるため説明を割愛する。
 そして、予め定めた一定の基準を上回る顔画像の品質値を有する顔特徴量を、認証処理装置10のメモリ12(バッファ)に記録する(S407)。そして、ここまでの処理を一定時間だけ繰り返す(S408)。なお、これらの処理中も前述のガイド文の表示は引き続き実施してもよい。
 この一連の処理(S402からS408)は、顔単体の撮影に係る処理であり、ここでは、第1の期間として「顔単体撮影フェーズ」と呼ぶ。
 なお、ここでは顔単体撮影フェーズを一定時間としたが、高品質値の顔特徴量がバッファ内に一定の数だけ集まったり、あるいは顔単体で登録データと照合して成功した時点でこのフェーズを抜けたりしても良い。ただし一定時間とする利点として、仮に品質値の高い顔特徴量が得られるまでループを繰り返すとした場合、品質値が高まりにくい環境で撮影が進められると、このフェーズを抜けるための時間が掛かりすぎる場合があり認証の遅延が生じる。これに対し、このフェーズを一定時間に限定すると遅延しにくくなる利点がある。さらに、品質値の高低によって当該フェーズを抜ける時間が変わると品質値が推測されてしまう可能性があるが、これは偽造物の作成に悪用される場合があるため、これを防止することができる点も利点となる。
 次に、例えば、図6Cに示すように、指をかざすことを促す指ガイドの表示(S409)を行い、続いて顔と指の検出処理(S410)から顔画像と指画像の品質値の算出(S414)を行う。これらの処理は図3の登録処理あるいは図4の顔単体撮影フェーズとほぼ同様であり、ここでは顔と指の両方の生体特徴に対して処理する点だけが相違となるため説明を割愛する。
 続いて、顔の特徴量を、認証処理装置10のメモリ12(バッファ)にバッファリング(記憶)し、記憶された顔の特徴量の選択処理を行う(S415)。ここでは図3の登録処理と同様、一定上の品質値となった顔の特徴量をバッファリングすると共に、後段で実施する照合処理に利用する顔の特徴量をバッファ内から選択する。
 選択方法の一実施例については後に図7を用いて詳述する。いずれにしても、バッファ内の顔の特徴量のうち認証に成功しやすいものを優先的に選択できれば、早い段階で認証に成功させることが可能となる。
 また、バッファリングされた顔の特徴量のうち顔単体撮影フェーズで撮影されたものは後述の通り顔の姿勢が比較的正面を向きやすく、また手がかざされる前段階であるため遮蔽による顔画像の欠落が生じにくいため、手と顔を同時にかざすときの顔画像を利用するよりも高品質の顔画像が選択されやすい利点がある。
 その後、顔と指の品質値が共に十分高いことを確認するが(S416)、いずれの品質値が一定値より低い場合は再度顔と指の検出処理(S410)からやり直し、認証処理での利用に適した顔および指の特徴量が得られるまで繰り返す。この繰り返し区間を、第2の期間として「マルチ撮影フェーズ」と呼ぶ。「顔単体撮影フェーズ」と「マルチ撮影フェーズ」の顔の特徴量は、同一利用者の同一領域について異なるタイミングで算出したものである。「マルチ撮影フェーズ」における、指の特徴量は、同一利用者の顔とは異なる領域として指の特徴量を算出したものである。
 「顔単体撮影フェーズ」と「マルチ撮影フェーズ」の顔特徴量は、顔を撮影した画像から得られる値である。例えば、撮影した画像が1秒当たり30フレームの動画の場合、1秒当たり、30の顔特徴量を算出することができる。「マルチ撮影フェーズ」の指特徴量についても同様である。
 顔および指の画像の品質値が共に高いことが確認されると、顔の特徴量と指の特徴量の融合を行うと共に、照合部26を起動して、図4に示した処理により獲得した顔の特徴量と指の特徴量の認証データと、予め記憶装置14に登録されている1件以上の登録データ(通常、複数の登録者が登録されていることを想定する)とを順次照合して照合スコアを獲得する(S417)。
 照合処理は、内部で指特徴量と顔特徴量を分離し、それぞれ登録された各特徴量との相違度として照合スコアを算出し、最後にそれらの照合スコアを重み付け総和した結果として獲得しても良く、また指特徴量と顔特徴量を分離することなく登録データと照合しても良い。また、生体の特徴量を例えばPBI(Public Biometric Infrastructure)の技術によって暗号化された特徴量に変換した情報に基づき登録データとの一致を確認しても良い。照合スコアは、スカラ値でもベクトル値でもよく、またその値は2値でも多値でも良い。
 最後に、算出された照合スコアに基づき認証判定を行う(S418)。判定の一実施例として、顔特徴量単体の照合スコアと指特徴量の照合スコアとをそれぞれ獲得し、それぞれの照合結果(相違度)がいずれも登録者との類似性が認められる閾値を下回る場合に最終的に登録者本人であると判定するAND判定に基づく決定レベル融合判定を行う方法がある。
 この判定方式では、両方の生体特徴がいずれも登録者と類似していることを要請するものであり、非登録の他人を誤って登録者と判定する他人受入率を低減する効果がある。
 また同様に、顔と指の照合スコアのいずれかが登録者との類似性が認められる閾値を下回る場合に登録者本人と判定するOR判定に基づく決定レベル融合判定とすることもできる。この場合はいずれかの生体で認証に成功すれば良いことから、本人が誤って棄却される本人拒否率を低減することが可能となる。
 これらは認証システムのセキュリティポリシーに応じて任意に設定できる。また、各生体の照合スコアを線形結合するスコアレベル融合判定としても良く、さらには各生体の照合スコアを2次元照合スコアベクトルとして扱い、多次元空間に閾値の境界超平面を定義し、前記照合スコアベクトルが本人と判定できる領域に含まれるならば登録データと類似していると判定しても良い。特にベクトルとして扱う方式は認証閾値を柔軟に設定することができ、各生体の照合スコア同士の相関がある場合はその相関に応じた境界を定義できるため、高精度な認証判定を実現することが可能である。
 なお、指の照合処理では、抽出された表皮特徴および静脈特徴についてそれぞれ登録データ(1件の登録データの表皮特徴および静脈特徴)との類似度を算出しても良い。
 最後に、登録データと類似していると判定された場合は、認証成功結果と該当登録データに紐づけられていた登録者IDを出力する(S419)。そうでない場合は認証処理のタイムアウトまでマルチ撮影フェーズを繰り返して認証試行を継続し(S420)、タイムアウトとなった場合は全ての登録データとの認証に失敗した旨の通知(登録者本人とは認証できなかった旨の通知)を出力して認証処理を終了する(S421)。
 なお、ここでは複数の登録者から一意の登録者を決定する1:N認証として説明したが、認証する前に予め登録者IDを指定したうえでその登録者であることを検証する1:1認証の構成としてもよいことは言うまでもない。
 なお、認証判定(S418)の判定基準として、連続で登録と一致したことを要件としても良い。この場合は1度目の認証判定で登録データと一致しても認証成功とはならず、所定の回数あるいは連続回数だけ一致が確認できた時点で認証成功となる。これにより、他人が偶発的に認証成功となってしまう他人受入エラーを防止することができ、安定性のある高精度な認証が実現できる。
 また、本実施例ではS417の通り顔と指の特徴量を融合したが、顔単体で照合し、かつ指の特徴量を単体で照合する方式としてもよく、この方式は、図9にて後述する。両特徴量を融合する利点として、多数の顔画像や指画像の偽造物の入力による攻撃への強度を高めることができることがある。顔の特徴量と指の特徴量とを個別に照合できるように認証システムを設計すると、それぞれの照合結果が単体で確認できるため、それぞれ単体で攻撃に成功した偽造物を同時に使用すればマルチモーダル認証についても攻撃に成功してしまう。一方、特徴量を融合して単体では照合できないようにすると、両者が同時に攻撃に成功して初めてマルチモーダル認証の攻撃に成功できるため、両者の組合せ方を無数に試行する必要が生じ、組合せ爆発が生じるため攻撃の難易度を高めることができる。このような不正を抑制するためには、両方の特徴量を融合した上で照合を行う特徴レベル融合の方式が有効となる。
 図5A-Eは、顔と手指とを同時にガイドして認証を行うマルチモーダル生体認証技術の認証時の画面遷移図の一例である。ここでは、上述の図4で示したものとは異なり、顔単体撮影フェーズを設けずに顔と手指とを同時にガイドし、かつ顔画像のバッファリングを行わない場合に発生する典型的な認証失敗時の事例を説明する。
 図5Aは、利用者がノートPCにログインするために認証画面を起動した直後のプレビュー画像47である。前述の通り、利用者は端末の前に位置することが多く、またカメラ9がディスプレイ42の正面付近を中心に撮影するため、撮影される映像の中央付近に利用者の顔4が撮影されている。
 次に、図5Bに示されるように、顔と手を同時にかざすための顔ガイド43および指ガイド44を表示する。利用者の顔と左手とを同時にかざすように誘導するため、画面の左側に指ガイド44を、画面の右側に顔ガイド43を表示し、その枠内にそれぞれの生体を合わせてかざすようにガイドメッセージ46などにより誘導する。
 利用者はまず、図5Cに示すようにプレビュー画像47内の自身の顔4と顔ガイド43とを確認しながら正しい位置に顔をかざす。
 続いて、図5Dに示すように利用者の左手45を指ガイド44に合わせるようにかざす。このとき、利用者は顔の前方に左手をかざすことになるが、このとき自身の左手が視界を遮ることで画面が見えにくくなることがある。そのため視界を確保するために図5Dに示すように首を傾げて顔4を横に倒してしまうことがある。この場合、顔が正しく検出できなかったり、登録時とは異なる姿勢で顔が撮影されるため顔の特徴量が変動し、登録された顔と認識されにくくなったりすることがある。
 あるいは、図5Eに示すように、視界を確保するために左手の指と指との間から画面を覗き見る状態になることもあるが、この場合は顔が手によって隠れてしまうため、正しく顔画像を撮影できなくなる。また指の色は顔の色と類似している場合が多いが、指のすぐ後ろに顔が重なって存在すると指と顔の境界が曖昧になり、その影響で指の検出が困難となり、指検出が正確に実施できなくなる場合もある。いずれにおいても、少なくとも登録された顔画像と同じ品質の顔画像が撮影できなくなる。
 このように、顔と手を同時にかざすフェーズのみの顔と手のマルチモーダル生体認証技術においては、複数の生体を同時にかざすことによる認証精度の劣化が課題である。
 図6A-Eは、上述の図4にて示した通り、顔単体撮影フェーズを含んだ顔と手指のマルチモーダル生体認証技術の画面遷移図の一例である。ここでは上述の図5と同じノートPCにログインする事例について説明する。
 まず図6Aに示す通り、利用者はノートPCにログインするために認証画面を起動すると、認証システムはカメラ9を起動して生体を撮影する。そのときの映像をプレビュー画像47として利用者に提示する点は上述の図5と同様である。
 次に、図6Bに示す通り、認証を実施する旨を表示するためのプレビュー画像47として、ガイドメッセージ46を一定時間だけ表示する。一定時間とは例えば1秒間であり、任意の秒数を設定できる。このとき、利用者は特に顔や手をガイドに合わせる操作を行う必要はないが、ここは図4で示した顔単体撮影フェーズとなっており、認証システムとしては顔の撮影、特徴抽出、品質値の算出を裏で実施している。前述の通り、顔単体撮影フェーズで利用者はノートPCの正面に位置しており、また特に手をかざしてはいない。そのため顔をあえて傾けることもなく、また手によって遮蔽されることもない。従って、利用者にとっては何らかの操作を意識させることもなく品質の高い顔画像が撮影できる。
 一定時間が経過した後はマルチ撮影フェーズに移行する。図6Cに示すように左手をかざすための指ガイド44を表示する。マルチ撮影フェーズでは左手を高品質に撮影することが目的となるため、本実施例では顔ガイドは表示を省略しても良い。
 利用者は、図6Dに示すように自身の映像と左手用のガイドとを確認しながら正しい位置に左手をかざす。前述の通り、顔の前方に手をかざすことになるためガイド画面が見えにくくなることがあり、手によって遮られている視界を確保するために首を横方向に倒してしまう場合がある。本実施例では顔単体撮影フェーズにて比較的高品質な顔画像が撮影されてバッファリングされているため、このフェーズで顔の姿勢がばらついても大きな影響はない。
 最終的に、バッファ内の顔画像とマルチ撮影フェーズで撮影された指画像との組み合わせでマルチモーダル生体認証を実施し、両者とも品質の高い特徴量にて認証が実施できる。もちろん、マルチ撮影フェーズで撮影された顔画像が一定の品質値を超えるものであれば、マルチ撮影フェーズで撮影された顔画像を用いて認証処理を行うこともできる。つまり、顔画像については、「顔単体撮影フェーズ」と「マルチ撮影フェーズ」で撮影された顔画像を認証のための情報とすることができ、登録された認証データ(顔の特徴量)と比較できるデータを増やすことで、高精度かつ高速な認証処理を実現することができる。
 従って、図4および図6にて例示した本実施例では、手をかざす際の顔の傾きの変動が生じた場合でも、その影響を受けずに認証が成功する可能性が高くなり、また複数の生体を同時にかざす場合でも手をかざすことだけに専念できるため、高精度で利便性の高いマルチモーダル生体認証を提供することができる。また、顔単体撮影フェーズとマルチ撮影フェーズとで分ける別の利点として、一般的に手をかざす位置は顔をかざす位置よりも前に来ることが多いが、その際、手と顔それぞれのカメラからの距離が異なるため、カメラのフォーカス制御の都合により手と顔の両方で同時にピントを合わせることが難しい場合がある。そこで本実施例のように、顔単体撮影フェーズでは顔にフォーカスを当て、マルチ撮影フェーズでは手にフォーカスを当てることで、両方の生体を最適に撮影できるようになる。なお、顔と手だけに関わらず、複数の生体特徴を同時に最適なフォーカスで撮影するため、例えば焦点の異なる複数の映像を短時間に撮影し、各映像間のぼけの程度の違いからPSF(Point Spread Function; 点広がり関数)を推定することで画像全体のぼけを補正し、すべての被写体の焦点が合焦した全焦点画像を生成しても良い。これにより、複数の生体特徴が鮮明に撮影できるようになる。
 なお、本実施例では顔単体フェーズは、一定時間で次のマルチ撮影フェーズに遷移するとしたが、顔単体フェーズにて顔の登録データとの照合を単体で行い、顔が登録データと一致することが確認できた時点で次のフェーズに移行してもよい。また、所定の品質値を超える顔画像が所定の枚数だけ集められた時点で次のフェーズに移行しても良い。
 その場合は、顔認証が確実に成功することが決定したか、あるいは顔認証に成功する可能性が高まった時点で次フェーズに移ることになり、少なくとも顔認証の認証精度の劣化は抑制しながらも撮影時間を短縮できる利点がある。
 ただし、顔単体で照合する方式の欠点としては前述の通り偽造物の作成に利用される情報が漏れる可能性が生じる点である。そのため常に一定時間の顔単体フェーズを設け、顔の認証が成功したかどうかを利用者に推測させないことで、例えば多数の顔画像を偽造して提示した場合に少なくとも顔単体で認証が成功するかどうかを認証システムの挙動から推察できなくすることで、偽造をより困難にできる。どちらの方法を採用するべきかについては認証システムのセキュリティポリシーに応じて任意の方法を採用できる。
 なお、図6Cで示した通り、マルチ撮影フェーズでは指ガイド44のみを表示したが、別の実施例としては併せて顔ガイドを右側に表示してもよい。その場合は顔を右側に移動させる効果が得られる。さらに別の実施例として、一定時間指ガイド44だけを表示して顔と指のマルチモーダル認証を繰り返し、一定時間経っても認証に成功しない場合は顔ガイドを追加表示するようにしても良い。この方法では、初めは手ガイドのみ表示されるので利用者は手の位置を合わせることに注力でき、一方で顔の撮影に失敗していてマルチモーダルでの認証が成功できない場合には、途中で顔ガイドを表示することによって利用者が顔の位置を手の位置から遠ざけることが期待されるが、その結果、手の認証に成功しやすくなるか、あるいは顔のバリエーションが増えることから認証が成功する可能性を高めることができる。
 図7A-Cは、本実施例で提案する図4における顔の特徴量のバッファリングと選択処理の一手法の説明図である。
 図7Aは、顔単体撮影フェーズにおいて顔の特徴量と、その品質値を時系列にプロットしたグラフであり、前述の図4におけるS405~S408の処理に相当する部分を模式的に表している。
 横軸は時間、縦軸は品質値であり、時刻tにおける顔特徴量をFtとしたときの品質値の推移が示されている。また高品質であると判断できる閾値(高品質閾値)が設定されており、この閾値を上回る特徴量をバッファリングしていく。この図では、顔特徴量F3、F4、F5、F8、F9が高品質閾値を上回っており、顔特徴量F3、F4、F5、F8、F9を選択して、顔単体撮影フェーズの顔特徴量のバッファ141に時系列順に格納されている様子が分かる。
 続いて、マルチ撮影フェーズに入ると、図4におけるS410~S416の処理にて示される通り、顔と指の2つの特徴量を抽出する。図7Bに示されるように顔特徴量と指特徴量の2つに対して時系列的に品質値をプロットすることができる。本実施例では、顔特徴量はF10、F14、F17、F18が高品質であるものとし、マルチ撮影フェーズの顔特徴量のバッファ142に格納されている様子が分かる。なお、図7Bには示していないが、顔特徴量のF10、F14、F17、F18も、顔特徴量のバッファ141に時系列順に格納される。
 また、Htは指特徴量を示しており、ここではH12、H15、H17、H18、H19が高品質値を上回ったものとする。なお、本実施例では顔単体およびマルチ撮影フェーズのそれぞれに応じてバッファを明示的に分けて示したが、同一のバッファで管理しても良いことは言うまでもない。また、本実施例では指の特徴量に対するバッファは設けていないが、指についても顔と同様にバッファリングし、後述の選択方式に倣って利用する指の特徴量を選択しても良い。
 その後、図4のS415およびS416で実施される顔と指の特徴量の選択処理を行う。図7Aおよび図7Bで示したように、顔と指の各特徴量は常に高品質であるとは限らず、片方だけが高品質であったり、両方とも高品質ではなかったり、両方とも高品質であったりする。このとき、両方とも高品質であった場合にのみ認証を実施する設計とすると、特に特徴量をバッファリングする必要はないが、その反面、この実施例では図7Bに示される通り時刻tが17および18のときの2回しか認証する機会が生じない。そのため、認証に失敗しやすくなる。
 そこで、本実施例では、図7Cで示されるように、バッファリングされた特徴量の中から顔特徴量と指特徴量とを選択して組み合わせる、つまり、特徴ペア(融合特徴量)を生成することで認証の機会を増やし、できるだけ早いタイミングで、かつできるだけ多くの認証処理を行い、認証の成功率を高める。
 ここで、図7Cにて図示されている本実施例における特徴ペアの選択方法について説明する。
 まず、指特徴量で品質値が閾値よりも高い場合は常に選択の候補とする。また、そのペアとなる顔の特徴量の選択方法として、まずは顔単体撮影フェーズのバッファより顔特徴量を選択し、次の機会ではマルチ撮影フェーズのバッファより選択する、といった形で2つのフェーズに対するバッファを交互に選択する方式とする。また、各バッファでは時間的に過去のものから新しいものへと順に選択する。ただし、直近に選択された特徴量が時系列的に連続している場合、両者の特徴量は類似している可能性が高いため、その次に格納された特徴量を選択するものとする。
 図7Cに示されるように、まずH12が指特徴量として選択されるが、これとペアとなる顔特徴量は、まず顔単体撮影フェーズのバッファのうち最も過去に保存されたF3が選択される。まずは時刻t=12において、このH12の指特徴量とF3の顔特徴量がペアとなって照合処理が実施される。つまり、特徴ペアを用いて、記憶装置に記憶された利用者毎の顔特徴量及び指特徴量に基づいて照合処理を行う。
 これで認証に成功しなかった場合、次はH15が指特徴量として選択されるが、これとペアとなる顔特徴量は、先ほど顔単体撮影フェーズのバッファより選択したので、ここではマルチ撮影フェーズのバッファより選択され、その中で最も過去に保存されたF10を選ぶ。
 これでもなお認証に成功しなかった場合、続いて時刻t=17においてH17が選択されるが、これとペアになる顔特徴量は交互にバッファを切り替えるため顔単体撮影フェーズのバッファより選ぶ。先ほどはF3を選択したので、時系列順に選択を行うとするとF4が候補となり得るが、上述の通りF3とF4は時間的に連続しているため一つ飛ばしてF5を選択する。すなわち、H17とF5がペアとなって照合処理が実施される。
 同様に、H18のペアとなる顔特徴量はマルチ撮影フェーズのバッファより選ばれ、先にF10を選んだことから今回は次のF14を選ぶ。そして最後にH19とF8がペアとして選択される。
 このように、顔単体撮影フェーズの顔の特徴量とマルチ撮影フェーズの顔特徴量とを交互に選択する方法の利点として、過去にバッファリングした顔単体撮影フェーズの顔画像だけでなく、顔の姿勢が異なることが想定される現時点のマルチ撮影フェーズの顔画像も合間に取り入れることで顔の特徴量のバリエーションを増やすことができる。そのため、認証に成功する可能性が高められる効果が期待できる点である。
 また同様に、バッファリングされた顔の特徴量のうち、時刻的に連続するフレームから抽出した特徴量を飛ばすことによって、顔の特徴量の変化量が小さいものを利用するより特徴量のバリエーションを増加させる効果があり、認証の成功率を高め、かつ認証に成功するまでの時間が短縮できる効果が期待できる。
 なお、本実施例では時間的にタイミングの異なる顔特徴量と指特徴量とを組み合わせて照合を行うが、偽造物による攻撃をより強固に防止する観点として、登録データと類似する複数の生体特徴が同時に観測された(同じ画像内に同時に存在する)場合にのみ認証成功とする方法が考えられる。そこで、たとえば図7Cにおいて指特徴H17が得られた時刻において、同時刻に得られた顔特徴F17を活用し、指特徴H17と組み合わせることになる顔特徴F5がF17と同一人物である(類似性が高い)ことを確認する処理を実施しても良い。これにより、現在時刻の顔画像と顔単体撮影フェーズで撮影した顔画像とが差し替えられていた場合は不正が行われたものとして認証を成功させないなどの処理が実施でき、より安全な認証システムとすることができる。
 なお、上述の実施例ではバッファリングした顔の特徴量は時系列順に並べたが、顔画像の品質値の高い順に並べてその順番に利用しても良い。登録では品質値ができるだけ高まるように顔画像を選択しているため、顔画像の品質値が高い場合は登録データに類似している可能性が高い。従って品質値の高い順に顔の特徴量を融合することで、できるだけ早い段階で認証に成功する確率を高めることができる。このとき、特徴量や品質値と同様に獲得した時刻もバッファリングし、上述のように現在選択しようとしている特徴量と前回選択した特徴量とが時間的に近接している場合は一つ飛ばして選択しても良い。また、バッファ内の顔の特徴量同士を相互に照合し、類似性の高い特徴量が選択されないようにして(間引いて)も良い。また、品質値には顔の向きに関するパラメータが含まれるが、顔の向きにある程度のばらつきが生じるように選択してもよい。例えば、顔のピッチング角が正面より僅かに上向きの画像を選んだ次は下向きの画像を優先的に選んだり、顔のヨーイング角が正面より僅かに左向きの画像と右向きの画像とを交互に抽出したりすることも考えられる。これにより、顔の向きが異なる特徴量を網羅的に照合に用いることができるため、早い段階で認証の成功率が高められる効果が得られる。
 いずれの選択方法においても、顔の特徴量が類似したものを連続的に選択することを避け、できるだけ早い段階で多くのバリエーションの顔の特徴量を認証に利用でき、早い段階において認証成功率を高める効果がある。
 なお、上述のバッファ内の顔の特徴量をすべて利用した場合、改めてバッファ内の顔特徴量を先頭から順に再利用しても良い。このとき、上述の通り選択されなかった特徴量がある場合はそれらを優先的に利用しても良く、各特徴量が選択された回数を記録しておき、選択回数が少ないものを優先的に再利用しても良い。
 以上の通り、認証処理において、登録された顔の特徴量(顔特徴)や指の特徴量(指特徴)と照合される認証データ(顔特徴、指特徴)の特徴ペアは、マルチ撮影フェーズで取得した指特徴に対し、顔単体撮影フェーズで取得した顔特徴とマルチ撮影フェーズで取得した顔特徴とを組み合わせて得られる。これにより、上述した効果が得られる。特に、特徴量のバリエーションを増加させる効果があり、認証の成功率を高め、かつ認証に成功するまでの時間が短縮できる効果がある。
 図8A-Bは、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例の説明図である。
 上述の通り、マルチ撮影フェーズにおいて利用者は顔および手を同時にかざし、顔の検出および顔の特徴抽出、指の検出および指の特徴抽出を経てマルチモーダル生体認証を実施する。このとき、顔および指の処理を同時に実施することでパフォーマンスが低下する場合が考えられる。
 そこで、本実施例では、図8Aに示すように、指の特徴抽出を1フレーム飛ばして実施する。横軸は時間tの経過を表し、FtおよびHtは顔特徴量および指特徴量を示しており、時刻t=2における指特徴量は時刻t=1の時と同じくH1が利用されている様子が分かる。すなわち、時刻t=2では指に関する検出処理や特徴抽出処理を実施せず、時刻t=1の指特徴量をそのまま利用している。本実施例では指の特徴抽出は最大で4指分の処理を行うこと、また照合においては指を1本ずつ総当たりで照合を行うことから、顔の照合に比べて処理時間が掛かる。そのため、時間的に近い特徴量は大きく変化しにくいという時間的局所性を利用して1フレームおきに指特徴量の抽出処理を簡略化する。これにより、認証精度をできるだけ低下させずに処理の簡略化、すなわち認証処理の高速化が実現できる。
 また、図8Bに示す通り、指の処理だけでなく、顔に関する処理も1フレームおきに簡略化することもできる。指特徴量は図8Aと同様に時刻が偶数の場合にひとつ前の指特徴量を再利用しているが、顔特徴量の場合は時刻が奇数の場合にひとつ前の顔特徴量を再利用する。それぞれが交互に処理されるため、特徴ペアとしては常に新しいものが生成される。これにより、常に新しい特徴ペアを生成しながらも平均的な処理時間が1/2に低減でき、認証精度をほとんど劣化させることなく体感速度を向上することが可能となる。
 上述の実施例1においては、顔の特徴量と指の特徴量の両方を同時に利用する特徴レベル融合による照合方式を採用する場合の処理例について記載したが、顔単体の照合、および指単体の照合が独立して実施できる場合は特徴ペアを生成する必要が無く、また別の方式を採用することができる。実施例2では各生体が単独で照合できる場合の実施例について説明する。
 図9は、顔と指とを独立に照合するマルチモーダル生体認証の処理フローの一例である。上述の図4では顔と指のパターンを融合する一例であったが、図9は顔単体あるいは指単体で照合を実施し、その結果をスコアレベル融合した場合の処理フローとなる。なお、登録処理については図3と同様に実施できるため説明を割愛する。
 まず、指の提示を促すガイド文の表示から顔画像の品質値の算出まで(S901~S906)は図4と同等のため説明を割愛する。そして品質値が基準よりも高い場合(S907)には顔特徴量単体で登録データと照合を行い、そのときの顔照合結果を保持する(S908)。顔照合結果は、登録データとの類似性を示す照合スコアであってもよく、また照合スコアに対する閾値処理によって判定される登録データとの一致あるいは不一致の結果であってもよい。
 次に、顔照合結果の有効期限に応じた結果のリセット処理を行う(S909)。本実施例では、ある時間において得た顔照合結果を予め定めた一定時間だけ保持し、それ以降はその結果を無効化する。ここでは結果を保持する一定時間を有効期限と呼び、結果を無効化することをリセットと呼ぶこととする。
 複数の生体特徴を独立に照合する方式のマルチモーダル生体認証では複数のモーダルごとに照合の成否が得られるが、完全に同一のタイミングですべてのモーダルで成功するまで照合を繰り返すと認証時間が長く掛かる場合がある。これに対し、各照合結果に有効期限を設け、一度照合に成功すればその有効期限内であれば常に照合成功とみなすことで、すべてのモーダルで認証成功となる可能性が高まるため、認証の成功率を高めると共に認証までの処理時間を短縮する効果が得られる。このとき、一度成功した照合を永続的に有効にしてしまうと、例えば他人が偶発的に1つのモーダルで認証成功してしまった場合、その結果が永続的に有効となると誤った他人受理が発生しやすくなってしまう。
 そのため、有効期限を超過した結果はリセットにより無効化することで他人受理を抑制する。有効期限は、たとえば0.5秒や1秒などの値を用いることができる。そして一定時間が経過するまでこれを繰り返す(S910)。この繰り返しにより複数の照合結果が得られるが、上述のように有効期限内の照合結果すべてを記録しておく。また、S902~S910のループは図4と同様に顔単体撮影フェーズとなる。
 続いて、指ガイドの表示から顔および指の品質値が十分に高いことを確認する処理(S911~S917)のループに入るが、ここも基本的には図4とほぼ同様の処理である。ただし本実施例では、現時点で有効期限内に照合が成功しているモーダルに対する処理を省略する。つまり、このときすでに顔の特徴量の照合で登録データと十分に類似している、すなわち、有効期限内において顔単体では認証に成功していると判断できる場合は顔の照合を割愛する。また同様に、当該ループにて指の特徴量の照合で登録データと十分に類似していると判断できる結果が有効期限内に存在していれば指の照合を割愛することもできる。このように、顔あるいは指の特徴量のうち登録データと十分に類似したことが確認できていないものに限定して高速に照合処理を実施しながら時系列的に各照合スコアを記録する(S918)。上述と同様に顔および指の照合結果の有効期限に応じた各結果のリセット処理を行う(S919)。そしてこれまでに得られた照合スコア群を用いてスコアレベル融合によって認証判定を行う(S920)。判定の結果、認証成功となった場合は認証成功の処理を実施し(S919S921)、認証処理を終了する。認証できなかった場合はタイムアウトかどうかを判定し(S922)、タイムアウトでない場合は指ガイドの表示から繰り返すが、タイムアウトの場合は認証失敗の処理を実施し(S923)、認証処理を終了する。
 処理S920にて実施される、照合スコア群を用いたスコアレベル融合による認証判定の一実施例として、まず顔と指とでそれぞれ過去に得られた有効期限内の照合スコアのうち相違度が最小となるスコアを取り出し、これが顔及び指のそれぞれで予め定められた認証閾値より下回っているかどうかにより認証を判定する方法がある。例えば、顔および指の両方で閾値を下回った場合にのみ認証成功とするAND判定、あるいはいずれか一方で閾値を下回った場合に認証成功とするOR判定としても良い。また、同様に最小となるスコアをそれぞれ取り出したうえで予め定めた重みを乗じて総和を取ることで融合スコアを獲得し、これが予め定めた閾値を下回った場合に認証成功とするスコアレベル融合を採用することもできる。一般的にはスコアレベル融合の方がAND判定やOR判定よりも高精度な認証を実現できるため好適な処理となる。また、時系列に融合スコアを並べた際に連続して認証閾値を下回った場合にのみ認証成功としても良く、これにより他人の偶発的な認証受理エラーを抑制することができる。
 図10は、顔と指とを独立に照合するマルチモーダル生体認証における、顔と手指とを用いた交互認証によるマルチモーダル生体認証技術の一例の説明図である。
 特徴レベル融合を実施しない方式であれば、各生体単体で照合が実施できるため、上述の図8とはまた別の方法が実施できる。まず時刻t=1からt=6までは顔単体撮影フェーズであり、顔特徴のみ抽出および照合を行う。ここでは顔特徴量F1からF3までは登録データとの類似性が低く、F4の時点で類似性が高まった(顔の照合に成功)とし、また上述の有効期限を3と設定する。F4の時点で類似性の高い結果が得られたため、現時刻t=4と有効期限の3とを合計して時刻t=7まではこの結果が保持される。そのため、ここではF5からF7までの顔特徴量の抽出および照合を簡略化することができる。ただし、顔単体撮影フェーズは顔のみに限定しているため元々の計算量が少ないことから、F5およびF6の処理を実施しても良い。その場合は例えばF6でも類似性が高くなれば後段のマルチ撮影フェーズのF9までの顔特徴の処理が省略できるので、後段の計算量をより削減できる。
 続いて時刻t=7からはマルチ撮影フェーズに入り、顔及び指でそれぞれ処理を実施する。ただし、前述の通りt=7までは顔照合の成功の有効期限内であるため、顔特徴量F7の抽出及び照合を省略できる。そのためここでは指特徴量H7のみ抽出および照合を行う。ここでは指特徴量H7が登録データとの類似性が低かったものとし、引き続き指特徴量H8の処理を行う。それと同時に、顔特徴量の照合成功の有効期限がここで切れるため、顔特徴量F8の処理も同時に行う。ここでは指特徴量H8は登録との類似性が高く、一方、顔特徴量F8は類似性が低かったものとする。このとき指特徴量はすでに登録データと類似していることから時刻t=9からt=11までの3期間だけ処理を省略する。一方、顔特徴量F8は類似性が低いため改めて顔特徴量F9からF11までの抽出と照合とを行う。このとき、この期間は顔特徴だけの処理に注力することができるため処理速度が向上する。そして、ここではF8からF11のいずれも登録データと類似していなかったとする。そして時刻t=12の時点では指特徴量H8で登録データとの類似性が高かったという結果の有効期限が切れ、改めて指特徴量H12を抽出して照合を行う。そして顔についてもF12を抽出する。ここで顔特徴量F12だけが登録データと類似性が高かったとすると、時刻t=13では顔特徴量の抽出を簡略し、指特徴量H13のみ抽出と照合を行う。そしてここでH13が登録データと類似していることが確認できたとすると、時刻t=12での顔特徴量F12が登録データと類似し、かつ指特徴量H13が類似していることとなる。F12が類似していることは有効期限内であるため、t=13の時点で両者の生体が共に類似したものとして認証成功と判定することができる。
 このように、各生体特徴で個別に照合が実施できる場合は特徴レベル融合を行う場合よりも効果的に処理を簡略化できるため、処理速度をより大きく向上できる。なお、前記有効期限を設ける利点として、偶発的に他人が認証成功となってしまった場合でもこれが永続的に続くことを抑制し、誤った他人受入を防止する効果がある。
 なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明のより良い理解のために詳細に説明したのであり、必ずしも説明の全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
1 指
2 入力装置
3 光源
4 顔
9 カメラ
10 認証処理部
11 中央処理部
12 メモリ
13 インターフェイス
14 記憶装置
15 表示部
16 入力部
17 スピーカ
18 画像入力部
20 登録処理部
21 認証処理部
22 生体検出部
23 撮影制御部
24 品質判定部
25 特徴抽出部
26 照合部
27 認証判定部
41 ノートPC
42 ディスプレイ
43 顔ガイド
44 指ガイド
45 左手
46 ガイドメッセージ
47 プレビュー画像
141 顔単体撮影フェーズの顔特徴量のバッファ
142 マルチ撮影フェーズの顔特徴量のバッファ
1000 生体認証システム

Claims (13)

  1.  生体を撮影する撮影装置と、前記撮影装置に接続され、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムにおいて、
     前記撮影装置は、
     第1の期間で、第1の利用者の第1の生体を撮影し、
     前記第1の期間とは異なる第2の期間で、第1の利用者の第2の生体及び第3の生体とを撮影し、
     前記認証処理装置は、
     前記第1の期間において撮影した第1の生体から第1の特徴量を算出し、
     前記第2の期間において撮影した第2の生体及び第3の生体から、第2の特徴量と第3の特徴量をそれぞれ算出し、
     前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第1の特徴量、前記第2の特徴量及び前記第3の特徴量とを照合することで利用者の認証を行う
    ことを特徴とする認証システム。
  2.  請求項1に記載の認証システムにおいて、
     前記記憶装置は、利用者毎に利用者識別情報と、第1の生体と、第2の生体の特徴量を対応して記憶しており、
     前記第1の期間及び前記第2の期間で、前記撮影装置により撮影される、第1の生体と第2の生体は、同一利用者の同一領域であり、
     前記認証処理装置が算出する第2の特徴量は、同一の利用者であって、第1の生体と異なる領域の特徴量であり、
     前記記憶装置は、前記第1の期間に算出された第1の特徴量と、前記第2の期間に算出された第2の特徴量とを、複数記憶する
    ことを特徴とする認証システム。
  3.  請求項2に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第2の期間に算出された第3の特徴量と、前記第1の期間に算出された第1の特徴量、或いは、前記第2の期間に算出された第2の特徴量とで、特徴ペアを生成し、
     前記特徴ペアを用いて、前記記憶装置に記憶された利用者毎の第1の生体の特徴量及び第2の生体の特徴量に基づいて照合処理を行う
    ことを特徴とする認証システム。
  4.  請求項3に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第1の特徴量、前記第2の特徴量に対する品質値を算出し、前記品質値が所定の値を超える場合に、前記第1の特徴量、前記第2の特徴量および対応する品質値を、前記記憶装置に記憶する
    ことを特徴とする認証システム。
  5.  請求項1に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第1の期間に算出された前記第1の特徴量及び前記第2の期間に算出された第2の特徴量と前記第2の期間に算出された第3の特徴量とを融合した融合特徴量を利用する
    ことを特徴とする認証システム。
  6.  請求項4に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第2の期間に算出された第3の特徴量に対する品質値が所定の値を超える第3の特徴量を選択し、
     前記第1の期間に算出された第1の特徴量と、前記第2の期間に算出された第2の特徴量に対する品質値が所定の値を超える特徴量の内、前記第1の期間に算出された第1の特徴量と前記第2の期間に算出された第2の特徴量とを交互に選択して、前記選択された第3の特徴量と前記特徴ペアを生成する
    ことを特徴とする認証システム。
  7.  請求項6に記載の認証システムにおいて、
     前記記憶装置に、前記第1の期間に算出された第1の特徴量と前記第2の期間に算出された第2の特徴量に対する品質値が所定の値を超える特徴量を、時系列順に格納し、
     前記認証処理装置は、前記特徴ペアを生成する際、前記第1の期間に算出された第1の特徴量と前記第2の期間に算出された第2の特徴量を、交互に古い順に優先して選択する
    ことを特徴とする認証システム。
  8.  請求項6に記載の認証システムにおいて、
     前記記憶装置は、前記第1の特徴量と前記第2の特徴量を品質値の高い順に格納し、
     前記認証処理装置は、前記品質値の高い順に優先して特徴量を選択し、前記第3の特徴量とで特徴ペアを生成する
    ことを特徴とする認証システム。
  9.  請求項6に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第2の期間で、第2の特徴量の抽出と第3の特徴量の抽出とを交互に実施する、
    ことを特徴とする認証システム。
  10.  請求項1に記載の認証システムにおいて、
     前記認証処理装置は、
     第1の特徴量と第2の特徴量とを独立に照合し、各照合結果を融合する
    ことを特徴とする認証システム。
  11.  請求項10に記載の認証システムにおいて、
     前記認証処理装置は、
     前記第1の特徴量と前記第2の特徴量と、前記第3の特徴量とを独立に照合し、前記照合結果が前記記憶装置に予め登録された特徴量と類似度が高い場合は一定期間だけ当該特徴量の照合を割愛する
    ことを特徴とする認証システム。
  12.  生体を撮影する撮影装置と、前記撮影装置に接続され、利用者毎に複数の生体の特徴量を対応付けて記憶する記憶装置と、前記撮影装置により撮影した画像を入力し、入力した画像により生体認証を行う認証処理装置を含む認証システムの生体認証方法において、
     前記撮影装置は、
     第1の期間で、第1の利用者の第1の生体を撮影し、
     前記第1の期間とは異なる第2の期間で、第1の利用者の第2の生体及び第3の生体とを撮影し、
     前記認証処理装置は、
     前記第1の期間において撮影した第1の生体から第1の特徴量を算出し、
     前記第2の期間において撮影した第2の生体及び第3の生体から、第2の特徴量と第3の特徴量をそれぞれ算出し、
     前記記憶装置に記憶された利用者毎の生体の特徴量と、前記第1の特徴量、前記第2の特徴量及び前記第3の特徴量とを照合することで利用者の認証を行う
    ことを特徴とする生体の認証方法。
  13.  請求項12に記載の生体の認証方法において、
     前記認証処理装置は、
     前記第2の期間に算出された第3の特徴量と、前記第1の期間に算出された第1の特徴量、或いは、前記第2の期間に算出された第2の特徴量とで、特徴ペアを生成し、
     前記特徴ペアを用いて、前記記憶装置に記憶された利用者毎の第1の生体の特徴量及び第2の生体の特徴量に基づいて照合処理を行う
    ことを特徴とする生体の認証方法。
PCT/JP2022/006798 2021-05-18 2022-02-18 生体の認証システムおよび認証方法 WO2022244357A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/278,057 US20240126853A1 (en) 2021-05-18 2022-02-18 Biometric authentication system and authentication method
EP22804278.4A EP4343689A1 (en) 2021-05-18 2022-02-18 Body part authentication system and authentication method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-084231 2021-05-18
JP2021084231A JP2022177762A (ja) 2021-05-18 2021-05-18 生体の認証システムおよび認証方法

Publications (1)

Publication Number Publication Date
WO2022244357A1 true WO2022244357A1 (ja) 2022-11-24

Family

ID=84140535

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/006798 WO2022244357A1 (ja) 2021-05-18 2022-02-18 生体の認証システムおよび認証方法

Country Status (4)

Country Link
US (1) US20240126853A1 (ja)
EP (1) EP4343689A1 (ja)
JP (1) JP2022177762A (ja)
WO (1) WO2022244357A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7369316B1 (ja) * 2023-02-27 2023-10-25 株式会社安部日鋼工業 コンクリートを認証コードとする、識別システムおよび識別方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062846A (ja) 2002-07-31 2004-02-26 Waimachikku Kk 個人識別装置の入力装置
JP2009020735A (ja) 2007-07-12 2009-01-29 Mitsubishi Electric Corp 個人認証装置
JP2014211838A (ja) * 2013-04-22 2014-11-13 富士通株式会社 生体認証装置、生体認証システム、および生体認証方法
WO2020065954A1 (ja) * 2018-09-28 2020-04-02 日本電気株式会社 認証装置、認証方法および記憶媒体
WO2020065851A1 (ja) * 2018-09-27 2020-04-02 日本電気株式会社 虹彩認証装置、虹彩認証方法および記憶媒体
JP2020095063A (ja) * 2017-03-23 2020-06-18 株式会社Seltech 個人認証装置および個人認証プログラム
WO2020208824A1 (ja) * 2019-04-12 2020-10-15 日本電気株式会社 情報処理装置、情報処理方法及び記録媒体

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004062846A (ja) 2002-07-31 2004-02-26 Waimachikku Kk 個人識別装置の入力装置
JP2009020735A (ja) 2007-07-12 2009-01-29 Mitsubishi Electric Corp 個人認証装置
JP2014211838A (ja) * 2013-04-22 2014-11-13 富士通株式会社 生体認証装置、生体認証システム、および生体認証方法
JP2020095063A (ja) * 2017-03-23 2020-06-18 株式会社Seltech 個人認証装置および個人認証プログラム
WO2020065851A1 (ja) * 2018-09-27 2020-04-02 日本電気株式会社 虹彩認証装置、虹彩認証方法および記憶媒体
WO2020065954A1 (ja) * 2018-09-28 2020-04-02 日本電気株式会社 認証装置、認証方法および記憶媒体
WO2020208824A1 (ja) * 2019-04-12 2020-10-15 日本電気株式会社 情報処理装置、情報処理方法及び記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7369316B1 (ja) * 2023-02-27 2023-10-25 株式会社安部日鋼工業 コンクリートを認証コードとする、識別システムおよび識別方法

Also Published As

Publication number Publication date
US20240126853A1 (en) 2024-04-18
JP2022177762A (ja) 2022-12-01
EP4343689A1 (en) 2024-03-27

Similar Documents

Publication Publication Date Title
US11188734B2 (en) Systems and methods for performing fingerprint based user authentication using imagery captured using mobile devices
KR102561723B1 (ko) 모바일 디바이스를 사용하여 캡처된 화상을 사용하여 지문 기반 사용자 인증을 수행하기 위한 시스템 및 방법
KR102538405B1 (ko) 생체 인증 시스템, 생체 인증 방법 및 프로그램
WO2020190397A1 (en) Authentication verification using soft biometric traits
JP4706377B2 (ja) 生体判別装置および認証装置ならびに生体判別方法
JP2009015518A (ja) 眼画像撮影装置及び認証装置
WO2022244357A1 (ja) 生体の認証システムおよび認証方法
WO2021166289A1 (ja) データ登録装置、生体認証装置、および記録媒体
Juluri et al. SecureSense: Enhancing Person Verification through Multimodal Biometrics for Robust Authentication
US20210174068A1 (en) Live facial recognition system and method
Al-Omar et al. A Review On Live Remote Face Recognition and Access Provision Schemes
Singh et al. Biometric Methods of Face Recognition: A Mirror Review
KR20210050649A (ko) 모바일 기기의 페이스 인증 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22804278

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18278057

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2022804278

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022804278

Country of ref document: EP

Effective date: 20231218