WO2021029091A1 - 情報処理システム、および情報処理方法 - Google Patents

情報処理システム、および情報処理方法 Download PDF

Info

Publication number
WO2021029091A1
WO2021029091A1 PCT/JP2020/006491 JP2020006491W WO2021029091A1 WO 2021029091 A1 WO2021029091 A1 WO 2021029091A1 JP 2020006491 W JP2020006491 W JP 2020006491W WO 2021029091 A1 WO2021029091 A1 WO 2021029091A1
Authority
WO
WIPO (PCT)
Prior art keywords
information processing
image
description data
area
machine learning
Prior art date
Application number
PCT/JP2020/006491
Other languages
English (en)
French (fr)
Inventor
正和 藤尾
陽介 加賀
高橋 健太
中村 渉
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Publication of WO2021029091A1 publication Critical patent/WO2021029091A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an information processing system and an information processing method.
  • Patent Document 1 includes an image input unit for photographing a living body and acquiring a biological image, an authentication processing unit for processing the biological image, and a storage unit for storing registration information regarding biological characteristics obtained from the living body.
  • a biometric device is disclosed.
  • the authentication processing unit of the biometric authentication device uses the registration information to perform color conversion that minimizes the color difference between the biometric images at the time of registration and authentication, and authenticates the living body using the biometric image after the color conversion.
  • biometric authentication technology has been attracting attention as a safer and more convenient personal authentication technology that replaces personal authentication technology that uses character strings such as IDs and passwords.
  • the biometric authentication technology uses the user's biological characteristics (fingerprint, vein pattern, glow pattern, etc.) as authentication information. Similar to personal authentication technology using character strings, biometric authentication technology should be used, for example, in financial services for opening an account from a mobile terminal such as a smartphone, checking the balance, transferring an account, and personal authentication when using an ATM. Can be done.
  • biometric authentication technology examples include mobile terminals equipped with fingerprint sensors, ATMs that detect user finger vein patterns, and the like.
  • personal authentication using a fingerprint cannot be used unless a fingerprint sensor is mounted on an information processing system such as a mobile terminal.
  • personal authentication using the finger vein pattern requires an infrared sensor dedicated to the finger vein. Therefore, as disclosed in Patent Document 1, a general-purpose camera (for example, a camera installed as standard in a mobile terminal such as a smartphone) is used as a sensor, and biometric authentication is performed from the information of the image taken by the general-purpose camera. A technique for extracting biometric information to be used has been proposed.
  • the biometric authentication device described in Patent Document 1 is a region corresponding to a predetermined part of the body including biological features such as a finger, based on information of an image (hereinafter referred to as “photographed image”) taken by a general-purpose camera. Is the target area of interest, and the object type of the target area is estimated using machine learning technology.
  • the conventional estimation method of the target area has a large processing load because the class is estimated for each pixel of the target area, and it is necessary to take a picture to operate the authentication function at a practical speed in an environment where resources are limited such as a smartphone. It is necessary to be able to efficiently extract the target area from the image.
  • the present invention has been made in view of such a background, and an object of the present invention is to provide an information processing system and an information processing method capable of efficiently extracting a target area from a captured image.
  • One of the present inventions for achieving the above object is an information processing system, in which data representing a photographed image and a target area in which a specific object is captured in the photographed image by a one-dimensional numerical string.
  • the area description data is estimated by storing a machine learning model in which the data associated with the area description data is trained as teacher data and inputting a captured image into the machine learning model.
  • the target area can be efficiently extracted from the captured image.
  • FIG. 1 It is a figure which shows the structure of the biometric authentication system. It is a flowchart explaining operation (overall processing) of a biometric authentication system. It is a figure explaining a learning operation. It is a figure explaining the area description data generation process. It is a flowchart explaining the area description data generation process. It is a flowchart explaining the background separation image restoration process. It is a figure which shows an example of the background separation image. It is a figure which shows the example which rotated the background separation image. It is a figure explaining the procedure of determining the rotation angle of the background separation image. This is an example of a histogram showing the appearance frequency of white pixels when projecting on a certain projection axis. It is a figure explaining a loss function. This is an example of a graph representing a numerical string of area description data. This is another example of a graph representing a numerical string of area description data.
  • FIG. 1 shows a schematic configuration of a biometric authentication system 10 which is an information processing system shown as an embodiment.
  • the biometric authentication system 10 is configured by using one or more information processing devices.
  • the information processing device described above is, for example, a smartphone, a tablet, or a personal computer (desktop type or notebook type). Further, the above-mentioned information processing device may be realized by using virtual information processing resources such as a cloud server provided by a cloud system.
  • the biometric authentication system 10 includes a processor 11, a main storage device 12, an auxiliary storage device 13, an input device 14, a display device 15, a photographing device 16, and a communication interface.
  • the processor 11 includes, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), an AI (Artificial Intelligence) chip, an FPGA (Field Programmable Gate Array), a SoC (System on Chip), and an ASIC. It is configured by using (ApplicationSpecific IntegratedCircuit) etc.
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • GPU Graphics Processing Unit
  • AI Artificial Intelligence
  • FPGA Field Programmable Gate Array
  • SoC System on Chip
  • ASIC Application Specific IntegratedCircuit
  • the main storage device 12 is a device that stores programs and data, and is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a non-volatile memory (NVRAM (Non Volatile RAM)), or the like.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • NVRAM Non Volatile RAM
  • the auxiliary storage device 13 is a device for storing programs and data, for example, an SSD (Solid State Drive), a hard disk drive, an optical storage medium (CD (Compact Disc), DVD (Digital Versatile Disc), etc.), an IC card. , SD card, virtual storage area provided by the cloud, etc.
  • SSD Solid State Drive
  • CD Compact Disc
  • DVD Digital Versatile Disc
  • the input device 14 is a user interface that accepts user input and data input from the outside, and is, for example, a keyboard, a mouse, a touch panel, a card reader, a voice input device (for example, a microphone), and the like.
  • the display device 15 is a user interface that outputs various information such as the progress of data processing in the biometric authentication system 10 and the processing result.
  • the display device 15 is, for example, a display device that outputs the above-mentioned various information by an image, an audio output device that outputs by voice, a printing device that prints on a paper medium, and the like.
  • the photographing device 16 is a digital camera or a video camera provided with an image sensor such as a CCD, and is, for example, a camera connected via a camera included in a smartphone or a communication interface 17.
  • the photographing device 16 receives a user's photographing instruction to the input device 14 of the biometric authentication system 10, photographs a moving image or a still image, and outputs the captured moving image or still image data (hereinafter, referred to as “photographed image”). To do.
  • the communication interface 17 is a device that communicates with an external device wirelessly or by wire, and is a wireless or wired communication module (wireless communication module, network adapter, USB module, etc.).
  • the main storage device 12 stores each program of the operating system 100, the area expression compression program 101, the training program 102, the estimation processing program 103, the area expression restoration program 104, and the authentication program 105. These programs are read from the auxiliary storage device 13 into the main storage device 12, for example.
  • the processor 11 realizes various functions by executing these programs stored in the main storage device 12.
  • the functions realized by each of the area expression compression program 101, the training program 102, the estimation processing program 103, the area expression restoration program 104, and the authentication program 105 will be described in order of the area expression compression unit, the training unit, and the estimation processing. It is called a unit, an area representation restoration unit, and an authentication unit.
  • the auxiliary storage device 13 stores each data of the teacher data 111, the authentication reference information 112, and the machine learning model 113. These data are generated or referred to by the above-mentioned various functions.
  • the area expression compression unit cuts out a predetermined image area (an image area in which the hand of the person to be authenticated is shown; hereinafter referred to as a “cutout image”) from the input image, and the background is obtained from the cutout image.
  • the separated image is generated, and the area description data which is the data obtained by compressing the generated background separated image into a one-dimensional numerical string is generated.
  • the area description data represents, for example, a two-dimensional object (hereinafter, referred to as a "convex object") having a shape protruding in one direction, such as one finger, in a one-dimensional numerical sequence.
  • the convex object is a finger
  • the area description data is data compressed and expressed by two types of numerical strings, that is, the width of the finger (hereinafter, referred to as "finger width") and the center position in the finger width direction.
  • the background separated image is expressed in a state in which the target area and the background area thereof are separated from each other by setting the image area (the image area in which the finger of the person to be authenticated is shown, etc.) to be extracted of the biological information as the target area. It is an image.
  • the background separated image is, for example, a binary image in which the pixels in the target area and the pixels in the background area are represented by different values. For example, each pixel in the target area is represented by "1", and each pixel in the background area is represented by "0".
  • the training unit trains the machine learning model 113 that estimates the area description data from the cutout image using the teacher data 111 that includes the information that associates the cutout image with the area description data.
  • the machine learning model 113 is, for example, a model that performs regression estimation and deep learning, but the type of the machine learning model 113 is not necessarily limited.
  • the estimation processing unit cuts out a cutout image from the input image at the time of biometric authentication, and estimates the area description data from the cutout image using the machine learning model 113.
  • the area representation restoration unit restores the background separated image based on the area description data estimated by the estimation processing unit.
  • the authentication unit extracts the biometric information of the authenticated person based on the background separated image restored by the area representation restoration unit and the cut-out image of the generation source of the background separated image, and the authenticated person's biometric information is based on the extracted biometric information. Perform authentication processing.
  • the operation of the biometric authentication system 10 is an operation in the learning phase of the machine learning model (hereinafter referred to as "learning operation”) and an operation in the authentication phase in which the authenticated person is authenticated using the learned machine learning model 113. (Hereinafter referred to as "authentication operation”) and.
  • the biometric authentication system 10 In the above learning phase, the biometric authentication system 10 generates a background separated image from an image in a predetermined region in each frame image constituting the moving image.
  • the biometric authentication system 10 extracts a target area from an image based on a range of values of color space information such as RGB and YUV in an image in a predetermined area, and generates a background separated image. Further, the biometric authentication system 10 generates area description data using the generated background separated image.
  • the biometric authentication system 10 generates teacher data 111 including the generated area description data and a cut-out image from which the area description data is generated. Then, the biometric authentication system 10 learns the machine learning model 113 using the generated teacher data 111.
  • the biometric authentication system 10 inputs the cutout image extracted from the captured image of the photographing device 16 into the machine learning model 113 to estimate the area description data. Further, the biometric authentication system 10 restores the background separated image from the estimated area description data, and extracts the biometric information included in the cutout image from which the background separated image is generated. Then, the biometric authentication system 10 collates the extracted biometric information with, for example, the regular authentication reference information 112 registered in the auxiliary storage device 13, and accesses the information stored in the auxiliary storage device 13 or a predetermined value. Allow the program to run. The biometric authentication system 10 stores, for example, the first extracted biometric information in the auxiliary storage device 13 as regular authentication reference information 112.
  • the biometric information extracted by the biometric authentication system 10 can also be used for the authentication procedure of an external information processing device.
  • the biometric authentication system 10 inquires the extracted biometric information to an external information processing device.
  • the external information processing device permits the biometric authentication system 10 to access itself, for example, when the inquired biometric information matches the authentication reference information 112 stored in its own storage device.
  • FIG. 2 is a flowchart illustrating a process (hereinafter, referred to as “overall process S200”) performed by the biometric authentication system 10 in the learning phase and the authentication phase.
  • all process S200 a process performed by the biometric authentication system 10 in the learning phase and the authentication phase.
  • the processing in the broken line frame indicated by the reference numeral s20 is the processing in the learning phase
  • the processing in the broken line frame indicated by the reference numeral s40 is the processing in the authentication phase.
  • the biometric authentication system 10 first cuts out a cut-out image from the input image (s21 to s23). That is, the biometric authentication system 10 extracts the frame image 30 from the moving image input from the photographing device 16 (s21, s22), and extracts the image of the predetermined region of the frame image 30 as the cutout image (s23).
  • the biometric authentication system 10 has a rectangular frame or the like indicating a position where the hand 32 is held over the preset cutout area 31 on the screen of the display device 15. Display by guide.
  • the user 33 holds the hand 32 on the shooting device 16 so that the predetermined finger 34 of the hand 32 fits within the cutout area 31 indicated by the guide.
  • the user 33 holds the hand 32 so that the four fingers 34 from the index finger to the little finger fit within the frame.
  • the cutout image may be automatically extracted using a known image recognition technique.
  • the biometric authentication system 10 subsequently extracts a background separated image from the cutout image (S23 to S27). Specifically, the biometric authentication system 10 first has a region corresponding to a hand shown in white (hereinafter, hand region 41) based on color space information (for example, skin color information) such as RGB and YUV of the cutout image. A hand region image 40 is generated in which the background region 42 shown by the diagonal line is represented by a binary image (FIG. 3 (b)).
  • color space information for example, skin color information
  • FIG. 3 (b) binary image
  • the biometric authentication system 10 processes the hand region image 40 in which the hand region 41 and the background region 42 are separated, traces the contour of the hand region 41 (s25), and traces the fingertips 44 and the finger crotch of each finger 43. 45 is extracted as the key point 46 (s26) (FIG. 3 (b)).
  • the biometric authentication system 10 extracts an area of 43 finger units as a background separated image 20 based on the extracted key points 46 and the contour of the hand area 41 (s27) (FIG. 3 (c)).
  • the biometric authentication system 10 generates the above-mentioned area description data from each of the plurality of background-separated images 20 for each finger, and cuts out the generated area description data and the origin of the area description data.
  • the teacher data 111 including the image is generated (s28). The details of the process of generating the area description data from the background separated image 20 will be described later.
  • the biometric authentication system 10 determines whether or not the number of samples of the teacher data 111 has reached a predetermined number (s29).
  • a predetermined number s29: YES
  • the process proceeds to s30.
  • the number of samples of the teacher data 111 does not reach the predetermined number (s29: NO)
  • the process returns to s21.
  • the biometric authentication system 10 learns the machine learning model using the teacher data 111.
  • the above is the explanation of the processing in the learning phase.
  • the biometric authentication system 10 first extracts a cutout image from the input image taken for the person to be authenticated by the same procedure as the processing of s21 to s23 in the learning operation (s20) (s41 to). s43).
  • the biometric authentication system 10 generates area description data from the cutout image (s44).
  • the biometric authentication system 10 restores the background separated image based on the generated area description data (s45). The details of this restoration process will be described later.
  • the biometric authentication system 10 extracts a finger vein pattern as biometric information from the target region 22 corresponding to the finger 22a in the frame image 30 based on the restored background separated image (s46), and authenticates the extracted biometric information.
  • the authentication process is performed by collating with the reference information 112 (s47). The above is the explanation of the processing in the authentication phase.
  • FIG. 4 is a diagram illustrating a process in which the biometric authentication system 10 generates area description data from a background separated image in S28 of FIG. 2 (hereinafter, referred to as “area description data generation process S28”).
  • the target area 22 corresponding to the finger 22a shown in white in the figure and the target area 22 other than the target area 22 shown by hatching in the diagonal line in the figure are shown in the rectangular area 21.
  • the biometric authentication system 10 generates area description data from the background separated image 20 in which the positions of the pixels corresponding to the target area 22 are represented by a one-dimensional numerical string.
  • region codes indicating the target region 22 and the background region 23 described above are associated with each other in a rectangular region 21 having a predetermined number of pixels in the X-axis direction and the Y-axis direction. It is data.
  • the pixel at the upper left corner of the paper is set as the origin o.
  • the target area 22 is arranged in the rectangular area 21 so that the finger 22a projects from the lower side to the upper side.
  • the X-axis is set toward the right side of the paper surface
  • the Y-axis is set toward the lower side of the paper surface.
  • the biometric authentication system 10 scans the rectangular area 21 from the origin o in the X-axis direction, and when the scanning finishes crossing the rectangular area 21, one pixel from the origin o in the Y-axis direction.
  • the rectangular region 21 is scanned again in the X-axis direction with the coordinates of the shifted pixels as the scanning start point. In this way, the entire area of the rectangular area 21 is scanned.
  • the biometric authentication system 10 has a region code of each pixel of "0" corresponding to the background region or "1" corresponding to the target region. To determine if.
  • the biometric authentication system 10 acquires the positions of the pixels constituting the target area 22 by performing such scanning over the entire rectangular area 21, and sets the coordinates of the target area 22 as a one-dimensional numerical sequence having a small amount of data. Convert to area description data consisting of.
  • FIG. 5 is a flowchart illustrating the area description data generation process S28.
  • the biometric authentication system 10 initializes the Y coordinate when starting scanning in the X direction when the background separated image 20 is input (s1) (the origin o is set as the scanning start point in the x-axis direction). (S2).
  • the biometric authentication system 10 scans the background separated image along the X-axis direction (s3). After scanning to the end of the rectangular region 21, the biometric authentication system 10 resets the Y coordinate of the scanning start point (s4 to s9 ⁇ s10 ⁇ s11). That is, a pixel moved in the Y-axis direction by one pixel with respect to the pixel at the origin o is set as the scanning start point.
  • the biometric authentication system 10 starts the target area with the coordinates of the pixel (FIG. 4, reference numeral 25). Recorded as the X coordinate (s4 ⁇ s5), if the value of the pixel changes from "1" to the value indicating that it is the background area (here, "0") in the same scanning opportunity, that "0" The pixel to the left of the coordinate changed to "0” or the coordinate changed to "0" (FIG. 4, reference numeral 26) is recorded as the end X coordinate position of the target area 22 (s6 ⁇ s7).
  • the biometric authentication system 10 records the start X coordinate position and the end X coordinate position in one scanning opportunity, the X coordinate indicating the middle between the start X coordinate position and the end X coordinate position is used as the center coordinate. The calculation is performed, and the absolute value of the difference between the start X coordinate position and the end X coordinate position is calculated as the finger width (s8).
  • the order when the background separated image is scanned from the origin o in the X-axis direction is set to the first, and the scanning start point is set. The order is advanced by one for each setting opportunity. Then, the biometric authentication system 10 fills in the center coordinates in order to generate a one-dimensional numerical sequence of the center coordinates. The biometric authentication system 10 also generates a one-dimensional numerical string for the finger width.
  • the one-dimensional numerical sequence (center coordinate vector Center vec ) in which the center coordinates are described at the kth position, which corresponds to the kth scanning opportunity, and the finger width at the kth position
  • Area description data consisting of the described one-dimensional numerical sequence (finger width vector W vec ) is generated (s10 ⁇ s12).
  • An example of the center coordinate vector Center vec and the finger width vector W vec is shown below.
  • each numerical value in the one-dimensional numerical series (Center vec , W vec ) shown in Equation 1 corresponds to the position of the Y coordinate. Since the background separated image 20 is represented by a one-dimensional numerical string in this way, the biometric authentication system 10 can handle the process of extracting the target region 22 from the captured image as a regression estimation problem. Further, since the biometric authentication system 10 handles the target area 22 in the background separated image 20 in the state of less redundant data such as area description data composed of two simple one-dimensional numerical strings, the data expressing the background separated image 20. On the other hand, the size of the data is overwhelmingly small. Therefore, the biometric authentication system 10 can execute the process of estimating the target area 22 from the input image and the learning of the machine learning model 113 with a light load and a high speed.
  • FIG. 6 is a flowchart illustrating the process of s45 of FIG. 2 (hereinafter, referred to as “background separated image restoration process s45”).
  • the biometric authentication system 10 secures a storage area in the main storage device 12 for storing the restored background separated image 20 (s51). For example, the biometric authentication system 10 secures a storage area corresponding to the rectangular area 21 shown in FIG.
  • the biometric authentication system 10 sets the origin o to the pixels arranged at one of the four corners of the rectangular region 21, sets the direction along one side of the rectangle as the X-axis direction, and sets the direction along one side of the rectangle as the Y-axis direction orthogonal to the X-axis.
  • the biometric authentication system 10 scans the rectangular region 21 along the X-axis direction from the writing start point, the center coordinates and finger widths corresponding to the target region 22 are arranged in the corresponding order in the region description data. If a numerical value is described, the start X coordinate position and the end X coordinate position are calculated based on the start point center coordinate and the finger width (s53 ⁇ s54, s55).
  • the biometric authentication system 10 writes "0" corresponding to the background area 23 or "1" corresponding to the target area 22 while scanning from the writing start point toward the X-axis direction (s56). ).
  • the biometric authentication system 10 sets the Y coordinate position, which is the writing start point, by one pixel along the Y axis. It moves (s57 ⁇ s58) and writes “0” or “1” to the pixels located on opposite sides again (s53 to s56).
  • the biometric authentication system 10 sets the pixel in which "0” is written as the target area 22, and sets the pixel in which "1” is written as the target area 22.
  • the background separated image 20 with the background area 23 is output (s57 ⁇ s59).
  • the biometric authentication system 10 compresses and expresses the target area 22 from which the biometric features should be extracted from the captured image as area description data composed of one-dimensional numerical strings with less redundancy.
  • the size of the machine learning model 113 that estimates the area description data from the image can be reduced. Therefore, the machine learning model 113 can be mounted on an information processing device having limited resources such as a smartphone, and the area description data can be estimated from the captured image at low load and high speed in such an information processing device.
  • the certifier can be authenticated efficiently.
  • the biometric authentication system 10 determines the target area 22 in the learning operation. May not be properly represented in the form of a one-dimensional numeric string.
  • the biometric authentication system 10 may rotate the background separated image 20 at an appropriate angle prior to scanning the background separated image 20.
  • a convex object such as a finger 22a becomes a shape along the Y axis and is scanned.
  • the start X coordinate position and the end X coordinate position can be acquired one by one.
  • the angle at which the background separated image 20 is rotated is determined, for example, as follows.
  • FIG. 9 is a diagram illustrating a procedure for determining an angle for rotating the background separation image 20.
  • the biometric authentication system 10 refers to the background separated image 20 obtained by the extraction process (s27) of the background separated image 20 of FIG. 2 with respect to the X axis, for example, at intervals of 10 °.
  • a projection axis 50 rotated in an appropriate range such as ° to ⁇ 90 ° is set, and the appearance frequency (diaphragm) of pixels (hereinafter, referred to as white pixels) corresponding to the target region 22 for each projection axis. To get.
  • FIG. 10 is a diagram showing an example of a histogram showing the appearance frequency of white pixels when the background separated image 20 is projected at a certain rotation angle.
  • the horizontal axis represents the position of the projection axis when the background separated image 20 is scanned in the projection axis direction
  • the vertical axis represents the appearance frequency of the white pixels projected on the projection axis.
  • the biometric authentication system 10 obtains the above-mentioned histogram for each rotated projection axis 50, and determines the rotation angle of the projection axis 50 when the variance of the histogram is maximum as the rotation angle of the background separation image 20.
  • the biometric authentication system 10 can reduce the possibility that inappropriate region description data is generated in the learning operation (s20) of FIG. 2 by appropriately rotating the background separation image 20. .. Further, the background separated image 20 can be effectively used.
  • the learning of the machine learning model 113 may be performed using, for example, a loss function such as the sum of squares of the differences between the values of each numerical sequence. Further, the machine learning model 113 may be trained by using the loss function shown below.
  • FIG. 11 is a diagram illustrating the above loss function.
  • the solid line is the outline of the target area 22b (hereinafter, referred to as “correct area”) based on the area description data of the teacher data 111
  • the dotted line is the target area based on the area description data estimated by the machine learning model 113.
  • It is the outline of 22c (hereinafter, referred to as “estimated region”).
  • the area 22e other than the area 22d hereinafter, referred to as “overlapping area” in which the two target areas 22b and 22c overlap corresponds to an error.
  • the biometric authentication system 10 learns the machine learning model 113 using, for example, a loss function represented by the following equation, which has the number of pixels in the correct area, the number of pixels in the estimated area, and the number of pixels in the overlapping area as parameters. ..
  • the area description data of the teacher data 111 will be described by taking the background separated image 20 of FIG. 4 as an example.
  • "0" corresponding to the background area 23 is described, and the numerical values suddenly start to be described from the order corresponding to the Y coordinate of the position of the fingertip 24.
  • the area description data is graphed with the horizontal axis as the position in the Y-axis direction and the vertical axis as the numerical value corresponding to the center position and the finger width.
  • the numerical value in the order corresponding to the fingertip 24 and the numerical value in the order immediately before the fingertip 24 are discontinuous.
  • the shape of the fingertip 24 may deviate from the original shape.
  • Equation 3 is an example of the above mask information.
  • the mask information illustrated is a one-dimensional numerical value in which "1" for specifying adoption and "0" for specifying non-adoption are entered for each numerical value in each order entered in the area description data consisting of a one-dimensional numerical value string. It is represented by a column (mask vector M vec ).
  • the mask vector M vec of the number 3 is a one-dimensional numerical value string in which "0" is entered to indicate that the numerical values are not adopted until the order in which the fingertips 24 appear.
  • the biometric authentication system 10 includes the mask vector M vec in the teacher data 111 to learn the machine learning model 113. In this case, the biometric authentication system 10 learns the machine learning model 113 so that the value of the loss function shown in the following equation becomes small, for example.
  • Cg and Wg are the correct center coordinate vector and the correct finger width vector, and are the center coordinate vector Center vec and the finger width vector W vec in the teacher data 111.
  • Cp and Wp are the estimated center coordinate vector and the estimated finger width vector, and are the center coordinate vector Center vec and the finger width vector W vec output by the regression estimation.
  • Mg and Mp are a correct mask vector and an estimated mask vector, and as shown in Equation 3, the acceptance / rejection of the numerical values in each order in the area description data is expressed by a one-dimensional numerical string.
  • a regression line (slope and intercept) is obtained based on the Y coordinate data of the region of the finger width 1 or more, and the finger is obtained from the obtained regression line.
  • the one-dimensional numerical string of the correct answer of the width 0 part may be complemented (alternative).
  • FIG. 13 is a diagram for explaining this solution, in which the area description data is graphed with the horizontal axis as the position in the Y-axis direction and the vertical axis as the numerical value corresponding to the center position and the finger width.
  • the observation data 1301 is an example of the center coordinate position at the position y where the finger width has a positive value.
  • Complementary data 1302 represents the estimated center coordinates at position y 0 , which has a finger width of 0, based on the regression line obtained using observation data 1301.
  • the estimated center coordinates using the regression line can be obtained from the following equation.
  • a portion in which the numerical value in the order corresponding to the fingertip 24 and the numerical value in the order immediately before the fingertip 24 are discontinuous can be expressed as a continuous function, and the estimation accuracy can be improved.
  • the convex object (one finger 22a, etc.) included in the input image is a two-type one-dimensional numerical sequence (Center vec ,) of the position of the center line of the finger 22a and the finger width in the area description data.
  • the convex object may be expressed by, for example, the start X coordinate position and the finger width, or the start X coordinate position and the end X coordinate position.
  • the area description data can also be represented by one type of one-dimensional numerical string.
  • the area description data is a one-dimensional numerical value string in which a predetermined number of digits after the decimal point is entered in each order, and the numerical value of the integer part of the fraction expresses the center width and the like, and the fractional part of the predetermined number of digits.
  • the biometric authentication system 10 can handle the area description data with one one-dimensional numerical string.
  • the number of digits after the decimal point may be determined by the number of pixels in the X-axis direction of the background separation image 20.
  • the number after the decimal point is set to 3 digits, and the number after the decimal point is multiplied by 1000 to return the number after the decimal point to an integer representing the X coordinate position of the pixel. ..
  • the biometric authentication system 10 may be realized by using, for example, a distributed information processing system.
  • the biometric authentication system 10 may be realized by an information processing system in which an information processing device that performs a learning operation (s20) and an information processing device that performs an authentication operation (s40) are communicably connected.
  • the above mechanism can be used in a field different from biometric authentication, and can be applied to, for example, a technique for separating a specific object from a captured image.
  • the biometric authentication system 10 described above is an embodiment of the information processing system according to the present invention, and the technical scope of the present invention is not limited by the biometric authentication system 10 according to the embodiment.
  • the above embodiment is an example for explaining the present invention in an easy-to-understand manner. Therefore, the concept of the present invention includes various modifications and applications to the above embodiments. Further, it is possible to replace a part of the configuration of the above embodiment with the configuration of another embodiment, or to add the configuration of another embodiment to the configuration of one embodiment. It is also possible to add, delete, or replace a part of the configuration of each embodiment with another configuration.
  • Some or all of the above configurations, functions, etc. may be realized by hardware using integrated circuits, for example, or a program that realizes each configuration or function is executed. It may be realized by software that processes predetermined data.
  • biometric authentication system 11 processor, 12 main memory, 13 auxiliary storage, 14 input device, 15 display device, 16 imaging device, 20 background separated image, 22 target area, 23 background area, 101 area representation compression program, 102 Training program, 103 estimation processing program, 104 area representation restoration program, 105 authentication program, 111 teacher data, 112 authentication reference information, 113 machine learning model

Abstract

撮影画像から対象領域を効率よく抽出する。 情報処理システムは、撮影画像と、当該撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、撮影画像を上記の機械学習モデルに入力することにより領域記述データを推定する。上記の領域記述データは、撮影画像から背景分離画像を生成し、生成した背景分離画像に基づき生成されたものであり、情報処理システムは、撮影画像を機械学習モデルに入力することにより領域記述データを推定し、領域記述データに基づき背景分離画像を復元する。

Description

情報処理システム、および情報処理方法
 本発明は、情報処理システム、および情報処理方法に関する。
 本出願は、2019年8月9日に出願された日本特許出願2019-147250号に基づく優先権を主張し、その開示全体を援用して本出願に取り込むものである。
 特許文献1には、生体を撮影して生体画像を取得する画像入力部と、生体画像を処理する認証処理部と、生体から得られる生体特徴に関する登録情報を記憶する記憶部と、を備えた生体認証装置が開示されている。当該生体認証装置の認証処理部は、登録情報を用い、登録時と認証時の生体画像間の色差を最小化する色変換を行い、色変換後の生体画像を用いて生体の認証を行う。
特開2018-180660号公報
 近年、IDやパスワード等の文字列を用いた個人認証技術に代わる、より安全で便利な個人認証技術として、生体認証技術が注目されている。生体認証技術は、ユーザの生体特徴(指紋、静脈パターン、光彩パターン等)を認証情報として用いる。生体認証技術は、文字列を用いた個人認証技術と同様に、例えば、金融サービスにおいて、スマートフォン等のモバイル端末からの口座開設、残高照会、口座振込み、ATM利用時の個人認証等に利用することができる。
 生体認証技術の応用例として、指紋センサを備えたモバイル端末、ユーザの指静脈パターンを検出するATM等がある。しかし例えば指紋を用いた個人認証は、モバイル端末等の情報処理システムに指紋センサが搭載されていなければ利用することができない。また指静脈パターンを用いた個人認証は、指静脈専用の赤外線センサが必要である。そこで、特許文献1にも開示されているように、汎用カメラ(例えば、スマートフォン等のモバイル端末に標準搭載されているカメラ)をセンサとして用い、汎用カメラによって撮影された画像の情報から生体認証に用いる生体情報を抽出する技術が提案されている。
 特許文献1に記載の生体認証装置は、汎用カメラによって撮影された画像(以下、「撮影画像」と称する。)の情報から、指等の生体特徴が含まれる身体の所定の部位に対応する領域を目的の対象領域として、その対象領域を機械学習の技術を用いて対象領域のオブジェクト種別を推定している。しかし従来の対象領域の推定方式は、対象領域のピクセルごとにクラス推定するため処理負荷が大きく、スマートフォン等のようにリソースが限定された環境において実用的な速度で認証機能を動作させるには撮影画像から対象領域を効率よく抽出できるようにする必要がある。
 本発明はこうした背景に鑑みてなされたものであり、撮影画像から対象領域を効率よく抽出することが可能な、情報処理システム、および情報処理方法を提供することを目的する。
 上記目的を達成するための本発明の一つは、情報処理システムであって、撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する。
 その他、本願が開示する課題、およびその解決方法は、発明を実施するための形態の欄、および図面により明らかにされる。
 本発明によれば、撮影画像から対象領域を効率よく抽出することができる。
生体認証システムの構成を示す図である。 生体認証システムの動作(全体処理)を説明するフローチャートである。 学習動作を説明する図である。 領域記述データ生成処理を説明する図である。 領域記述データ生成処理を説明するフローチャートである 背景分離画像復元処理を説明するフローチャートである。 背景分離画像の一例を示す図である。 背景分離画像を回転させた例を示す図である。 背景分離画像の回転角度を決定する手順を説明する図である。 ある射影軸について射影したときの白画素の出現頻度を示すヒストグラムの一例である。 ロス関数を説明する図である。 領域記述データの数値列を表現したグラフの一例である。 領域記述データの数値列を表現したグラフの他の一例である。
 以下、実施形態について図面を参照しつつ説明する。以下の説明において、同一のまたは類似する構成に同一の符号を付して重複した説明を省略することがある。
 図1に、一実施形態として示す情報処理システムである生体認証システム10の概略的な構成を示している。生体認証システム10は、一つ以上の情報処理装置を用いて構成される。上記の情報処理装置は、例えば、スマートフォン、タブレット、パーソナルコンピュータ(デスクトップ型又はノートブック型)である。また上記の情報処理装置は、例えば、クラウドシステムにより提供されるクラウドサーバのように仮想的な情報処理資源を用いて実現されるものであってもよい。
 同図に示すように、生体認証システム10は、プロセッサ11、主記憶装置12、補助記憶装置13、入力装置14、表示装置15、撮影装置16、および通信インタフェースを備える。
 プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ、FPGA(Field Programmable Gate Array)、SoC(System on Chip)、ASIC(Application Specific Integrated Circuit)等を用いて構成される。
 主記憶装置12は、プログラムやデータを記憶する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。
 補助記憶装置13は、プログラムやデータを格納する装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブ、光学式記憶媒体(CD(Compact Disc)、DVD(Digital Versatile Disc)等)、ICカード、SDカード、クラウドが提供する仮想的な記憶領域等である。
 入力装置14は、外部からのユーザ入力やデータ入力を受け付けるユーザインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、音声入力装置(例えば、マイクロホン)等である。
 表示装置15は、生体認証システム10におけるデータ処理の経過やその処理結果等の各種情報を出力するユーザインタフェースである。表示装置15は、例えば、上記の各種情報を、画像によって出力する表示装置、音声によって出力する音声出力装置、紙媒体に印刷する印刷装置等である。
 撮影装置16は、CCD等の撮像素子を備えたデジタルカメラやビデオカメラであり、例えば、スマートフォンが備えるカメラや通信インタフェース17を介して接続されるカメラである。撮影装置16は、生体認証システム10の入力装置14に対するユーザの撮影指示を受け付けて動画や静止画を撮影し、撮影した動画や静止画のデータ(以下、「撮影画像」と称する。)を出力する。
 通信インタフェース17は、無線又は有線により外部の装置との間で通信を行う装置であり、無線又は有線の通信モジュール(無線通信モジュール、ネットワークアダプタ、USBモジュール等)である。
 主記憶装置12は、オペレーティングシステム100、領域表現圧縮プログラム101、訓練プログラム102、推定処理プログラム103、領域表現復元プログラム104、および認証プログラム105の各プログラムを記憶する。これらのプログラムは、例えば、補助記憶装置13から主記憶装置12に読み込まれる。プロセッサ11は、主記憶装置12が記憶するこれらのプログラムを実行することにより各種の機能を実現する。
 以下、領域表現圧縮プログラム101、訓練プログラム102、推定処理プログラム103、領域表現復元プログラム104、および認証プログラム105の夫々によって実現される機能のことを、順に、領域表現圧縮部、訓練部、推定処理部、領域表現復元部、および認証部と称する。
 補助記憶装置13は、教師データ111、認証参照情報112、および機械学習モデル113の各データを記憶する。これらのデータは、上記各種機能により生成もしくは参照される。
 上記機能のうち、領域表現圧縮部は、入力画像から所定の画像領域(被認証者の手が写っている画像領域。以下、「切出画像」と称する。)を切り出し、切出画像から背景分離画像を生成し、生成した背景分離画像を1次元の数値列に圧縮表現したデータである領域記述データを生成する。領域記述データは、例えば、一本の指等、一方向に突出した形状の2次元の物体(以下、「凸オブジェクト」と称する。)を、一次元数値列で表現したものである。領域記述データは、例えば、凸オブジェクトが指であれば、指の幅(以下、「指幅」と称する。)と指幅方向の中心位置という2種類の数値列で圧縮表現したデータである。
 背景分離画像は、生体情報の抽出対象となる画像領域(被認証者の指が写っている画像領域等)を対象領域とし、当該対象領域とその背景領域とが分離された状態で表現された画像である。背景分離画像は、例えば、対象領域における画素と背景領域における画素とが異なる値で表現された二値画像である。例えば、対象領域の各画素は「1」で表現され、背景領域の各画素は「0」で表現される。
 訓練部は、切出画像と領域記述データとを対応づけた情報を含む教師データ111を用いて、切出画像から領域記述データを推定する機械学習モデル113の学習を行う。尚、機械学習モデル113は、例えば、回帰推定や深層学習を行うモデルであるが、機械学習モデル113の種類は必ずしも限定されない。
 推定処理部は、生体認証に際し、入力画像から切出画像を切り出し、機械学習モデル113を用いて切出画像から領域記述データを推定する。
 領域表現復元部は、推定処理部が推定した領域記述データに基づき背景分離画像を復元する。
 認証部は、領域表現復元部が復元した背景分離画像と、当該背景分離画像の生成元の切出画像とに基づき被認証者の生体情報を抽出し、抽出した生体情報に基づき被認証者の認証処理を行う。
 続いて、生体認証システム10の動作について説明する。生体認証システム10の動作は、機械学習モデルの学習フェーズにおける動作(以下、「学習動作」と称する。)と、学習済の機械学習モデル113を用いて被認証者の認証を行う認証フェーズにおける動作(以下、「認証動作」と称する。)と、を含む。
 上記の学習フェーズにおいて、生体認証システム10は、動画を構成する個々のフレーム画像における所定の領域内の画像から背景分離画像を生成する。生体認証システム10は、例えば、所定領域内の画像におけるRGBやYUV等の色空間情報の値の範囲に基づき、その画像から対象領域を抽出して背景分離画像を生成する。また生体認証システム10は、生成した背景分離画像を用いて領域記述データを生成する。生体認証システム10は、生成した領域記述データと、当該領域記述データの生成元の切出画像とを含む教師データ111を生成する。そして、生体認証システム10は、生成した教師データ111を用いて機械学習モデル113の学習を行う。
 一方、上記の認証フェーズにおいて、生体認証システム10は、撮影装置16の撮影画像から抽出した切出画像を機械学習モデル113に入力して領域記述データを推定する。また生体認証システム10は、推定した領域記述データから背景分離画像を復元し、当該背景分離画像の生成元の切出画像に含まれている生体情報を抽出する。そして生体認証システム10は、抽出した生体情報と、例えば、補助記憶装置13に登録済みの正規の認証参照情報112とを照合して補助記憶装置13に格納されている情報へのアクセスや所定のプログラムの実行を許可する。生体認証システム10は、例えば、最初に抽出した生体情報を正規の認証参照情報112として補助記憶装置13に記憶する。生体認証システム10が抽出した生体情報は、外部の情報処理装置の認証手続に利用することもできる。例えば、生体認証システム10は、抽出した生体情報を外部の情報処理装置に照会する。外部の情報処理装置は、例えば、照会された生体情報が自身の記憶装置に記憶されている認証参照情報112と一致すると、生体認証システム10に自身へのアクセスを許可する。
 図2は、学習フェーズ及び認証フェーズにおいて生体認証システム10が行う処理(以下、「全体処理S200」と称する。)を説明するフローチャートである。同図において、符号s20で示す破線枠内の処理は学習フェーズにおける処理であり、符号s40で示す破線枠内の処理は認証フェーズにおける処理である。
<学習動作>
 まず学習フェーズにおける学習動作(s20)ついて説明する。学習動作(s20)において、生体認証システム10は、まず入力画像から切出画像を切り出す(s21~s23)。即ち、生体認証システム10は、撮影装置16から入力される動画からフレーム画像30を抽出し(s21,s22)、フレーム画像30の所定領域の画像を切出画像として抽出する(s23)。
 図3(a)に示すように、生体認証システム10は、表示装置15の画面上に、予め設定された切出領域31を、手32を翳す(かざす)位置を示す矩形の枠等のガイドによって表示する。ユーザ33は、撮影に際し、ガイドで示された切出領域31内に自身の手32における所定の指34が収まるように撮影装置16に手32を翳す。この例では、ユーザ33は、人差し指から小指までの4本の指34が枠内に収まるように手32を翳している。尚、切出画像は、公知の画像認識技術を用いて自動的に抽出してもよい。
 図2に戻り、続いて、生体認証システム10は、切出画像から背景分離画像を抽出する(S23~S27)。具体的には、生体認証システム10は、まず切出画像のRGBやYUV等の色空間情報(例えば肌色情報)に基づき、白抜きで示した手に対応する領域(以下、手領域41)と斜線で示した背景領域42とが二値画像で表現された手領域画像40を生成する(図3(b))。
 続いて、生体認証システム10は、手領域41と背景領域42とが分離された手領域画像40を処理し、手領域41の輪郭追跡を行い(s25)、各指43の指先44と指股45をキーポイント46として抽出する(s26)(図3(b))。
 続いて、生体認証システム10は、抽出したキーポイント46と手領域41の輪郭とに基づき、指43単位の領域を背景分離画像20として抽出する(s27)(図3(c))。
 続いて、生体認証システム10は、抽出した指単位の複数の背景分離画像20の夫々から上記の領域記述データを生成し、生成した領域記述データと、当該領域記述データの起源となった切出画像とをセットにした教師データ111を生成する(s28)。尚、背景分離画像20のから領域記述データを生成する処理の詳細については後述する。
 続いて、生体認証システム10は、教師データ111のサンプル数が所定数に達したか否かを判定する(s29)。教師データ111のサンプル数が所定数に達した場合(s29:YES)、処理はs30に進む。教師データ111のサンプル数が所定数に達していない場合(s29:NO)、処理はs21に戻る。
 s30では、生体認証システム10は、教師データ111を用いて機械学習モデルの学習を行う。以上が学習フェーズにおける処理の説明である。
<認証動作>
 次に、認証フェーズにおける認証動作(s40)について説明する。認証動作(s40)において、生体認証システム10は、まず学習動作(s20)におけるs21~s23の処理と同様の手順で、被認証者について撮影された入力画像から切出画像を抽出する(s41~s43)。
 続いて、生体認証システム10は、切出画像から領域記述データを生成する(s44)。
 続いて、生体認証システム10は、生成した領域記述データに基づき背景分離画像を復元する(s45)。尚、この復元処理の詳細については後述する。
 続いて、生体認証システム10は、復元した背景分離画像に基づき、フレーム画像30における、指22aに対応する対象領域22から生体情報として指静脈パターンを抽出し(s46)、抽出した生体情報を認証参照情報112と照合して認証処理を行う(s47)。以上が認証フェーズにおける処理の説明である。
<領域記述データの生成>
 図4は、図2のS28において生体認証システム10が背景分離画像から領域記述データを生成する処理(以下、「領域記述データ生成処理S28」と称する。)を説明する図である。
 同図に示すように、背景分離画像20は、矩形領域21内に、図中白抜きで示した指22aに対応する対象領域22と、図中斜線のハッチングで示した、対象領域22以外の背景領域23とを二値で表現した画像である。
 生体認証システム10は、背景分離画像20から、対象領域22に対応する画素の位置を一次元数値列で表現した領域記述データを生成する。
 背景分離画像20は、X軸方向とY軸方向の夫々に所定の画素数を有する一定のサイズの矩形領域21内に上述した対象領域22と背景領域23とを示す領域符号が対応付けされたデータである。本例では、紙面左上のコーナーの画素を原点oとしている。また矩形領域21内に、指22aが下方から上方に向けて突出するように対象領域22が配置されている。また紙面右方向に向かってX軸が、紙面下方向に向かってY軸が設定されている。
 領域記述データの生成に際し、生体認証システム10は、矩形領域21を原点oからX軸方向に走査し、走査によって矩形領域21を横断し終えたならば、原点oからY軸方向に1画素分ずらした画素の座標を走査開始点として、矩形領域21を、再度X軸方向に走査する。このようにして、矩形領域21の全領域を走査する。
 続いて、点線矢印で示すように、生体認証システム10は、走査の過程で、各画素の領域符号が、背景領域に相当する「0」であるか、対象領域に相当する「1」であるのかを判別する。生体認証システム10は、このような走査を矩形領域21の全領域にわたって行うことで、対象領域22を構成する画素の位置を取得し、対象領域22の座標を、データ量の少ない一次元数値列からなる領域記述データに変換する。
 図5は、領域記述データ生成処理S28を説明するフローチャートである。まず生体認証システム10は、背景分離画像20が入力されると(s1)、X方向への走査を開始する際のY座標を初期化(原点oをx軸方向への走査開始点として設定)する(s2)。
 続いて、生体認証システム10は、背景分離画像をX軸方向に沿って走査する(s3)。矩形領域21の端部まで走査し終えると、生体認証システム10は、走査開始点のY座標を再設定する(s4~s9→s10→s11)。即ち原点oの画素に対して1画素分Y軸方向に移動させた画素を走査開始点に設定する。
 生体認証システム10は、走査過程で画素の値が対象領域22であることを示す値(ここでは「1」)が出現すると、その画素(図4、符号25)の座標を、対象領域の開始X座標として記録し(s4→s5)、同じ走査機会において、画素の値が「1」から背景領域であることを表す値(ここでは、「0」)が変化したならば、その「0」に変化した座標、あるいは「0」に変化した座標の一つ左の画素(図4、符号26)を、対象領域22の終了X座標位置として記録する(s6→s7)。さらに、生体認証システム10は、一回の走査機会において、開始X座標位置と終了X座標位置とを記録した場合、開始X座標位置と終了X座標位置との中間を示すX座標を中心座標として計算し、開始X座標位置と終了X座標位置との差の絶対値を指幅として計算する(s8)。
 生体認証システム10は、背景分離画像20に対応する矩形領域21の全領域を走査し終えると、背景分離画像を原点oからX軸方向に走査したときの順番を1番目とし、走査開始点の設定機会ごとに順番を一つ繰り上げる。そして、生体認証システム10は、順番に従って中心座標を記入してゆき、中心座標の一次元数値列を生成する。生体認証システム10は、指幅についても同様にして一次元数値列を生成する。
 以上により、kを自然数とすると、k番目の走査機会に相当する、k番目の位置に中心座標が記述された一次元数値列(中心座標ベクトルCentervec)と、k番目の位置に指幅が記述された一次元数値列(指幅ベクトルWvec)とからなる領域記述データが生成される(s10→s12)。中心座標ベクトルCentervecと指幅ベクトルWvecの一例を次に示す。
Figure JPOXMLDOC01-appb-M000001
 数1に示した一次元数値系列(Centervec,Wvec)における各数値の順番は、Y座標の位置に対応している。このように背景分離画像20が一次元数値列で表現されているため、生体認証システム10は、撮影画像から対象領域22を抽出する処理を回帰推定問題として取り扱うことができる。また生体認証システム10は、背景分離画像20における対象領域22を、2つの単純な一次元数値列からなる領域記述データという冗長性の少ないデータの状態で取り扱うので、背景分離画像20を表現するデータに対し、データのサイズが圧倒的に小さくなる。そのため、生体認証システム10は、入力された画像から対象領域22を推定する処理や、機械学習モデル113の学習を、軽負荷かつ高速度で実行することができる。
<背景分離画像復元処理>
 図6は、図2のs45の処理(以下、「背景分離画像復元処理s45」と称する。)を説明するフローチャートである。
 まず生体認証システム10は、主記憶装置12に、復元後の背景分離画像20を格納するための記憶領域を確保する(s51)。例えば、生体認証システム10は、図4に示した矩形領域21に相当する記憶領域を確保する。
 続いて、生体認証システム10は、矩形領域21の四隅の一つに配置される画素に原点oを設定し、矩形の一辺に沿う方向をX軸方向とし、X軸と直交するY軸方向として、X軸方向に沿う各画素に対し、対象領域22を示す「1」、あるいは背景領域23を示す「0」を書き込む際のY座標の位置を初期化し(s52)、原点oを書込開始点とする。
 続いて、生体認証システム10は、当該書込開始点からX軸方向に沿って矩形領域21を走査する際、領域記述データにおいて対応する順番に、対象領域22に対応する中心座標や指幅の数値が記述されていれば、開始点中心座標と指幅とに基づき、上記の開始X座標位置と終了X座標位置とを算出する(s53→s54、s55)。
 続いて、生体認証システム10は、書込開始点からX軸方向に向かって走査しつつ、背景領域23に対応する「0」、あるいは対象領域22に対応する「1」を書き込んでいく(s56)。
 書込開始点から矩形領域21の対辺に位置する画素まで「0」または「1」を書き込むと、生体認証システム10は、書込開始点となるY座標位置をY軸に沿って一画素分移動し(s57→s58)、再度、対辺に位置する画素まで「0」または「1」を書き込んでいく(s53~s56)。
 全てのY座標に対するX座標の位置について「0」または「1」を書き込むと、生体認証システム10は、「0」が書き込まれた画素を対象領域22とし、「1」が書き込まれた画素を背景領域23とした背景分離画像20を出力する(s57→s59)。
<効果>
 以上のように、本実施形態に係る生体認証システム10は、撮影画像から生体特徴を抽出すべき対象領域22を、冗長性の少ない一次元数値列からなる領域記述データとして圧縮表現するので、撮影画像から領域記述データを推定する機械学習モデル113のサイズを小さくすることができる。そのため、機械学習モデル113は、スマートフォン等のリソースが限られた情報処理装置にも実装可能であり、こうした情報処理装置において低負荷かつ高速で撮影画像から領域記述データを推定することができ、被認証者の認証を効率よく行うことができる。
<背景分離画像の回転>
 以上の実施形態では、背景分離画像20に含まれる指22a等の凸オブジェクトが、概ねY軸方向に沿って配置されている場合、即ち、背景分離画像20が、X軸方向に走査された際、その走査線上に凸オブジェクトがあれば、開始X座標位置と終了X座標位置とが一つずつ取得される場合を例示した。
 しかし例えば、図7示すように、切出画像から生成した背景分離画像20において、図2に示した指22a等の凸オブジェクトがX軸方向に沿って配置されている場合、即ち、点線矢印で示した走査線上に、開始X座標位置と終了X座標位置に対応する画素(符号25,符号26)が夫々複数存在する場合もあり、その場合、生体認証システム10は、学習動作において対象領域22を一次元数値列の形式で適切に表現できない可能性がある。
 そこで、例えば、生体認証システム10が、背景分離画像20の走査に先立ち、背景分離画像20を適切な角度で回転させるようにしてもよい。例えば、図7に示した背景分離画像20であれば、図8に示すようにその背景分離画像20を90゜回転させれば、指22aなどの凸オブジェクトがY軸に沿った形状となり、走査機会に対象領域22を横断したとき、開始X座標位置と終了X座標位置とが一つずつ取得できるようになる。尚、背景分離画像20を回転させる角度は、例えば、次のようにして決定する。
 図9は、背景分離画像20を回転させる角度を決定する手順を説明する図である。同図に示すように、生体認証システム10は、図2の背景分離画像20の抽出処理(s27)で得られた背景分離画像20に対し、X軸に対し、例えば、10゜の間隔で0゜から±90゜等、適宜な範囲で回転させた射影軸50を設定し、各射影軸について対象領域22に対応する画素(以下、白画素であるものとする。)の出現頻度(ヒストグラム)を取得する。
 図10は、背景分離画像20を、ある回転角度において射影したときの白画素の出現頻度を示すヒストグラムの一例を示す図である。例示するヒストグラムにおいて、横軸は、背景分離画像20を射影軸方向に走査したときの射影軸の位置を表し、縦軸は、射影軸に射影された白画素の出現頻度を表す。生体認証システム10は、回転させた各射影軸50について上記のヒストグラムを求め、ヒストグラムの分散が最も大きくなったときの射影軸50の回転角度を背景分離画像20の回転角度として決定する。
 このように、生体認証システム10は、背景分離画像20を適宜に回転させることで、図2の学習動作(s20)において、不適切な領域記述データが生成される可能性を低減させることができる。また背景分離画像20を有効に利用することができる。
<ロス関数>
 ところで、機械学習モデル113の学習は、例えば、各数値列の値の差の2乗和等のロス関数を用いて行ってもよい。また以下に示すロス関数を用いて機械学習モデル113を学習するようにしてもよい。
 図11は上記のロス関数を説明する図である。同図において、実線は教師データ111の領域記述データに基づく対象領域22b(以下、「正解領域」と称する。)の輪郭であり、点線は機械学習モデル113が推定した領域記述データに基づく対象領域22c(以下、「推定領域」と称する。)の輪郭である。2つの対象領域22b,22cが重複する領域22d(以下、「重複領域」と称する。)以外の領域22eは誤差に相当する。生体認証システム10は、例えば、正解領域のピクセル数と、推定領域のピクセル数と、重複領域のピクセル数とをパラメータとする、次式で示すロス関数を用いて機械学習モデル113の学習を行う。
Figure JPOXMLDOC01-appb-M000002
<マスク情報>
 ところで、教師データ111の領域記述データは、図4の背景分離画像20を例として説明すると、Y軸方向の位置において、原点oに対応する1番目から、指先24に対応する位置に対応する順番までは、全て背景領域23に対応する「0」が記述され、指先24の位置のY座標に対応する順番から数値が突然記述され始めることになる。
 図12は、横軸をY軸方向の位置とし、縦軸を中心位置や指幅に対応する数値として領域記述データをグラフ化したものである。この例では、実線(数値を結んだ実線)で示すように、指先24に対応する順番における数値とその一つ前の順番における数値とが不連続となっている。この場合、機械学習モデル113を用いて領域指定データの推定を行うと、指先24の形状が、本来の形状とは乖離したものになってしまう可能性がある。
 上記の問題は、例えば、中央位置ベクトルCentervecもしくは指幅ベクトルWvecに、夫々の各順番の数値の採否を指定するマスク情報を作用させることで解決することができる。数3は上記マスク情報の一例である。例示するマスク情報は、一次元数値列からなる領域記述データに記入された各順番の数値について、採用を指定する「1」と不採用を指定した「0」とが記入された、一次元数値列(マスクベクトルMvec)で表現されている。数3のマスクベクトルMvecは、指先24が出現する順番まで数値を採用しない旨を指示する「0」が記入された一次元数値列となっている。
Figure JPOXMLDOC01-appb-M000003
 生体認証システム10は、教師データ111にマスクベクトルMvecを含めて機械学習モデル113の学習を行う。この場合、生体認証システム10は、例えば、次式に示すロス関数の値が小さくなるように機械学習モデル113の学習を行う。
Figure JPOXMLDOC01-appb-M000004
 上式において、Cg、およびWgは、正解中心座標ベクトルおよび正解指幅ベクトルであり、教師データ111における中心座標ベクトルCentervecおよび指幅ベクトルWvecである。またCpおよびWpは、推定中心座標ベクトル、および推定指幅ベクトルであり、回帰推定によって出力された中心座標ベクトルCentervecおよび指幅ベクトルWvecである。またMgおよびMpは、正解マスクベクトルおよび推定マスクベクトルであり、数3に示したように、領域記述データにおける各順番の数値の採否を一次元数値列で表現したものである。
 上記の問題の別の解決方法として、例えば、指幅0部分の中心位置について、指幅1以上の領域のY座標のデータに基づき回帰直線(傾きと切片)を求め、求めた回帰直線から指幅0部分の正解の1次元数値列を補完(代替)するようにしてもよい。
 図13は、この解決方法を説明する図であり、横軸をY軸方向の位置とし、縦軸を中心位置や指幅に対応する数値として領域記述データをグラフ化したものである。同図において、観測データ1301は、指幅が正の値を持つ位置yにおける中心座標位置の例である。補完データ1302は、観測データ1301を用いて求めた回帰直線に基づき、指幅が0の値を持つ、位置y0における推定中心座標を表す。回帰直線を用いた推定中心座標は次式から求めることができる。
Figure JPOXMLDOC01-appb-M000005
 本解決方法によれば、指先24に対応する順番における数値とその一つ前の順番における数値とが不連続となっている部分を連続関数として表わすことができ、推定精度を高めることができる。
<その他の実施形態>
 以上の説明では、入力された画像に含まれる凸オブジェクト(一本の指22a等)は、領域記述データにおいて指22aの中心線の位置と指幅という2種類の一次元数値列(Centervec,Wvec)で圧縮表現していたが、凸オブジェクトを、例えば、開始X座標位置と指幅、あるいは開始X座標位置と終了X座標位置等で表現してもよい。
 また領域記述データは、一種類の一次元数値列で表現することもできる。例えば、領域記述データを、順番毎に小数点以下が所定桁数となる小数の数値を記入した一次元数値列とし、小数の整数部分の数値が中心幅等を表現し、所定桁数の小数部分の数値が指幅等を表現することとすれば、生体認証システム10は、領域記述データを一つの一次元数値列で扱うことができる。小数点以下の桁数については、背景分離画像20のX軸方向の画素数によって決めればよい。X軸方向の画素数が640画素であれば、小数点以下を3桁とし、小数点以下の数値を1000倍すれば、小数点以下の数値を、画素のX座標位置を表現する整数に戻すことができる。
 生体認証システム10は、例えば、分散型の情報処理システムを用いて実現してもよい。例えば、生体認証システム10は、学習動作(s20)を行う情報処理装置と、認証動作(s40)を行う情報処理装置を通信可能に接続した情報処理システムにより実現してもよい。
 尚、以上の仕組みは、生体認証とは異なる分野においても利用可能であり、例えば、撮影画像から特定の物体を分離する技術にも適用することができる。
 また以上に説明した生体認証システム10は、本発明に係る情報処理システムの一実施形態であり、本発明の技術的範囲は、実施形態に係る生体認証システム10によって限定されるものではない。上記実施形態は、本発明を分かりやすく説明するための一例である。したがって、本発明の概念は、上記実施形態に対する様々な変形形態や応用形態を含むものでる。また上記実施形態の構成の一部を他の実施形態の構成に置き換えたり、ある実施形態の構成に他の実施形態の構成を加えたりすることが可能である。また各実施形態の構成の一部について、他の構成を追加、削除、置換することも可能である。 
 上記の各構成、機能等は、それらの一部又は全部は、例えば、集積回路を用いたハードウェアによって実現されるものであってもよいし、夫々の構成や機能を実現するプログラムを実行して所定のデータを処理するソフトウェアによって実現されるものであってもよい。
10 生体認証システム、11 プロセッサ、12 主記憶装置、13 補助記憶装置、14 入力装置、15 表示装置、16 撮影装置、20 背景分離画像、 22 対象領域、23 背景領域、101 領域表現圧縮プログラム、102 訓練プログラム、
103 推定処理プログラム、104 領域表現復元プログラム、105 認証プログラム、111 教師データ、112 認証参照情報、113 機械学習モデル

Claims (15)

  1.  撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、
     撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する、
     情報処理システム。
  2.  請求項1に記載の情報処理システムであって、
     前記領域記述データは、前記撮影画像から背景分離画像を生成し、生成した前記背景分離画像に基づき生成されたものであり、
     撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定し、
     前記領域記述データに基づき背景分離画像を復元する、
     情報処理システム。
  3.  請求項2に記載の情報処理システムであって、
     前記撮影画像は、生体認証の対象となる物体を写した画像であり、
     前記撮影画像と復元した前記背景分離画像とに基づき認証に用いる生体情報を抽出し、
     前記生体情報を予め記憶している認証情報と照合することにより認証を行う、
     情報処理システム。
  4.  請求項3に記載の情報処理システムであって、
     前記領域記述データは、前記背景分離画像を走査したときの走査機会毎の前記物体の幅を順に記述した一次元数値列と、前記背景分離画像を走査したときの前記物体の幅方向の中心位置を順に記述した一次元数値列とを含む、
     情報処理システム。
  5.  請求項4に記載の情報処理システムであって、
     前記認証の対象となる物体は人の指である、
     情報処理システム。
  6.  請求項2に記載の情報処理システムであって、
     前記背景分離画像に対し、方向の異なる複数の射影軸の夫々について夫々の前記対象領域の画素の出現頻度を示すヒストグラムを生成し、
     前記背景分離画像を前記ヒストグラムの分散が最大となる前記射影軸の方向に走査することにより前記領域記述データを生成する、
     情報処理システム。
  7.  請求項1乃至6のいずれか一項に記載の情報処理システムであって、
     前記教師データにおける前記対象領域と、前記機械学習モデルにより推定された対象領域との重なり具合をパラメータとして用いたロス関数を用いて前記機械学習モデルを学習する、
     情報処理システム。
  8.  請求項1乃至6のいずれか一項に記載の情報処理システムであって、
     前記教師データは、前記一次元数値列における各数値の採否を指定するマスク情報を含み、
     前記機械学習モデルは、前記一次元数値列に前記マスク情報を作用させつつ前記領域記述データと前記マスク情報を推定し、
     前記機械学習モデルの学習に際し、前記マスク情報をパラメータとして用いたロス関数を用いる、
     情報処理システム。
  9.  情報処理装置が、
     撮影画像と、前記撮影画像において特定の物体が写っている領域である対象領域を一次元数値列によって表現したデータである領域記述データと、を対応づけたデータを教師データとして学習させた機械学習モデルを記憶し、
     撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定する、
     情報処理方法。
  10.  請求項9に記載の情報処理方法であって、
     前記領域記述データは、前記撮影画像から背景分離画像を生成し、生成した前記背景分離画像に基づき生成されたものであり、
     前記情報処理装置が、
     撮影画像を前記機械学習モデルに入力することにより前記領域記述データを生成し、
     前記領域記述データに基づき背景分離画像を復元する、
     情報処理方法。
  11.  請求項10に記載の情報処理方法であって、
     前記撮影画像は、認証の対象となる物体を写した画像であり、
     前記情報処理装置が、
     認証の対象となる物体を撮影した撮影画像を前記機械学習モデルに入力することにより前記領域記述データを推定し、
     推定した前記領域記述データに基づき背景分離画像を復元し、
     前記入力した撮影画像と復元した前記背景分離画像とに基づき認証に用いる生体情報を抽出し、
     前記生体情報を予め記憶している認証情報と照合することにより認証を行う、
     情報処理方法。
  12.  請求項11に記載の情報処理方法であって、
     前記領域記述データは、前記背景分離画像を走査したときの走査機会毎の前記物体の幅を順に記述した一次元数値列と、前記背景分離画像を走査したときの前記物体の幅方向の中心位置を順に記述した一次元数値列とを含む、
     情報処理方法。
  13.  請求項12に記載の情報処理方法であって、
     前記認証の対象となる物体が人の指である、
     情報処理方法。
  14.  請求項10に記載の情報処理方法であって、
     前記情報処理装置が、
     前記背景分離画像に対し、方向の異なる複数の射影軸の夫々について夫々の前記対象領域の画素の出現頻度を示すヒストグラムを生成し、
     前記背景分離画像を前記ヒストグラムの分散が最大となる前記射影軸の方向に走査することにより前記領域記述データを生成する、
     情報処理方法。
  15.  請求項9乃至14のいずれか一項に記載の情報処理方法であって、
     前記情報処理装置が、前記教師データにおける前記対象領域と、前記機械学習モデルにより推定された対象領域との重なり具合をパラメータとして用いたロス関数を用いて前記機械学習モデルを学習する、
     情報処理方法。
PCT/JP2020/006491 2019-08-09 2020-02-19 情報処理システム、および情報処理方法 WO2021029091A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019147250A JP7190987B2 (ja) 2019-08-09 2019-08-09 情報処理システム、および情報処理方法
JP2019-147250 2019-08-09

Publications (1)

Publication Number Publication Date
WO2021029091A1 true WO2021029091A1 (ja) 2021-02-18

Family

ID=74569633

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/006491 WO2021029091A1 (ja) 2019-08-09 2020-02-19 情報処理システム、および情報処理方法

Country Status (2)

Country Link
JP (1) JP7190987B2 (ja)
WO (1) WO2021029091A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023175664A1 (ja) * 2022-03-14 2023-09-21 日本電気株式会社 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125260A (ja) * 1997-07-08 1999-01-29 Matsushita Electric Ind Co Ltd 手の状態検出装置
JP2017027600A (ja) * 2015-07-23 2017-02-02 株式会社リコー 手振り識別方法と装置
WO2018223295A1 (en) * 2017-06-06 2018-12-13 Midea Group Co., Ltd. Coarse-to-fine hand detection method using deep neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125260A (ja) * 1997-07-08 1999-01-29 Matsushita Electric Ind Co Ltd 手の状態検出装置
JP2017027600A (ja) * 2015-07-23 2017-02-02 株式会社リコー 手振り識別方法と装置
WO2018223295A1 (en) * 2017-06-06 2018-12-13 Midea Group Co., Ltd. Coarse-to-fine hand detection method using deep neural network

Also Published As

Publication number Publication date
JP7190987B2 (ja) 2022-12-16
JP2021028739A (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
JP5553141B2 (ja) 画像処理システム、画像処理装置、画像処理方法、およびプログラム
JP6167733B2 (ja) 生体特徴ベクトル抽出装置、生体特徴ベクトル抽出方法、および生体特徴ベクトル抽出プログラム
US8641634B2 (en) Information processing apparatus, information processing method and program
CN111814194B (zh) 基于隐私保护的图像处理方法、装置和电子设备
JP2020501264A (ja) モバイルデバイスを用いてキャプチャした画像を使用する、指紋によるユーザ認証を実施するためのシステムおよび方法
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
KR20190053602A (ko) 얼굴 인증 방법 및 장치
JP6648639B2 (ja) 生体情報処理装置、生体情報処理方法および生体情報処理プログラム
JP2019048026A (ja) 生体情報解析装置及び手肌解析方法
CN111429554A (zh) 运动视频数据处理方法、装置、计算机设备和存储介质
US11562489B2 (en) Pixel-wise hand segmentation of multi-modal hand activity video dataset
JP2007293438A (ja) 特徴量取得装置
WO2021029091A1 (ja) 情報処理システム、および情報処理方法
US20230394871A1 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image
JP6629150B2 (ja) 手のひら検知装置、掌紋認証装置、手のひら検知方法、及びプログラム
JP6798285B2 (ja) 生体認証装置、生体認証方法及びプログラム
JP7270304B2 (ja) ユーザのバイオメトリック特性を有する画像中の物体を識別することにより当該ユーザのidを検証するための方法、及び当該方法を実施するためのモバイル装置
US20220383663A1 (en) Method for obtaining data from an image of an object of a user that has a biometric characteristic of the user
JP4900701B2 (ja) 認証システム
JP2001331804A (ja) 画像領域検出装置及び方法
JP7056052B2 (ja) 画像処理プログラム、画像処理方法、及び画像処理装置
JP7079742B2 (ja) 計算機システム
US20230274530A1 (en) Inference processing system in which server and edge device cooperate to perform computation, server, edge device, and control method thereof, and storage medium
CN115410056A (zh) 图像处理方法、模型训练方法、装置和计算机设备
JP2014222471A (ja) 表示装置、及びそのプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20851813

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20851813

Country of ref document: EP

Kind code of ref document: A1