WO2024095319A1 - 情報処理装置、情報処理方法、および記録媒体 - Google Patents

情報処理装置、情報処理方法、および記録媒体 Download PDF

Info

Publication number
WO2024095319A1
WO2024095319A1 PCT/JP2022/040735 JP2022040735W WO2024095319A1 WO 2024095319 A1 WO2024095319 A1 WO 2024095319A1 JP 2022040735 W JP2022040735 W JP 2022040735W WO 2024095319 A1 WO2024095319 A1 WO 2024095319A1
Authority
WO
WIPO (PCT)
Prior art keywords
loss
information processing
feature
distance
information
Prior art date
Application number
PCT/JP2022/040735
Other languages
English (en)
French (fr)
Inventor
貴裕 戸泉
悠歩 庄司
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/040735 priority Critical patent/WO2024095319A1/ja
Publication of WO2024095319A1 publication Critical patent/WO2024095319A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure relates to an information processing device, an information processing method, and a recording medium.
  • a machine learning model has been proposed to detect specific regions in an image.
  • Patent Document 1 describes the use of a machine learning model to detect facial landmarks for pose estimation. As an example, it describes the detection of multiple eye landmarks close to eyebrows in order to extract eye regions from a face image.
  • Patent document 2 describes an iris extraction device that extracts the iris portion of an eye image. It also describes that the iris extraction device can be implemented using a deep neural network.
  • Patent Document 3 describes the learning of a model for detecting feature figures and feature points from an image. Specifically, it describes the learning being performed by comparing correct answer data for feature figures and feature points with detected feature figures and feature points.
  • This disclosure aims to improve upon the techniques described in the prior art documents mentioned above.
  • An acquisition means for acquiring a target image and correct answer feature information; a detection means for detecting estimated feature information relating to a detection target from the target image using a detection model;
  • An information processing device includes a loss calculation means for calculating a loss, and for updating parameters of the detection model to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information.
  • One or more computers Obtaining a target image and ground truth feature information; detecting estimated feature information relating to a detection target from the target image using a detection model; An information processing method for calculating a loss is provided for updating parameters of the detection model to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information.
  • a computer-readable recording medium having a program recorded thereon, The program includes: an acquisition unit for acquiring a target image and correct feature information;
  • a recording medium is provided that functions as a detection means for detecting estimated feature information relating to a detection target from the target image using a detection model, and a loss calculation means for calculating a loss in order to update parameters of the detection model so as to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information.
  • FIG. 1 is a diagram showing an overview of an information processing apparatus according to a first embodiment
  • FIG. 1 is a diagram showing an overview of an information processing method according to a first embodiment.
  • FIG. 4 is a diagram illustrating a function of a detection model according to the first embodiment.
  • 1 is a diagram illustrating an example of a target image and feature information;
  • 1 is a block diagram illustrating a functional configuration of an information processing apparatus according to a first embodiment.
  • 4 is a flowchart illustrating a flow of a process executed by the information processing apparatus according to the first embodiment.
  • 5 is a flowchart illustrating a flow of processing performed by a loss calculation unit according to the first embodiment.
  • 4 is a diagram illustrating a relationship between a distance d and a loss L according to the first embodiment.
  • FIG. 1 is a diagram illustrating a computer for implementing an information processing device.
  • 11 is a flowchart illustrating a flow of a process executed by an information processing device according to a first modified example.
  • 13A to 13C are diagrams illustrating an error in correct feature information.
  • 10 is a flowchart illustrating a flow of processing performed by a loss calculation unit according to the second embodiment.
  • FIG. 13 is a diagram illustrating a first example of a relationship between a distance d and a loss L according to the third embodiment.
  • FIG. 13 is a diagram illustrating a second example of the relationship between the distance d and the loss L according to the third embodiment.
  • FIG. 13 is a block diagram illustrating a functional configuration of an information processing device according to a fourth embodiment.
  • FIG. 13 is a flowchart illustrating a flow of processes executed by a feature extraction unit and a loss calculation unit according to the fourth embodiment when a distance d is less than a reference value ⁇ .
  • 13 is a flowchart illustrating a flow of a process executed by a loss calculation unit according to the fifth embodiment.
  • FIG. 2 is a diagram illustrating a function g(x).
  • FIG. 13 is a diagram illustrating a function g(d ⁇ ).
  • FIG. 13 is a block diagram illustrating a functional configuration of an information processing device according to a sixth embodiment.
  • FIG. 13 is a diagram for explaining an authentication unit.
  • FIG. 23 is a diagram illustrating an example of a functional configuration of an authentication device according to a seventh embodiment. 23 is a flowchart illustrating the flow of a process performed by an authentication device according to the seventh embodiment.
  • First Embodiment 1 is a diagram showing an overview of an information processing device 10 according to a first embodiment.
  • the information processing device 10 includes an acquisition unit 110, a detection unit 130, and a loss calculation unit 150.
  • the acquisition unit 110 acquires a target image and supervised feature information.
  • the detection unit 130 detects estimated feature information related to a detection target from the target image using a detection model.
  • the loss calculation unit 150 calculates a loss L for updating parameters of the detection model so as to generate a detection model that can tolerate deviations from supervised feature information in the estimated feature information.
  • This information processing device 10 achieves highly effective detection even when the correct feature information contains errors.
  • FIG. 2 is a diagram showing an overview of the information processing method according to this embodiment.
  • the information processing method according to this embodiment is executed by one or more computers.
  • the information processing method according to this embodiment includes steps S10 to S30.
  • step S10 a target image and ground truth feature information are acquired.
  • step S20 estimated feature information related to the detection target is detected from the target image using a detection model.
  • step S30 a loss L is calculated to update the parameters of the detection model so as to generate a detection model that can tolerate deviations in the estimated feature information from the ground truth feature information.
  • This information processing method achieves highly effective detection even when the correct feature information contains errors.
  • This information processing method can be executed by the information processing device 10 according to this embodiment.
  • Machine learning of a detection model is performed using correct answer data.
  • the correct answer data may contain errors.
  • a person may manually mark shapes or points related to the area to be detected in the image, and use this as correct answer data. This human work may result in errors being included in the correct answer data.
  • the degree of error that is acceptable in the detection performance of a detection model differs depending on the intended use of the detection model. In other words, using machine learning to try to accurately match the output results of a detection model to correct answer data may not necessarily be effective in light of the intended use of the detection model.
  • Patent Documents 1 to 3 did not take into consideration the possibility that the correct answer may contain errors.
  • the loss calculation unit 150 calculates the loss L to update the parameters of the detection model so as to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information. Therefore, machine learning that takes into account the effects of errors that may be contained in the ground-truth feature information achieves detection that is highly effective in light of the purpose of the detection model.
  • the loss L is a value based on the magnitude of deviation between the ground-truth and the prediction result output by the detection model.
  • the model parameters are updated to reduce the value of loss L.
  • FIG. 3 is a diagram illustrating the function of the detection model 132 according to this embodiment.
  • the information processing device 10 is a device that performs machine learning of the detection model 132.
  • the detection model 132 is configured to include a neural network.
  • the detection model 132 is a model for detecting feature information related to a detection target from a target image.
  • the feature information detected by the detection model 132 is also particularly referred to as "estimated feature information”.
  • the feature information included as a correct answer in the training data for machine learning is also particularly referred to as “correct answer feature information”.
  • the "estimated feature information" and the "correct answer feature information” are collectively referred to simply as "feature information”.
  • the input data of the detection model 132 includes a target image.
  • the output data of the detection model 132 includes estimated feature information.
  • the feature information is, for example, information for indicating the area of the detection target in the target image (hereinafter referred to as the "target area"). In other words, the feature information can be used to identify the target area in the target image.
  • FIG. 4 is a diagram illustrating a target image 90 and feature information.
  • the target image 90 is an image that can be used for iris authentication, for example.
  • the target image 90 is an image that includes an eye.
  • the target image 90 may be an image that includes both eyes, or an image that includes only one of the right eye or the left eye.
  • the target image 90 may be an image that includes not only the eye, but also the area around the eye.
  • the eye included in the target image 90 is, for example, a human eye, but may also be the eye of a non-human organism.
  • the detection target is, for example, an iris.
  • the feature information is information indicating one or more of a point, a circle, an ellipse, or a figure consisting of a combination of these.
  • a circle (or ellipse) with a missing part or a circle (or ellipse) with a hidden part in the image may be indicated as a circle (or ellipse) in the feature information.
  • the figure indicated by the feature information is not limited to a point, a circle, an ellipse, etc., and may be any figure.
  • the feature information indicates a circle C1, a circle C2, and points P1 to P8.
  • Circle C1 corresponds to the outer edge of the pupil
  • circle C2 corresponds to the outer edge of the iris
  • Points P1 to P8 correspond to multiple points located on the edge of the eyelid.
  • the iris area in the target image 90 can be specified by these circles and points.
  • Circles C1 and C2 are each represented by their center coordinates and radius (i.e., three elements). However, the center coordinates of circles C1 and C2 may be the same. Points P1 to P8 are each represented by coordinates (i.e., two elements).
  • the feature information can be a vector containing these elements. This vector is called a feature vector. For example, in the example of Figure 4, by combining two circles, each represented by three elements, and eight points, each represented by two elements, the feature information can be represented by a feature vector with 22 elements.
  • the target image 90 is not limited to an image that can be used for iris authentication.
  • the target image 90 may be an image that can be used for face authentication.
  • the target image 90 is an image that includes a face, and the detection model 132 detects feature points that indicate the positions of the eyes, nose, mouth, etc. in the face as feature information.
  • the target image 90 may also be an image that includes an object other than a living thing.
  • the feature information is information that indicates a specific area of the object.
  • Fig. 5 is a block diagram illustrating a functional configuration of the information processing device 10 according to this embodiment.
  • the information processing device 10 further includes an update unit 170.
  • Fig. 6 is a flowchart illustrating a flow of a process executed by the information processing device 10 according to this embodiment. Each functional configuration unit of the information processing device 10 will be described in detail below with reference to Figs. 5 and 6.
  • the acquisition unit 110 acquires the target image 90 and correct feature information.
  • the correct feature information is feature information that is the correct answer corresponding to the target image 90.
  • the combination of the target image 90 and the correct feature information corresponding to the target image 90 is called training data.
  • the correct feature information is prepared, for example, by designating in advance for the target image 90 one or more of a point, a circle, an ellipse, or a shape consisting of a combination of these to identify the target region. This designation is performed, for example, by performing an operation in which a person draws points or shapes by overlapping them on the target image 90 displayed on a display (i.e., by adding annotations).
  • the correct feature information may be prepared by other methods.
  • the correct answer feature information may contain errors. In other words, the correct answer feature information does not need to be completely correct.
  • the correct answer feature information may be used as a target in machine learning.
  • a storage unit accessible from the acquisition unit 110 holds multiple pieces of training data prepared in advance.
  • the target images 90 contained in the multiple training data are different from each other.
  • the sizes of the detection targets in the multiple target images 90 may be different from each other, but it is preferable that they are the same.
  • the acquisition unit 110 reads and acquires the training data from the storage unit. Note that instead of reading the training data from the storage unit, the acquisition unit 110 may acquire the training data from another device.
  • step S101 the acquisition unit 110 acquires and holds a training dataset including multiple pieces of training data. Furthermore, in step S102, the acquisition unit 110 acquires two or more pieces of training data from the training dataset as training data batches. In this way, the information processing device 10 divides the training dataset into multiple data batches and performs machine learning. That is, the information processing device 10 updates the parameters of the detection model 132 for each training data batch.
  • the number of training data included in the training data batch can be determined in advance. However, the number of training data included in the training data batch does not necessarily need to be constant. By updating the parameters of the detection model 132 for each training data batch, the accuracy of each parameter update can be improved.
  • step S103 the detection unit 130 detects estimated feature information for each of the multiple target images 90 included in the training data batch.
  • the detection unit 130 detects estimated feature information from each target image 90 using the detection model 132. Specifically, the detection unit 130 inputs one target image 90 included in the training data batch acquired by the acquisition unit 110 to the detection model 132. Then, the detection model 132 outputs estimated feature information corresponding to the input target image 90. The output estimated feature information is associated with the input target image 90, i.e., the target image 90 from which the estimated feature information was detected. The output estimated feature information may be associated with the training data including the target image 90 from which the estimated feature information was detected. The detection unit 130 obtains estimated feature information for all target images 90 included in the training data batch by inputting multiple target images 90 in sequence to the detection model 132.
  • step S104 the loss calculation unit 150 calculates the loss L using the estimated feature information and the ground truth feature information.
  • One loss L is calculated for each training data batch. The method by which the loss calculation unit 150 calculates the loss L will be described in detail later.
  • the update unit 170 uses the loss L to update the parameters of the detection model 132 used by the detection unit 130. For example, the update unit 170 updates the parameters of the detection model 132 by backpropagation using the loss L. In this way, it is possible to improve the detection accuracy of the detection target by the detection model 132.
  • step S105 of FIG. 6 the update unit 170 calculates the gradient for each parameter of the detection model 132 using the loss L.
  • step S106 the update unit 170 updates each parameter of the detection model 132 based on the calculated gradient and a preset learning rate.
  • Various existing methods can be adopted as the method by which the update unit 170 calculates the gradient and the method by which the parameters are updated.
  • step S107 it is determined whether the end condition of the repetition is satisfied. If the end condition is not satisfied (No in S107), the process returns to step S102.
  • the series of processes from step S102 to step S106 is regarded as one iteration of a learning loop, and the learning of the detection model 132 progresses by repeating this series of processes many times. If the end condition is satisfied (Yes in S107), in step S108, the parameters of the detection model 132 at that point are saved, and the learning ends. Note that the learned parameters of the detection model 132 may be saved during the learning stage.
  • the termination condition may be that the number of iterations reaches a predetermined number, or that the rate of change of the loss L calculated in step S104 with respect to the number of iterations falls below a predetermined value.
  • the termination condition may be that at least one of these conditions is satisfied.
  • FIG. 7 is a flowchart illustrating the flow of processing performed by the loss calculation unit 150 according to this embodiment.
  • the loss calculation unit 150 calculates the distance D for each training data.
  • the distance D is the distance between the estimated feature information and the correct answer feature information corresponding to that estimated feature information.
  • the distance D is calculated using the correct answer feature information included in the same training data as the target image 90 and the detected estimated feature information.
  • the feature information includes a feature vector.
  • the feature vector included in the correct feature information is hereinafter referred to as a "correct feature vector k a "
  • the feature vector included in the estimated feature information is hereinafter referred to as an "estimated feature vector k p ".
  • the loss calculation unit 150 calculates a distance D between the correct feature vector k a and the estimated feature vector k p .
  • the distance D can be obtained, for example, by using the following formula (1).
  • the loss calculation unit 150 calculates the distance d based on the multiple distances D. Specifically, the loss calculation unit 150 calculates the sum or average of the multiple distances D as the distance d.
  • the loss calculation unit 150 uses the distance d obtained in this way to calculate the loss L as follows. That is, in step S203, the loss calculation unit 150 determines whether the distance d is less than a predetermined reference value ⁇ .
  • the loss calculation unit 150 calculates the loss L based on a first rule (step S204). On the other hand, if the distance d is equal to or greater than the reference value (No in step S203), the loss calculation unit 150 calculates the loss L based on a second rule that is different from the first rule (step S205). In this way, it is possible to calculate the loss L more appropriately. Furthermore, even if an error is included in the correct feature information, the effect of the error on learning can be reduced.
  • the first rule and the second rule are not limited, but in the first rule, it is preferable that the obtained loss L is monotonically increasing or constant with respect to the distance d. In the second rule, it is preferable that the obtained loss L is monotonically increasing with respect to the distance d.
  • the relationship between the first rule and the second rule is not limited, but it is preferable that any loss L calculated by the first rule is smaller than any loss L calculated by the second rule. It is also preferable that any slope of the loss L obtained by the first rule with respect to the distance d is smaller than any slope of the loss L obtained by the second rule with respect to the distance d.
  • f 1 (d) ⁇ f 2 (d) holds for all distances d less than the reference value ⁇ .
  • Such a loss L makes it difficult for parameter updates that attempt to bring the estimated feature information closer to the correct feature information than necessary to occur.
  • FIG. 8 is a diagram illustrating the relationship between distance d and loss L according to this embodiment.
  • the loss calculation unit 150 calculates the L2 loss as the loss L when the distance d is less than the reference value ⁇ , and calculates the L1 loss as the loss L when the distance d is equal to or greater than the reference value ⁇ . That is, the first rule is to set the L2 loss as the loss L, and the second rule is to set the L1 loss as the loss L.
  • the loss L can be a so-called Huber loss.
  • the loss calculation unit 150 calculates the L2 loss as the loss L when the distance d is less than the reference value ⁇ , and calculating the L1 loss as the loss L when the distance d is equal to or greater than the reference value ⁇ , even if an error is included in the correct feature information, the effect of the error on learning can be reduced.
  • the first rule is to calculate the loss L using a quadratic function of the distance d as shown in the following formula (2)
  • the second rule is to calculate the loss L using a linear function of the distance d as shown in the following formula (3), where a2 , a1 , and b1 are each a predetermined real number, provided that a2 and a1 are not zero.
  • L2 loss a2 ⁇ d2
  • L1 loss a1 ⁇ d + b1 (3)
  • the reference value ⁇ may be determined in advance, or may be determined by the information processing device 10 as described in the sixth embodiment.
  • the reference value ⁇ When the reference value ⁇ is determined in advance, it can be determined based on the accuracy required for the detection model 132 in light of the intended use of the detection model 132. Alternatively, multiple people may assign feature information to the same target image 90 (annotation) and the reference value ⁇ may be determined based on the degree of variability, or the reference value ⁇ may be determined based on the degree of variability of feature information assigned to different target images 90. In this case, it is preferable to determine the reference value ⁇ by increasing the importance of variability for target images 90 that are greatly affected by errors. For example, if the target image 90 is an image that can be used for iris authentication, it is preferable to determine the reference value ⁇ by increasing the importance of variability for target images 90 with small iris diameters.
  • the change in loss L relative to the change in distance d is continuous at the reference value ⁇ .
  • a graph with one axis representing distance d and the other axis representing loss L is preferably continuous at the reference value ⁇ . This allows for more appropriate learning.
  • the formulas for calculating the L1 loss and the L2 loss may be determined in advance.
  • the loss calculation unit 150 may specify at least one of the slope a 1 , intercept b 1 of the linear function for calculating the L1 loss, and the coefficient a 2 of the quadratic function for calculating the L2 loss based on the reference value ⁇ .
  • the loss calculation unit 150 specifies at least one of the slope a 1 , intercept b 1 , and coefficient a 2 , for example, so that the change in the loss L relative to the change in the distance d is continuous at the reference value ⁇ .
  • the loss calculation unit 150 outputs the loss L in step S206.
  • Each functional component of the information processing device 10 may be realized by hardware that realizes each functional component (e.g., a hardwired electronic circuit, etc.), or may be realized by a combination of hardware and software (e.g., a combination of an electronic circuit and a program that controls it, etc.).
  • a further description will be given of the case where each functional component of the information processing device 10 is realized by a combination of hardware and software.
  • FIG. 9 is a diagram illustrating a computer 1000 for realizing the information processing device 10.
  • the computer 1000 is any computer.
  • the computer 1000 is a SoC (System On Chip), a Personal Computer (PC), a server machine, a tablet terminal, or a smartphone.
  • the computer 1000 may be a dedicated computer designed to realize the information processing device 10, or may be a general-purpose computer.
  • the information processing device 10 may be realized by one computer 1000, or may be realized by a combination of multiple computers 1000.
  • the computer 1000 has a bus 1020, a processor 1040, a memory 1060, a storage device 1080, an input/output interface 1100, and a network interface 1120.
  • the bus 1020 is a data transmission path through which the processor 1040, the memory 1060, the storage device 1080, the input/output interface 1100, and the network interface 1120 transmit and receive data to and from each other.
  • the method of connecting the processor 1040 and the like to each other is not limited to bus connection.
  • the processor 1040 is one of various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or an FPGA (Field-Programmable Gate Array).
  • the memory 1060 is a main storage device realized using a RAM (Random Access Memory) or the like.
  • the storage device 1080 is an auxiliary storage device realized using a hard disk, an SSD (Solid State Drive), a memory card, or a ROM (Read Only Memory) or the like.
  • the input/output interface 1100 is an interface for connecting the computer 1000 to an input/output device.
  • an input device such as a keyboard and an output device such as a display are connected to the input/output interface 1100.
  • the input/output interface 1100 may be connected to the input device or output device by a wireless connection or a wired connection.
  • the network interface 1120 is an interface for connecting the computer 1000 to a network.
  • This communication network is, for example, a LAN (Local Area Network) or a WAN (Wide Area Network).
  • the method for connecting the network interface 1120 to the network may be a wireless connection or a wired connection.
  • the storage device 1080 stores program modules that realize each functional component of the information processing device 10.
  • the processor 1040 reads each of these program modules into the memory 1060 and executes them to realize the function corresponding to each program module.
  • the loss calculation unit 150 calculates the loss L for updating the parameters of the detection model so as to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information. Therefore, even if the ground-truth feature information contains errors, highly effective detection is achieved.
  • Modification 1 is a modification of the first embodiment.
  • the information processing device 10 according to this modification is the same as the information processing device 10 according to the first embodiment, except for the points described below.
  • the information processing method according to this modification is the same as the information processing method according to the first embodiment, except for the points described below.
  • the acquisition unit 110 acquires multiple sets of training data, each set being a target image 90 and correct answer feature information, as a training data batch.
  • the loss calculation unit 150 calculates the distance D for each of the multiple sets (training data) and calculates the sum or average of the multiple distances D as the distance d.
  • the distance d and loss L are calculated for each training data.
  • the parameters of the detection model 132 are updated for each training data.
  • FIG. 10 is a flowchart illustrating the flow of processing executed by the information processing device 10 according to this modified example.
  • Step S101 and steps S105 to S108 in FIG. 10 are the same as step S101 and steps S105 to S108 described in the first embodiment, respectively.
  • step S302 the acquisition unit 110 in this modified example acquires one piece of training data from the training data set. Then, in step S303, the detection unit 130 detects estimated feature information in each of the target images 90 included in the training data.
  • the method by which the detection unit 130 detects the estimated feature information is the same as that described in the first embodiment.
  • step S304 the loss calculation unit 150 calculates the loss L using the estimated feature information and the correct answer feature information.
  • one loss L is calculated for each training data.
  • the loss calculation unit 150 calculates the loss L in the same manner as in step S201 of FIG. 7.
  • the loss calculation unit 150 also treats the calculated distance D as it is as the distance d, and calculates the loss L in the same manner as in the first embodiment.
  • step S105 the same process as in FIG. 6 of the first embodiment is performed, and the parameters of the detection model 132 are updated and saved.
  • the information processing device 10 according to the second embodiment is the same as the information processing device 10 according to the first embodiment, except for the points described below.
  • the information processing method according to the second embodiment is the same as the information processing method according to the first embodiment, except for the points described below.
  • the correct feature information includes a correct feature vector k a
  • the estimated feature information includes an estimated feature vector k p .
  • the loss calculation unit 150 calculates a distance d based on a normalized distance D norm obtained by normalizing the distance between the correct feature vector k a and the estimated feature vector k p by the size of the detection target. Then, the loss calculation unit 150 calculates a loss L using the distance d.
  • FIGs. 11(a) to 11(c) are diagrams for explaining errors in correct feature information.
  • a person gives correct feature information to a target image 90, for example, the person performs an operation such as drawing a predetermined figure superimposed on the target image 90. Then, correct feature information indicating the drawn figure is generated.
  • a circle C1 indicating the outer edge of the pupil and a circle C2 indicating the outer edge of the iris are drawn superimposed on the target image 90.
  • the circle C1 and the circle C2 correspond well to the outer edges of the pupil and the iris, respectively, and it can be said that there is little error.
  • the circle C1 is shifted from the outer edge of the pupil, and the circle C2 is shifted from the outer edge of the iris.
  • the correct feature information contains errors due to this shift. When a person annotates as correct feature information, such errors are unavoidable.
  • the detection target (the iris in this example) in the target image 90 is smaller in FIG. 11(c) than in FIG. 11(b). Therefore, even if the amount of deviation is about the same in terms of dimensions in FIG. 11(c) and FIG. 11(b), the effect of the error on the size of the detection target is greater in FIG. 11(c) than in FIG. 11(b).
  • the loss calculation unit 150 calculates a distance d based on a normalized distance D norm obtained by normalizing the distance between the correct answer feature vector k a and the estimated feature vector k p by the size of the detection target. Then, the loss calculation unit 150 calculates a loss L using the distance d. Therefore, even when learning is performed using a plurality of target images 90 that contain different sizes of detection targets, these target images 90 can be treated uniformly.
  • the loss calculation unit 150 can calculate the normalized distance D norm using the following formula (4-1) or formula (4-2): where s is the size of the detection object, and 1 ⁇ n ⁇ .
  • D norm
  • the loss calculation unit 150 can specify the size of the detection target, for example, by using the correct feature information. Any of the elements of the correct feature vector k a may indicate the size of the detection target, or the loss calculation unit 150 may calculate the size of the detection target by using one or more elements.
  • the size of the detection object may be, for example, the radius, diameter, or area of a circle shown in the correct feature information, or the major axis, minor axis, or area of an ellipse shown in the correct feature information.
  • the size of the detection object may be the length of any side of a figure shown in the correct feature information, the radius of a circumscribing circle, the diameter of a circumscribing circle, or the area, or the distance between any two points shown in the correct feature information.
  • the size of the detection object is, for example, the radius, diameter, or area of a circle indicating the outer edge of the iris.
  • FIG. 12 is a flowchart illustrating the flow of processing performed by the loss calculation unit 150 according to this embodiment.
  • the acquisition unit 110 acquires a plurality of training data, which are pairs of the target image 90 and correct answer feature information, as training data batches.
  • the loss calculation unit 150 calculates a normalized distance D norm for each of the plurality of pairs (training data).
  • the loss calculation unit 150 calculates a distance d as the sum or average of the plurality of normalized distances D norm . In this way, by updating the parameters of the detection model 132 for each training data batch, the accuracy of each parameter update can be improved.
  • the loss calculation unit 150 uses the distance d calculated in this manner to calculate the loss L in a manner similar to that described in the first embodiment. Steps S203 to S206 in FIG. 12 are the same as steps S203 to S206 described in the first embodiment.
  • the update unit 170 in this embodiment uses the loss L calculated by the loss calculation unit 150 to update the parameters of the detection model 132 in a manner similar to that described in the first embodiment.
  • the loss calculation unit 150 calculates the distance d based on the normalized distance D norm obtained by normalizing the distance between the correct answer feature vector k a and the estimated feature vector k p by the size of the detection target. Therefore, even when learning is performed using a plurality of target images 90 having different sizes of the detection target, these target images 90 can be treated uniformly.
  • Modification 2 is a modification of the second embodiment.
  • the information processing device 10 according to this modification is the same as the information processing device 10 according to the second embodiment, except for the points described below.
  • the information processing method according to this modification is the same as the information processing method according to the second embodiment, except for the points described below.
  • the acquiring unit 110 acquires a plurality of training data, each of which is a pair of a target image 90 and correct answer feature information, as a training data batch.
  • the loss calculating unit 150 calculates a normalized distance D norm for each of the plurality of pairs (training data), and calculates the sum or average of the plurality of normalized distances D norm as the distance d.
  • the distance d and loss L are calculated for each training data.
  • the parameters of the detection model 132 are updated for each training data.
  • the flow of processing executed by the information processing device 10 according to this modification is shown in Fig. 10, similar to Modification 1.
  • the loss calculation unit 150 according to this modification calculates the normalized distance D norm between estimated feature information and supervised feature information corresponding to the estimated feature information, similar to step S401 in Fig. 12. Furthermore, the loss calculation unit 150 treats the calculated normalized distance D norm as the distance d as it is, and calculates the loss L, similar to the second embodiment.
  • step S105 in FIG. 6 described in the first embodiment is performed, and the parameters of the detection model 132 are updated and saved.
  • the information processing device 10 according to the third embodiment is the same as the information processing device 10 according to any one of the first embodiment, the second embodiment, the modified example 1, and the modified example 2.
  • the information processing method according to the third embodiment is the same as the information processing method according to any one of the first embodiment, the second embodiment, the modified example 1, and the modified example 2.
  • FIG. 13 is a diagram showing a first example of the relationship between distance d and loss L according to this embodiment.
  • loss calculation unit 150 calculates a predetermined value ⁇ as loss L, and when distance d is equal to or greater than reference value ⁇ , calculates L1 loss as loss L. That is, the first rule is to set a predetermined value ⁇ as loss L, and the second rule is to set L1 loss as loss L. By doing so, even if an error is included in the correct answer feature information, the effect of the error on learning can be reduced.
  • the specified value ⁇ is determined in advance. There are no particular limitations on the specified value ⁇ , but it is preferable that it is smaller than any loss L obtained by a distance d equal to or greater than the reference value ⁇ . In addition, it is preferable that the change in loss L relative to the change in distance d is continuous at the reference value ⁇ . In other words, it is preferable that a graph with one axis representing distance d and the other axis representing loss L is continuous at the reference value ⁇ .
  • the predetermined value ⁇ is zero. In this case, a distance d less than the reference value ⁇ is allowed in training the detection model 132.
  • FIG. 14 is a diagram showing a second example of the relationship between the distance d and the loss L according to this embodiment.
  • the predetermined value ⁇ is not zero, but a positive value.
  • the predetermined value ⁇ is not particularly limited, and may be a positive value, a negative value, or even zero.
  • the L1 loss is the same as the L1 loss described in the first embodiment.
  • the formula for the loss calculation unit 150 to calculate the L1 loss may be determined in advance. However, when the reference value ⁇ is specified by the information processing device 10, the loss calculation unit 150 may specify at least one of the slope a1 and the intercept b1 of the linear function for calculating the L1 loss based on the reference value ⁇ . In this case, the loss calculation unit 150 specifies at least one of the slope a1 and the intercept b1 , for example, so that the change in the loss L with respect to the change in the distance d is continuous at the reference value ⁇ .
  • This embodiment provides the same action and effect as the first or second embodiment.
  • the information processing device 10 according to the fourth embodiment is the same as the information processing device 10 according to any one of the first to third embodiments, Modification 1, and Modification 2. Except for the points described below, the information processing method according to the fourth embodiment is the same as the information processing method according to any one of the first to third embodiments, Modification 1, and Modification 2.
  • FIG. 15 is a block diagram illustrating a functional configuration of an information processing device 10 according to a fourth embodiment.
  • the information processing device 10 according to this embodiment further includes a feature extraction unit 140.
  • the feature extraction unit 140 extracts an estimation target feature vector f p indicating the feature of the detection target indicated by the estimated feature information.
  • the acquisition unit 110 further acquires a supervised target feature vector f a indicating the feature of the detection target.
  • the loss calculation unit 150 calculates a loss L using the estimation target feature vector f p and the supervised target feature vector f a .
  • the loss calculation unit 150 calculates an L1 loss based on the estimation feature vector k p and the supervised feature vector k a as the loss L.
  • the first rule is to calculate the loss L using the estimation target feature vector fp and the supervised target feature vector f a
  • the second rule is to set the L1 loss as the loss L. In this way, machine learning of the detection model 132 can be performed to improve the accuracy of feature extraction of the detection target.
  • FIG. 16 is a flowchart illustrating the flow of the processing executed by the feature extraction unit 140 and the loss calculation unit 150 when the distance d is less than the reference value ⁇ .
  • the processing executed by the feature extraction unit 140 and the loss calculation unit 150 when the distance d is less than the reference value ⁇ corresponds to the content of the first rule.
  • the feature extraction unit 140 identifies a target region in the image using estimated feature information detected by the detection unit 130.
  • the feature extraction unit 140 identifies the iris region in the target image 90 based on the estimated target information.
  • the feature extraction unit 140 cuts out a target region from the target image 90, and in step S503, extracts features of the target region, i.e., features of the detection target.
  • the features of the detection target are represented by an estimated target feature vector fp .
  • the feature extraction unit 140 can extract the estimated target feature vector fp from the image of the target region by using an extraction model including a neural network. It is preferable that the extraction model used here is a trained model. In the process of training the detection model 132, the parameters of the neural network of the extraction model may be fixed.
  • feature extraction unit 140 obtains an iris image by cutting out an iris region from target image 90. Then, feature extraction unit 140 inputs the iris image to an extraction model, and obtains an estimated target feature vector fp indicating the features of the iris (e.g., the iris pattern) as an output of the extraction model.
  • step S504 the loss calculation unit 150 calculates a feature extraction loss Lf using the estimation target feature vector fp and the supervised target feature vector f a extracted by the feature extraction unit 140. Then, the loss calculation unit 150 sets the obtained feature extraction loss Lf as the loss L.
  • the supervised target feature vector f a used in calculating the feature extraction loss L f is included in the training data in a state associated with the target image 90, for example.
  • the training data may include personal identification information associated with the target image 90.
  • the personal identification information and the supervised target feature vector f a are held in a storage device accessible by the acquiring unit 110 in a state associated with each other.
  • the acquiring unit 110 can then read and acquire the supervised target feature vector f a corresponding to the personal identification information included in the training data from the storage device.
  • the feature extraction loss Lf can be calculated using existing methods. For example, the Softmax function and cross entropy loss are used to calculate the feature extraction loss Lf . Other loss calculation methods such as the L2-Softmax function, cosface, or arcface may also be used to calculate the feature extraction loss Lf .
  • the feature extraction loss Lf is preferably smaller than any loss L determined by a distance d equal to or greater than the reference value ⁇ . Furthermore, the change in the loss L relative to the change in the distance d is preferably continuous at the reference value ⁇ . In other words, a graph with one axis representing the distance d and the other axis representing the loss L is preferably continuous at the reference value ⁇ . The range of the feature extraction loss Lf may be set so as to satisfy these conditions.
  • the loss calculation unit 150 calculates the L1 loss based on the estimated feature vector kp and the ground truth feature vector ka as the loss L.
  • the L1 loss is the same as the L1 loss described in the first embodiment.
  • the formula for the loss calculation unit 150 to calculate the L1 loss may be determined in advance. However, when the reference value ⁇ is specified by the information processing device 10, the loss calculation unit 150 may specify at least one of the slope a1 and the intercept b1 of the linear function for calculating the L1 loss based on the reference value ⁇ . In this case, the loss calculation unit 150 specifies at least one of the slope a1 and the intercept b1 such that the change in the loss L with respect to the change in the distance d is continuous at the reference value ⁇ .
  • the hardware configuration of the computer that realizes the information processing device 10 according to this embodiment is shown in FIG. 9, for example, in the same manner as the information processing device 10.
  • the storage device 1080 of the computer 1000 that realizes the information processing device 10 according to this embodiment further stores a program module that realizes the functions of the feature extraction unit 140.
  • the loss calculation unit 150 calculates the loss L using the estimation target feature vector fp and the supervised target feature vector fa . Therefore, in , machine learning of the detection model 132 can be performed so as to improve the accuracy of feature extraction of the detection target.
  • the information processing device 10 according to this embodiment is the same as the information processing device 10 according to any of the first to fourth embodiments, modified example 1, and modified example 2, except for the points described below.
  • the information processing method according to this embodiment is the same as the information processing method according to any of the first to fourth embodiments, modified example 1, and modified example 2, except for the points described below.
  • the information processing device 10 includes a feature extraction unit 140, similar to the information processing device 10 according to the fourth embodiment.
  • the acquisition unit 110 acquires a correct answer target feature vector f a indicating the feature of the detection target.
  • is a predetermined weight
  • is a predetermined reference value ⁇
  • d is the distance d.
  • g(d- ⁇ ) is a monotonically increasing function having an output between 0 and 1.
  • E1 is a value calculated based on the correct answer feature vector k a and the estimated feature vector k p , and is, for example, the L1 loss.
  • E2 is a value calculated using the estimated target feature vector f p and the correct answer target feature vector f a .
  • E2 is, for example, the feature extraction loss L f described in the fourth embodiment. This will be explained in detail below.
  • the loss calculation unit 150 calculates the distance d in step S601.
  • the distance d and the method by which the loss calculation unit 150 calculates the distance d are the same as the distance d and the method by which the loss calculation unit 150 calculates the distance d described in any one of the first embodiment, the second embodiment, the first modification, and the second modification.
  • the loss calculation unit 150 calculates the L1 loss in step S602.
  • the L1 loss and the method by which the loss calculation unit 150 calculates the L1 loss are the same as those described in the first embodiment and the method by which the loss calculation unit 150 calculates the L1 loss, respectively.
  • the loss calculation unit 150 calculates the feature extraction loss Lf in step S603.
  • the feature extraction loss Lf and the method by which the loss calculation unit 150 calculates the feature extraction loss Lf are the same as the feature extraction loss Lf and the method by which the loss calculation unit 150 calculates the feature extraction loss Lf described in the fourth embodiment.
  • the loss calculation unit 150 may perform step S603 before at least one of S601 and S602.
  • the loss calculation unit 150 calculates the loss L using the above-mentioned formula (5). Note that the loss calculation unit 150 according to this embodiment does not need to perform a determination using a reference value ⁇ , such as in step S203 of FIG.
  • FIG. 18 is a diagram illustrating an example of the function g(x).
  • g(x) is a sigmoid function.
  • 19 is a diagram illustrating an example of the function g(d- ⁇ ).
  • the ratio of the contribution of E1 and E2 to the loss L is continuously changed by using the function g(d- ⁇ ).
  • the so-called temperature parameter indicating the spread of the function g(d- ⁇ ) can be determined in advance as a part of the function g(d- ⁇ ).
  • the function g(d- ⁇ ) is 0.5. That is, E1 and E2 contribute equally to the loss L.
  • the function g(d- ⁇ ) is smaller than 0.5. That is, the contribution of E2 to the loss L is greater than the contribution of E1 . And, the smaller d is, the smaller the contribution of E1 to the loss L is.
  • the function g(d- ⁇ ) is greater than 0.5. That is, the contribution of E1 to the loss L is greater than the contribution of E2 .
  • the larger d is, the larger the contribution of E1 to the loss L is.
  • the change in the loss L with respect to the change in the distance d is continuous at the reference value ⁇ .
  • the function g(d- ⁇ ) may be a monotonically increasing function having an output between 0 and 1, and is not limited to a sigmoid function.
  • E1 is not limited to the L1 loss as long as it is a loss calculated based on the correct answer feature vector k a and the estimated feature vector k p .
  • E2 is not particularly limited as long as it is a loss calculated using the estimation target feature vector f p and the correct answer target feature vector f a .
  • the loss calculation unit 150 After calculating the loss L, the loss calculation unit 150 outputs the calculated loss L to the update unit 170 in step S605.
  • the loss L calculated by the detection unit 130 is expressed by the above-mentioned formula (5). Therefore, it is possible to continuously switch the contribution rate to the loss L of the L1 loss and the feature extraction loss Lf , which are losses from different viewpoints.
  • Sixth Embodiment 20 is a block diagram illustrating a functional configuration of an information processing device 10 according to a sixth embodiment.
  • the information processing device 10 according to this embodiment is the same as the information processing device 10 according to any one of the first to fifth embodiments, modified example 1, and modified example 2, except for the points described below.
  • the information processing method according to this embodiment is the same as the information processing method according to any one of the first to fifth embodiments, modified example 1, and modified example 2, except for the points described below.
  • the information processing device 10 further includes an identification unit 160.
  • the identification unit 160 identifies the reference value ⁇ based on the accuracy required by the authentication unit 20 that performs authentication using the estimated feature information output from the detection model 132.
  • FIG. 20 shows an example in which the information processing device 10 includes a feature extraction unit 140, the information processing device 10 does not need to include the feature extraction unit 140.
  • FIG. 21 is a diagram for explaining the authentication unit 20.
  • the authentication unit 20 includes a feature extraction unit 240.
  • the feature extraction unit 240 performs the same processing as the feature extraction unit 140.
  • the feature extraction unit 240 included in the authentication unit 20 may be the same as the feature extraction unit 140, or may be a feature extraction unit for authentication different from the feature extraction unit 140.
  • the feature extraction unit 240 extracts estimated target feature information indicating the features of the detection target using estimated feature information output from the detection unit 130.
  • the authentication unit 20 further includes a matching unit 210.
  • the authentication information storage unit 200 which can be accessed from the matching unit 210, holds a plurality of pairs of identification information (e.g., personal identification information) and target characteristic information.
  • the authentication information storage unit 200 may be included in the authentication unit 20, or may be provided outside the authentication unit 20.
  • the matching unit 210 calculates the degree of match between the estimated target feature information extracted by the feature extraction unit 240 and each piece of target feature information stored in the authentication information storage unit 200. The matching unit 210 then identifies target feature information whose degree of match satisfies a predetermined condition, and identifies identification information corresponding to the identified target feature information, i.e., identification information included in the same set as the identified target feature information.
  • the authentication unit 20 outputs the authentication result.
  • the authentication result output by the authentication unit 20 may be the identification information specified by the matching unit 210, or may be information indicating the presence or absence of target feature information whose degree of match satisfies a predetermined condition.
  • the detection accuracy of the feature information required by the authentication unit 20 is determined in advance.
  • This detection accuracy can be the detection accuracy required by the feature extraction unit 240.
  • the user of the information processing device 10 inputs the detection accuracy required by the authentication unit 20 to the information processing device 10.
  • the identification unit 160 of the information processing device 10 identifies the reference value ⁇ to be used in learning based on the input detection accuracy.
  • the information processing device 10 executes learning of the detection model 132 using the identified reference value ⁇ .
  • the reference value ⁇ can be said to indicate the degree to which deviations in the estimated feature information from the correct feature information are tolerated when learning the detection model 132.
  • the smaller the reference value ⁇ the smaller the degree to which deviations in the estimated feature information from the correct feature information are tolerated. This also means that the influence of errors in the correct feature information will be greater.
  • the larger the reference value ⁇ the greater the degree to which deviations in the estimated feature information from the correct feature information are tolerated. This also means that the influence of errors in the correct feature information will be smaller. Therefore, it is important to set the reference value ⁇ appropriately according to the purpose of using the detection model 132.
  • the determination unit 160 can calculate the reference value ⁇ , for example, using a formula that indicates the relationship between the detection accuracy and the reference value ⁇ .
  • the formula that indicates the relationship between the detection accuracy and the reference value ⁇ is determined in advance.
  • the formula showing the relationship between the detection accuracy and the reference value ⁇ can be determined, for example, based on a relationship that is experimentally investigated in advance between the reference value ⁇ and the accuracy of the resulting detection model 132.
  • the hardware configuration of the computer that realizes the information processing device 10 according to this embodiment is, for example, shown in FIG. 9, similar to the information processing device 10.
  • the storage device 1080 of the computer 1000 that realizes the information processing device 10 according to this embodiment further stores a program module that realizes the functions of the identification unit 160.
  • the identification unit 160 identifies the reference value ⁇ based on the accuracy required by the authentication unit 20 that performs authentication using the estimated feature information output from the detection model 132. Therefore, a detection model 132 having an appropriate detection accuracy according to the intended use of the detection model 132 can be obtained.
  • Fig. 22 is a diagram illustrating a functional configuration of an authentication device 30 according to the seventh embodiment.
  • Fig. 23 is a flowchart illustrating a flow of processing performed by the authentication device 30 according to the present embodiment.
  • the authentication device 30 according to the present embodiment is an authentication device that uses a detection model 132 that has been trained using an information processing device 10 according to any one of the first embodiment to the sixth embodiment, the first modification, and the second modification.
  • the authentication method according to the present embodiment is an authentication method that uses a detection model 132 that has been trained using an information processing method according to any one of the first embodiment to the sixth embodiment, the first modification, and the second modification.
  • the authentication device 30 includes an image acquisition unit 310, a detection unit 330, and an authentication unit 350.
  • the authentication method according to this embodiment can be executed by the authentication device 30 according to this embodiment.
  • step S701 the image acquisition unit 310 acquires an image to be used for authentication.
  • the image to be used for authentication is the same as the target image 90 described in the first embodiment.
  • the image acquisition unit 310 may acquire the image to be used for authentication from an imaging device such as a camera, or may read and acquire an image stored in a storage device accessible from the image acquisition unit 310.
  • the detection unit 330 detects estimated feature information in the image acquired by the image acquisition unit 310. Specifically, the detection unit 330 inputs the image acquired by the image acquisition unit 310 (input image) to the detection model 132.
  • the detection model 132 used here is a model that has been trained by the information processing device 10. The detection unit 330 obtains estimated feature information for the input image as an output of the detection model 132.
  • the authentication unit 350 performs authentication processing using the estimated feature information and the authentication information stored in the authentication information storage unit 300. Specifically, the authentication unit 350 uses the estimated feature information to extract estimated target feature information indicating the features of the detection target.
  • the authentication unit 350 can extract the estimated target feature information using an extraction model as described in the fourth embodiment.
  • the extraction model used by the authentication unit 350 may be the extraction model used in training the detection model 132 used by the detection unit 330, or it may be a model different from the extraction model used in training the detection model 132 used by the detection unit 330.
  • the authentication information storage unit 300 which can be accessed by the authentication unit 350, holds multiple pairs of identification information (e.g., personal identification information) and target feature information as authentication information.
  • the authentication information storage unit 300 may be included in the authentication device 30, or may be provided outside the authentication device 30.
  • the authentication unit 350 calculates the degree of match between the estimated target feature information extracted by the detection unit 330 and each piece of target feature information held in the authentication information storage unit 300.
  • the authentication unit 350 then identifies target feature information whose degree of match satisfies a predetermined condition, and identifies identification information corresponding to the identified target feature information, i.e., identification information included in the same set as the identified target feature information.
  • the authentication device 30 outputs the authentication result.
  • the authentication result output by the authentication device 30 may be the identification information specified by the authentication unit 350, or may be information indicating the presence or absence of target feature information whose degree of match satisfies a predetermined condition.
  • the authentication result may be displayed, for example, on a display connected to the authentication device 30, or may be output to another device.
  • the image acquisition unit 310 acquires an image including the eyes as an image to be used for authentication.
  • the detection unit 330 then inputs this image into the detection model 132 to obtain estimated feature information for identifying the iris region in the image as shown in Figure 4.
  • the authentication unit 350 cuts out an iris image from the image including the eye, using the estimated feature information output from the detection unit 330.
  • the authentication unit 350 then inputs the iris image to an extraction model, and obtains iris information (estimated target feature information) indicating the features of the iris as the output of the extraction model.
  • the authentication information storage unit 300 holds in advance multiple pairs of personal identification information and iris information.
  • the authentication unit 350 calculates the degree of match between the iris information extracted by the detection unit 330 and each piece of iris information held in the authentication information storage unit 300.
  • the authentication unit 350 then identifies the iris information whose degree of match satisfies a predetermined condition, and identifies the personal identification information that corresponds to the iris information identified in the authentication information.
  • the authentication device 30 may output the identified personal identification information, or may output information indicating whether or not there is authenticated personal identification information.
  • the information processing device 10 includes an identification unit 160.
  • the reference value ⁇ used in the information processing device 10 according to this embodiment is preferably identified as described in the sixth embodiment based on the detection accuracy required by the authentication unit 350.
  • the hardware configuration of the computer that realizes the authentication device 30 according to this embodiment is shown in FIG. 9, for example, similar to the information processing device 10.
  • the storage device 1080 of the computer 1000 that realizes the authentication device 30 according to this embodiment stores program modules that realize each functional component of the authentication device 30 (image acquisition unit 310, detection unit 330, and authentication unit 350).
  • the authentication information storage unit 300 is realized by the storage device 1080 of the computer 1000 that realizes the authentication device 30 according to this embodiment.
  • authentication is performed using a detection model 132 that has been trained using an information processing device 10 according to any one of the first to sixth embodiments, modification 1, and modification 2. Therefore, highly accurate authentication can be performed.
  • the information processing device described in 1-1. The information processing device further comprises an update unit that updates parameters of the detection model using the loss.
  • the update means is an information processing device that updates parameters of the detection model by an error backpropagation algorithm using the loss. 1-4.
  • the correct answer feature information includes a correct answer feature vector
  • the estimated feature information includes an estimated feature vector;
  • the loss calculation means Calculating a distance d between the correct feature vector and the estimated feature vector based on a normalized distance normalized by the size of the detection target; An information processing device that calculates the loss using the distance d. 1-5.
  • the acquisition means acquires a plurality of sets of the target image and the correct answer feature information, the loss calculation means calculates the normalized distance for each of the plurality of pairs;
  • the information processing device wherein the distance d is a sum or an average of the multiple normalized distances.
  • the loss calculation means If the distance d is less than a predetermined reference value, calculating the loss based on a first rule; When the distance d is equal to or greater than the reference value, the information processing device calculates the loss based on a second rule different from the first rule. 1-7.
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated as L2 loss, When the distance d is equal to or greater than the reference value, the information processing device calculates the loss as an L1 loss. 1-8.
  • the loss calculation means If the distance d is less than the reference value, a predetermined value is set as the loss; When the distance d is equal to or greater than the reference value, the information processing device calculates the loss as an L1 loss. 1-9.
  • the method further includes: extracting an estimated object feature vector indicating a feature of the detection object indicated by the estimated feature information;
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated using the estimation target feature vector and the correct target feature vector; When the distance d is equal to or greater than the reference value, the information processing device calculates an L1 loss based on the estimated feature vector and the ground truth feature vector as the loss. 1-10.
  • the information processing device calculates an L1 loss based on the estimated feature vector and the ground truth feature vector as the loss.
  • the method further includes: extracting an estimated object feature vector indicating a feature of the detection object indicated by the estimated feature information;
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • is a predetermined weight
  • is a predetermined reference value
  • d is the distance d
  • g(d- ⁇ ) is a monotonically increasing function with an output between 0 and 1
  • E1 is an L1 loss calculated based on the ground-truth feature vector and the estimated feature vector
  • E2 is a value calculated using the estimation target feature vector and the supervised target feature vector. 1-11.
  • An information processing device in which the change in the loss with respect to the change in the distance d is continuous at the reference value. 1-12.
  • the information processing apparatus further comprises a specification unit that specifies the reference value based on accuracy required by an authentication unit that performs authentication using the estimated feature information output from the detection model.
  • a specification unit that specifies the reference value based on accuracy required by an authentication unit that performs authentication using the estimated feature information output from the detection model.
  • One or more computers Obtaining a target image and ground truth feature information; detecting estimated feature information relating to a detection target from the target image using a detection model; An information processing method for calculating a loss, for updating parameters of a detection model so as to generate a detection model that can tolerate deviations in the estimated feature information from the ground-truth feature information.
  • the information processing method further comprises the one or more computers updating parameters of the detection model using the loss. 2-3.
  • the one or more computers update parameters of the detection model by backpropagation using the loss. 2-4.
  • the correct answer feature information includes a correct answer feature vector
  • the estimated feature information includes an estimated feature vector;
  • the one or more computers Calculating a distance d between the correct feature vector and the estimated feature vector based on a normalized distance normalized by the size of the detection target; An information processing method for calculating the loss using the distance d. 2-5.
  • the one or more computers obtaining a plurality of pairs of the target image and the correct answer feature information; Calculating the normalized distance for each of the plurality of pairs; The information processing method, wherein the distance d is a sum or an average of the multiple normalized distances. 2-6.
  • the one or more computers If the distance d is less than a predetermined reference value, calculating the loss based on a first rule; An information processing method for calculating the loss based on a second rule different from the first rule when the distance d is equal to or greater than the reference value. 2-7.
  • the one or more computers If the distance d is less than the reference value, the loss is calculated as L2 loss, An information processing method, comprising: calculating an L1 loss as the loss when the distance d is equal to or greater than the reference value. 2-8. In the information processing method described in 2-6., The one or more computers: If the distance d is less than the reference value, a predetermined value is set as the loss; An information processing method, comprising: calculating an L1 loss as the loss when the distance d is equal to or greater than the reference value. 2-9.
  • the one or more computers further extract an estimated object feature vector indicating features of the detection object indicated by the estimated feature information;
  • the acquisition means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • the one or more computers If the distance d is less than the reference value, the loss is calculated using the estimation target feature vector and the correct target feature vector; When the distance d is equal to or greater than the reference value, an L1 loss based on the estimated feature vector and the ground truth feature vector is calculated as the loss. 2-10.
  • the information processing method according to 2-4 In the information processing method according to 2-4.
  • the one or more computers further extract an estimated object feature vector indicating features of the detection object indicated by the estimated feature information;
  • the one or more computers further acquire a correct answer object feature vector indicating features of the detection object;
  • is a predetermined weight
  • is a predetermined reference value
  • d is the distance d
  • g(d- ⁇ ) is a monotonically increasing function with an output between 0 and 1
  • E1 is an L1 loss calculated based on the ground-truth feature vector and the estimated feature vector
  • An information processing method in which the change in the loss with respect to the change in the distance d is continuous at the reference value. 2-12. In the information processing method according to any one of 2-6.
  • the information processing method further comprises the step of: the one or more computers identifying the reference value based on the accuracy required by an authentication means that performs authentication using the estimated feature information output from the detection model.
  • a computer-readable recording medium having a program recorded thereon The program includes: an acquisition unit for acquiring a target image and correct feature information; a detection means for detecting estimated feature information relating to a detection target from the target image using a detection model; and a loss calculation means for calculating a loss in order to update parameters of the detection model so as to generate a detection model that can tolerate deviations from the ground-truth feature information in the estimated feature information.
  • the program further causes the computer to function as an update unit that updates parameters of the detection model using the loss. 3-3.
  • the updating means updates parameters of the detection model by an error backpropagation method using the loss. 3-4.
  • the correct answer feature information includes a correct answer feature vector, the estimated feature information includes an estimated feature vector;
  • the loss calculation means Calculating a distance d between the correct feature vector and the estimated feature vector based on a normalized distance normalized by the size of the detection target; A recording medium for calculating the loss using the distance d. 3-5.
  • the acquisition means acquires a plurality of sets of the target image and the correct answer feature information, the loss calculation means calculates the normalized distance for each of the plurality of pairs; A recording medium, wherein the distance d is a sum or an average of the plurality of normalized distances. 3-6.
  • the loss calculation means If the distance d is less than a predetermined reference value, calculating the loss based on a first rule; A recording medium for calculating the loss based on a second rule different from the first rule when the distance d is equal to or greater than the reference value. 3-7.
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated as L2 loss, A recording medium for calculating the loss as an L1 loss when the distance d is equal to or greater than the reference value. 3-8. In the recording medium according to 3-6., The loss calculation means If the distance d is less than the reference value, a predetermined value is set as the loss; A recording medium for calculating an L1 loss as the loss when the distance d is equal to or greater than the reference value. 3-9.
  • the program further causes the computer to function as a feature extraction unit that extracts an estimated object feature vector indicating features of the detection object indicated by the estimated feature information,
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated using the estimation target feature vector and the correct target feature vector; a recording medium for calculating, as the loss, an L1 loss based on the estimated feature vector and the ground-truth feature vector when the distance d is equal to or greater than the reference value; 3-10.
  • the program further causes the computer to function as a feature extraction unit that extracts an estimated object feature vector indicating features of the detection object indicated by the estimated feature information,
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • is a predetermined weight
  • is a predetermined reference value
  • d is the distance d
  • g(d- ⁇ ) is a monotonically increasing function with an output between 0 and 1
  • E1 is an L1 loss calculated based on the ground-truth feature vector and the estimated feature vector
  • E2 is a recording medium which is a value calculated using the estimation target feature vector and the supervised target feature vector.
  • the program is a recording medium that causes a computer to further function as an identification means for identifying the reference value based on the accuracy required by an authentication means that performs authentication using the estimated feature information output from the detection model.
  • 4-1. Computer, An acquisition means for acquiring a target image and correct answer feature information; a detection means for detecting estimated feature information relating to a detection target from the target image using a detection model; and a loss calculation means for calculating a loss in order to update parameters of the detection model so as to generate a detection model that can tolerate deviations from the ground-truth feature information in the estimated feature information. 4-2.
  • the program further causes the computer to function as an update unit that updates parameters of the detection model using the loss. 4-3.
  • the update means is a program that updates parameters of the detection model by an error backpropagation algorithm using the loss. 4-4.
  • the correct answer feature information includes a correct answer feature vector, the estimated feature information includes an estimated feature vector;
  • the loss calculation means Calculating a distance d between the correct feature vector and the estimated feature vector based on a normalized distance normalized by the size of the detection target; A program for calculating the loss using the distance d. 4-5.
  • the acquisition means acquires a plurality of sets of the target image and the correct answer feature information, the loss calculation means calculates the normalized distance for each of the plurality of pairs;
  • the program wherein the distance d is a sum or average of the multiple normalized distances.
  • the loss calculation means If the distance d is less than a predetermined reference value, calculating the loss based on a first rule; a program for calculating the loss based on a second rule different from the first rule when the distance d is equal to or greater than the reference value; 4-7.
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated as L2 loss, A program for calculating an L1 loss as the loss when the distance d is equal to or greater than the reference value. 4-8. In the program described in 4-6., The loss calculation means If the distance d is less than the reference value, a predetermined value is set as the loss; A program for calculating an L1 loss as the loss when the distance d is equal to or greater than the reference value. 4-9.
  • the program further causes the computer to function as a feature extraction unit that extracts an estimated object feature vector indicating features of the detection object indicated by the estimated feature information,
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • the loss calculation means If the distance d is less than the reference value, the loss is calculated using the estimation target feature vector and the correct target feature vector; a program for calculating, as the loss, an L1 loss based on the estimated feature vector and the ground-truth feature vector if the distance d is equal to or greater than the reference value; 4-10.
  • the program according to 4-4 In the program according to 4-4.
  • the program further causes the computer to function as a feature extraction unit that extracts an estimated object feature vector indicating features of the detection object indicated by the estimated feature information,
  • the acquiring means further acquires a correct answer target feature vector indicating a feature of the detection target,
  • is a predetermined weight
  • is a predetermined reference value
  • d is the distance d
  • g(d- ⁇ ) is a monotonically increasing function with an output between 0 and 1
  • E1 is an L1 loss calculated based on the ground-truth feature vector and the estimated feature vector
  • E2 is a value calculated using the estimation target feature vector and the correct answer target feature vector.
  • the program further causes the computer to function as an identification means for identifying the reference value based on the accuracy required by an authentication means for performing authentication using the estimated feature information output from the detection model.
  • Information processing device 20 Authentication unit 30 Authentication device 110 Acquisition unit 130, 330 Detection unit 132 Detection model 140, 240 Feature extraction unit 150 Loss calculation unit 160 Identification unit 170 Update unit 200 Authentication information storage unit 210 Matching unit 300 Authentication information storage unit 310 Image acquisition unit 350 Authentication unit 1000 Computer 1020 Bus 1040 Processor 1060 Memory 1080 Storage device 1100 Input/output interface 1120 Network interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

情報処理装置(10)は、取得部(110)、検出部(130)、および損失算出部(150)を備える。取得部(110)は、対象画像および正解特徴情報を取得する。検出部(130)は、検出モデルを用いて対象画像から検出対象に関する推定特徴情報を検出する。損失算出部(150)は、推定特徴情報における正解特徴情報からのずれを許容可能な検出モデルを生成するように検出モデルのパラメータを更新するための、損失Lを算出する。

Description

情報処理装置、情報処理方法、および記録媒体
 この開示は、情報処理装置、情報処理方法、および記録媒体に関する。
 画像中の、所定の領域を検出する機械学習モデルが提案されている。
 特許文献1には、姿勢の推定のために、機械学習モデルを使用して顔のランドマークを検出することが記載されている。例として、顔画像から眼の領域を抽出するために、眉毛に近い複数の眼のランドマークを検出することが記載されている。
 特許文献2には、眼画像の虹彩部分を抽出する虹彩抽出装置について記載されている。また、虹彩抽出装置は、ディープニューラルネットワークを使用して実装されうることが記載されている。
 特許文献3には、画像から特徴図形および特徴点を検出するためのモデルの学習について記載されている。具体的には、特徴図形および特徴点の正解データと、検出された特徴図形および特徴点とを比較して学習を実行することが記載されている。
特開2022-39984号公報 特開2022-44603号公報 国際公開第2022/059066号
 この開示は、上述した先行技術文献に記載の技術を改良することを目的とする。
 この開示の一態様によれば、
 対象画像および正解特徴情報を取得する取得手段と、
 検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段と、
 前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段とを備える
情報処理装置が提供される。
 この開示の一態様によれば、
 一以上のコンピュータが、
  対象画像および正解特徴情報を取得し、
  検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出し、
  前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する
情報処理方法が提供される。
 この開示の一態様によれば、
 プログラムを記録しているコンピュータ読み取り可能な記録媒体であって、
 前記プログラムは、コンピュータを
  対象画像および正解特徴情報を取得する取得手段、
  検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段、および
  前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段として機能させる
記録媒体が提供される。
第1の実施形態に係る情報処理装置の概要を示す図である。 第1の実施形態に係る情報処理方法の概要を示す図である。 第1の実施形態に係る検出モデルの機能を例示する図である。 対象画像および特徴情報を例示する図である。 第1の実施形態に係る情報処理装置の機能構成を例示するブロック図である。 第1の実施形態に係る情報処理装置が実行する処理の流れを例示するフローチャートである。 第1の実施形態に係る損失算出部が行う処理の流れを例示するフローチャートである。 第1の実施形態に係る距離dと損失Lとの関係を例示する図である。 情報処理装置を実現するための計算機を例示する図である。 変形例1に係る情報処理装置が実行する処理の流れを例示するフローチャートである。 (a)から(c)は、正解特徴情報の誤差について説明するための図である。 第2の実施形態に係る損失算出部が行う処理の流れを例示するフローチャートである。 第3の実施形態に係る距離dと損失Lとの関係の第1例を示す図である。 第3の実施形態に係る距離dと損失Lとの関係の第2例を示す図である。 第4の実施形態に係る情報処理装置の機能構成を例示するブロック図である。 距離dが基準値ε未満である場合に、第4の実施形態に係る特徴抽出部および損失算出部が実行する処理の流れを例示するフローチャートである。 第5の実施形態に係る損失算出部が実行する処理の流れを例示するフローチャートである。 関数g(x)を例示する図である。 関数g(d-ε)を例示する図である。 第6の実施形態に係る情報処理装置の機能構成を例示するブロック図である。 認証部について説明するための図である。 第7の実施形態に係る認証装置の機能構成を例示する図である。 第7の実施形態に係る認証装置が行う処理の流れを例示するフローチャートである。
 以下、この開示の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。
(第1の実施形態)
 図1は、第1の実施形態に係る情報処理装置10の概要を示す図である。本実施形態に係る情報処理装置10は、取得部110、検出部130、および損失算出部150を備える。取得部110は、対象画像および正解特徴情報を取得する。検出部130は、検出モデルを用いて対象画像から検出対象に関する推定特徴情報を検出する。損失算出部150は、推定特徴情報における正解特徴情報からのずれを許容可能な検出モデルを生成するように検出モデルのパラメータを更新するための、損失Lを算出する。
 この情報処理装置10によれば、正解特徴情報に誤差が含まれる場合でも、有効性の高い検出が実現される。
 図2は、本実施形態に係る情報処理方法の概要を示す図である。本実施形態に係る情報処理方法は、一以上のコンピュータにより実行される。本実施形態に係る情報処理方法は、ステップS10からステップS30を含む。ステップS10では、対象画像および正解特徴情報が取得される。ステップS20では、検出モデルを用いて対象画像から検出対象に関する推定特徴情報が検出される。ステップS30では、推定特徴情報における正解特徴情報からのずれを許容可能な検出モデルを生成するように検出モデルのパラメータを更新するための、損失Lが算出される。
 この情報処理方法によれば、正解特徴情報に誤差が含まれる場合でも、有効性の高い検出が実現される。
 この情報処理方法は、本実施形態に係る情報処理装置10により実行されうる。
 以下、本実施形態に係る情報処理装置10および本実施形態に係る情報処理方法の詳細例について説明する。
 検出モデルの機械学習は、正解データを用いて行われる。しかし、正解データが誤差を有することがある。たとえば、画像中の検出対象の領域に関連する図形や点を人が手作業で付し、正解データとする場合がある。このように人が行う作業により、正解データには誤差が含まれうる。また、検出モデルの検出性能において許容され得る誤差の程度は、その検出モデルの利用目的に応じて異なる。すなわち、機械学習により、検出モデルの出力結果を正解データに正確に一致させようとすることが、必ずしも検出モデルの利用目的に照らして有効でないことがある。
 特許文献1から特許文献3に記載された技術では、正解に誤差が含まれうることは何ら考慮されていなかった。
 本実施形態に係る情報処理装置10によれば、損失算出部150は、推定特徴情報における正解特徴情報からのずれを許容可能な検出モデルを生成するように検出モデルのパラメータを更新するための、損失Lを算出する。したがって、正解特徴情報に含まれうる誤差の影響を勘案した機械学習により、検出モデルの目的に照らして有効性の高い検出が実現される。なお、機械学習において損失Lは、正解と、検出モデルにより出力された予測結果とのズレの大きさに基づく値である。機械学習においては、損失Lの値を小さくするように、モデルのパラメータ更新が行われる。
<対象画像および特徴情報>
 図3は、本実施形態に係る検出モデル132の機能を例示する図である。情報処理装置10は、検出モデル132の機械学習を行う装置である。検出モデル132はニューラルネットワークを含んで構成されている。検出モデル132は、対象画像から検出対象に関する特徴情報を検出するためのモデルである。検出モデル132で検出された特徴情報を、特に「推定特徴情報」とも呼ぶ。一方、機械学習のための訓練データに正解として含まれる特徴情報を、特に「正解特徴情報」とも呼ぶ。「推定特徴情報」と「正解特徴情報」とを総称して、単に「特徴情報」と呼ぶ。
 検出モデル132の入力データには、対象画像が含まれる。検出モデル132の出力データには、推定特徴情報が含まれる。特徴情報はたとえば、対象画像における検出対象の領域(以下、「対象領域」と呼ぶ)を示すための情報である。言い換えると、特徴情報を用いて、対象画像中の対象領域を特定可能である。
 図4は、対象画像90および特徴情報を例示する図である。図4の例において対象画像90は、たとえば虹彩認証に使用可能な画像である。この場合、対象画像90は眼を含む画像である。対象画像90は両眼を含む画像でもよいし、右眼および左眼の一方のみを含む画像でもよい。また、対象画像90は、眼だけでなく、眼の周辺を含む画像でもよい。対象画像90に含まれる眼は、たとえば人の眼であるが、人以外の生物の眼であってもよい。
 図4の例において、検出対象はたとえば虹彩である。特徴情報はたとえば、点、円、楕円、および、これらの組み合わせからなる図形のうち、一以上を示す情報である。ただし、画像中で一部が欠けた円(または楕円)や一部が隠れた円(または楕円)が、円(または楕円)として、特徴情報に示されてもよい。特徴情報が図形を示す場合、特徴情報が示す図形は、点、円、楕円等に限らず、どのような図形であってもよい。図4の例において、特徴情報は、円C1、円C2、および点P1から点P8を示す。円C1は瞳孔の外縁に対応し、円C2は虹彩の外縁に対応する。点P1から点P8はまぶたの縁に位置する複数の点に対応する。これらの円、および点により、対象画像90中の虹彩領域が特定可能である。
 円C1および円C2はそれぞれ円の中心座標と半径(すなわち3要素)で示される。ただし、円C1の中心座標と円C2の中心座標は共通であってもよい。点P1から点P8はそれぞれ座標(すなわち2要素)で表される。特徴情報は、これらの要素を含むベクトルでありうる。このベクトルを、特徴ベクトルと呼ぶ。たとえば、図4の例において、それぞれ3要素で表される2つの円と、それぞれ2要素で表される8点との組み合わせにより、特徴情報は22個の要素を持つ特徴ベクトルで表されうる。
 なお、対象画像90は、虹彩認証に使用可能な画像に限定されない。たとえば、対象画像90は顔認証に使用可能な画像であってもよい。その場合、対象画像90は顔を含む画像であり、検出モデル132は、顔の中の眼、鼻、口等の位置を示す特徴点を特徴情報として検出する。
 その他、対象画像90は、生物以外の物を含む画像であってもよい。その場合、特徴情報は、その物のうち特定の領域を示す情報である。
<処理の流れ>
 図5は、本実施形態に係る情報処理装置10の機能構成を例示するブロック図である。本図の例において情報処理装置10は、更新部170をさらに備える。図6は、本実施形態に係る情報処理装置10が実行する処理の流れを例示するフローチャートである。図5および図6を参照し、情報処理装置10の各機能構成部について、以下に詳しく説明する。
 取得部110は、対象画像90および正解特徴情報を取得する。正解特徴情報は、対象画像90に対応する正解としての特徴情報である。対象画像90と、その対象画像90に対応する正解特徴情報との組み合わせを、訓練データと呼ぶ。正解特徴情報はたとえば、予め対象画像90に対して、対象領域を特定するための、点、円、楕円、および、これらの組み合わせからなる図形のうち一以上を指定することで準備される。この指定は、たとえばディスプレイに表示された対象画像90に対して、人が点や図形を重ねて描くような操作を行うこと(すなわち、アノテーションを付すこと)で行われる。ただし、正解特徴情報は、他の方法で準備されてもよい。
 ここで、正解特徴情報には誤差が含まれてもよい。すなわち、正解特徴情報は、完全に正しい必要はない。正解特徴情報は機械学習においてターゲットとして用いられればよい。
 たとえば取得部110からアクセス可能な記憶部には、予め準備された訓練データが複数保持されている。複数の訓練データに含まれる対象画像90は互いに異なる。複数の対象画像90における検出対象の大きさは、互いに異なっていてもよいが、互いに同じであることが好ましい。取得部110は、その記憶部から訓練データを読み出して取得する。なお、取得部110は、記憶部から訓練データを読み出す代わりに、他の装置から訓練データを取得してもよい。
 図6に示す例では、ステップS101において、取得部110は訓練データが複数含まれる訓練データセットを取得して保持する。さらに取得部110は、ステップS102において、訓練データセットのうち、二以上の訓練データを訓練データバッチとして取得する。そうすることで、情報処理装置10は、訓練データセットを、複数のデータバッチに分けて機械学習を行う。すなわち、情報処理装置10は、訓練データバッチごとに検出モデル132のパラメータ更新を行う。訓練データバッチに含まれる訓練データの数は予め定めておくことができる。ただし、訓練データバッチに含まれる訓練データの数は必ずしも一定でなくても良い。訓練データバッチごとに検出モデル132のパラメータ更新を行うことで、各パラメータ更新の精度を高めることができる。
 次いで、ステップS103において、検出部130は、訓練データバッチに含まれる複数の対象画像90のそれぞれにおいて推定特徴情報を検出する。
 検出部130は、検出モデル132を用いて各対象画像90から推定特徴情報を検出する。具体的には、検出部130は、取得部110が取得した訓練データバッチに含まれる、一つの対象画像90を検出モデル132に入力する。すると、検出モデル132から、入力した対象画像90に対応する推定特徴情報が出力される。出力された推定特徴情報は、入力された対象画像90、すなわち、その推定特徴情報が検出された対象画像90に関連付けられる。出力された推定特徴情報は、その推定特徴情報が検出された対象画像90が含まれる訓練データに関連付けられてもよい。検出部130は、複数の対象画像90を順に検出モデル132に入力することで、訓練データバッチに含まれる全ての対象画像90について推定特徴情報を得る。
 次いで、ステップS104において、損失算出部150は、推定特徴情報および正解特徴情報を用いて、損失Lを算出する。訓練データバッチごとに一つの損失Lが算出される。損失算出部150が損失Lを算出する方法については詳しく後述する。
 更新部170は、損失Lを用いて、検出部130が用いる検出モデル132のパラメータ更新を行う。更新部170はたとえば、損失Lを用いた誤差逆伝搬法により、検出モデル132のパラメータ更新を行う。そうすることで、検出モデル132による検出対象の検出精度を向上させることができる。
 図6のステップS105において、更新部170は、損失Lを用いて検出モデル132の各パラメータに対する勾配を算出する。ステップS106において、更新部170は、算出された勾配と予め設定された学習率に基づいて、検出モデル132の各パラメータを更新する。更新部170が勾配を算出する方法およびパラメータを更新する方法には既存の様々な方法が採用されうる。
 ステップS107では、繰り返しの終了条件が満たされるか否かが判定される。終了条件が満たされない場合(S107のNo)、処理がステップS102に戻る。ステップS102からステップS106までの一連の処理を、学習ループの1イテレーションとし、この一連の処理を何度も繰り返すことにより検出モデル132の学習が進む。終了条件が満たされる場合(S107のYes)、ステップS108において、その時点での検出モデル132のパラメータが保存され、学習が終了する。なお、検出モデル132の学習済みパラメータは学習途中の段階で保存してもよい。
 終了条件は、イテレーション回数が所定の回数になったという条件であってもよいし、ステップS104で算出される損失Lの、イテレーション回数に対する変化率が所定の値以下となったという条件であってもよい。または、これらの条件の少なくとも一方が満たされたことが終了条件とされてもよい。
<損失Lの算出方法>
 損失算出部150が損失Lを算出する方法について、以下に詳しく説明する。
 図7は、本実施形態に係る損失算出部150が行う処理の流れを例示するフローチャートである。損失算出部150は、ステップS201において訓練データごとに距離Dを算出する。距離Dは、推定特徴情報と、その推定特徴情報に対応する正解特徴情報との距離である。すなわち、ある対象画像90において推定特徴情報が検出された場合、その対象画像90と同じ訓練データに含まれる正解特徴情報と、その検出された推定特徴情報とを用いて、距離Dが算出される。
 たとえば、上述したように特徴情報は特徴ベクトルを含む。正解特徴情報に含まれる特徴ベクトルを以降「正解特徴ベクトルk」と呼び、推定特徴情報に含まれる特徴ベクトルを以降「推定特徴ベクトルk」と呼ぶ。そして損失算出部150は、正解特徴ベクトルkと推定特徴ベクトルkとの距離Dを算出する。距離Dはたとえば以下の式(1)を用いて得られる。ここで、||・||はLノルムを表し、nはたとえば1である。ただし、nは特に限定されず、1≦n<∞を満たす値であってよい。
D=||k-k||          ・・・(1)
 処理対象の訓練データバッチに含まれる全ての訓練データについて距離Dが算出されると、ステップS202において損失算出部150は、それら複数の距離Dに基づいて距離dを算出する。具体的には損失算出部150は、複数の距離Dの和または平均を、距離dとして算出する。
 損失算出部150は、このように得られた距離dを用いて、以下のように損失Lを算出する。すなわち、ステップS203において損失算出部150は、距離dが所定の基準値ε未満であるか否かを判定する。
 距離dが所定の基準値ε未満である場合(ステップS203のYes)、損失算出部150は第1のルールに基づいて損失Lを算出する(ステップS204)。一方、距離dが基準値以上である場合(ステップS203のNo)、損失算出部150は第1のルールとは異なる第2のルールに基づいて損失Lを算出する(ステップS205)。こうすることで、より適切に損失Lを算出することができる。また、正解特徴情報に誤差が含まれたとしても、学習におけるその誤差の影響を低減することができる。
 第1のルールおよび第2のルールはそれぞれ限定されないが、第1のルールにおいて、得られる損失Lは、距離dに対して単調増加するまたは一定であることが好ましい。第2のルールにおいて、得られる損失Lは、距離dに対して単調増加することが好ましい。
 第1のルールと第2のルールとの関係は限定されないが、第1のルールで算出される損失Lはいずれも、第2のルールで算出されるいずれの損失Lよりも小さいことが好ましい。また、第1のルールにおいて得られる損失Lの、距離dに対する傾きはいずれも、第2のルールにおいて得られる損失Lの、距離dに対するいずれの傾きよりも小さいことが好ましい。
 たとえば、第1のルールは距離dを代入して損失Lを得るための第1の数式L=f(d)であり、第2のルールは距離dを代入して損失Lを得るための第2の数式L=f(d)である。ここで、基準値ε未満の全ての距離dに対して、f(d)<f(d)が成り立つことが好ましい。その上で、上述したように距離dが基準値ε未満の場合に第1のルールに基づいて損失Lを算出する。そうすると、全てのdに対して第2の数式L=f(d)を利用して損失Lを算出する場合に比べ、距離dが小さい場合に算出される損失Lを小さくすることができる。このような損失Lによれば、必要以上に推定特徴情報と正解特徴情報とを近づけようとするようなパラメータ更新が生じにくくなる。
 図8は、本実施形態に係る距離dと損失Lとの関係を例示する図である。図8の例において、損失算出部150は、距離dが基準値ε未満である場合、L2損失を損失Lとして算出し、距離dが基準値ε以上である場合、L1損失を損失Lとして算出する。すなわち、第1のルールは、L2損失を損失Lとすることであり、第2のルールはL1損失を損失Lとすることである。損失LはいわゆるHuber損失でありうる。損失算出部150が、距離dが基準値ε未満である場合にL2損失を損失Lとして算出し、距離dが基準値ε以上である場合にL1損失を損失Lとして算出することで、正解特徴情報に誤差が含まれたとしても、学習におけるその誤差の影響を低減することができる。
 図8の例において、第1のルールは、以下の式(2)のように距離dの二次関数を用いて損失Lを算出することであり、第2のルールは、以下の式(3)のように、距離dの一次関数を用いて損失Lを算出することであるとも言える。ここで、a、a、およびbはそれぞれ所定の実数である。ただし、aおよびaはゼロではない。
L2損失=a×d       ・・・(2)
L1損失=a×d+b     ・・・(3)
 基準値εは予め定められていてもよいし、第6の実施形態で説明するように、情報処理装置10で特定されてもよい。
 基準値εを予め定める場合、基準値εは、検出モデル132の利用目的に照らして検出モデル132に求められる精度等に基づき定めることができる。または、複数人で同じ対象画像90に対して特徴情報を付与し(アノテーション)、そのばらつき具合に基づいて基準値εを定めてもよいし、異なる対象画像90に対して付与した特徴情報のばらつき具合に基づいて、基準値εを定めてもよい。この場合、誤差の影響が大きい対象画像90に対するばらつきの重要度を高めて基準値εを定めることが好ましい。たとえば対象画像90が虹彩認証に使用可能な画像である場合、虹彩径が小さい対象画像90に対するばらつきの重要度を高めて基準値εを定めることが好ましい。
 図8に示すように、距離dの変化に対する損失Lの変化は、基準値εにおいて連続していることが好ましい。すなわち、一方の軸を距離dの軸とし、他方の軸を損失Lの軸としたグラフは、基準値εにおいて連続していることが好ましい。そうすることで、より適切な学習が行える。さらに、損失Lはd=εにおいて、dで微分可能であることが好ましい。
 L1損失およびL2損失を算出するための数式は、予め定められていてよい。ただし、基準値εが情報処理装置10で特定される場合には、L1損失を算出するための1次関数の傾きa、切片b、およびL2損失を算出するための二次関数の係数aのうち少なくともいずれかを、基準値εに基づいて損失算出部150が特定してもよい。このとき損失算出部150はたとえば、距離dの変化に対する損失Lの変化が、基準値εにおいて連続するように、傾きa、切片b、および係数aのうち少なくともいずれかを特定する。
 ステップS204またはステップS205で損失Lが算出されると、損失算出部150は、ステップS206において、損失Lを出力する。
<ハードウエア構成>
 情報処理装置10のハードウエア構成について以下に説明する。情報処理装置10の各機能構成部(取得部110、検出部130、損失算出部150、および更新部170)は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置10の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図9は、情報処理装置10を実現するための計算機1000を例示する図である。計算機1000は任意の計算機である。例えば計算機1000は、SoC(System On Chip)、Personal Computer(PC)、サーバマシン、タブレット端末、またはスマートフォンなどである。計算機1000は、情報処理装置10を実現するために設計された専用の計算機であってもよいし、汎用の計算機であってもよい。また、情報処理装置10は、一つの計算機1000で実現されても良いし、複数の計算機1000の組み合わせにより実現されても良い。
 計算機1000は、バス1020、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、およびネットワークインタフェース1120を有する。バス1020は、プロセッサ1040、メモリ1060、ストレージデバイス1080、入出力インタフェース1100、およびネットワークインタフェース1120が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1040などを互いに接続する方法は、バス接続に限定されない。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、または FPGA(Field-Programmable Gate Array)などの種々のプロセッサである。メモリ1060は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス1080は、ハードディスク、SSD(Solid State Drive)、メモリカード、または ROM(Read Only Memory)などを用いて実現される補助記憶装置である。
 入出力インタフェース1100は、計算機1000と入出力デバイスとを接続するためのインタフェースである。例えば入出力インタフェース1100には、キーボードなどの入力装置や、ディスプレイなどの出力装置が接続される。入出力インタフェース1100が入力装置や出力装置に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 ネットワークインタフェース1120は、計算機1000をネットワークに接続するためのインタフェースである。この通信網は、例えば LAN(Local Area Network)や WAN(Wide Area Network)である。ネットワークインタフェース1120がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 ストレージデバイス1080は、情報処理装置10の各機能構成部を実現するプログラムモジュールを記憶している。プロセッサ1040は、これら各プログラムモジュールをメモリ1060に読み出して実行することで、各プログラムモジュールに対応する機能を実現する。
 以上、本実施形態によれば、損失算出部150は、推定特徴情報における正解特徴情報からのずれを許容可能な検出モデルを生成するように、検出モデルのパラメータ更新のための損失Lを算出する。したがって、正解特徴情報に誤差が含まれる場合でも、有効性の高い検出が実現される。
(変形例1)
 変形例1は、第1の実施形態の変形例である。本変形例に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態に係る情報処理装置10と同じである。本変形例に係る情報処理方法は、以下に説明する点を除いて第1の実施形態に係る情報処理方法と同じである。
 第1の実施形態では、取得部110が、対象画像90および正解特徴情報の組である訓練データを、訓練データバッチとして複数取得する構成について説明した。そして、第1の実施形態では、損失算出部150は、複数の組(訓練データ)のそれぞれについて距離Dを算出し、複数の距離Dの和または平均を距離dとして算出した。
 本変形例では、訓練データごとに距離dおよび損失Lを算出する。この場合、訓練データごとに検出モデル132のパラメータが更新される。
 図10は、本変形例に係る情報処理装置10が実行する処理の流れを例示するフローチャートである。図10におけるステップS101、およびステップS105からステップS108は、第1の実施形態で説明したステップS101、およびステップS105からステップS108とそれぞれ同じである。
 本変形例に係る取得部110は、ステップS101に次ぐステップS302において、訓練データセットのうち、一つの訓練データを取得する。そしてステップS303において、検出部130は、その訓練データに含まれる対象画像90のそれぞれにおいて推定特徴情報を検出する。検出部130が推定特徴情報を検出する方法は、第1の実施形態で説明したのと同じである。
 ステップS304において、損失算出部150は、推定特徴情報および正解特徴情報を用いて、損失Lを算出する。本変形例では、訓練データごとに一つの損失Lが算出される。
 損失算出部150が損失Lを算出する方法について以下に説明する。損失算出部150は、図7のステップS201と同様にして、推定特徴情報と、その推定特徴情報に対応する正解特徴情報との距離Dを算出する。また、損失算出部150は、算出された距離Dをそのまま距離dとして扱って、第1の実施形態と同様に損失Lを算出する。
 ステップS105以降、第1の実施形態の図6と同様の処理が行われて、検出モデル132のパラメータが更新および保存される。
 本変形例においては第1の実施形態と同様の作用および効果が得られる。
(第2の実施形態)
 第2の実施形態に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態に係る情報処理装置10と同じである。第2の実施形態に係る情報処理方法は、以下に説明する点を除いて第1の実施形態に係る情報処理方法と同じである。
 本実施形態においても第1の実施形態で説明したように、正解特徴情報は正解特徴ベクトルkを含み、推定特徴情報は推定特徴ベクトルkを含む。本実施形態に係る損失算出部150は、正解特徴ベクトルkと推定特徴ベクトルkとの距離を、検出対象の大きさで正規化した正規化距離Dnormに基づく距離dを算出する。そして、損失算出部150は、距離dを用いて損失Lを算出する。
 図11(a)から図11(c)は、正解特徴情報の誤差について説明するための図である。人が対象画像90に対して正解特徴情報を付与する場合、たとえば対象画像90に対して所定の図形を重ねて描くような操作を行う。すると、描かれた図形を示す正解特徴情報が生成される。図11(a)から図11(c)では、瞳孔の外縁を示す円C1と、虹彩の外縁を示す円C2が対象画像90に重ねて描かれている。図11(a)では、円C1および円C2はそれぞれ瞳孔および虹彩の外縁によく一致しており、誤差は少ないと言える。一方、図11(b)および図11(c)では、円C1が瞳孔の外縁からずれており、円C2が虹彩の外縁からずれている。図11(b)および図11(c)の例では、正解特徴情報にはこのずれに起因する誤差が含まれる。人が正解特徴情報としてのアノテーションを付す場合には、このような誤差は避けられない。
 ここで、図11(c)は、図11(b)よりも対象画像90中の検出対象(本例では虹彩)が小さい。したがって、図11(c)と図11(b)とで、ずれ量が寸法上同じ程度であったとしても、検出対象の大きさに対する誤差の影響は、図11(c)において図11(b)よりも大きくなる。
 これに対して本実施形態に係る損失算出部150は、正解特徴ベクトルkと推定特徴ベクトルkとの距離を、検出対象の大きさで正規化した正規化距離Dnormに基づく距離dを算出する。そして、損失算出部150は、距離dを用いて損失Lを算出する。したがって、含まれる検出対象の大きさが異なる複数の対象画像90を用いて学習を行う場合でも、それらの対象画像90を一律に扱うことができる。
 損失算出部150は、正規化距離Dnormを、以下の式(4-1)または式(4-2)を用いて算出できる。ここで、sは検出対象の大きさであり、1≦n<∞である。
norm=||(k-k)/s||     ・・・(4-1)
norm=||(k-k)||/s     ・・・(4-2)
 損失算出部150は、たとえば検出対象の大きさを、正解特徴情報を用いて特定することができる。正解特徴ベクトルkの要素のうちいずれかが検出対象の大きさを示していてもよいし、損失算出部150が一以上の要素を用いて検出対象の大きさを算出してもよい。
 検出対象の大きさは、たとえば正解特徴情報に示される円の半径、直径、または面積であってもよいし、正解特徴情報に示される楕円の長径、短径、または面積であってもよい。検出対象の大きさは正解特徴情報に示される図形のいずれかの辺の長さ、外接円の半径、外接円の直径、または面積であってもよいし、正解特徴情報に示されるいずれかの2点間の距離であってもよい。検出対象が虹彩である場合、検出対象の大きさは、たとえば虹彩の外縁を示す円の半径、直径、または面積である。
 図12は、本実施形態に係る損失算出部150が行う処理の流れを例示するフローチャートである。本実施形態において、第1の実施形態と同様、取得部110は、対象画像90および正解特徴情報の組である訓練データを、訓練データバッチとして複数取得する。そして損失算出部150は、ステップS401において、複数の組(訓練データ)のそれぞれについての正規化距離Dnormを算出する。さらに損失算出部150はステップS402において、複数の正規化距離Dnormの和または平均として距離dを算出する。このように訓練データバッチごとに検出モデル132のパラメータ更新を行うことで、各パラメータ更新の精度を高めることができる。
 本実施形態に係る損失算出部150は、このように算出した距離dを用い、第1の実施形態で説明したのと同様の方法で、損失Lを算出する。図12のステップS203からステップS206は第1の実施形態で説明したステップS203からステップS206とそれぞれ同じである。
 本実施形態に係る更新部170は、損失算出部150が算出した損失Lを用いて、第1の実施形態で説明したのと同様の方法で検出モデル132のパラメータを更新する。
 次に、本実施形態の作用および効果について説明する。本実施形態においては第1の実施形態と同様の作用および効果が得られる。加えて、本実施形態に係る損失算出部150は、正解特徴ベクトルkと推定特徴ベクトルkとの距離を、検出対象の大きさで正規化した正規化距離Dnormに基づく距離dを算出する。したがって、検出対象の大きさが異なる複数の対象画像90を用いて学習を行う場合でも、それらの対象画像90を一律に扱うことができる。
(変形例2)
 変形例2は、第2の実施形態の変形例である。本変形例に係る情報処理装置10は、以下に説明する点を除いて第2の実施形態に係る情報処理装置10と同じである。本変形例に係る情報処理方法は、以下に説明する点を除いて第2の実施形態に係る情報処理方法と同じである。
 第2の実施形態では、取得部110が、対象画像90および正解特徴情報の組である訓練データを、訓練データバッチとして複数取得する構成について説明した。そして、第2の実施形態では、損失算出部150は、複数の組(訓練データ)のそれぞれについて正規化距離Dnormを算出し、複数の正規化距離Dnormの和または平均を距離dとして算出した。
 本変形例では、訓練データごとに距離dおよび損失Lを算出する。この場合、訓練データごとに検出モデル132のパラメータが更新される。
 本変形例に係る情報処理装置10が実行する処理の流れは、変形例1と同様に図10で表される。本変形例に係る損失算出部150は、図12のステップS401と同様にして、推定特徴情報と、その推定特徴情報に対応する正解特徴情報との正規化距離Dnormを算出する。また、損失算出部150は、算出された正規化距離Dnormをそのまま距離dとして扱って、第2の実施形態と同様に損失Lを算出する。
 そして、第1の実施形態で説明した図6のステップS105以降と同様の処理が行われて、検出モデル132のパラメータが更新および保存される。
 本変形例においては第2の実施形態と同様の作用および効果が得られる。
(第3の実施形態)
 第3の実施形態に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態、第2の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10と同じである。第3の実施形態に係る情報処理方法は、以下に説明する点を除いて第1の実施形態、第2の実施形態、変形例1、および変形例2のいずれかに係る情報処理方法と同じである。
 図13は、本実施形態に係る距離dと損失Lとの関係の第1例を示す図である。本実施形態に係る損失算出部150は、距離dが基準値ε未満である場合、所定の値αを損失Lとし、距離dが基準値ε以上である場合、L1損失を損失Lとして算出する。すなわち、第1のルールは所定の値αを損失Lとすることであり、第2のルールはL1損失を損失Lとすることである。そうすることで、正解特徴情報に誤差が含まれたとしても、学習におけるその誤差の影響を低減することができる。
 所定の値αは予め定められている。所定の値αは特に限定されないが、基準値ε以上の距離dによって求められるいずれの損失Lよりも、小さいことが好ましい。また、距離dの変化に対する損失Lの変化は、基準値εにおいて連続していることが好ましい。すなわち、一方の軸を距離dの軸とし、他方の軸を損失Lの軸としたグラフは、基準値εにおいて連続していることが好ましい。
 図13の例において、所定の値αはゼロである。この場合、検出モデル132の学習において、基準値ε未満の距離dは許容される。
 図14は、本実施形態に係る距離dと損失Lとの関係の第2例を示す図である。図14の例において、所定の値αはゼロではなく、正の値である。ただし、所定の値αは特に限定されず、正の値であってもよいし、負の値であってもよいし、ゼロであってもよい。
 L1損失は、第1の実施形態で説明したL1損失と同じである。損失算出部150がL1損失を算出するための数式は、予め定められていてよい。ただし、基準値εが情報処理装置10で特定される場合には、L1損失を算出するための1次関数の傾きaおよび切片bのうち少なくともいずれかを、基準値εに基づいて損失算出部150が特定してもよい。このとき損失算出部150はたとえば、距離dの変化に対する損失Lの変化が、基準値εにおいて連続するように、傾きaおよび切片bのうち少なくともいずれかを特定する。
 次に、本実施形態の作用および効果について説明する。本実施形態においては第1または第2の実施形態と同様の作用および効果が得られる。
(第4の実施形態)
 第4の実施形態に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態から第3の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10と同じである。第4の実施形態に係る情報処理方法は、以下に説明する点を除いて第1の実施形態から第3の実施形態、変形例1、および変形例2のいずれかに係る情報処理方法と同じである。
 図15は、第4の実施形態に係る情報処理装置10の機能構成を例示するブロック図である。本実施形態に係る情報処理装置10は、特徴抽出部140をさらに備える。特徴抽出部140は、推定特徴情報で示される検出対象の、特徴を示す推定対象特徴ベクトルfを抽出する。また、取得部110は、検出対象の特徴を示す正解対象特徴ベクトルfをさらに取得する。そして、本実施形態に係る損失算出部150は、距離dが基準値ε未満である場合、推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて損失Lを算出する。一方、本実施形態に係る損失算出部150は、距離dが基準値ε以上である場合、推定特徴ベクトルkと正解特徴ベクトルkとに基づくL1損失を損失Lとして算出する。
 すなわち、第1のルールは推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて損失Lを算出することであり、第2のルールはL1損失を損失Lとすることである。そうすることで、検出対象の特徴抽出精度を高めるように検出モデル132の機械学習が行える。
 図16は、距離dが基準値ε未満である場合に特徴抽出部140および損失算出部150が実行する処理の流れを例示するフローチャートである。距離dが基準値ε未満である場合に特徴抽出部140および損失算出部150が実行する処理は、第1のルールの内容に相当する。
 第1の実施形態において説明した通り、特徴情報を用いて、対象画像90中の対象領域を特定することが可能である。本実施形態に係る特徴抽出部140は、ステップS501において、検出部130で検出された推定特徴情報を用いて、画像中の対象領域を特定する。
 たとえば検出対象が虹彩である場合、特徴抽出部140は、推定対象情報に基づいて、対象画像90における虹彩領域を特定する。
 そして特徴抽出部140は、ステップS502において対象画像90から対象領域を切り出し、ステップS503において、対象領域が有する特徴、すなわち検出対象の特徴を抽出する。検出対象の特徴は、推定対象特徴ベクトルfによって表される。特徴抽出部140は、ニューラルネットワークを含む抽出モデルを利用することで、対象領域の画像から、推定対象特徴ベクトルfを抽出することができる。ここで利用する抽出モデルは学習済みのモデルであることが好ましい。検出モデル132の学習の過程において、抽出モデルのニューラルネットワークのパラメータは固定されていてよい。
 たとえば、検出対象が虹彩である場合、特徴抽出部140は、対象画像90から虹彩領域を切り出すことで虹彩画像を得る。そして、特徴抽出部140は、虹彩画像を抽出モデルに入力し、抽出モデルの出力として虹彩の特徴(たとえば虹彩模様)を示す推定対象特徴ベクトルfを得る。
 そして、ステップS504において損失算出部150は、特徴抽出部140により抽出された推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて特徴抽出損失Lを算出する。そして損失算出部150は、得られた特徴抽出損失Lを損失Lとする。
 特徴抽出損失Lの算出に用いられる正解対象特徴ベクトルfは、たとえば対象画像90に関連付けられた状態で訓練データに含まれる。または、訓練データには対象画像90に関連付けられた個人識別情報が含まれてもよい。その場合、個人識別情報と正解対象特徴ベクトルfとが互いに関連付けられた状態で、取得部110からアクセス可能な記憶装置に保持されている。そして、取得部110は、訓練データに含まれる個人識別情報に対応する正解対象特徴ベクトルfを、その記憶装置から読み出して取得できる。
 特徴抽出損失Lを算出する方法には、既存の方法を利用できる。特徴抽出損失Lの算出にはたとえば、Softmax関数およびクロスエントロピー損失が用いられる。特徴抽出損失Lの算出にはL2-Softmax関数、cosface、またはarcface等、他の損失計算手法が用いられてもよい。
 特徴抽出損失Lは、基準値ε以上の距離dによって求められるいずれの損失Lよりも、小さいことが好ましい。また、距離dの変化に対する損失Lの変化は、基準値εにおいて連続していることが好ましい。すなわち、一方の軸を距離dの軸とし、他方の軸を損失Lの軸としたグラフは、基準値εにおいて連続していることが好ましい。これらの条件を満たすように、特徴抽出損失Lの範囲が設定されてもよい。
 上述した通り、本実施形態に係る損失算出部150は、距離dが基準値ε以上である場合、推定特徴ベクトルkと正解特徴ベクトルkとに基づくL1損失を損失Lとして算出する。L1損失は、第1の実施形態で説明したL1損失と同じである。
 損失算出部150がL1損失を算出するための数式は、予め定められていてよい。ただし、基準値εが情報処理装置10で特定される場合には、L1損失を算出するための1次関数の傾きaおよび切片bのうち少なくともいずれかを、基準値εに基づいて損失算出部150が特定してもよい。このとき損失算出部150はたとえば、距離dの変化に対する損失Lの変化が、基準値εにおいて連続するように、傾きaおよび切片bのうち少なくともいずれかを特定する。
 本実施形態に係る情報処理装置10を実現する計算機のハードウエア構成は、情報処理装置10と同様に、例えば図9によって表される。ただし、本実施形態に係る情報処理装置10を実現する計算機1000のストレージデバイス1080には、特徴抽出部140の機能を実現するプログラムモジュールがさらに記憶される。
 次に、本実施形態の作用および効果について説明する。本実施形態においては第1の実施形態から第3の実施形態の少なくともいずれかと同様の作用および効果が得られる。加えて、本実施形態に係る損失算出部150は、距離dが基準値ε未満である場合、推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて損失Lを算出する。したがって、で、検出対象の特徴抽出精度を高めるように検出モデル132の機械学習が行える。
(第5の実施形態)
 図17は、第5の実施形態に係る損失算出部150が実行する処理の流れを例示するフローチャートである。本実施形態に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態から第4の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10と同じである。本実施形態に係る情報処理方法は、以下に説明する点を除いて第1の実施形態から第4の実施形態、変形例1、および変形例2のいずれかに係る情報処理方法と同じである。
 本実施形態に係る情報処理装置10は、第4の実施形態に係る情報処理装置10と同様に特徴抽出部140を備える。また、取得部110は、検出対象の特徴を示す正解対象特徴ベクトルfを取得する。そして、本実施形態において、損失算出部150が算出する損失Lは、以下の式(5)で表される。
損失L=β×(1-g(d-ε))×E+g(d-ε)×E  ・・・(5)
 式(5)においてβは所定の重みであり、εは所定の基準値εであり、dは距離dである。g(d-ε)は0以上1以下の出力を持つ単調増加関数である。Eは正解特徴ベクトルkと推定特徴ベクトルkとに基づき算出される値であり、たとえばL1損失である。Eは推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて算出される値である。Eはたとえば第4の実施形態で説明した特徴抽出損失Lである。以下に詳しく説明する。
 本実施形態において検出部130が対象画像90の推定特徴情報を検出すると、損失算出部150は、ステップS601において距離dを算出する。距離dおよび、損失算出部150が距離dを算出する方法については、第1の実施形態、第2の実施形態、変形例1、および変形例2のいずれかで説明した距離dおよび、損失算出部150が距離dを算出する方法とそれぞれ同じである。
 次いで損失算出部150は、ステップS602においてL1損失を算出する。L1損失および、損失算出部150がL1損失を算出する方法については、第1の実施形態で説明したL1損失および、損失算出部150がL1損失を算出する方法とそれぞれ同じである。
 次いで損失算出部150は、ステップS603において特徴抽出損失Lを算出する。特徴抽出損失Lおよび、損失算出部150が特徴抽出損失Lを算出する方法については、第4の実施形態で説明した特徴抽出損失Lおよび、損失算出部150が特徴抽出損失Lを算出する方法とそれぞれ同じである。なお、損失算出部150は、S601およびS602の少なくとも一方よりも前にステップS603を行ってもよい。
 距離d、L1損失、および特徴抽出損失Lが算出されると、ステップS604において損失算出部150は、上述した式(5)を用いて損失Lを算出する。なお、本実施形態に係る損失算出部150は、たとえば図7のステップS203のような、基準値εを用いた判定を行う必要はない。
 図18は、関数g(x)を例示する図である。図18の例においてg(x)はsigmoid関数である。
 図19は、関数g(d-ε)を例示する図である。式(5)では、関数g(d-ε)を用いることで、EとEの、損失Lに対する寄与の比率を連続的に変更している。なお、関数g(d-ε)の広がりを示すいわゆる温度パラメータは、予め関数g(d-ε)の一部として定めることができる。
 d=εの場合に、関数g(d-ε)は0.5である。すなわち、損失Lに対してEとEが同等に寄与する。一方、d<εの場合に、関数g(d-ε)は0.5より小さい。すなわち、損失Lに対してEの寄与が、Eの寄与よりも大きくなる。そして、dが小さくなるほど、損失Lに対するEの寄与は小さくなる。また、d>εの場合に、関数g(d-ε)は0.5より大きい。すなわち、損失Lに対してEの寄与が、Eの寄与よりも大きくなる。そして、dが大きくなるほど、損失Lに対するEの寄与は大きくなる。本実施形態において距離dの変化に対する損失Lの変化は基準値εにおいて連続する。
 式(5)を用いて損失Lを算出することにより、互いに異なる観点の損失であるL1損失と特徴抽出損失Lとの損失Lに対する寄与率を連続的に切り替えることができる。
 なお、関数g(d-ε)は、0以上1以下の出力を持つ単調増加関数であればよく、sigmoid関数に限定されない。また、Eは正解特徴ベクトルkと推定特徴ベクトルkとに基づき算出される損失であればL1損失に限定されない。また、Eは推定対象特徴ベクトルfと正解対象特徴ベクトルfとを用いて算出される損失であれば特に限定されない。
 損失Lを算出すると、損失算出部150は、ステップS605において、算出した損失Lを更新部170に出力する。
 次に、本実施形態の作用および効果について説明する。本実施形態においては第1の実施形態から第4の実施形態の少なくともいずれかと同様の作用および効果が得られる。加えて、本実施形態によれば、検出部130が算出する損失Lは、上述した式(5)で表される。したがって、互いに異なる観点の損失であるL1損失と特徴抽出損失Lとの損失Lに対する寄与率を連続的に切り替えることができる。
(第6の実施形態)
 図20は、第6の実施形態に係る情報処理装置10の機能構成を例示するブロック図である。本実施形態に係る情報処理装置10は、以下に説明する点を除いて第1の実施形態から第5の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10と同じである。本実施形態に係る情報処理方法は、以下に説明する点を除いて第1の実施形態から第5の実施形態、変形例1、および変形例2のいずれかに係る情報処理方法と同じである。
 本実施形態に係る情報処理装置10は、特定部160をさらに備える。特定部160は、検出モデル132から出力される推定特徴情報を用いて認証を行う認証部20で要求される精度に基づいて、基準値εを特定する。
 なお、図20は情報処理装置10が特徴抽出部140を含む例を示しているが、情報処理装置10は特徴抽出部140を含まなくても良い。
 図21は、認証部20について説明するための図である。認証部20は、特徴抽出部240を含む。特徴抽出部240は特徴抽出部140と同様の処理を行う。第4の実施形態に係る情報処理装置10のように、情報処理装置10が特徴抽出部140を含む場合、認証部20に含まれる特徴抽出部240は、特徴抽出部140と同じであってもよいし、特徴抽出部140とは異なる認証用の特徴抽出部であってもよい。特徴抽出部240は、検出部130から出力される推定特徴情報を用いて検出対象の特徴を示す推定対象特徴情報を抽出する。
 認証部20は、照合部210をさらに備える。また、照合部210からアクセス可能な認証情報記憶部200には、識別情報(たとえば個人識別情報)と、対象特徴情報との組が複数保持されている。認証情報記憶部200は、認証部20に含まれてもよいし、認証部20の外部に設けられていてもよい。
 照合部210は、特徴抽出部240で抽出された推定対象特徴情報と、認証情報記憶部200に保持された各対象特徴情報との一致度を算出する。そして、照合部210は一致度が所定の条件を満たす対象特徴情報を特定し、特定された対象特徴情報に対応する識別情報、すなわち特定された対象特徴情報と同じ組に含まれる識別情報を特定する。
 認証部20は、認証結果を出力する。認証部20が出力する認証結果は、照合部210が特定した識別情報であってもよいし、一致度が所定の条件を満たす対象特徴情報の有無を示す情報であってもよい。
 ここで、認証部20が要求する特徴情報の検出精度が予め定められている。この検出精度は、特徴抽出部240が要求する検出精度でありうる。情報処理装置10のユーザは、検出モデル132の学習に先立ち、認証部20が要求する検出精度を情報処理装置10に対して入力する。すると本実施形態に係る情報処理装置10の特定部160は、入力された検出精度に基づいて学習で用いる基準値εを特定する。そして、特定された基準値εを用いて、情報処理装置10が検出モデル132の学習を実行する。
 基準値εは、検出モデル132の学習において、推定特徴情報における正解特徴情報からのずれを許容する程度を示すと言える。すなわち、基準値εが小さいほど、推定特徴情報における正解特徴情報からのずれを許容する程度が小さくなる。これは正解特徴情報が有する誤差の影響が大きくなることも意味する。また、基準値εが大きいほど、推定特徴情報における正解特徴情報からのずれを許容する程度が大きくなる。これは正解特徴情報が有する誤差の影響が小さくなることも意味する。したがって、検出モデル132の使用目的に応じて基準値εを適切に設定することが重要である。
 特定部160は、基準値εを、たとえば検出精度と基準値εとの関係を示す数式を用いて算出できる。検出精度と基準値εとの関係を示す数式は予め定められている。
 検出精度と基準値εとの関係を示す数式はたとえば、基準値εと、得られる検出モデル132の精度との関係を予め実験的に調べておき、その関係に基づいて定めることができる。
 本実施形態に係る情報処理装置10を実現する計算機のハードウエア構成は、情報処理装置10と同様に、例えば図9によって表される。ただし、本実施形態に係る情報処理装置10を実現する計算機1000のストレージデバイス1080には、特定部160の機能を実現するプログラムモジュールがさらに記憶される。
 次に、本実施形態の作用および効果について説明する。本実施形態においては第1の実施形態から第5の実施形態の少なくともいずれかと同様の作用および効果が得られる。加えて、本実施形態に係る情報処理装置10において特定部160は、検出モデル132から出力される推定特徴情報を用いて認証を行う認証部20で要求される精度に基づいて、基準値εを特定する。したがって、検出モデル132の使用目的に応じて適切な検出精度を有する検出モデル132が得られる。
(第7の実施形態)
 図22は、第7の実施形態に係る認証装置30の機能構成を例示する図である。図23は、本実施形態に係る認証装置30が行う処理の流れを例示するフローチャートである。本実施形態に係る認証装置30は、第1の実施形態から第6の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10を用いて学習が行われた検出モデル132を用いる認証装置である。また、本実施形態に係る認証方法は、第1の実施形態から第6の実施形態、変形例1、および変形例2のいずれかに係る情報処理方法を用いて学習が行われた検出モデル132を用いる認証方法である。
 本実施形態に係る認証装置30は、画像取得部310、検出部330、および認証部350を備える。本実施形態に係る認証方法は、本実施形態に係る認証装置30により実行されうる。
 ステップS701において画像取得部310は、認証に用いる画像を取得する。認証に用いる画像は、第1の実施形態で説明した対象画像90と同様の画像である。画像取得部310は、カメラ等の撮像装置から認証に用いる画像を取得しても良いし、画像取得部310からアクセス可能な記憶装置に保持された画像を読み出して取得してもよい。
 そして、ステップS702において、検出部330は、画像取得部310が取得した画像における推定特徴情報を検出する。具体的には検出部330は、画像取得部310が取得した画像(入力画像)を検出モデル132に入力する。ここで使用する検出モデル132は、情報処理装置10による学習済みモデルである。検出部330は、検出モデル132の出力として、入力画像に対する推定特徴情報を得る。
 次いで、ステップS703において認証部350は、推定特徴情報と、認証情報記憶部300に保持された認証情報とを用いて認証処理を行う。具体的には、認証部350は、推定特徴情報を用いて検出対象の特徴を示す推定対象特徴情報を抽出する。認証部350は、第4の実施形態で説明したような抽出モデルを用いて推定対象特徴情報を抽出することができる。認証部350が用いる抽出モデルは、検出部330が用いる検出モデル132の学習において使用された抽出モデルであってもよいし、検出部330が用いる検出モデル132の学習において使用された抽出モデルとは異なるモデルであってもよい。
 認証部350からアクセス可能な認証情報記憶部300には、認証情報として、識別情報(たとえば個人識別情報)と、対象特徴情報との組が複数保持されている。認証情報記憶部300は、認証装置30に含まれてもよいし、認証装置30の外部に設けられていてもよい。認証部350は、検出部330で抽出された推定対象特徴情報と、認証情報記憶部300に保持された各対象特徴情報との一致度を算出する。そして、認証部350は一致度が所定の条件を満たす対象特徴情報を特定し、特定された対象特徴情報に対応する識別情報、すなわち、特定された対象特徴情報と同じ組に含まれる識別情報を特定する。
 認証装置30は、認証結果を出力する。認証装置30が出力する認証結果は、認証部350が特定した識別情報であってもよいし、一致度が所定の条件を満たす対象特徴情報の有無を示す情報であってもよい。認証結果は、たとえば認証装置30に接続されたディスプレイに表示されてもよいし、他の装置に対して出力されてもよい。
 認証装置30が、虹彩認証を行う場合の例について以下に説明する。画像取得部310は認証に用いる画像として、眼を含む画像を取得する。そして、検出部330は、検出モデル132にこの画像を入力することで、画像のうち図4で示したように虹彩領域を特定するための推定特徴情報を得る。
 そして、認証部350は、検出部330から出力された推定特徴情報を用いて、眼を含む画像から虹彩画像を切り出す。そして、認証部350は、抽出モデルに虹彩画像を入力し、抽出モデルの出力として虹彩の特徴を示す虹彩情報(推定対象特徴情報)を得る。
 認証情報記憶部300には予め、個人識別情報と、虹彩情報との組が複数保持されている。認証部350は、検出部330で抽出された虹彩情報と、認証情報記憶部300に保持された各虹彩情報との一致度を算出する。そして、認証部350は一致度が所定の条件を満たす虹彩情報を特定し、認証情報において特定された虹彩情報に対応する個人識別情報を特定する。
 認証装置30は、特定した個人識別情報を出力してもよいし、認証された個人識別情報の有無を示す情報を出力してもよい。
 なお、本実施形態に係る情報処理装置10は、特定部160を備えることが好ましい。そして、本実施形態に係る情報処理装置10で用いられる基準値εは、認証部350で要求される検出精度に基づいて、第6の実施形態で説明したように特定されることが好ましい。
 本実施形態に係る認証装置30を実現する計算機のハードウエア構成は、情報処理装置10と同様に、例えば図9によって表される。ただし、本実施形態に係る認証装置30を実現する計算機1000のストレージデバイス1080には、認証装置30の各機能構成部(画像取得部310、検出部330、および認証部350)を実現するプログラムモジュールが記憶される。
 認証装置30に認証情報記憶部300が含まれる場合、認証情報記憶部300は、本実施形態に係る認証装置30を実現する計算機1000のストレージデバイス1080によって実現される。
 次に、本実施形態の作用および効果について説明する。本実施形態に係る認証装置30によれば、第1の実施形態から第6の実施形態、変形例1、および変形例2のいずれかに係る情報処理装置10を用いて学習が行われた検出モデル132を用いて認証が行われる。したがって、精度の高い認証が行える。
 以上、図面を参照してこの開示の実施形態および変形例について述べたが、これらはこの開示の例示であり、上記以外の様々な構成を採用することもできる。
 また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態および各変形例で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態および各変形例では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態および各変形例は、内容が相反しない範囲で組み合わせることができる。
 上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1-1. 対象画像および正解特徴情報を取得する取得手段と、
 検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段と、
 前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段とを備える
情報処理装置。
1-2. 1-1.に記載の情報処理装置において、
 前記損失を用いて前記検出モデルのパラメータ更新を行う更新手段をさらに備える
情報処理装置。
1-3. 1-2.に記載の情報処理装置において、
 前記更新手段は、前記損失を用いた誤差逆伝搬法により、前記検出モデルのパラメータ更新を行う
情報処理装置。
1-4. 1-1.から1-3.のいずれか一つに記載の情報処理装置において、
 前記正解特徴情報は正解特徴ベクトルを含み、
 前記推定特徴情報は推定特徴ベクトルを含み、
 前記損失算出手段は、
  前記正解特徴ベクトルと前記推定特徴ベクトルとの距離を、前記検出対象の大きさで正規化した正規化距離に基づく距離dを算出し、
  前記距離dを用いて前記損失を算出する
情報処理装置。
1-5. 1-4.に記載の情報処理装置において、
 前記取得手段は、前記対象画像および前記正解特徴情報の組を複数取得し、
 前記損失算出手段は、前記複数の組のそれぞれについて前記正規化距離を算出し、
 前記距離dは、前記複数の前記正規化距離の和または平均である
情報処理装置。
1-6. 1-4.または1-5.に記載の情報処理装置において、
 前記損失算出手段は、
  前記距離dが所定の基準値未満である場合、第1のルールに基づいて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記第1のルールとは異なる第2のルールに基づいて前記損失を算出する
情報処理装置。
1-7. 1-6.に記載の情報処理装置において、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、L2損失を前記損失として算出し、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
情報処理装置。
1-8. 1-6.に記載の情報処理装置において、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、所定の値を前記損失とし、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
情報処理装置。
1-9. 1-6.に記載の情報処理装置において、
 前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段をさらに備え、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記推定特徴ベクトルと前記正解特徴ベクトルとに基づくL1損失を前記損失として算出する
情報処理装置。
1-10.1-4.または1-5.に記載の情報処理装置において、
 前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段をさらに備え、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失は、以下の(式)で表され、
 損失=β×(1-g(d-ε))×E+g(d-ε)×E  ・・・(式)
 βは所定の重みであり、
 εは所定の基準値であり、
 dは前記距離dであり、
 g(d-ε)は0以上1以下の出力を持つ単調増加関数であり、
 Eは前記正解特徴ベクトルと前記推定特徴ベクトルとに基づき算出されるL1損失であり、
 Eは前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて算出される値である
情報処理装置。
1-11. 1-6.から1-10.のいずれか一つに記載の情報処理装置において、
 前記距離dの変化に対する前記損失の変化は、前記基準値において連続している
情報処理装置。
1-12. 1-6.から1-11.のいずれか一つに記載の情報処理装置において、
 前記検出モデルから出力される前記推定特徴情報を用いて認証を行う認証手段で要求される精度に基づいて、前記基準値を特定する特定手段をさらに備える
情報処理装置。
2-1. 一以上のコンピュータが、
  対象画像および正解特徴情報を取得し、
  検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出し、
  前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する
情報処理方法。
2-2. 2-1.に記載の情報処理方法において、
 前記一以上のコンピュータがさらに、前記損失を用いて前記検出モデルのパラメータ更新を行う
情報処理方法。
2-3. 2-2.に記載の情報処理方法において、
 前記一以上のコンピュータは、前記損失を用いた誤差逆伝搬法により、前記検出モデルのパラメータ更新を行う
情報処理方法。
2-4. 2-1.から2-3.のいずれか一つに記載の情報処理方法において、
 前記正解特徴情報は正解特徴ベクトルを含み、
 前記推定特徴情報は推定特徴ベクトルを含み、
 前記一以上のコンピュータは、
  前記正解特徴ベクトルと前記推定特徴ベクトルとの距離を、前記検出対象の大きさで正規化した正規化距離に基づく距離dを算出し、
  前記距離dを用いて前記損失を算出する
情報処理方法。
2-5. 2-4.に記載の情報処理方法において、
 前記一以上のコンピュータは、
  前記対象画像および前記正解特徴情報の組を複数取得し、
  前記複数の組のそれぞれについて前記正規化距離を算出し、
 前記距離dは、前記複数の前記正規化距離の和または平均である
情報処理方法。
2-6. 2-4.または2-5.に記載の情報処理方法において、
 前記一以上のコンピュータは、
  前記距離dが所定の基準値未満である場合、第1のルールに基づいて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記第1のルールとは異なる第2のルールに基づいて前記損失を算出する
情報処理方法。
2-7. 2-6.に記載の情報処理方法において、
 前記一以上のコンピュータは、
  前記距離dが前記基準値未満である場合、L2損失を前記損失として算出し、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
情報処理方法。
2-8. 2-6.に記載の情報処理方法において、
 前記一以上のコンピュータは、
  前記距離dが前記基準値未満である場合、所定の値を前記損失とし、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
情報処理方法。
2-9. 2-6.に記載の情報処理方法において、
 前記一以上のコンピュータはさらに、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出し、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記一以上のコンピュータは、
  前記距離dが前記基準値未満である場合、前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記推定特徴ベクトルと前記正解特徴ベクトルとに基づくL1損失を前記損失として算出する
情報処理方法。
2-10.2-4.または2-5.に記載の情報処理方法において、
 前記一以上のコンピュータはさらに、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出し、
 前記一以上のコンピュータは、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失は、以下の(式)で表され、
 損失=β×(1-g(d-ε))×E+g(d-ε)×E  ・・・(式)
 βは所定の重みであり、
 εは所定の基準値であり、
 dは前記距離dであり、
 g(d-ε)は0以上1以下の出力を持つ単調増加関数であり、
 Eは前記正解特徴ベクトルと前記推定特徴ベクトルとに基づき算出されるL1損失であり、
 Eは前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて算出される値である
情報処理方法。
2-11. 2-6.から2-10.のいずれか一つに記載の情報処理方法において、
 前記距離dの変化に対する前記損失の変化は、前記基準値において連続している
情報処理方法。
2-12. 2-6.から2-11.のいずれか一つに記載の情報処理方法において、
 前記一以上のコンピュータはさらに、前記検出モデルから出力される前記推定特徴情報を用いて認証を行う認証手段で要求される精度に基づいて、前記基準値を特定する
情報処理方法。
3-1.プログラムを記録しているコンピュータ読み取り可能な記録媒体であって、
 前記プログラムは、コンピュータを
  対象画像および正解特徴情報を取得する取得手段、
  検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段、および
  前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段として機能させる
記録媒体。
3-2. 3-1.に記載の記録媒体において、
 前記プログラムは、コンピュータを、前記損失を用いて前記検出モデルのパラメータ更新を行う更新手段としてさらに機能させる
記録媒体。
3-3. 3-2.に記載の記録媒体において、
 前記更新手段は、前記損失を用いた誤差逆伝搬法により、前記検出モデルのパラメータ更新を行う
記録媒体。
3-4. 3-1.から3-3.のいずれか一つに記載の記録媒体において、
 前記正解特徴情報は正解特徴ベクトルを含み、
 前記推定特徴情報は推定特徴ベクトルを含み、
 前記損失算出手段は、
  前記正解特徴ベクトルと前記推定特徴ベクトルとの距離を、前記検出対象の大きさで正規化した正規化距離に基づく距離dを算出し、
  前記距離dを用いて前記損失を算出する
記録媒体。
3-5. 3-4.に記載の記録媒体において、
 前記取得手段は、前記対象画像および前記正解特徴情報の組を複数取得し、
 前記損失算出手段は、前記複数の組のそれぞれについて前記正規化距離を算出し、
 前記距離dは、前記複数の前記正規化距離の和または平均である
記録媒体。
3-6. 3-4.または3-5.に記載の記録媒体において、
 前記損失算出手段は、
  前記距離dが所定の基準値未満である場合、第1のルールに基づいて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記第1のルールとは異なる第2のルールに基づいて前記損失を算出する
記録媒体。
3-7. 3-6.に記載の記録媒体において、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、L2損失を前記損失として算出し、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
記録媒体。
3-8. 3-6.に記載の記録媒体において、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、所定の値を前記損失とし、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
記録媒体。
3-9. 3-6.に記載の記録媒体において、
 前記プログラムは、コンピュータを、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段としてさらに機能させ、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記推定特徴ベクトルと前記正解特徴ベクトルとに基づくL1損失を前記損失として算出する
記録媒体。
3-10.3-4.または3-5.に記載の記録媒体において、
 前記プログラムは、コンピュータを、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段としてさらに機能させ、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失は、以下の(式)で表され、
 損失=β×(1-g(d-ε))×E+g(d-ε)×E  ・・・(式)
 βは所定の重みであり、
 εは所定の基準値であり、
 dは前記距離dであり、
 g(d-ε)は0以上1以下の出力を持つ単調増加関数であり、
 Eは前記正解特徴ベクトルと前記推定特徴ベクトルとに基づき算出されるL1損失であり、
 Eは前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて算出される値である
記録媒体。
3-11. 3-6.から3-10.のいずれか一つに記載の記録媒体において、
 前記距離dの変化に対する前記損失の変化は、前記基準値において連続している
記録媒体。
3-12. 3-6.から3-11.のいずれか一つに記載の記録媒体において、
 前記プログラムは、コンピュータを、前記検出モデルから出力される前記推定特徴情報を用いて認証を行う認証手段で要求される精度に基づいて、前記基準値を特定する特定手段としてさらに機能させる
記録媒体。
4-1.コンピュータを、
  対象画像および正解特徴情報を取得する取得手段、
  検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段、および
  前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段
として機能させる
プログラム。
4-2. 4-1.に記載のプログラムにおいて、
 前記プログラムは、コンピュータを、前記損失を用いて前記検出モデルのパラメータ更新を行う更新手段としてさらに機能させる
プログラム。
4-3. 4-2.に記載のプログラムにおいて、
 前記更新手段は、前記損失を用いた誤差逆伝搬法により、前記検出モデルのパラメータ更新を行う
プログラム。
4-4. 4-1.から4-3.のいずれか一つに記載のプログラムにおいて、
 前記正解特徴情報は正解特徴ベクトルを含み、
 前記推定特徴情報は推定特徴ベクトルを含み、
 前記損失算出手段は、
  前記正解特徴ベクトルと前記推定特徴ベクトルとの距離を、前記検出対象の大きさで正規化した正規化距離に基づく距離dを算出し、
  前記距離dを用いて前記損失を算出する
プログラム。
4-5. 4-4.に記載のプログラムにおいて、
 前記取得手段は、前記対象画像および前記正解特徴情報の組を複数取得し、
 前記損失算出手段は、前記複数の組のそれぞれについて前記正規化距離を算出し、
 前記距離dは、前記複数の前記正規化距離の和または平均である
プログラム。
4-6. 4-4.または4-5.に記載のプログラムにおいて、
 前記損失算出手段は、
  前記距離dが所定の基準値未満である場合、第1のルールに基づいて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記第1のルールとは異なる第2のルールに基づいて前記損失を算出する
プログラム。
4-7. 4-6.に記載のプログラムにおいて、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、L2損失を前記損失として算出し、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
プログラム。
4-8. 4-6.に記載のプログラムにおいて、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、所定の値を前記損失とし、
  前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
プログラム。
4-9. 4-6.に記載のプログラムにおいて、
 前記プログラムは、コンピュータを、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段としてさらに機能させ、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失算出手段は、
  前記距離dが前記基準値未満である場合、前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて前記損失を算出し、
  前記距離dが前記基準値以上である場合、前記推定特徴ベクトルと前記正解特徴ベクトルとに基づくL1損失を前記損失として算出する
プログラム。
4-10.4-4.または4-5.に記載のプログラムにおいて、
 前記プログラムは、コンピュータを、前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段としてさらに機能させ、
 前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
 前記損失は、以下の(式)で表され、
 損失=β×(1-g(d-ε))×E+g(d-ε)×E  ・・・(式)
 βは所定の重みであり、
 εは所定の基準値であり、
 dは前記距離dであり、
 g(d-ε)は0以上1以下の出力を持つ単調増加関数であり、
 Eは前記正解特徴ベクトルと前記推定特徴ベクトルとに基づき算出されるL1損失であり、
 Eは前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて算出される値である
プログラム。
4-11. 4-6.から4-10.のいずれか一つに記載のプログラムにおいて、
 前記距離dの変化に対する前記損失の変化は、前記基準値において連続している
プログラム。
4-12. 4-6.から4-11.のいずれか一つに記載のプログラムにおいて、
 前記プログラムは、コンピュータを、前記検出モデルから出力される前記推定特徴情報を用いて認証を行う認証手段で要求される精度に基づいて、前記基準値を特定する特定手段としてさらに機能させる
プログラム。
10 情報処理装置
20 認証部
30 認証装置
110 取得部
130,330 検出部
132 検出モデル
140,240 特徴抽出部
150 損失算出部
160 特定部
170 更新部
200 認証情報記憶部
210 照合部
300 認証情報記憶部
310 画像取得部
350 認証部
1000 計算機
1020 バス
1040 プロセッサ
1060 メモリ
1080 ストレージデバイス
1100 入出力インタフェース
1120 ネットワークインタフェース

Claims (14)

  1.  対象画像および正解特徴情報を取得する取得手段と、
     検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段と、
     前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段とを備える
    情報処理装置。
  2.  請求項1に記載の情報処理装置において、
     前記損失を用いて前記検出モデルのパラメータ更新を行う更新手段をさらに備える
    情報処理装置。
  3.  請求項2に記載の情報処理装置において、
     前記更新手段は、前記損失を用いた誤差逆伝搬法により、前記検出モデルのパラメータ更新を行う
    情報処理装置。
  4.  請求項1から3のいずれか一項に記載の情報処理装置において、
     前記正解特徴情報は正解特徴ベクトルを含み、
     前記推定特徴情報は推定特徴ベクトルを含み、
     前記損失算出手段は、
      前記正解特徴ベクトルと前記推定特徴ベクトルとの距離を、前記検出対象の大きさで正規化した正規化距離に基づく距離dを算出し、
      前記距離dを用いて前記損失を算出する
    情報処理装置。
  5.  請求項4に記載の情報処理装置において、
     前記取得手段は、前記対象画像および前記正解特徴情報の組を複数取得し、
     前記損失算出手段は、前記複数の組のそれぞれについて前記正規化距離を算出し、
     前記距離dは、前記複数の前記正規化距離の和または平均である
    情報処理装置。
  6.  請求項4または5に記載の情報処理装置において、
     前記損失算出手段は、
      前記距離dが所定の基準値未満である場合、第1のルールに基づいて前記損失を算出し、
      前記距離dが前記基準値以上である場合、前記第1のルールとは異なる第2のルールに基づいて前記損失を算出する
    情報処理装置。
  7.  請求項6に記載の情報処理装置において、
     前記損失算出手段は、
      前記距離dが前記基準値未満である場合、L2損失を前記損失として算出し、
      前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
    情報処理装置。
  8.  請求項6に記載の情報処理装置において、
     前記損失算出手段は、
      前記距離dが前記基準値未満である場合、所定の値を前記損失とし、
      前記距離dが前記基準値以上である場合、L1損失を前記損失として算出する
    情報処理装置。
  9.  請求項6に記載の情報処理装置において、
     前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段をさらに備え、
     前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
     前記損失算出手段は、
      前記距離dが前記基準値未満である場合、前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて前記損失を算出し、
      前記距離dが前記基準値以上である場合、前記推定特徴ベクトルと前記正解特徴ベクトルとに基づくL1損失を前記損失として算出する
    情報処理装置。
  10.  請求項4または5に記載の情報処理装置において、
     前記推定特徴情報で示される前記検出対象の、特徴を示す推定対象特徴ベクトルを抽出する特徴抽出手段をさらに備え、
     前記取得手段は、前記検出対象の特徴を示す正解対象特徴ベクトルをさらに取得し、
     前記損失は、以下の(式)で表され、
     損失=β×(1-g(d-ε))×E+g(d-ε)×E ・・・(式)
     βは所定の重みであり、
     εは所定の基準値であり、
     dは前記距離dであり、
     g(d-ε)は0以上1以下の出力を持つ単調増加関数であり、
     Eは前記正解特徴ベクトルと前記推定特徴ベクトルとに基づき算出されるL1損失であり、
     Eは前記推定対象特徴ベクトルと前記正解対象特徴ベクトルとを用いて算出される値である
    情報処理装置。
  11.  請求項6から10のいずれか一項に記載の情報処理装置において、
     前記距離dの変化に対する前記損失の変化は、前記基準値において連続している
    情報処理装置。
  12.  請求項6から11のいずれか一項に記載の情報処理装置において、
     前記検出モデルから出力される前記推定特徴情報を用いて認証を行う認証手段で要求される精度に基づいて、前記基準値を特定する特定手段をさらに備える
    情報処理装置。
  13.  一以上のコンピュータが、
      対象画像および正解特徴情報を取得し、
      検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出し、
      前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する
    情報処理方法。
  14.  プログラムを記録しているコンピュータ読み取り可能な記録媒体であって、
     前記プログラムは、コンピュータを
      対象画像および正解特徴情報を取得する取得手段、
      検出モデルを用いて前記対象画像から検出対象に関する推定特徴情報を検出する検出手段、および
      前記推定特徴情報における前記正解特徴情報からのずれを許容可能な検出モデルを生成するように前記検出モデルのパラメータを更新するための、損失を算出する損失算出手段として機能させる
    記録媒体。
PCT/JP2022/040735 2022-10-31 2022-10-31 情報処理装置、情報処理方法、および記録媒体 WO2024095319A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040735 WO2024095319A1 (ja) 2022-10-31 2022-10-31 情報処理装置、情報処理方法、および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/040735 WO2024095319A1 (ja) 2022-10-31 2022-10-31 情報処理装置、情報処理方法、および記録媒体

Publications (1)

Publication Number Publication Date
WO2024095319A1 true WO2024095319A1 (ja) 2024-05-10

Family

ID=90930000

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/040735 WO2024095319A1 (ja) 2022-10-31 2022-10-31 情報処理装置、情報処理方法、および記録媒体

Country Status (1)

Country Link
WO (1) WO2024095319A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208773A1 (ja) * 2018-04-27 2019-10-31 三菱日立パワーシステムズ株式会社 プラントの運転支援装置、プラントの運転支援方法、プラントの学習モデルの作成方法、プラントの運転支援プログラム、プラントの運転支援プログラムを記録した記録媒体、プラントの学習モデルの作成プログラム、及びプラントの学習モデルの作成プログラムを記録した記録媒体
JP2020173562A (ja) * 2019-04-09 2020-10-22 株式会社日立製作所 物体認識システム及び物体認識方法
JP2021184169A (ja) * 2020-05-21 2021-12-02 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019208773A1 (ja) * 2018-04-27 2019-10-31 三菱日立パワーシステムズ株式会社 プラントの運転支援装置、プラントの運転支援方法、プラントの学習モデルの作成方法、プラントの運転支援プログラム、プラントの運転支援プログラムを記録した記録媒体、プラントの学習モデルの作成プログラム、及びプラントの学習モデルの作成プログラムを記録した記録媒体
JP2020173562A (ja) * 2019-04-09 2020-10-22 株式会社日立製作所 物体認識システム及び物体認識方法
JP2021184169A (ja) * 2020-05-21 2021-12-02 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム

Similar Documents

Publication Publication Date Title
US11487995B2 (en) Method and apparatus for determining image quality
US11961227B2 (en) Method and device for detecting and locating lesion in medical image, equipment and storage medium
CN111639535B (zh) 基于深度学习的人脸识别方法及装置
US20210103695A1 (en) Object recognition and tagging based on fusion deep learning models
US11341770B2 (en) Facial image identification system, identifier generation device, identification device, image identification system, and identification system
US11893831B2 (en) Identity information processing method and device based on fundus image
JP2017102671A (ja) 識別装置、調整装置、情報処理方法及びプログラム
US20180075291A1 (en) Biometrics authentication based on a normalized image of an object
CN113449704B (zh) 人脸识别模型训练方法、装置、电子设备及存储介质
de Sousa Costa et al. Classification of malignant and benign lung nodules using taxonomic diversity index and phylogenetic distance
CN112949570B (zh) 一种基于残差注意力机制的指静脉识别方法
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN111814821A (zh) 深度学习模型的建立方法、样本处理方法及装置
KR101089847B1 (ko) 얼굴 인식을 위한 sift 알고리즘을 이용한 키포인트 매칭 시스템 및 방법
EP3703061A1 (en) Image retrieval
Khoje et al. Evaluation of ripplet transform as a texture characterization for Iris recognition
CN112233742A (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
CN115861715A (zh) 基于知识表示增强的图像目标关系识别算法
Sugiharti et al. Facial recognition using two-dimensional principal component analysis and k-nearest neighbor: a case analysis of facial images
CN114519401A (zh) 一种图像分类方法及装置、电子设备、存储介质
WO2024095319A1 (ja) 情報処理装置、情報処理方法、および記録媒体
CN112200109A (zh) 面部属性识别方法、电子设备以及计算机可读存储介质
CN116805522A (zh) 诊断报告输出方法、装置、终端及存储介质
JP7055848B2 (ja) 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置
Travieso et al. Improving the performance of the lip identification through the use of shape correction

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22964342

Country of ref document: EP

Kind code of ref document: A1