WO2023175664A1 - 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 - Google Patents

学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 Download PDF

Info

Publication number
WO2023175664A1
WO2023175664A1 PCT/JP2022/011276 JP2022011276W WO2023175664A1 WO 2023175664 A1 WO2023175664 A1 WO 2023175664A1 JP 2022011276 W JP2022011276 W JP 2022011276W WO 2023175664 A1 WO2023175664 A1 WO 2023175664A1
Authority
WO
WIPO (PCT)
Prior art keywords
person
sample
image
learning
feature amount
Prior art date
Application number
PCT/JP2022/011276
Other languages
English (en)
French (fr)
Inventor
雄太 工藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/011276 priority Critical patent/WO2023175664A1/ja
Publication of WO2023175664A1 publication Critical patent/WO2023175664A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • This disclosure includes, for example, a learning device that can perform machine learning of a learning model used to determine whether a person in an image is the same as a specific person (in other words, to match) , a learning method and a recording medium, and a person matching device capable of determining whether a person appearing in an image is the same as a specific person, a person matching method, and a recording medium.
  • Patent Document 1 An example of a person verification device that can determine whether a person appearing in an image is the same as a specific person is described in Patent Document 1.
  • Patent Documents 2 to 5 Other prior art documents related to this disclosure include Patent Documents 2 to 5.
  • An object of this disclosure is to provide a learning device, a learning method, a person verification device, a person verification method, and a recording medium that aim to improve the techniques described in prior art documents.
  • One aspect of the learning device of this disclosure is a learning device that performs machine learning of a learning model capable of outputting feature amounts of a person when a person image in which a person is included is input, the learning device comprising: By inputting a sample image in which a first sample person who is the same as the person and a second sample person different from the first sample person into the learning model as the person image, the first sample person extraction means for extracting a first sample feature amount that is a feature amount of a sample person and a second sample feature amount that is a feature amount of the second sample person; a first loss function related to the accuracy of a matching process for determining whether or not one sample person is the same as the person to be matched based on the first sample feature amount; and the first and second samples. and a learning means that performs the machine learning using the second loss function regarding the distance between the feature amounts.
  • One aspect of the person verification device of this disclosure is to input a target image in which a target person is included into a learning model capable of outputting feature amounts of the person when a person image in which a person is included is input.
  • Extracting means for extracting a target feature quantity that is a feature quantity of the target person by inputting it as a person image, and determining whether the target person reflected in the target image is the same person as the first person to be verified. and a matching means for determining whether or not the target feature amount is the same based on the target feature amount
  • the learning model includes a first sample person who is the same as the second person to be matched and a first sample person who is different from the first sample person.
  • the first sample feature amount which is the feature amount of the first sample person
  • the second sample person By inputting the sample image in which the second sample person is reflected into the learning model as the person image, the first sample feature amount, which is the feature amount of the first sample person, and the second sample person and determining whether or not the first sample person reflected in the sample image is the same person as the second person to be verified.
  • the machine uses a first loss function related to the accuracy of the matching process determined based on the first sample feature amount and a second loss function related to the distance between the first and second sample feature amounts.
  • a person verification device that has been trained by a learning method that includes performing learning.
  • One aspect of the learning method disclosed in this disclosure is a learning method that performs machine learning of a learning model capable of outputting feature amounts of a person when a person image in which a person is included is input.
  • the first sample person extracting a first sample feature amount that is a feature amount of a sample person and a second sample feature amount that is a feature amount of the second sample person; a first loss function related to the accuracy of a matching process for determining whether or not a sample person is the same as the person to be matched based on the first sample feature amount; and the first and second sample features. and performing the machine learning using a second loss function regarding the distance between the quantities.
  • One aspect of the person method disclosed herein is that when a person image in which a person is reflected is input, a target image in which a target person is reflected is input to a learning model capable of outputting feature amounts of the person. Extracting a target feature amount that is a feature amount of the target person by inputting it as an image, and determining whether the target person reflected in the target image is the same person as the first person to be verified. based on the target feature amount, and the learning model includes a first sample person who is the same as the second person to be matched, and a second sample person who is different from the first sample person.
  • a first sample feature amount that is a feature amount of the first sample person and a feature amount of the second sample person are obtained.
  • determining whether or not the first sample person reflected in the sample image is the same person as the second person to be verified.
  • a first aspect of the recording medium of this disclosure is a computer that causes a computer to execute a learning method for performing machine learning of a learning model that can output feature quantities of a person when a person image in which a person is included is input.
  • a recording medium on which a program is recorded, and the learning method includes a first sample person who is the same as the person to be verified, and a second sample person who is different from the first sample person.
  • a second aspect of the recording medium of this disclosure is a recording medium in which a computer program for causing a computer to execute a person matching method is recorded, wherein the person matching method is performed by inputting a person image in which a person is included.
  • a target image in which a target person is reflected as the person image into a learning model that can output the feature values of the person, a target feature value that is a feature value of the target person can be extracted.
  • FIG. 1 is a block diagram showing the configuration of a learning device in the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of a modified example of the person verification device in the first embodiment.
  • FIG. 3 conceptually shows the learning operation performed by the learning device in the second embodiment.
  • FIG. 4 conceptually shows a person verification operation performed by a person verification device in the second embodiment.
  • FIG. 5 is a block diagram showing the configuration of a learning device in the second embodiment.
  • FIG. 6 is a data structure diagram showing an example of the data structure of the learning data set.
  • FIGS. 7(a) to 7(c) shows an example of a sample image.
  • FIG. 8 shows a camera image from which sample images are extracted.
  • FIG. 8 shows a camera image from which sample images are extracted.
  • FIG. 9 conceptually shows a feature map output by a learning model to which a human image is input.
  • FIG. 10 is a flowchart showing the flow of learning operations performed by the learning device in the second embodiment.
  • FIG. 11 is a block diagram showing the configuration of a person verification device in the second embodiment.
  • FIG. 12 is a flowchart showing the flow of the person verification operation performed by the person verification device in the second embodiment.
  • FIG. 1 is a block diagram showing the configuration of a learning device 1000 in the first embodiment.
  • FIG. 2 is a block diagram showing the configuration of the person verification device 2000 in the first embodiment.
  • the learning device 1000 performs machine learning of a learning model that can output feature amounts of a person when a person image containing a person is input.
  • the learning device 1000 as shown in FIG.
  • the learning unit 1002 is a specific example of a "learning means".
  • the extraction unit 1001 extracts a first sample person who is the same as the second person to be matched, and a second sample person who is different from the first sample person (that is, different from the second person to be matched). Input the included sample image into the learning model as a human image. As a result, the learning model outputs a first sample feature amount that is the feature amount of the first sample person, and a second sample feature amount that is the feature amount of the second sample person. That is, the extraction unit 1001 extracts the first and second sample features by inputting the sample image to the learning model.
  • the learning unit 1002 performs machine learning of the learning model using the first and second sample features extracted by the extraction unit 1001. Specifically, the learning unit 1002 performs machine learning of the learning model using the first loss function and the second loss function.
  • the first loss function is the accuracy of the matching process that determines whether the first sample person in the sample image is the same person as the second person to be matched based on the first sample feature amount. is the loss function for .
  • the second loss function is a loss function related to the distance between the first and second sample features.
  • the learning model constructed by the learning device 1000 performing machine learning may be used by the person matching device 2000 shown in FIG. 2.
  • the person matching device 2000 uses a learning model to perform matching processing to determine whether or not the target person appearing in the target image is the same person as the first person to be matched.
  • the person matching device 2000 as shown in FIG. and a matching section 2002, which is a specific example of "verification means".
  • the extraction unit 2001 inputs a target image in which a target person is included into the learning model as a person image.
  • the learning model outputs a target feature amount that is a feature amount of the target person. That is, the extraction unit 2001 extracts the target feature amount by inputting the target image into the learning model.
  • the matching unit 2002 performs matching processing to determine whether the target person reflected in the target image is the same person as the first person to be matched, based on the target feature extracted by the extraction unit 2001.
  • the learning device 1000 in the first embodiment performs machine learning of a learning model using the first loss function related to the accuracy of matching processing. For this reason, compared to the case where machine learning of the learning model is performed without using the first loss function, the learning device 1000 is configured such that the first and second sample persons are reflected in one sample image. Under the circumstances, it is possible to perform machine learning so that the first sample person is more likely to be determined to be the same person as the second person to be matched (that is, the accuracy of the matching process is improved). As a result, the person matching device 2000 that uses the learning model constructed by the learning device 1000 can display the first target person in one target image in addition to the first target person who is the same as the first person to be matched. Even if a second target person different from the person is included in the photograph, it is possible to appropriately determine that the first target person is the same person as the first person to be verified.
  • the learning device 1000 in the first embodiment performs machine learning of the learning model using, in addition to the first loss function, a second loss function regarding the distance between the first and second sample features. I do.
  • the learning device 1000 performs learning so that the distance between the first and second sample features becomes longer (that is, the similarity between the first and second sample features becomes lower).
  • Machine learning of the model may also be performed. For this reason, compared to the case where machine learning of the learning model is performed without using the second loss function, the learning device 1000 is able to detect the first and second sample persons in one sample image.
  • the person matching device 2000 using the learning model constructed by the learning device 1000 is able to identify the second target person even if the first and second target persons are included in one target image. The possibility of erroneously determining that the person is the same person as the first person to be verified is reduced.
  • the learning device 1000 can determine that the first target person is the same person as the first matched person in a situation where the first and second target persons are included in one target image.
  • Machine learning of the learning model can be performed so that the second target person is appropriately determined by the person matching device 2000 and is not erroneously determined to be the same person as the first matched person.
  • the person matching device 2000 determines that the first target person is the same person as the first matched person in a situation where the first and second target persons are included in one target image. Appropriate judgment can be made.
  • a second embodiment of a learning device, a learning method, a person verification device, a person verification method, and a recording medium will be described.
  • a learning device 1 to which a second embodiment of a learning device, a learning method, and a recording medium are applied and a person verification device 2 to which a second embodiment of a person verification device, a person verification method, and a recording medium are applied.
  • a second embodiment of a learning device, a learning method, a person verification device, a person verification method, and a recording medium will be described using the following.
  • the learning device 1 performs a learning operation to perform machine learning of a learnable learning model LM.
  • the learning model LM is a model that can output feature amounts of a person when a person image containing a person is input.
  • the learning model LM may be, for example, a learning model including a neural network.
  • the learning device 1 inputs a sample image SI, which is a specific example of a person image, into the learning model LM, as shown in FIG.
  • the sample image SI is, for example, an image in which a sample person SP who is the same person as the person to be verified IP_S and a sample person SP who is not the same person as the person to be verified IP_S are included.
  • the learning model LM outputs a plurality of sample feature quantities SF that are feature quantities of the plurality of sample persons SP.
  • the learning device 1 performs machine learning of the learning model LM using the plurality of sample feature quantities SF.
  • sample person SP1 a sample person SP who is the same person as the person to be verified IP_S
  • sample person SP1 a sample person SP who is not the same person as the person to be verified IP_S
  • sample person SP1 The sample feature amount SF of the sample person SP1 is called the “sample feature amount SF1”
  • sample feature amount SF2 the sample feature amount of the sample person SP2
  • the person matching device 2 uses the learning model LM to perform a person matching operation to determine whether or not the person appearing in the person image is the same as a specific person.
  • the learning model LM used by the person matching device 2 is the learning model LM constructed by the learning device 1 (that is, the learning model LM constructed by machine learning performed by the learning device 1).
  • the learning model LM used by the person matching device 2 is the learning model LM that has been trained by the learning device 1.
  • the person matching device 2 inputs a target image TI, which is a specific example of a person image, to the learning model LM, as shown in FIG.
  • the target image TI is an image in which the target person TP is reflected.
  • a plurality of target persons TP may be included in the target image TI.
  • the learning model LM outputs a target feature amount TF that is a feature amount of the target person TP.
  • the person verification device 2 uses the target feature amount TF to determine whether the target person TP reflected in the target image TI is the same person as the person to be verified IP_T. That is, the person matching device 2 uses the target feature amount TF to identify the person to be matched IP_T who is the same person as the target person TP reflected in the target image TI.
  • FIG. 3 is a block diagram showing the configuration of the learning device 1 in the second embodiment.
  • the learning device 1 includes a calculation device 11 and a storage device 12. Furthermore, the learning device 1 may include a communication device 13, an input device 14, and an output device 15. However, the learning device 1 may not include at least one of the communication device 13, the input device 14, and the output device 15. Arithmetic device 11 , storage device 12 , communication device 13 , input device 14 , and output device 15 may be connected via data bus 16 .
  • the arithmetic unit 11 is, for example, one of a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and an FPGA (Field Programmable Gate Array). Contains at least one.
  • Arithmetic device 11 reads a computer program.
  • the arithmetic device 11 may read a computer program stored in the storage device 12.
  • the arithmetic device 11 may read a computer program stored in a computer-readable and non-temporary recording medium using a recording medium reading device (not shown) included in the learning device 1.
  • the arithmetic device 11 may obtain (that is, download) a computer program from a device (not shown) located outside the learning device 1 via the communication device 13 (or other communication device). (or you can load it).
  • the arithmetic device 11 executes the loaded computer program.
  • logical functional blocks for performing the operations that the learning device 1 should perform (for example, the above-mentioned learning operations) are realized in the arithmetic device 11. That is, the arithmetic device 11 can function as a controller for realizing logical functional blocks for performing operations that the learning device 1 should perform.
  • FIG. 5 shows an example of logical functional blocks implemented within the arithmetic unit 11 to perform the learning operation.
  • the arithmetic device 11 includes a feature extraction unit 111, which is a specific example of the "extraction means” described in the appendix to be described later, and a feature extraction unit 111, which is a specific example of the "extraction means” described in the appendix to be described later.
  • a learning unit 112, which is a specific example, is realized. Although the respective operations of the feature extraction section 111 and the learning section 112 will be described in detail later, their outline will be briefly explained here.
  • the feature extraction unit 111 inputs the sample image SI into the learning model LM, thereby extracting a sample feature amount SF of the sample person SP reflected in the sample image SI.
  • the learning unit 112 performs machine learning on the learning model LM based on the sample feature amount SF extracted by the feature extraction unit 111.
  • the storage device 12 is capable of storing desired data.
  • the storage device 12 may temporarily store a computer program executed by the arithmetic device 11.
  • the storage device 12 may temporarily store data that is temporarily used by the arithmetic device 11 when the arithmetic device 11 is executing a computer program.
  • the storage device 12 may store data that the learning device 1 stores for a long period of time.
  • the storage device 12 may include at least one of a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device. good. That is, the storage device 12 may include a non-temporary recording medium.
  • the storage device 12 may be able to store the learning model LM that is the target of machine learning.
  • the storage device 12 may be capable of storing a learning data set 121 including sample images SI used for machine learning.
  • a learning data set 121 including sample images SI used for machine learning.
  • An example of the data structure of the learning data set 121 is shown in FIG.
  • the learning data set 121 may include a plurality of unit learning data 1210.
  • Each unit learning data 1210 may include the above-mentioned sample image SI.
  • the sample image SI is an image in which at least one sample person SP1, who is the same person as the person to be verified IP_S corresponding to the sample image SI, is reflected.
  • at least one of the plurality of unit learning data 1210 includes one sample person SP1, as shown in FIG. may include a sample image SI in which no image is captured.
  • At least one of the plurality of unit learning data 1210 may include a sample image SI in which a sample person SP2 is reflected in addition to one sample person SP1, as shown in FIG. 7(b).
  • FIG. 7B shows a sample image SI in which one sample person SP1 and one sample person SP2 are reflected.
  • FIG. 7(c) shows a sample image SI in which one sample person SP1 and a plurality of sample persons SP2 are reflected.
  • the sample image SI is an object detection process (in other words, a person detection process) for detecting a captured person CP reflected in the camera image CI on a camera image CI captured by the camera.
  • the image may be generated by performing the above steps and cutting out the imaged person CP detected by the object detection process from the camera image CI.
  • the object detection process may be a process of detecting the imaged person CP in units of bounding boxes Ba that at least partially surround the imaged person CP reflected in the camera image CI.
  • the sample image SI may be an image generated by cutting out an image portion included in the bounding box Ba from the camera image CI.
  • the person CP surrounded by the bounding box Ba (that is, the imaged person CP specified in units of the bounding box Ba) is a sample generated by cutting out the image part included in the bounding box Ba from the camera image CI. This becomes the person to be verified IP_S and the sample person SP1 in the image SI.
  • the bounding box Ba includes an imaged person CP different from the imaged person CP detected by the object detection process. For example, when a plurality of photographed persons CP that at least partially overlap are included in the camera image CI, a plurality of photographed persons CP are included in a bounding box Ba surrounding one of the plurality of photographed persons CP.
  • the captured person CP which is different from the captured person CP detected by the object detection process, becomes the sample person SP2 in the sample image SI generated by cutting out the image portion included in the bounding box Ba from the camera image CI.
  • the captured person CP#1 and the captured person CP#2 partially overlap in the captured image CI, and the captured person CP#1 is included in the bounding box Ba#1 surrounding the captured person CP#1. 2, and the imaged person CP#1 is included in the bounding box Ba#2 surrounding the imaged person CP#2.
  • the imaged person CP#1 becomes the person to be matched IP_S and the sample person SP1, and the imaged person CP#2 becomes sample person SP2.
  • the imaged person CP#2 becomes the person to be matched IP_S and the sample person SP1, and the imaged person CP#1 becomes This becomes sample person SP2.
  • each unit learning data 1210 may further include a correct answer label 1212.
  • the correct label 1212 may include a person identification label 1213 and a person position label 1214.
  • the person identification label 1213 is identification information (for example, person ID) that can identify the person to be matched IP_S who is to be determined to be the same person as the sample person SP1 reflected in the sample image SI.
  • the unit learning data 1210 including the sample image SI in which the sample person SP1, who is the same person as the person to be matched named "A" IP_S, is captured uses identification information that can identify the person to be matched named "A" IP_S as a person. It may be included as an identification label 1213.
  • the person position label 1214 is information indicating the position of the sample person SP reflected in the sample image SI.
  • a learning model LM to which a person image (in this case, sample image SI) is input is combined with a feature map MP to which feature amounts of the person image are mapped, as shown in FIG. , and map position information indicating the position of the map area MA corresponding to the person included in the person image in the feature map MP.
  • the learning model LM outputs the feature map MP and map position information indicating the position of the map area MA that includes the feature amount of the person reflected in the person image in the feature map MP.
  • the map position information indicates the position of the map area MA using a bounding box Bb surrounding the map area MA.
  • the person position label 1214 is a bounding box Bb that the learning model LM should output when the sample image SI corresponding to the person position label 1214 is input to the learning model LM (that is, a map that the learning model LM should output). (position of area MA).
  • the learning model LM to which the sample image SI has been input outputs a plurality of bounding boxes Bb indicating the positions of a plurality of map areas MA, each of which includes the feature values of a plurality of sample persons SP in the feature map MP.
  • the unit learning data 1210 including this sample image SI may include a plurality of person position labels 1214 each indicating a plurality of bounding boxes Bb to be output by the learning model LM. In the example shown in FIG.
  • the unit learning data 1210 including this sample image SI may include three person position labels 1214 each indicating three bounding boxes Bb to be output by the learning model LM.
  • the communication device 13 is capable of communicating with devices external to the learning device 1.
  • the communication device 13 may be able to communicate with the person verification device 2.
  • the learning device 1 may transmit (that is, output) the learning model LM constructed by machine learning to the person matching device 2 via the communication device 13.
  • the input device 14 is a device that accepts input of information to the learning device 1 from outside the learning device 1.
  • the input device 14 may include an operating device (for example, at least one of a keyboard, a mouse, and a touch panel) that can be operated by the operator of the learning device 1.
  • the input device 14 may include a reading device capable of reading information recorded as data on a recording medium that can be externally attached to the learning device 1.
  • the output device 15 is a device that outputs information to the outside of the learning device 1.
  • the output device 15 may output the information as an image.
  • the output device 15 may include a display device (so-called display) capable of displaying an image indicating information desired to be output.
  • the output device 15 may output the information as audio.
  • the output device 15 may include an audio device (so-called speaker) that can output audio.
  • the output device 15 may output information on paper. That is, the output device 15 may include a printing device (so-called printer) that can print desired information on paper.
  • FIG. 10 is a flowchart showing the flow of learning operations performed by the learning device 1 in the second embodiment.
  • the feature extraction unit 111 extracts a sample feature amount SF from the sample image SI (step S101). Specifically, the feature extraction unit 111 inputs one sample image SI included in the learning data set 121 to the learning model LM. As a result, the learning model LM outputs the sample feature amount SF of the sample person SP reflected in the sample image SI. Specifically, as described above, when the sample image SI is input to the learning model LM, the learning model LM stores the feature map MP and the map area MA that includes the feature amount of the sample person SP in the feature map MP. A bounding box Bb indicating the position of is output.
  • the feature extraction unit 111 may extract the sample feature amount SF using the map area MA surrounded by the bounding box Bb of the feature map MP.
  • the feature extraction unit 111 may extract a one-dimensional or multidimensional vector representing a feature included in the map area MA as a sample feature.
  • the feature extraction unit 111 may extract a one-dimensional or multidimensional vector representing a calculated value or a statistical value (for example, an average value) of a feature included in the map area MA as a sample feature.
  • the learning model LM considers that by outputting the feature map MP and the bounding box Bb, it is essentially outputting the sample feature amount SF that can be extracted based on the feature map MP and the bounding box Bb. Good too.
  • the learning model LM to which the sample image SI has been input outputs a plurality of bounding boxes Bb indicating the positions of a plurality of map areas MA, each of which includes the feature values of a plurality of sample persons SP in the feature map MP. .
  • the feature extraction unit 111 may extract the sample feature amount SF of each sample person SP using the map area MA corresponding to each sample person SP. For example, when one sample person SP1 is included in the sample image SI, the feature extraction unit 111 extracts the sample feature amount SF1 of the sample person SP1 using the map area MA corresponding to the sample person SP1. It's okay.
  • the feature extraction unit 111 extracts the sample feature amount SF1 of the sample person SP2 using the map area MA corresponding to the sample person SP2. It's okay. For example, when a plurality of sample persons SP2 are included in the sample image SI, the feature extraction unit 111 uses one map area MA corresponding to one sample person SP2 among the plurality of sample persons SP2. , the sample feature amount SF1 of one sample person SP2 may be extracted.
  • the feature extraction unit 111 repeats the process of extracting the sample feature SF in step S101 until the sample feature SF is extracted from the required number of sample images SI (step S102).
  • the learning unit 112 calculates a matching loss function Loss1 and a distance loss function Loss2 based on the sample feature amount SF extracted in step S101 (step S103).
  • the matching loss function Loss1 determines whether the sample person SP1 reflected in the sample image SI (that is, the sample person SP1 that should be determined to be the same person as the person to be matched IP_S) is the same person as the person to be matched IP_S. This is a loss function related to the accuracy of the matching process that is determined based on the sample feature amount SF extracted in step S101. Typically, the matching loss function Loss1 may be a loss function that decreases as the accuracy of matching processing increases.
  • the learning unit 112 determines whether the sample person SP1 reflected in the sample image SI is the same person as the person to be matched IP_S in the sample image SI using the sample feature amount. Verification processing is performed to determine based on SF. Specifically, the learning unit 112 determines whether the sample person SP1 reflected in one sample image SI is the same person as the person to be matched IP_S in the one sample image SI. A matching process is performed to make a determination based on the sample feature amount SF extracted from the image SI. Thereafter, the learning unit 112 calculates the error between the result of the matching process using one sample image SI and the person identification label 1213 corresponding to the one sample image SI.
  • An example of the error is at least one of a squared error and cross entropy, but the error is not limited to this example.
  • the higher the accuracy of the matching process using one sample image SI the more the matching process allows the sample person SP1 reflected in one sample image SI to be labeled with the person identification label corresponding to the one sample image SI.
  • the probability of being determined to be the same person as the person to be verified IP_S indicated by 1213 increases.
  • the error between the result of the matching process and the person identification label 1213 becomes smaller.
  • the lower the accuracy of the matching process using one sample image SI the more the sample person SP1 reflected in one sample image SI corresponds to the one sample image SI through the matching process.
  • the probability of being determined to be the same person as the person to be verified IP_S indicated by the person identification label 1213 is lowered. As a result, the error between the result of the matching process and the person identification label 1213 becomes large.
  • the learning unit 112 repeats the same process for the number of sample images SI input to the learning model LM. Thereafter, the learning unit 112 may calculate the sum of the plurality of calculated errors (or any calculated value or statistical value) as the matching loss function Loss1.
  • the learning unit 112 may input the sample feature amount SF extracted in step S101 from one sample image SI to the classifier. If a plurality of sample features SF are extracted in step S101 due to a plurality of sample persons SP appearing in one sample image SI, the learning unit 112 extracts them from one sample image SI. The plurality of sample features SF may be input to a classifier. Alternatively, the learning unit 112 may selectively input a part of the plurality of sample feature quantities SF extracted from one sample image SI to the classifier. When the feature amount extracted from the person image is input, the classifier can output the classification result of the class of the person reflected in the person image as a probability distribution.
  • An example of such a classifier is a fully connected layer that combines the input feature values into one node, and a softmax function that uses the output of the fully connected layer to classify multiple people in a person image.
  • An example is a classifier that includes an output layer that converts into a probability distribution including a plurality of probabilities that are classified into classes respectively.
  • the classifier to which the sample feature amount SF is input outputs a probability distribution indicating the probability that the sample person SP1 reflected in the sample image SI is the same person as each of a plurality of different matched persons IP_S. .
  • the learning unit 112 repeats the same process for the number of sample images SI from which the sample feature amount SF has been extracted.
  • the learning unit 112 may calculate the matching loss function Loss1 based on the plurality of calculated probability distributions.
  • a loss function based on softmax loss may be used as the matching loss function Loss1.
  • a loss function based on cross-entropy may be used.
  • the matching loss function Loss1 calculated in this way is a loss function that decreases as the accuracy of the matching process increases.
  • the matching loss function Loss1 is a loss function that decreases as the probability that the sample person SP1 is determined to be the same person as the person to be matched IP_S through the matching process increases.
  • the distance loss function Loss2 is based on the sample feature amount SF1 of the sample person SP1 that should be determined to be the same person as the person to be matched IP_S, and the sample feature amount SF1 of the sample person SP1 that should not be determined to be the same person as the person to be matched IP_S.
  • This is a loss function regarding the distance between SP2 and the sample feature amount SF2. Therefore, the learning unit 112 calculates the distance loss function Loss2 using the sample feature quantities SF1 and SF2 extracted from the sample image SI in which both the sample persons SP1 and SP2 are included.
  • the learning unit 112 may calculate the distance loss function Loss2 without using the sample feature amount SF1 extracted from the sample image SI in which the sample person SP1 is included but the sample person SP2 is not included.
  • the learning unit 112 calculates the distance between sample feature amounts SF1 and SF2 extracted from one sample image SI in which both sample persons SP1 and SP2 are included.
  • the distance between the sample features SF1 and SF2 may mean the distance between the sample features SF1 and SF2 in the vector space of the sample features SF.
  • Euclidean distance may be used, or other types of distance (for example, at least one of Mahalanobis distance, Check Sheet Chef distance, and Manhattan distance) may be used.
  • the learning unit 112 repeats the process of calculating the distance between the sample feature quantities SF1 and SF2 for the number of sample images SI from which both the sample feature quantities SF1 and SF2 are extracted.
  • the learning unit 112 may calculate the distance loss function Loss2 based on the plurality of calculated distances. For example, the learning unit 112 may calculate a distance loss function Loss2 that decreases as the distances become longer, based on the calculated distances. For example, the learning unit 112 may calculate a distance loss function Loss2 (for example, a loss term for inter-class samples of Contrastive Loss) that becomes smaller as each of the plurality of calculated distances approaches a predetermined margin distance. .
  • a distance loss function Loss2 for example, a loss term for inter-class samples of Contrastive Loss
  • the distance between the sample features SF1 and SF2 may be considered to be equivalent to the similarity between the sample features SF1 and SF2.
  • the learning unit 112 calculates an integrated loss function Loss by integrating the matching loss function Loss1 and the distance loss function Loss2 calculated in step S103 (step S104).
  • the integrated loss function Loss may be any loss function as long as it reflects both the matching loss function Loss1 and the distance loss function Loss2.
  • the learning unit 112 may calculate the integrated loss function Loss by adding the matching loss function Loss1 and the distance loss function Loss2.
  • the learning unit 112 may calculate the integrated loss function Loss by adding the matching loss function Loss1 and the distance loss function Loss2, which are each multiplied by a weighting coefficient.
  • the learning unit 112 performs machine learning on the learning model LM so that the integrated loss function Loss calculated in step S104 becomes small (preferably minimized) (step S105). For example, if the learning model LM includes a neural network, the learning unit 112 may update parameters (for example, at least one of weights and biases) of the neural network.
  • the learning unit 112 may repeat the processes from step S101 to step S105 until the machine learning of the learning model LM in step S105 is performed a necessary number of times (for example, a number of times corresponding to the set number of epochs). Step S106).
  • FIG. 11 is a block diagram showing the configuration of the person verification device 2 in the second embodiment.
  • the person verification device 2 includes a calculation device 21 and a storage device 22. Furthermore, the person verification device 2 may include a communication device 23, an input device 24, and an output device 25. However, the person verification device 2 does not need to include at least one of the communication device 23, the input device 24, and the output device 25.
  • the arithmetic device 21, the storage device 22, the communication device 23, the input device 24, and the output device 25 may be connected via a data bus 26.
  • the arithmetic device 21 includes, for example, at least one of a CPU, a GPU, and an FPGA. Arithmetic device 21 reads a computer program. For example, the arithmetic device 21 may read a computer program stored in the storage device 22. For example, the computing device 21 may read a computer program stored in a computer-readable and non-temporary recording medium using a recording medium reading device (not shown) included in the person verification device 2. The arithmetic device 21 may obtain a computer program from a device (not shown) located outside the person verification device 2 via the communication device 23 (or other communication device) (that is, it may not be downloaded). (can be read or read). The arithmetic device 21 executes the loaded computer program.
  • logical functional blocks for performing the operations that the person verification device 2 should perform are realized in the arithmetic device 21. That is, the arithmetic device 21 can function as a controller for realizing logical functional blocks for performing the operations that the person verification device 2 should perform.
  • FIG. 11 shows an example of logical functional blocks implemented within the arithmetic unit 21 to perform a person verification operation.
  • the arithmetic unit 21 includes an image generation section 211, a feature extraction section 212 which is a specific example of the "extraction means” described in the appendix described below, and a feature extraction section 212 that is a specific example of "extraction means” described in the appendix described later.
  • the operations of the image generation section 211, feature extraction section 212, and matching section 213 will be described in detail later, but their outline will be briefly explained here.
  • the image generation unit 211 generates a target image TI.
  • the feature extraction unit 212 inputs the target image TI into the learning model LM to extract the target feature amount TF of the target person TP reflected in the target image TI.
  • the matching unit 213 performs a matching process to determine whether the target person TP appearing in the target image TI is the same person as the person to be matched IP_T, based on the target feature amount TF extracted by the feature extracting unit 212. conduct.
  • the storage device 22 can store desired data.
  • the storage device 22 may temporarily store a computer program executed by the arithmetic device 21.
  • the storage device 22 may temporarily store data that is temporarily used by the arithmetic device 21 when the arithmetic device 21 is executing a computer program.
  • the storage device 22 may store data that the person verification device 2 stores for a long period of time.
  • the storage device 22 may include at least one of a RAM (Random Access Memory), a ROM (Read Only Memory), a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device. good. That is, the storage device 22 may include a non-temporary recording medium.
  • the storage device 22 may be able to store the learning model LM constructed by the learning device 1 (that is, constructed by machine learning performed by the learning device 1).
  • the communication device 23 is capable of communicating with devices external to the person verification device 2.
  • the communication device 23 may be able to communicate with the learning device 1.
  • the person verification device 2 may receive (that is, acquire) the learning model LM constructed by the learning device 1 from the learning device 1 via the communication device 23 .
  • the input device 24 is a device that accepts input of information to the person verification device 2 from outside the person verification device 2 .
  • the input device 24 may include an operating device (for example, at least one of a keyboard, a mouse, and a touch panel) that can be operated by the operator of the person verification device 2.
  • the input device 24 may include a reading device capable of reading information recorded as data on a recording medium that can be externally attached to the person verification device 2.
  • the output device 25 is a device that outputs information to the outside of the person verification device 2.
  • the output device 25 may output the information as an image.
  • the output device 25 may include a display device (so-called display) capable of displaying an image indicating information desired to be output.
  • the output device 25 may output the information as audio.
  • the output device 25 may include an audio device (so-called speaker) that can output audio.
  • the output device 25 may output information on paper. That is, the output device 25 may include a printing device (so-called printer) that can print desired information on paper.
  • FIG. 12 is a flowchart showing the flow of a person verification operation performed by the person verification device 2 in the second embodiment.
  • the image generation unit 211 generates a target image TI (step S201).
  • the image generation unit 211 may generate the target image TI using a method similar to the method of generating the sample image SI used in the learning operation described above.
  • the image generation unit 211 may acquire a camera image captured by a camera for generating the target image TI. Thereafter, the image generation unit 211 may perform object detection processing on the acquired camera image to detect the captured person reflected in the camera image. Thereafter, the image generation unit 211 may generate a target image TI in which the captured person detected by the object detection process is captured by cutting out the captured person from the camera image.
  • the target image TI may include one target person TP. Similar to the sample image SI shown in FIGS. 7(b) and 7(c), the target image TI may include a plurality of target persons TP.
  • the image generation unit 211 does not need to generate the target image TI.
  • the camera image itself may be used as the target image TI.
  • the person verification device 2 does not need to include the image generation section 211.
  • the feature extraction unit 212 extracts the target feature amount TF from the target image TI generated in step S201 (step S202). Specifically, the feature extraction unit 212 inputs the target image TI to the learning model LM. As a result, the learning model LM outputs the target feature amount TF of the target person TP reflected in the target image TI.
  • the operation in which the feature extractor 212 extracts the target feature TF from the target image TI in step S202 is the same as the operation in which the feature extractor 111 extracts the sample feature SF from the sample image SI in step S101 in FIG. 10 described above. It may be a similar operation. Therefore, a detailed explanation of the operation in which the feature extraction unit 212 extracts the target feature amount TF from the target image TI in step S202 will be omitted.
  • the matching unit 213 performs a matching process to determine whether the target person TP reflected in the target image TI is the same person as the person to be matched IP_T based on the target feature amount TF extracted in step S202. (Step S203). Specifically, the matching unit 213 determines whether the target person TP reflected in the target image TI is the same person as each of the plurality of different matched persons IP_T based on the target feature amount TF. Perform the matching process. That is, based on the target feature amount TF extracted in step S202, the matching unit 213 selects a matched person who is the same as the target person TP reflected in the target image TI from among a plurality of different matched persons IP_T. Verification processing is performed to identify the person IP_T.
  • the matching unit 213 compares the target feature amount TF extracted in step S202 with the feature amount to be matched, which is the feature amount of each of a plurality of different people to be matched IP_T, to identify the features that appear in the target image TI.
  • the degree of similarity between the target person TP and each of a plurality of different matched persons IP_T is calculated.
  • the feature amount to be matched which is the feature amount of each of the plurality of different persons IP_T to be matched, may be stored in advance in the storage device 22. Thereafter, the matching unit 213 determines that the target person TP appearing in the target image TI is the same person as the one person to be matched IP_T with the highest degree of similarity among the plurality of different people to be matched IP_T. Good too.
  • the feature extraction unit 212 calculates the target feature amount TF of each of the plurality of target persons TP in step S202.
  • the matching unit 213 compares each of the plurality of target feature quantities TF extracted in step S202 with the matched feature quantity of each of the plurality of different matched persons IP_T, thereby identifying the plurality of target features reflected in the target image TI.
  • the degree of similarity between each of the target persons TP and each of a plurality of different matched persons IP_T may be calculated.
  • the matching unit 213 may determine that the one target person TP included in the target image TI is the same person as the one to-be-verified person IP_T.
  • the learning device 1 in the second embodiment performs machine learning of the learning model LM using the matching loss function Loss1 regarding the accuracy of matching processing. For this reason, compared to the case where machine learning of the learning model LM is performed without using the matching loss function Loss1, the learning device 1 is able to perform learning in a situation where sample persons SP1 and SP2 are reflected in one sample image SI. In this case, it is possible to perform machine learning so that sample person SP1, who is the same person as the person to be matched IP_S, is more likely to be determined to be the same person as the person to be matched IP_S (that is, the accuracy of the matching process is improved). becomes.
  • the person matching device 2 using the learning model LM constructed by the learning device 1 adds the first target person TP, who is the same person as the person to be matched IP_T, to one target image TI. Even if a second target person TP different from IP_T is included in the photograph, it is possible to appropriately determine that the first target person TP is the same person as the person to be verified IP_T. In other words, even if a plurality of target persons TP are included in one target image TI, the person matching device 2 selects one of the plural target persons TP from among the plurality of different matched persons IP_T. One to-be-verified person IP_T who is the same person as one target person can be appropriately identified.
  • the learning device 1 in the second embodiment performs machine learning of the learning model LM using the distance loss function Loss2 in addition to the matching loss function Loss1.
  • the learning device 1 performs machine learning on the learning model LM so that the distance between the sample features SF1 and SF2 becomes longer (that is, the similarity between the sample features SF1 and SF2 becomes lower). You may go. For this reason, compared to the case where machine learning of the learning model LM is performed without using the distance loss function Loss2, the learning device 1 is able to perform learning in a situation where sample persons SP1 and SP2 are reflected in one sample image SI.
  • the sample person SP2 who is not the same person as the person to be matched IP_S, is less likely to be mistakenly determined to be the same person as the person to be matched IP_S (in other words, the accuracy of the matching process is improved). becomes.
  • the person matching device 2 using the learning model constructed by the learning device 1 adds the first target person TP who is the same as the person to be matched IP_T to one target image TI. Even if a second target person TP different from the second target person TP is included in the photograph, the possibility of erroneously determining that the second target person TP is the same person as the person to be verified IP_T is reduced.
  • the learning device 1 is able to capture a single target image TI that includes a first target person TP who is the same as the person to be matched IP_T, as well as a second target person TP who is different from the person to be matched IP_T.
  • the person verification device 2 appropriately determines that the first target person TP is the same person as the person to be verified IP_T, and the second target person TP is determined to be the same person as the person to be verified IP_T.
  • Machine learning of the learning model LM can be performed so that it is no longer erroneously determined that there is a condition.
  • the person matching device 2 detects that in addition to the first target person TP who is the same person as the person to be matched IP_T, a second target person TP different from the person to be matched IP_T is included in one target image TI. In such a situation, it is possible to appropriately determine that the first target person TP is the same person as the person to be verified IP_T.
  • one target image TI includes a first target person TP who is the same person as the person to be matched IP_T, and a second target person TP who is different from the person to be matched IP_T. The accuracy of matching processing is improved in situations where images are included.
  • the person verification device 2 detects that the first target person TP is It can be appropriately determined that the person is the same as the verification person IP_T.
  • the learning model LM to which the sample image SI is input as shown in FIG. It is possible to output.
  • the feature extraction unit 111 can easily extract the sample feature amount SF using the feature map MP and the bounding box Bb.
  • the learning model LM can output a plurality of bounding boxes Bb corresponding to the plurality of sample persons SP, respectively.
  • the feature extraction unit 111 can easily extract sample feature amounts SF of multiple sample persons SP.
  • the learning data set 121 includes the person position label 1214 indicating the bounding box Bb to be output by the learning model LM into which the sample image SI is input.
  • the learning unit 112 may calculate a position loss function Loss3 regarding the position of the bounding box Bb in addition to the matching loss function Loss1 and the distance loss function Loss2.
  • the position loss function Loss3 may be a loss function related to the error between the position of the bounding box Bb actually output by the learning model LM to which the sample image SI is input and the position of the bounding box Bb indicated by the person position label 1214.
  • the position loss function Loss3 may be a loss function that decreases as the error between the position of the bounding box Bb actually output by the learning model LM and the position of the bounding box Bb indicated by the person position label 1214 becomes smaller.
  • the learning unit 112 determines the position of the bounding box Bb actually output by the learning model LM to which one sample image SI is input, and the bounding box indicated by the person position label 1214 corresponding to the one sample image SI.
  • An error with the position of box Bb may be calculated. If a plurality of sample persons SP are included in the sample image SI, the learning unit 112 may calculate an error corresponding to each sample person SP. For example, the learning unit 112 may calculate an error corresponding to sample person SP1 and an error corresponding to sample person SP2.
  • the learning unit 112 may repeat the same process as many times as the number of sample images SI input to the learning model LM. Thereafter, the learning unit 112 may calculate the sum of the plurality of calculated errors (or any calculated value or statistical value) as the matching loss function Loss3.
  • the learning unit 112 may calculate an integrated loss function Loss that integrates the matching loss function Loss1, the distance loss function Loss2, and the position loss function Loss3 in step S103 of FIG.
  • the learning model LM can output a bounding box Bb that specifies a map region that appropriately includes the feature amount of the sample person SP in the feature map MP.
  • the learning data set 121 (particularly its correct label 1212) does not need to include the person position label 1214.
  • the matching unit 213 selects each of the plurality of target persons TP and a plurality of different to-be-verified persons IP_T.
  • the degree of similarity with each of the above may be calculated.
  • the matching unit 213 selects at least one target person TP whose similarity is to be calculated based on the target feature amount TF of the plurality of target people TP, and selects at least one target person TP whose degree of similarity is to be calculated.
  • the degree of similarity between the IP_T and each of the plurality of different persons to be verified IP_T may be calculated. In this case, the calculation cost for calculating the similarity (that is, the calculation cost required for the matching process) can be reduced.
  • the matching unit 213 may exclude the target person TP corresponding to the one target feature amount TF from the similarity calculation targets. This is because it is highly likely that the target person TP corresponding to one target feature amount TF has already been determined to be the same person as another person to be matched IP_T in a past matching process.
  • a learning device that performs machine learning of a learning model that can output feature quantities of a person when a person image in which the person is reflected is input, the learning device comprising: By inputting a sample image in which a first sample person who is the same as the person to be matched and a second sample person different from the first sample person into the learning model as the person image, Extracting means for extracting a first sample feature amount that is a feature amount of a first sample person and a second sample feature amount that is a feature amount of the second sample person; a first loss function regarding the accuracy of a matching process that determines whether the first sample person reflected in the sample image is the same person as the person to be matched based on the first sample feature amount; and a second loss function related to the distance between the first and second sample features, and a learning device that performs the machine learning.
  • the first loss function is a loss function that decreases as the probability that the first sample person is determined to be the same person as the person to be verified increases by the verification process
  • the second loss function is a loss function that decreases as the distance increases
  • the learning device according to supplementary note 1, wherein the learning means performs the machine learning so that an integrated loss function obtained by integrating the first and second loss functions becomes smaller.
  • the learning model into which the sample image is input includes a feature map indicating the characteristics of the sample image, a first map area corresponding to the first sample person in the feature map, and a first map area corresponding to the first sample person in the feature map.
  • the extraction means extracts the first sample feature amount using the first map region in the feature map;
  • the learning device according to supplementary note 1 or 2, wherein the second sample feature amount is extracted using the second map region in the feature map.
  • Position information indicating the position of the first map area and the position of the second map area within the feature map is attached to the sample image as a correct answer label,
  • the learning means calculates a third loss related to each error between the positions of the first and second map areas output by the learning model and the positions of the first and second map areas assigned as the correct answer labels.
  • the learning device according to appendix 3, wherein the machine learning is performed using a function.
  • the target person's features can be output.
  • Extraction means for extracting a target feature quantity that is a feature quantity; and a matching means for determining whether or not the target person appearing in the target image is the same person as the first person to be verified based on the target feature amount
  • the learning model is Inputting a sample image in which a first sample person who is the same as the second person to be verified and a second sample person different from the first sample person are included as the person image into the learning model.
  • the target image includes a plurality of the target persons,
  • the matching means compares the target feature amount of each of the plurality of target persons with the feature amount to be matched which is the feature amount of the first person to be matched.
  • a learning method that performs machine learning of a learning model that can output feature quantities of a person when a person image in which the person is reflected is input, the method comprising: By inputting a sample image in which a first sample person who is the same as the person to be matched and a second sample person different from the first sample person into the learning model as the person image, extracting a first sample feature amount that is a feature amount of a first sample person and a second sample feature amount that is a feature amount of the second sample person; a first loss function regarding the accuracy of a matching process that determines whether the first sample person reflected in the sample image is the same person as the person to be matched based on the first sample feature amount; and a second loss function regarding the distance between the first and second sample features to perform the machine learning.
  • the target person's features can be output. Extracting a target feature quantity, which is a feature quantity, determining whether or not the target person appearing in the target image is the same person as the first person to be verified based on the target feature amount;
  • the learning model is Inputting a sample image in which a first sample person who is the same as the second person to be verified and a second sample person different from the first sample person are included as the person image into the learning model.
  • a recording medium on which a computer program is recorded that causes a computer to execute a learning method for performing machine learning of a learning model capable of outputting feature quantities of a person when a person image in which a person is included is input, the computer program comprising:
  • the learning method is By inputting a sample image in which a first sample person who is the same as the person to be matched and a second sample person different from the first sample person into the learning model as the person image, extracting a first sample feature amount that is a feature amount of a first sample person and a second sample feature amount that is a feature amount of the second sample person; a first loss function regarding the accuracy of a matching process that determines whether the first sample person reflected in the sample image is the same person as the person to be matched based on the first sample feature amount; and performing the machine learning using the second loss function related to the distance between the first and second sample features.
  • a recording medium on which a computer program for causing a computer to execute a person verification method is recorded The character learning method is By inputting a target image in which a target person is reflected as the person image to a learning model that can output feature values of the person when a person image in which the target person is reflected is input, the target person's features can be output.
  • the learning model is Inputting a sample image in which a first sample person who is the same as the second person to be verified and a second sample person different from the first sample person are included as the person image into the learning model. and extracting a first sample feature amount that is a feature amount of the first sample person and a second sample feature amount that is a feature amount of the second sample person; A first aspect regarding the accuracy of a matching process for determining whether or not the first sample person appearing in the sample image is the same person as the second person to be matched based on the first sample feature amount. and performing machine learning on the learning model using a loss function related to the distance between the first and second sample features. Medium.
  • a learning device, a learning method, a person verification device, a person verification method, and a recording medium that involve such changes are also included in the technical idea of this disclosure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

学習装置1000は、学習モデルLM機械学習を行う学習装置であって、被照合人物IP_Sと同一人物である第1のサンプル人物SP1及び第1のサンプル人物とは異なる第2のサンプル人物SP2が写り込んでいるサンプル画像SIを学習モデルに入力することで、第1のサンプル人物の第1のサンプル特徴量SF1と、第2のサンプル人物の第2のサンプル特徴量SF2とを抽出する抽出手段1001と、サンプル画像に写り込んでいる第1のサンプル人物が被照合人物と同一人物であるか否かを第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数Loss1と、第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数Loss2とを用いて、機械学習を行う学習手段1002とを備える。

Description

学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体
 この開示は、例えば、画像に写り込んでいる人物が特定の人物と同一人物である否かを判定する(つまり、照合する)ために用いられる学習モデルの機械学習を行うことが可能な学習装置、学習方法及び記録媒体、並びに、画像に写り込んでいる人物が特定の人物と同一人物である否かを判定可能な人物照合装置、人物照合方法及び記録媒体の技術分野に関する。
 画像に写り込んでいる人物が特定の人物と同一人物である否かを判定可能な人物照合装置の一例が、特許文献1に記載されている。その他、この開示に関連する先行技術文献として、特許文献2から特許文献5があげられる。
特開2021-144749号公報 特開2020-119154号公報 特開2020-052694号公報 特開2017-059207号公報 特開2019-056966号公報
 この開示は、先行技術文献に記載された技術の改良を目的とする学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体を提供することを課題とする。
 この開示の学習装置の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出する抽出手段と、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行う学習手段とを備える。
 この開示の人物照合装置の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段とを備え、前記学習モデルは、第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである
 人物照合装置。
 この開示の学習方法の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うこととを含む。
 この開示の人物方法の一の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することとを含み、前記学習モデルは、第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである
 人物照合方法。
 この開示の記録媒体の第1の態様は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、前記学習方法は、被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うこととを含む。
 この開示の記録媒体の第2の態様は、人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、前記人物照合方法は、人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することとを含み、前記学習モデルは、第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うこととを含む学習方法によって学習済みである。
図1は、第1実施形態における学習装置の構成を示すブロック図である。 図2は、第1実施形態における人物照合装置の変形例の構成を示すブロック図である。 図3は、第2実施形態における学習装置が行う学習動作を概念的に示す。 図4は、第2実施形態における人物照合装置が行う人物照合動作を概念的に示す。 図5は、第2実施形態における学習装置の構成を示すブロック図である。 図6は、学習データセットのデータ構造の一例を示すデータ構造図である。 図7(a)から図7(c)の夫々は、サンプル画像の一例を示す。 図8は、サンプル画像が切り出されるカメラ画像を示す。 図9は、人物画像が入力された学習モデルが出力する特徴マップを概念的に示す。 図10は、第2実施形態における学習装置が行う学習動作の流れを示すフローチャートである。 図11は、第2実施形態における人物照合装置の構成を示すブロック図である。 図12は、第2実施形態における人物照合装置が行う人物照合動作の流れを示すフローチャートである。
 以下、図面を参照しながら、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の実施形態について説明する。
 (1)第1実施形態
 初めに、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第1実施形態について説明する。以下では、図1及び図2を参照しながら、学習装置、学習方法及び記録媒体の第1実施形態が適用された学習装置1000と、人物照合装置、人物照合方法及び記録媒体の第1実施形態が適用された人物照合装置2000とを用いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第1実施形態について説明する。図1は、第1実施形態における学習装置1000の構成を示すブロック図である。図2は、第1実施形態における人物照合装置2000の構成を示すブロック図である。
 学習装置1000は、人物が写り込んでいる人物画像が入力された場合に、人物の特徴量を出力可能な学習モデルの機械学習を行う。学習モデルの機械学習を行うために、学習装置1000は、図1に示すように、後述する付記に記載された「抽出手段」の一具体例である抽出部1001と、後述する付記に記載された「学習手段」の一具体例である学習部1002とを備えている。
 抽出部1001は、第2の被照合人物と同一人物である第1のサンプル人物及び第1のサンプル人物とは異なる(つまり、第2の被照合人物とは異なる)第2のサンプル人物が写り込んでいるサンプル画像を、人物画像として学習モデルに入力する。その結果、学習モデルは、第1のサンプル人物の特徴量である第1のサンプル特徴量と、第2のサンプル人物の特徴量である第2のサンプル特徴量とを出力する。つまり、抽出部1001は、サンプル画像を学習モデルに入力することで、第1及び第2のサンプル特徴量を抽出する。
 学習部1002は、抽出部1001が抽出した第1及び第2のサンプル特徴量を用いて、学習モデルの機械学習を行う。具体的には、学習部1002は、第1の損失関数と、第2の損失関数とを用いて、学習モデルの機械学習を行う。第1の損失関数は、サンプル画像に写り込んでいる第1のサンプル人物が第2の被照合人物と同一人物であるか否かを第1のサンプル特徴量に基づいて判定する照合処理の精度に関する損失関数である。第2の損失関数は、第1及び第2のサンプル特徴量の間の距離に関する損失関数である。
 学習装置1000が機械学習を行うことで構築された学習モデル(つまり、学習装置1000によって学習済みの学習モデル)は、図2に示す人物照合装置2000によって使用されてもよい。人物照合装置2000は、学習モデルを用いて、対象画像に写り込んでいる対象人物が第1の被照合人物と同一人物であるか否かを判定する照合処理を行う。照合処理を行うために、人物照合装置2000は、図2に示すように、後述する付記に記載された「抽出手段」の一具体例である抽出部2001と、後述する付記に記載された「照合手段」の一具体例である照合部2002とを備えている。
 抽出部2001は、対象人物が写り込んでいる対象画像を、人物画像として学習モデルに入力する。その結果、学習モデルは、対象人物の特徴量である対象特徴量を出力する。つまり、抽出部2001は、対象画像を学習モデルに入力することで、対象特徴量を抽出する。
 照合部2002は、抽出部2001が抽出した対象特徴量に基づいて、対象画像に写り込んでいる対象人物が第1の被照合人物と同一人物であるか否かを判定する照合処理を行う。
 以上説明したように、第1実施形態における学習装置1000は、照合処理の精度に関する第1の損失関数を用いて、学習モデルの機械学習を行う。このため、第1の損失関数を用いることなく学習モデルの機械学習が行われる場合と比較して、学習装置1000は、第1及び第2のサンプル人物が一枚のサンプル画像に写り込んでいる状況下において、第1のサンプル人物が第2の被照合人物と同一人物であると判定されやすくなる(つまり、照合処理の精度が向上する)ように、機械学習を行うことが可能となる。その結果、学習装置1000によって構築された学習モデルを用いる人物照合装置2000は、一枚の対象画像に第1の被照合人物と同一人物である第1の対象人物に加えて、第1の対象人物とは異なる第2の対象人物が写り込んでいる場合であっても、第1の対象人物が第1の被照合人物と同一人物であると適切に判定することができる。
 加えて、第1実施形態における学習装置1000は、第1の損失関数に加えて、第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数を用いて、学習モデルの機械学習を行う。例えば、学習装置1000は、第1及び第2のサンプル特徴量の間の距離が長くなるように(つまり、第1及び第2のサンプル特徴量の間の類似度が低くなるように)、学習モデルの機械学習を行ってもよい。このため、第2の損失関数を用いることなく学習モデルの機械学習が行われる場合と比較して、学習装置1000は、第1及び第2のサンプル人物が一枚のサンプル画像に写り込んでいる状況下において、第2のサンプル人物が第2の被照合人物と同一人物であると誤判定されにくくなる(つまり、照合処理の精度が向上する)ように、機械学習を行うことが可能となる。その結果、学習装置1000によって構築された学習モデルを用いる人物照合装置2000は、第1及び第2の対象人物が一枚の対象画像に写り込んでいる場合であっても、第2の対象人物が第1の被照合人物と同一人物であると誤判定する可能性が低くなる。
 このように、学習装置1000は、一枚の対象画像に第1及び第2の対象人物が写り込んでいる状況下において、第1の対象人物が第1の被照合人物と同一人物であると人物照合装置2000によって適切に判定されると共に、第2の対象人物が第1の被照合人物と同一人物であると誤判定されなくなるように、学習モデルの機械学習を行うことができる。その結果、人物照合装置2000は、一枚の対象画像に第1及び第2の対象人物が写り込んでいる状況下において、第1の対象人物が第1の被照合人物と同一人物であると適切に判定することができる。
 (2)第2実施形態
 続いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第2実施形態について説明する。以下では、学習装置、学習方法及び記録媒体の第2実施形態が適用された学習装置1と、人物照合装置、人物照合方法及び記録媒体の第2実施形態が適用された人物照合装置2とを用いて、学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体の第2実施形態について説明する。
 学習装置1は、学習可能な学習モデルLMの機械学習を行うための学習動作を行う。学習モデルLMは、人物が写り込んでいる人物画像が入力された場合に、人物の特徴量を出力可能なモデルである。学習モデルLMは、例えば、ニューラルネットワークを含む学習モデルであってもよい。
 学習動作を行うために、学習装置1は、図3に示すように、人物画像の一具体例であるサンプル画像SIを学習モデルLMに入力する。サンプル画像SIは、例えば、被照合人物IP_Sと同一人物であるサンプル人物SP及び被照合人物IP_Sとは同一人物でないサンプル人物SPが写り込んでいる画像である。その結果、学習モデルLMは、複数のサンプル人物SPの特徴量である複数のサンプル特徴量SFを出力する。学習装置1は、この複数のサンプル特徴量SFを用いて、学習モデルLMの機械学習を行う。尚、以下の説明では、必要に応じて、被照合人物IP_Sと同一人物であるサンプル人物SPを、“サンプル人物SP1”と称し、被照合人物IP_Sと同一人物でないサンプル人物SPを、“サンプル人物SP2”と称し、サンプル人物SP1のサンプル特徴量SFを、“サンプル特徴量SF1”と称し、サンプル人物SP2のサンプル特徴量SFを、“サンプル特徴量SF2”と称する。
 一方で、人物照合装置2は、学習モデルLMを用いて、人物画像に写り込んでいる人物が特定の人物と同一人物であるか否かを判定する人物照合動作を行う。人物照合装置2が用いる学習モデルLMは、学習装置1によって構築された学習モデルLM(つまり、学習装置1が行う機械学習によって構築された学習モデルLM)である。つまり、人物照合装置2が用いる学習モデルLMは、学習装置1によって学習済みの学習モデルLMである。
 人物照合動作を行うために、人物照合装置2は、図4に示すように、人物画像の一具体例である対象画像TIを学習モデルLMに入力する。対象画像TIは、対象人物TPが写り込んでいる画像である。対象画像TIには、複数の対象人物TPが写り込んでいてもよい。その結果、学習モデルLMは、対象人物TPの特徴量である対象特徴量TFを出力する。人物照合装置2は、対象特徴量TFを用いて、対象画像TIに写り込んでいる対象人物TPが被照合人物IP_Tと同一人物であるか否かを判定する。つまり、人物照合装置2は、この対象特徴量TFを用いて、対象画像TIに写り込んでいる対象人物TPと同一人物である被照合人物IP_Tを同定する。
 以下、学習装置1と人物照合装置2とについて、順に説明する。
 (2-1)第2実施形態における学習装置1
 初めに、第2実施形態における学習装置1について説明する。
 (2-1-1)学習装置の構成
 初めに、図5を参照しながら、第2実施形態における学習装置1について説明する。図3は、第2実施形態における学習装置1の構成を示すブロック図である。
 図5に示すように、学習装置1は、演算装置11と、記憶装置12とを備えている。更に、学習装置1は、通信装置13と、入力装置14と、出力装置15とを備えていてもよい。但し、学習装置1は、通信装置13、入力装置14及び出力装置15のうちの少なくとも一つを備えていなくてもよい。演算装置11と、記憶装置12と、通信装置13と、入力装置14と、出力装置15とは、データバス16を介して接続されていてもよい。
 演算装置11は、例えば、CPU(Central Processing Unit)、GPU(Graphics Proecssing Unit)及びFPGA(Field Programmable Gate Array)のうちの少なくとも一つを含む。演算装置11は、コンピュータプログラムを読み込む。例えば、演算装置11は、記憶装置12が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置11は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、学習装置1が備える図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置11は、通信装置13(或いは、その他の通信装置)を介して、学習装置1の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置11は、読み込んだコンピュータプログラムを実行する。その結果、演算装置11内には、学習装置1が行うべき動作(例えば、上述した学習動作)を行うための論理的な機能ブロックが実現される。つまり、演算装置11は、学習装置1が行うべき動作を行うための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
 図5には、学習動作を行うために演算装置11内に実現される論理的な機能ブロックの一例が示されている。図3に示すように、演算装置11内には、後述する付記に記載された「抽出手段」の一具体例である特徴抽出部111と、後述する付記に記載された「学習手段」の一具体例である学習部112とが実現される。尚、特徴抽出部111及び学習部112の夫々の動作については後に詳述するが、その概要についてここに簡単に説明する。特徴抽出部111は、サンプル画像SIを学習モデルLMに入力することで、サンプル画像SIに写り込んでいるサンプル人物SPのサンプル特徴量SFを抽出する。学習部112は、特徴抽出部111が抽出したサンプル特徴量SFに基づいて、学習モデルLMの機械学習を行う。
 記憶装置12は、所望のデータを記憶可能である。例えば、記憶装置12は、演算装置11が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置12は、演算装置11がコンピュータプログラムを実行している場合に演算装置11が一時的に使用するデータを一時的に記憶してもよい。記憶装置12は、学習装置1が長期的に保存するデータを記憶してもよい。尚、記憶装置12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置12は、一時的でない記録媒体を含んでいてもよい。
 第2実施形態では特に、記憶装置12は、機械学習の対象となる学習モデルLMを記憶可能であってもよい。
 更に、記憶装置12は、機械学習に用いられるサンプル画像SIを含む学習データセット121を記憶可能であってもよい。学習データセット121のデータ構造の一例が、図6に示されている。図6に示すように、学習データセット121は、複数の単位学習データ1210を含んでいてもよい。
 各単位学習データ1210は、上述したサンプル画像SIを含んでいてもよい。サンプル画像SIには、サンプル画像SIに対応する被照合人物IP_Sと同一人物である一人のサンプル人物SP1が少なくとも写り込んでいる画像である。この場合、複数の単位学習データ1210のうち少なくとも一つは、図7(a)に示すように、一人のサンプル人物SP1が写り込んでいる一方で、被照合人物IP_Sと同一人物でないサンプル人物SP2が写り込んでいないサンプル画像SIを含んでいてもよい。複数の単位学習データ1210のうち少なくとも一つは、図7(b)に示すように、一人のサンプル人物SP1に加えて、サンプル人物SP2が写り込んでいるサンプル画像SIを含んでいてもよい。尚、図7(b)は、一人のサンプル人物SP1と一人のサンプル人物SP2とが写り込んでいるサンプル画像SIを示している。しかしながら、複数の単位学習データ1210のうち少なくとも一つは、図7(c)に示すように、一人のサンプル人物SP1と複数のサンプル人物SP2とが写り込んでいるサンプル画像SIを含んでいてもよい。
 サンプル画像SIは、図8に示すように、カメラが撮像したカメラ画像CIに対して、当該カメラ画像CIに写り込んだ撮像人物CPを検出するための物体検出処理(言い換えれば、人物検出処理)を行い、且つ、物体検出処理によって検出された撮像人物CPをカメラ画像CIから切り出すことで生成される画像であってもよい。物体検出処理は、カメラ画像CIに写り込んだ撮像人物CPを少なくとも部分的に取り囲むバウンディングボックスBaの単位で、撮像人物CPを検出する処理であってもよい。この場合、サンプル画像SIは、カメラ画像CIからバウンディングボックスBaに含まれる画像部分を切り出すことで生成される画像であってもよい。この場合、バウンディングボックスBaによって囲まれた人物CP(つまり、バウンディングボックスBaの単位で特定された撮像人物CP)は、カメラ画像CIからバウンディングボックスBaに含まれる画像部分を切り出すことで生成されるサンプル画像SIにおける被照合人物IP_S及びサンプル人物SP1となる。一方で、バウンディングボックスBa内には、物体検出処理によって検出された撮像人物CPとは異なる撮像人物CPが含まれる可能性がある。例えば、カメラ画像CIに少なくとも部分的に重なり合った複数の撮像人物CPが写り込んでいる場合には、複数の撮像人物CPのうちの一の撮像人物CPを取り囲むバウンディングボックスBa内には、複数の撮像人物CPのうちの一の撮像人物CPとは異なる他の撮像人物CPが含まれる可能性がある。この場合、物体検出処理によって検出された撮像人物CPとは異なる撮像人物CPは、カメラ画像CIからバウンディングボックスBaに含まれる画像部分を切り出すことで生成されるサンプル画像SIにおけるサンプル人物SP2となる。
 図8に示す例では、撮像画像CI内において撮像人物CP#1と撮像人物CP#2とが部分的に重なっており、撮像人物CP#1を取り囲むバウンディングボックスBa#1内に撮像人物CP#2が含まれ、撮像人物CP#2を取り囲むバウンディングボックスBa#2内に撮像人物CP#1が含まれている。この場合、カメラ画像CIからバウンディングボックスBa#1に含まれる画像部分を切り出すことで生成されるサンプル画像SIにおいて、撮像人物CP#1が被照合人物IP_S及びサンプル人物SP1となり、撮像人物CP#2がサンプル人物SP2となる。また、カメラ画像CIからバウンディングボックスBa#2に含まれる画像部分を切り出すことで生成されるサンプル画像SIにおいて、撮像人物CP#2が被照合人物IP_S及びサンプル人物SP1となり、撮像人物CP#1がサンプル人物SP2となる。
 再び図6において、各単位学習データ1210は更に、正解ラベル1212を含んでいてもよい。正解ラベル1212は、人物識別ラベル1213と、人物位置ラベル1214とを含んでいてもよい。
 人物識別ラベル1213は、サンプル画像SIに写り込んでいるサンプル人物SP1と同一人物であると判定されるべき被照合人物IP_Sを特定可能な識別情報(例えば、人物ID)である。例えば、「A」という被照合人物IP_Sと同一人物であるサンプル人物SP1が写り込んだサンプル画像SIを含む単位学習データ1210は、「A」という被照合人物IP_Sを特定可能な識別情報を、人物識別ラベル1213として含んでいてもよい。
 人物位置ラベル1214は、サンプル画像SIに写り込んでいるサンプル人物SPの位置を示す情報である。具体的には、第2実施形態では、人物画像(この場合、サンプル画像SI)が入力された学習モデルLMは、図9に示すように、人物画像の特徴量がマッピングされた特徴マップMPと、当該特徴マップMPのうち人物画像に写り込んでいる人物に対応するマップ領域MAの位置を示すマップ位置情報とを出力する。言い換えれば、学習モデルLMは、特徴マップMPと、特徴マップMPのうちの人物画像に写り込んでいる人物の特徴量を含むマップ領域MAの位置を示すマップ位置情報を出力する。以下の説明では、図9に示すように、マップ位置情報が、マップ領域MAを取り囲むバウンディングボックスBbを用いてマップ領域MAの位置を示す例について説明する。この場合、人物位置ラベル1214は、人物位置ラベル1214に対応するサンプル画像SIが学習モデルLMに入力された場合に学習モデルLMが出力するべきバウンディングボックスBb(つまり、学習モデルLMが出力するべきマップ領域MAの位置)を示す。
 上述したように、サンプル画像SIには、複数のサンプル人物SPが写り込んでいる可能性がある。この場合、サンプル画像SIが入力された学習モデルLMは、特徴マップMPのうちの複数のサンプル人物SPの特徴量を夫々含む複数のマップ領域MAの位置を夫々示す複数のバウンディングボックスBbを出力する。この場合、このサンプル画像SIを含む単位学習データ1210は、学習モデルLMが出力するべき複数のバウンディングボックスBbを夫々示す複数の人物位置ラベル1214を含んでいてもよい。図9に示す例では、三人のサンプル人物SPが写り込んだサンプル画像SIが学習モデルLMに入力された場合に、特徴マップMPのうちの三人のサンプル人物SPの特徴量を夫々含む三つのマップ領域MAの位置を夫々示す三つのバウンディングボックスBbが出力されている。この場合、このサンプル画像SIを含む単位学習データ1210は、学習モデルLMが出力するべき三つのバウンディングボックスBbを夫々示す三つの人物位置ラベル1214を含んでいてもよい。
 再び図5において、通信装置13は、学習装置1の外部の装置と通信可能である。例えば、通信装置13は、人物照合装置2と通信可能であってもよい。この場合、学習装置1は、通信装置13を介して、機械学習によって構築した学習モデルLMを、人物照合装置2に送信(つまり、出力)してもよい。
 入力装置14は、学習装置1の外部からの学習装置1に対する情報の入力を受け付ける装置である。例えば、入力装置14は、学習装置1のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ)を含んでいてもよい。例えば、入力装置14は、学習装置1に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
 出力装置15は、学習装置1の外部に対して情報を出力する装置である。例えば、出力装置15は、情報を画像として出力してもよい。つまり、出力装置15は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置15は、情報を音声として出力してもよい。つまり、出力装置15は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置15は、紙面に情報を出力してもよい。つまり、出力装置15は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
 (2-1-2)学習装置1が行う学習動作
 続いて、図10を参照しながら、第2実施形態における学習装置1が行う学習動作について説明する。図10は、第2実施形態における学習装置1が行う学習動作の流れを示すフローチャートである。
 図10に示すように、特徴抽出部111は、サンプル画像SIからサンプル特徴量SFを抽出する(ステップS101)。具体的には、特徴抽出部111は、学習データセット121に含まれる一つのサンプル画像SIを、学習モデルLMに入力する。その結果、学習モデルLMは、サンプル画像SIに写り込んでいるサンプル人物SPのサンプル特徴量SFを出力する。具体的には、上述したように、サンプル画像SIが学習モデルLMに入力されると、学習モデルLMは、特徴マップMPと、特徴マップMPのうちのサンプル人物SPの特徴量を含むマップ領域MAの位置を示すバウンディングボックスBbを出力する。この場合、特徴抽出部111は、特徴マップMPのうちのバウンディングボックスBbによって囲まれたマップ領域MAを用いて、サンプル特徴量SFを抽出してもよい。例えば、特徴抽出部111は、マップ領域MAに含まれる特徴量を表す一次元又は多次元のベクトルを、サンプル特徴量として抽出してもよい。例えば、特徴抽出部111は、マップ領域MAに含まれる特徴量の演算値又は統計値(例えば、平均値)を表す一次元又は多次元のベクトルを、サンプル特徴量として抽出してもよい。この場合、学習モデルLMは、特徴マップMPとバウンディングボックスBbとを出力することで、特徴マップMP及びバウンディングボックスBbに基づいて抽出可能なサンプル特徴量SFを実質的に出力しているとみなしてもよい。
 上述したように、サンプル画像SIには、複数のサンプル人物SPが写り込んでいる可能性がある。この場合、サンプル画像SIが入力された学習モデルLMは、特徴マップMPのうちの複数のサンプル人物SPの特徴量を夫々含む複数のマップ領域MAの位置を夫々示す複数のバウンディングボックスBbを出力する。特徴抽出部111は、各サンプル人物SPに対応するマップ領域MAを用いて、各サンプル人物SPのサンプル特徴量SFを抽出してもよい。例えば、サンプル画像SIに一人のサンプル人物SP1が写り込んでいる場合には、特徴抽出部111は、サンプル人物SP1に対応するマップ領域MAを用いて、サンプル人物SP1のサンプル特徴量SF1を抽出してもよい。例えば、サンプル画像SIに一人のサンプル人物SP2が写り込んでいる場合には、特徴抽出部111は、サンプル人物SP2に対応するマップ領域MAを用いて、サンプル人物SP2のサンプル特徴量SF1を抽出してもよい。例えば、サンプル画像SIに複数のサンプル人物SP2が写り込んでいる場合には、特徴抽出部111は、複数のサンプル人物SP2のうちの一のサンプル人物SP2に対応する一のマップ領域MAを用いて、一のサンプル人物SP2のサンプル特徴量SF1を抽出してもよい。
 以降、特徴抽出部111は、ステップS101のサンプル特徴量SFを抽出する処理を、必要な枚数のサンプル画像SIからサンプル特徴量SFが抽出されるまで繰り返す(ステップS102)。
 その後、学習部112は、ステップS101で抽出されたサンプル特徴量SFに基づいて、照合損失関数Loss1と、距離損失関数Loss2とを算出する(ステップS103)。
 照合損失関数Loss1は、サンプル画像SIに写り込んでいるサンプル人物SP1(つまり、被照合人物IP_Sと同一人物であると判定されるべきサンプル人物SP1)が被照合人物IP_Sと同一人物であるか否かを、ステップS101で抽出されたサンプル特徴量SFに基づいて判定する照合処理の精度に関する損失関数である。典型的には、照合損失関数Loss1は、照合処理の精度が高くなるほど小さくなる損失関数であってもよい。
 照合損失関数Loss1を算出するために、学習部112は、サンプル画像SIに写り込んでいるサンプル人物SP1が、当該サンプル画像SIにおける被照合人物IP_Sと同一人物であるか否かを、サンプル特徴量SFに基づいて判定する照合処理を行う。具体的には、学習部112は、一のサンプル画像SIに写り込んでいるサンプル人物SP1が、当該一のサンプル画像SIにおける被照合人物IP_Sと同一人物であるか否かを、当該一のサンプル画像SIから抽出されたサンプル特徴量SFに基づいて判定する照合処理を行う。その後、学習部112は、一のサンプル画像SIを用いた照合処理の結果と、当該一のサンプル画像SIに対応する人物識別ラベル1213との誤差を算出する。誤差の一例として、二乗誤差及び交差エントロピーの少なくとも一つがあげられるが、誤差がこの例に限定されることはない。一のサンプル画像SIを用いた照合処理の精度が高ければ高いほど、当該照合処理によって、一のサンプル画像SIに写り込んでいるサンプル人物SP1が、当該一のサンプル画像SIに対応する人物識別ラベル1213が示す被照合人物IP_Sと同一人物であると判定される確率が高くなる。その結果、照合処理の結果と人物識別ラベル1213との誤差は小さくなる。一方で、一のサンプル画像SIを用いた照合処理の精度が低ければ低いほど、当該照合処理によって、一のサンプル画像SIに写り込んでいるサンプル人物SP1が、当該一のサンプル画像SIに対応する人物識別ラベル1213が示す被照合人物IP_Sと同一人物であると判定される確率が低くなる。その結果、照合処理の結果と人物識別ラベル1213との誤差は大きくなる。学習部112は、同様の処理を、学習モデルLMに入力されたサンプル画像SIの数だけ繰り返す。その後、学習部112は、算出された複数の誤差の総和(或いは、任意の演算値又は統計値)を、照合損失関数Loss1として算出してもよい。
 一例として、学習部112は、一のサンプル画像SIからステップS101で抽出されたサンプル特徴量SFを、クラス分類器に入力してもよい。一のサンプル画像SIに複数のサンプル人物SPが写り込んでいることに起因してステップS101で複数のサンプル特徴量SFが抽出された場合には、学習部112は、一のサンプル画像SIから抽出された複数のサンプル特徴量SFを、クラス分類器に入力してもよい。或いは、学習部112は、一のサンプル画像SIから抽出された複数のサンプル特徴量SFの一部を選択的に、クラス分類器に入力してもよい。クラス分類器は、人物画像から抽出された特徴量が入力された場合に、当該人物画像に写り込んでいる人物のクラスの分類結果を確率分布として出力可能である。このようなクラス分類器の一例として、入力される特徴量を一つのノードに結合する全結合層と、全結合層の出力を、softmax関数を用いて、人物画像に写り込んでいる人物が複数のクラスに夫々分類される複数の確率を含む確率分布に変換する出力層とを含むクラス分類器があげられる。この場合、サンプル特徴量SFが入力されたクラス分類器は、サンプル画像SIに写り込んでいるサンプル人物SP1が複数の異なる被照合人物IP_Sの夫々と同一人物である確率を示す確率分布を出力する。学習部112は、同様の処理を、サンプル特徴量SFが抽出されたサンプル画像SIの数だけ繰り返す。その後、学習部112は、算出された複数の確率分布に基づいて、照合損失関数Loss1を算出してもよい。この場合、照合損失関数Loss1として、softmax lossに基づく損失関数が用いられてもよい。或いは、人物識別ラベル1213が、一のサンプル画像SIに写り込んでいるサンプル人物SP1と同一人物であると判定されるべき被照合人物IP_Sを確率分布で示す場合には、照合損失関数Loss1として、交差エントロピーに基づく損失関数が用いられてもよい。
 このように算出される照合損失関数Loss1は、照合処理の精度が高くなればなるほど小さくなる損失関数である。つまり、照合損失関数Loss1は、照合処理によってサンプル人物SP1が被照合人物IP_Sと同一人物であると判定される確率が高くなればなるほど小さくなる損失関数である。
 一方で、距離損失関数Loss2は、被照合人物IP_Sと同一人物であると判定されるべきサンプル人物SP1のサンプル特徴量SF1と、被照合人物IP_Sと同一人物であると判定されるべきでないサンプル人物SP2のサンプル特徴量SF2との間の距離に関する損失関数である。このため、学習部112は、サンプル人物SP1及びSP2の双方が写り込んでいるサンプル画像SIから抽出されたサンプル特徴量SF1及びSF2を用いて、距離損失関数Loss2を算出する。学習部112は、サンプル人物SP1が写り込んでいる一方でサンプル人物SP2が写り込んでいないサンプル画像SIから抽出されたサンプル特徴量SF1を用いることなく、距離損失関数Loss2を算出してもよい。
 距離損失関数Loss2を算出するために、学習部112は、サンプル人物SP1及びSP2の双方が写り込んでいる一のサンプル画像SIから抽出されたサンプル特徴量SF1及びSF2の間の距離を算出する。サンプル特徴量SF1及びSF2の間の距離は、サンプル特徴量SFのベクトル空間内でのサンプル特徴量SF1及びSF2の間の距離を意味していてもよい。距離として、ユークリッド距離が用いられてもよいし、その他の種類の距離(例えば、マハラノビス距離、チェックシートシェフ距離及びマンハッタン距離のうちの少なくとも一つ)が用いられてもよい。学習部112は、サンプル特徴量SF1及びSF2の間の距離を算出する処理を、サンプル特徴量SF1及びSF2の双方が抽出されたサンプル画像SIの数だけ繰り返す。その後、学習部112は、算出された複数の距離に基づいて、距離損失関数Loss2を算出してもよい。例えば、学習部112は、算出された複数の距離に基づいて、複数の距離が長くなるほど小さくなる距離損失関数Loss2を算出してもよい。例えば、学習部112は、算出された複数の距離の夫々が所定のマージン距離に近づくほど小さくなる距離損失関数Loss2(例えば、Contrastive Lossのinter-classサンプル用の損失項)を算出してもよい。
 尚、サンプル特徴量SF1及びSF2の間の距離が長くなるほど、サンプル特徴量SF1及びSF2の間の類似度が低くなる。言い換えれば、サンプル特徴量SF1及びSF2の間の距離が短くなるほど、サンプル特徴量SF1及びSF2の間の類似度が高くなる。このため、サンプル特徴量SF1及びSF2の間の距離は、サンプル特徴量SF1及びSF2の間の類似度と等価であるとみなしてもよい。
 その後、学習部112は、ステップS103で算出した照合損失関数Loss1及び距離損失関数Loss2を統合することで、統合損失関数Lossを算出する(ステップS104)。統合損失関数Lossは、照合損失関数Loss1及び距離損失関数Loss2の双方が反映された損失関数である限りは、どのような損失関数であってもよい。例えば、学習部112は、照合損失関数Loss1及び距離損失関数Loss2を加算することで、統合損失関数Lossを算出してもよい。例えば、学習部112は、夫々に重みづけ係数をかけ合わせた照合損失関数Loss1及び距離損失関数Loss2を加算することで、統合損失関数Lossを算出してもよい。
 その後、学習部112は、ステップS104で算出した統合損失関数Lossが小さくなる(好ましくは、最小になる)ように、学習モデルLMの機械学習を行う(ステップS105)。例えば、学習モデルLMがニューラルネットワークを含む場合には、学習部112は、ニューラルネットワークのパラメータ(例えば、重み及びバイアスの少なくとも一つ)を更新してもよい。
 その後、学習部112は、ステップS105における学習モデルLMの機械学習が必要回数(例えば、設定されたエポック数に相当する回数)行われるまで、ステップS101からステップS105までの処理を繰り返してもよい(ステップS106)。
 (2-2)第2実施形態における人物照合装置2
 続いて、第2実施形態における人物照合装置2について説明する。
 (2-2-1)人物照合装置2の構成
 初めに、図11を参照しながら、第2実施形態における人物照合装置2について説明する。図11は、第2実施形態における人物照合装置2の構成を示すブロック図である。
 図3に示すように、人物照合装置2は、演算装置21と、記憶装置22とを備えている。更に、人物照合装置2は、通信装置23と、入力装置24と、出力装置25とを備えていてもよい。但し、人物照合装置2は、通信装置23、入力装置24及び出力装置25のうちの少なくとも一つを備えていなくてもよい。演算装置21と、記憶装置22と、通信装置23と、入力装置24と、出力装置25とは、データバス26を介して接続されていてもよい。
 演算装置21は、例えば、CPU、GPU及びFPGAのうちの少なくとも一つを含む。演算装置21は、コンピュータプログラムを読み込む。例えば、演算装置21は、記憶装置22が記憶しているコンピュータプログラムを読み込んでもよい。例えば、演算装置21は、コンピュータで読み取り可能であって且つ一時的でない記録媒体が記憶しているコンピュータプログラムを、人物照合装置2が備える図示しない記録媒体読み取り装置を用いて読み込んでもよい。演算装置21は、通信装置23(或いは、その他の通信装置)を介して、人物照合装置2の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、ダウンロードしてもよい又は読み込んでもよい)。演算装置21は、読み込んだコンピュータプログラムを実行する。その結果、演算装置21内には、人物照合装置2が行うべき動作(例えば、上述した人物照合動作)を行うための論理的な機能ブロックが実現される。つまり、演算装置21は、人物照合装置2が行うべき動作を行うための論理的な機能ブロックを実現するためのコントローラとして機能可能である。
 図11には、人物照合動作を行うために演算装置21内に実現される論理的な機能ブロックの一例が示されている。図11に示すように、演算装置21内には、画像生成部211と、後述する付記に記載された「抽出手段」の一具体例である特徴抽出部212と、後述する付記に記載された「照合手段」の一具体例である照合部213とが実現される。尚、画像生成部211、特徴抽出部212及び照合部213の夫々の動作については後に詳述するが、その概要についてここに簡単に説明する。画像生成部211は、対象画像TIを生成する。特徴抽出部212は、ターゲット画像TIを学習モデルLMに入力することで、対象画像TIに写り込んでいるターゲット人物TPのターゲット特徴量TFを抽出する。照合部213は、特徴抽出部212が抽出したターゲット特徴量TFに基づいて、対象画像TIに写り込んでいる対象人物TPが被照合人物IP_Tと同一人物であるか否かを判定する照合処理を行う。
 記憶装置22は、所望のデータを記憶可能である。例えば、記憶装置22は、演算装置21が実行するコンピュータプログラムを一時的に記憶していてもよい。記憶装置22は、演算装置21がコンピュータプログラムを実行している場合に演算装置21が一時的に使用するデータを一時的に記憶してもよい。記憶装置22は、人物照合装置2が長期的に保存するデータを記憶してもよい。尚、記憶装置22は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。つまり、記憶装置22は、一時的でない記録媒体を含んでいてもよい。
 第2実施形態では特に、記憶装置22は、学習装置1によって構築された(つまり、学習装置1が行う機械学習によって構築された)学習モデルLMを記憶可能であってもよい。
 通信装置23は、人物照合装置2の外部の装置と通信可能である。例えば、通信装置23は、学習装置1と通信可能であってもよい。この場合、人物照合装置2は、通信装置23を介して、学習装置1によって構築された学習モデルLMを、学習装置1から受信(つまり、取得)してもよい。
 入力装置24は、人物照合装置2の外部からの人物照合装置2に対する情報の入力を受け付ける装置である。例えば、入力装置24は、人物照合装置2のオペレータが操作可能な操作装置(例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つ)を含んでいてもよい。例えば、入力装置24は、人物照合装置2に対して外付け可能な記録媒体にデータとして記録されている情報を読み取り可能な読取装置を含んでいてもよい。
 出力装置25は、人物照合装置2の外部に対して情報を出力する装置である。例えば、出力装置25は、情報を画像として出力してもよい。つまり、出力装置25は、出力したい情報を示す画像を表示可能な表示装置(いわゆる、ディスプレイ)を含んでいてもよい。例えば、出力装置25は、情報を音声として出力してもよい。つまり、出力装置25は、音声を出力可能な音声装置(いわゆる、スピーカ)を含んでいてもよい。例えば、出力装置25は、紙面に情報を出力してもよい。つまり、出力装置25は、紙面に所望の情報を印刷可能な印刷装置(いわゆる、プリンタ)を含んでいてもよい。
 (2-2-2)人物照合装置2が行う人物照合動作
 続いて、図12を参照しながら、第2実施形態における人物照合装置2が行う人物照合動作について説明する。図12は、第2実施形態における人物照合装置2が行う人物照合動作の流れを示すフローチャートである。
 図12に示すように、画像生成部211は、対象画像TIを生成する(ステップS201)。例えば、画像生成部211は、上述した学習動作において用いられるサンプル画像SIを生成する方法と同様の方法で、対象画像TIを生成してもよい。具体的には、例えば、画像生成部211は、対象画像TIを生成するためのカメラが撮像したカメラ画像を取得してもよい。その後、画像生成部211は、取得したカメラ画像に対して、当該カメラ画像に写り込んだ撮像人物を検出するための物体検出処理を行ってもよい。その後、画像生成部211は、物体検出処理によって検出された撮像人物をカメラ画像から切り出すことで、切り出された撮像人物が写り込んだターゲット画像TIを生成してもよい。
 図7(a)に示すサンプル画像SIと同様に、対象画像TIには、一人の対象人物TPが写り込んでいてもよい。図7(b)及び図7(c)の夫々に示すサンプル画像SIと同様に、対象画像TIには、複数の対象人物TPが写り込んでいてもよい。
 尚、対象画像TIが予め生成されている場合には、画像生成部211は、対象画像TIを生成しなくてもよい。例えば、カメラ画像そのものが、対象画像TIとして用いられてもよい。この場合、人物照合装置2は、画像生成部211を備えていなくてもよい。
 その後、特徴抽出部212は、ステップS201で生成された対象画像TIから対象特徴量TFを抽出する(ステップS202)。具体的には、特徴抽出部212は、対象画像TIを、学習モデルLMに入力する。その結果、学習モデルLMは、対象画像TIに写り込んでいる対象人物TPの対象特徴量TFを出力する。尚、ステップS202において特徴抽出部212が対象画像TIから対象特徴量TFを抽出する動作は、上述した図10のステップS101において特徴抽出部111がサンプル画像SIからサンプル特徴量SFを抽出する動作と同様の動作であってもよい。このため、ステップS202において特徴抽出部212が対象画像TIから対象特徴量TFを抽出する動作の詳細な説明は省略する。
 その後、照合部213は、対象画像TIに写り込んでいる対象人物TPが被照合人物IP_Tと同一人物であるか否かを、ステップS202において抽出された対象特徴量TFに基づいて判定する照合処理を行う(ステップS203)。具体的には、照合部213は、対象画像TIに写り込んでいる対象人物TPが、複数の異なる被照合人物IP_Tの夫々と同一人物であるか否かを、対象特徴量TFに基づいて判定する照合処理を行う。つまり、照合部213は、ステップS202において抽出された対象特徴量TFに基づいて、複数の異なる被照合人物IP_Tの中から、対象画像TIに写り込んでいる対象人物TPと同一人物である被照合人物IP_Tを同定する照合処理を行う。
 例えば、照合部213は、ステップS202において抽出された対象特徴量TFと、複数の異なる被照合人物IP_Tの夫々の特徴量である被照合特徴量と比較することで、対象画像TIに写り込んでいる対象人物TPと複数の異なる被照合人物IP_Tの夫々との類似度を算出する。複数の異なる被照合人物IP_Tの夫々の特徴量である被照合特徴量は、記憶装置22に予め記憶されていてもよい。その後、照合部213は、対象画像TIに写り込んでいる対象人物TPが、複数の異なる被照合人物IP_Tのうちの類似度が最も高い一人の被照合人物IP_Tと同一人物であると判定してもよい。
 上述したように、対象画像TIには複数の対象人物TPが写り込む可能性がある。この場合には、特徴抽出部212は、ステップS202において、複数の対象人物TPの夫々の対象特徴量TFを算出する。照合部213は、ステップS202において抽出された複数の対象特徴量TFの夫々と、複数の異なる被照合人物IP_Tの夫々の被照合特徴量と比較することで、対象画像TIに写り込んでいる複数の対象人物TPの夫々と複数の異なる被照合人物IP_Tの夫々との類似度を算出してもよい。その後、対象画像TIに写り込んでいる複数の対象人物TPのうちの一の対象人物TPと複数の異なる被照合人物IP_Tのうちの一の被照合人物IP_Tとの間の類似度が最も高くなった場合には、照合部213は、対象画像TIに写り込んでいる一の対象人物TPが、一の被照合人物IP_Tと同一人物であると判定してもよい。
 (2-3)技術的効果
 以上説明したように、第2実施形態における学習装置1は、照合処理の精度に関する照合損失関数Loss1を用いて、学習モデルLMの機械学習を行う。このため、照合損失関数Loss1を用いることなく学習モデルLMの機械学習が行われる場合と比較して、学習装置1は、サンプル人物SP1及びSP2が一枚のサンプル画像SIに写り込んでいる状況下において、被照合人物IP_Sと同一人物であるサンプル人物SP1が被照合人物IP_Sと同一人物であると判定されやすくなる(つまり、照合処理の精度が向上する)ように、機械学習を行うことが可能となる。その結果、学習装置1によって構築された学習モデルLMを用いる人物照合装置2は、一枚の対象画像TIに被照合人物IP_Tと同一人物である第1の対象人物TPに加えて、被照合人物IP_Tとは異なる第2の対象人物TPが写り込んでいる場合であっても、第1の対象人物TPが被照合人物IP_Tと同一人物であると適切に判定することができる。つまり、人物照合装置2は、一枚の対象画像TIに複数の対象人物TPが写り込んでいる場合であっても、複数の異なる被照合人物IP_Tの中から、複数の対象人物TPのうちの一の対象人物と同一人物である一の被照合人物IP_Tを適切に同定することができる。
 加えて、第2実施形態における学習装置1は、照合損失関数Loss1に加えて、距離損失関数Loss2を用いて、学習モデルLMの機械学習を行う。例えば、学習装置1は、サンプル特徴量SF1及びSF2の間の距離が長くなるように(つまり、サンプル特徴量SF1及びSF2の間の類似度が低くなるように)、学習モデルLMの機械学習を行ってもよい。このため、距離損失関数Loss2を用いることなく学習モデルLMの機械学習が行われる場合と比較して、学習装置1は、サンプル人物SP1及びSP2が一枚のサンプル画像SIに写り込んでいる状況下において、被照合人物IP_Sと同一人物でないサンプル人物SP2が被照合人物IP_Sと同一人物であると誤判定されにくくなる(つまり、照合処理の精度が向上する)ように、機械学習を行うことが可能となる。その結果、学習装置1によって構築された学習モデルを用いる人物照合装置2は、一枚の対象画像TIに被照合人物IP_Tと同一人物である第1の対象人物TPに加えて、被照合人物IP_Tとは異なる第2の対象人物TPが写り込んでいる場合であっても、第2の対象人物TPが被照合人物被照合人物IP_Tと同一人物であると誤判定する可能性が低くなる。
 このように、学習装置1は、一枚の対象画像TIに被照合人物IP_Tと同一人物である第1の対象人物TPに加えて被照合人物IP_Tとは異なる第2の対象人物TPが写り込んでいる状況下において、第1の対象人物TPが被照合人物IP_Tと同一人物であると人物照合装置2によって適切に判定されると共に、第2の対象人物TPが被照合人物IP_Tと同一人物であると誤判定されなくなるように、学習モデルLMの機械学習を行うことができる。その結果、人物照合装置2は、一枚の対象画像TIに被照合人物IP_Tと同一人物である第1の対象人物TPに加えて被照合人物IP_Tとは異なる第2の対象人物TPが写り込んでいる状況下において、第1の対象人物TPが被照合人物IP_Tと同一人物であると適切に判定することができる。
 特に、照合損失関数Loss1及び距離損失関数Loss2の双方を用いて学習モデルLMの機械学習が行われる第1実施形態では、照合損失関数Loss1及び距離損失関数Loss2の少なくとも一方を用いることなく学習モデルLMの機械学習が行われる場合と比較して、一枚の対象画像TIに被照合人物IP_Tと同一人物である第1の対象人物TPに加えて被照合人物IP_Tとは異なる第2の対象人物TPが写り込んでいる状況下での照合処理の精度が向上する。その結果、仮に一枚の対象画像TI内において第1の対象人物TPの一部が第2の対象人物TPによって遮蔽されていたとしても、人物照合装置2は、第1の対象人物TPが被照合人物IP_Tと同一人物であると適切に判定することができる。
 更に、第2実施形態では、サンプル画像SIが入力された学習モデルLMは、図9に示すように、特徴マップMPとバウンディングボックスBb(つまり、マップ領域MAの位置を示すマップ位置情報)とを出力可能である。この場合、特徴抽出部111は、特徴マップMPとバウンディングボックスBbとを用いて、サンプル特徴量SFを容易に抽出することができる。特に、一枚のサンプル画像SIに複数のサンプル人物SPが写り込んでいる場合であっても、学習モデルLMは、複数のサンプル人物SPに夫々対応する複数のバウンディングボックスBbを出力可能である。特徴抽出部111は、複数サンプル人物SPのサンプル特徴量SFを容易に抽出することができる。
 (3)変形例
 (3-1)学習装置1の変形例
 上述したように、学習データセット121は、サンプル画像SIが入力された学習モデルLMが出力するべきバウンディングボックスBbを示す人物位置ラベル1214を含んでいる。この場合、学習部112は、図10のステップS103において、照合損失関数Loss1及び距離損失関数Loss2に加えて、バウンディングボックスBbの位置に関する位置損失関数Loss3を算出してもよい。位置損失関数Loss3は、サンプル画像SIが入力された学習モデルLMが実際に出力したバウンディングボックスBbの位置と、人物位置ラベル1214が示すバウンディングボックスBbの位置との誤差に関する損失関数であってもよい。位置損失関数Loss3は、学習モデルLMが実際に出力したバウンディングボックスBbの位置と、人物位置ラベル1214が示すバウンディングボックスBbの位置との誤差が小さくなるほど小さくなる損失関数であってもよい。
 この場合、学習部112は、一枚のサンプル画像SIが入力された学習モデルLMが実際に出力したバウンディングボックスBbの位置と、当該一枚のサンプル画像SIに対応する人物位置ラベル1214が示すバウンディングボックスBbの位置との誤差を算出してもよい。サンプル画像SIに複数のサンプル人物SPが写り込んでいる場合には、学習部112は、各サンプル人物SPに対応する誤差を算出してもよい。例えば、学習部112は、サンプル人物SP1に対応する誤差と、サンプル人物SP2に対応する誤差とを算出してもよい。学習部112は、同様の処理を、学習モデルLMに入力されたサンプル画像SIの数だけ繰り返してもよい。その後、学習部112は、算出された複数の誤差の総和(或いは、任意の演算値又は統計値)を、照合損失関数Loss3として算出してもよい。
 位置損失関数Loss3が算出される場合、学習部112は、図10のステップS103において、照合損失関数Loss1、距離損失関数Loss2及び位置損失関数Loss3を統合した統合損失関数Lossを算出してもよい。その結果、学習モデルLMは、特徴マップMPのうちのサンプル人物SPの特徴量を適切に含むマップ領域を指定するバウンディングボックスBbを出力することができる。
 尚、位置損失関数Loss3が算出されない場合には、学習データセット121(特に、その正解ラベル1212)は、人物位置ラベル1214を含んでいなくてもよい。
 (3-2)人物照合装置2の変形例
 対象画像TIに複数の対象人物TPが写り込んでいる場合には、照合部213は、複数の対象人物TPの夫々と複数の異なる被照合人物IP_Tの夫々との類似度を算出してもよいことは、上述したとおりである。しかしながら、対象人物TPの数が多くなるほど及び/又は被照合人物IP_Tの数が多くなるほど、類似度を算出するための演算コストが高くなる。そこで、照合部213は、照合部213は、複数の対象人物TPの対象特徴量TFに基づいて、類似度を算出するべき少なくとも一人の対象人物TPを選択し、選択した少なくとも一人の対象人物TPと夫々と複数の異なる被照合人物IP_Tの夫々との類似度を算出してもよい。この場合、類似度を算出するための演算コスト(つまり、照合処理に要する演算コスト)が低減可能となる。
 一例として、複数の対象人物TPの対象特徴量TFの中に、過去に別の対象画像TIを用いて行われた照合処理で抽出した対象特徴量TFと同一の又は類似する一の対象特徴量TFが含まれている場合には、照合部213は、当該一の対象特徴量TFに対応する対象人物TPを、類似度の算出対象から除外してもよい。なぜならば、一の対象特徴量TFに対応する対象人物TPは、過去の照合処理で既に別の被照合人物IP_Tと同一人物であると判定済みである可能性が高いからである。
 (4)付記
 以上説明した実施形態に関して、更に以下の付記を開示する。
[付記1]
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、
 被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出する抽出手段と、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行う学習手段と
 を備える学習装置。
[付記2]
 前記第1の損失関数は、前記第1のサンプル人物が前記被照合人物と同一人物であると前記照合処理によって判定される確率が高くなるほど小さくなる損失関数であり、
 前記第2の損失関数は、前記距離が長くなるほど小さくなる損失関数であり、
 前記学習手段は、前記第1及び第2損失関数を統合することで得られる統合損失関数が小さくなるように、前記機械学習を行う
 付記1に記載の学習装置。
[付記3]
 前記サンプル画像が入力された前記学習モデルは、前記サンプル画像の特徴を示す特徴マップと、前記特徴マップのうちの前記第1のサンプル人物に対応する第1マップ領域及び前記特徴マップのうちの前記第2のサンプル人物に対応する第2マップ領域に関する領域情報とを出力し
 前記抽出手段は、前記特徴マップ内の前記第1マップ領域を用いて、前記第1のサンプル特徴量を抽出し、前記特徴マップ内の前記第2マップ領域を用いて、前記第2のサンプル特徴量を抽出する
 付記1又は2に記載の学習装置。
[付記4]
 前記サンプル画像には、前記特徴マップ内での前記第1マップ領域の位置と前記第2マップ領域の位置とを示す位置情報が正解ラベルとして付与されており、
 前記学習手段は、前記学習モデルが出力する前記第1及び第2マップ領域の位置と前記正解ラベルとして付与されている前記第1及び第2マップ領域の位置とのそれぞれの誤差に関する第3の損失関数を用いて、前記機械学習を行う
 付記3に記載の学習装置。
[付記5]
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、
 前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段と
 を備え、
 前記学習モデルは、
 第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
 を含む学習方法によって学習済みである
 人物照合装置。
[付記6]
 前記対象画像には、前記対象人物が複数写り込んでおり、
 前記照合手段は、前記複数の対象人物の夫々の前記対象特徴量を、前記第1の被照合人物の特徴量である被照合特徴量と比較することで、前記対象画像に写り込んでいる前記複数の対象人物の夫々が前記第1の被照合人物と同一人物であるか否かを判定する
 付記5に記載の人物照合装置。
[付記7]
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、
 被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うことと
 を含む学習方法。
[付記8]
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
 前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
 を含み、
 前記学習モデルは、
 第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
 を含む学習方法によって学習済みである
 人物照合方法。
[付記9]
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
 前記学習方法は、
 被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うことと
 を含む記録媒体。
[付記10]
 人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
 前記人物学習方法は、
 人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
 前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
 を含み、
 前記学習モデルは、
 第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
 前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
 を含む学習方法によって学習済みである
 記録媒体。
 上述の各実施形態の構成要素の少なくとも一部は、上述の各実施形態の構成要素の少なくとも他の一部と適宜組み合わせることができる。上述の各実施形態の構成要素のうちの一部が用いられなくてもよい。また、法令で許容される限りにおいて、上述のこの開示で引用した全ての文献(例えば、公開公報)の開示を援用してこの開示の記載の一部とする。
 この開示は、請求の範囲及び明細書全体から読み取るこのできる技術的思想に反しない範囲で適宜変更可能である。そのような変更を伴う学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体もまた、この開示の技術的思想に含まれる。
 1000 学習装置
 1001 抽出部
 1002 学習部
 2000 人物照合装置
 2001 抽出部
 2002 照合部
 1 学習装置
 11 演算装置
 111 特徴抽出部
 112 学習部
 12 記憶装置
 121 学習データセット
 1210 単位学習データ
 1211 サンプル画像
 1212 正解ラベル
 1213 人物識別ラベル
 1214 人物位置ラベル
 2 人物照合装置
 21 演算装置
 211 画像生成部
 212 特徴抽出部
 213 照合部
 SP、SP1、SP2 サンプル人物
 TP 対象人物
 IP_S、IP_T 被照合人物
 SF、SF1、SF2 サンプル特徴量
 TF 対象特徴量
 LM 学習モデル
 MP 特徴マップ
 MA マップ領域
 Bb バウンディングボックス

Claims (10)

  1.  人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習装置であって、
     被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出する抽出手段と、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行う学習手段と
     を備える学習装置。
  2.  前記第1の損失関数は、前記第1のサンプル人物が前記被照合人物と同一人物であると前記照合処理によって判定される確率が高くなるほど小さくなる損失関数であり、
     前記第2の損失関数は、前記距離が長くなるほど小さくなる損失関数であり、
     前記学習手段は、前記第1及び第2損失関数を統合することで得られる統合損失関数が小さくなるように、前記機械学習を行う
     請求項1に記載の学習装置。
  3.  前記サンプル画像が入力された前記学習モデルは、前記サンプル画像の特徴を示す特徴マップと、前記特徴マップのうちの前記第1のサンプル人物に対応する第1マップ領域及び前記特徴マップのうちの前記第2のサンプル人物に対応する第2マップ領域に関する領域情報とを出力し
     前記抽出手段は、前記特徴マップ内の前記第1マップ領域を用いて、前記第1のサンプル特徴量を抽出し、前記特徴マップ内の前記第2マップ領域を用いて、前記第2のサンプル特徴量を抽出する
     請求項1又は2に記載の学習装置。
  4.  前記サンプル画像には、前記特徴マップ内での前記第1マップ領域の位置と前記第2マップ領域の位置とを示す位置情報が正解ラベルとして付与されており、
     前記学習手段は、前記学習モデルが出力する前記第1及び第2マップ領域の位置と前記正解ラベルとして付与されている前記第1及び第2マップ領域の位置とのそれぞれの誤差に関する第3の損失関数を用いて、前記機械学習を行う
     請求項3に記載の学習装置。
  5.  人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出する抽出手段と、
     前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定する照合手段と
     を備え、
     前記学習モデルは、
     第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
     を含む学習方法によって学習済みである
     人物照合装置。
  6.  前記対象画像には、前記対象人物が複数写り込んでおり、
     前記照合手段は、前記複数の対象人物の夫々の前記対象特徴量を、前記第1の被照合人物の特徴量である被照合特徴量と比較することで、前記対象画像に写り込んでいる前記複数の対象人物の夫々が前記第1の被照合人物と同一人物であるか否かを判定する
     請求項5に記載の人物照合装置。
  7.  人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法であって、
     被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うことと
     を含む学習方法。
  8.  人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
     前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
     を含み、
     前記学習モデルは、
     第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
     を含む学習方法によって学習済みである
     人物照合方法。
  9.  人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルの機械学習を行う学習方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
     前記学習方法は、
     被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記機械学習を行うことと
     を含む記録媒体。
  10.  人物照合方法をコンピュータに実行させるコンピュータプログラムが記録された記録媒体であって、
     前記人物照合方法は、
     人物が写り込んでいる人物画像が入力された場合に前記人物の特徴量を出力可能な学習モデルに、対象人物が写り込んでいる対象画像を前記人物画像として入力することで、前記対象人物の特徴量である対象特徴量を抽出することと、
     前記対象画像に写り込んでいる前記対象人物が第1の被照合人物と同一人物であるか否かを前記対象特徴量に基づいて判定することと
     を含み、
     前記学習モデルは、
     第2の被照合人物と同一人物である第1のサンプル人物及び前記第1のサンプル人物とは異なる第2のサンプル人物が写り込んでいるサンプル画像を前記人物画像として前記学習モデルに入力することで、前記第1のサンプル人物の特徴量である第1のサンプル特徴量と、前記第2のサンプル人物の特徴量である第2のサンプル特徴量とを抽出することと、
     前記サンプル画像に写り込んでいる前記第1のサンプル人物が前記第2の被照合人物と同一人物であるか否かを前記第1のサンプル特徴量に基づいて判定する照合処理の精度に関する第1の損失関数と、前記第1及び第2のサンプル特徴量の間の距離に関する第2の損失関数とを用いて、前記学習モデルの機械学習を行うことと
     を含む学習方法によって学習済みである
     記録媒体。
PCT/JP2022/011276 2022-03-14 2022-03-14 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体 WO2023175664A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/011276 WO2023175664A1 (ja) 2022-03-14 2022-03-14 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/011276 WO2023175664A1 (ja) 2022-03-14 2022-03-14 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

Publications (1)

Publication Number Publication Date
WO2023175664A1 true WO2023175664A1 (ja) 2023-09-21

Family

ID=88022796

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/011276 WO2023175664A1 (ja) 2022-03-14 2022-03-14 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体

Country Status (1)

Country Link
WO (1) WO2023175664A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021028739A (ja) * 2019-08-09 2021-02-25 株式会社日立製作所 情報処理システム、および情報処理方法
WO2021064856A1 (ja) * 2019-10-01 2021-04-08 日本電気株式会社 ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置
JP2021077377A (ja) * 2019-11-07 2021-05-20 キヤノン株式会社 物体認識モデルを学習するための方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021028739A (ja) * 2019-08-09 2021-02-25 株式会社日立製作所 情報処理システム、および情報処理方法
WO2021064856A1 (ja) * 2019-10-01 2021-04-08 日本電気株式会社 ロバスト学習装置、ロバスト学習方法、プログラム及び記憶装置
JP2021077377A (ja) * 2019-11-07 2021-05-20 キヤノン株式会社 物体認識モデルを学習するための方法および装置

Similar Documents

Publication Publication Date Title
JP4311552B2 (ja) ドキュメントの自動分離
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
US5675711A (en) Adaptive statistical regression and classification of data strings, with application to the generic detection of computer viruses
JP5418991B2 (ja) 個人認証システム、個人認証方法
EP1993063A2 (en) Image processing apparatus and image retrieval method
US20050238207A1 (en) Biometric verification system and method utilizing a data classifier and fusion model
Ghosh et al. A dempster–shafer theory based classifier combination for online signature recognition and verification systems
WO2002073467A1 (en) System and method for estimating the point of diminishing returns in data mining processing
Doroz et al. Online signature verification modeled by stability oriented reference signatures
US20190147218A1 (en) User specific classifiers for biometric liveness detection
Zois et al. Offline handwritten signature modeling and verification based on archetypal analysis
CN115147875A (zh) 防欺骗方法和设备
US20200311389A1 (en) Domain adaptation-based object recognition apparatus and method
Sabri et al. A new framework for match on card and match on host quality based multimodal biometric authentication
EP0960381B1 (en) Method and apparatus for recognizing patterns
Shawkat et al. The new hand geometry system and automatic identification
WO2023175664A1 (ja) 学習装置、学習方法、人物照合装置、人物照合方法及び記録媒体
CN113255498A (zh) 基于区块链技术的财务报销发票管理方法
KR102101456B1 (ko) 문서 파일 및 비정형 이미지 파일에서의 개인정보 노출 여부 진단에 대한 오탐율 저감 방법
Shinde et al. Feedforward back propagation neural network (FFBPNN) based approach for the identification of handwritten math equations
Neme et al. Authorship attribution as a case of anomaly detection: A neural network model
WO2020197428A1 (ru) Способ и система для проверки электронного комплекта документов
WO2023173546A1 (zh) 文本识别模型的训练方法、装置、计算机设备及存储介质
JP7347750B2 (ja) 照合装置、学習装置、方法、及びプログラム
Sajeevan et al. Detection of personality traits through handwriting analysis using machine learning approach

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22931949

Country of ref document: EP

Kind code of ref document: A1