WO2022208606A1 - 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置 - Google Patents

学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置 Download PDF

Info

Publication number
WO2022208606A1
WO2022208606A1 PCT/JP2021/013275 JP2021013275W WO2022208606A1 WO 2022208606 A1 WO2022208606 A1 WO 2022208606A1 JP 2021013275 W JP2021013275 W JP 2021013275W WO 2022208606 A1 WO2022208606 A1 WO 2022208606A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
learning
feature amount
images
frame rate
Prior art date
Application number
PCT/JP2021/013275
Other languages
English (en)
French (fr)
Inventor
正人 塚田
貴裕 戸泉
竜一 赤司
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/638,900 priority Critical patent/US20230351729A1/en
Priority to PCT/JP2021/013275 priority patent/WO2022208606A1/ja
Priority to JP2023509920A priority patent/JP7491465B2/ja
Publication of WO2022208606A1 publication Critical patent/WO2022208606A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/197Matching; Classification

Definitions

  • This disclosure relates to the technical field of learning systems, authentication systems, learning methods, computer programs, learning model generation devices, and estimation devices that perform machine learning.
  • Japanese Patent Application Laid-Open No. 2002-200002 discloses a technique of recursively recurring parameters when extracting a feature amount from an image of a living organism.
  • Patent Literature 2 discloses a technique for learning co-occurrence feature amounts of images of pedestrians from moving image frames output from an in-vehicle camera.
  • Patent Literature 3 discloses a technique for learning a neural network by calculating a gradient from a loss function.
  • Patent Document 4 discloses a device that identifies whether or not a predetermined identification target exists in an image from image data of a moving image frame.
  • Patent Literature 5 discloses a technique for detecting an image feature amount of a vehicle from a low-resolution image in order to estimate the position of a predetermined area in a moving image.
  • This disclosure has been made, for example, in view of the above cited documents, and includes a learning system, an authentication system, a learning method, a computer program, a learning model generation device, and an estimation device capable of appropriately executing machine learning. intended to provide
  • One aspect of the learning system disclosed herein is a selection means for selecting a part of images including an image captured outside a focus range from a plurality of frames of images captured at a first frame rate; an extracting means for extracting a feature amount from an image of a portion; and a learning means for performing learning of the extracting means based on the extracted feature amount and correct answer information indicating a correct answer regarding the feature amount.
  • One aspect of the authentication system of this disclosure selects a partial image including an image captured outside a focus range from a plurality of frames of images captured at a first frame rate, and selects the partial image extracting a feature quantity from the extracted feature quantity and correct information indicating the correct answer regarding the feature quantity; authentication means for
  • One aspect of the learning method of this disclosure selects some images including images captured outside the focus range from a plurality of frames of images captured at a first frame rate, and and the extracting means is trained based on the extracted feature amount and correct answer information indicating the correct answer regarding the feature amount.
  • One aspect of the computer program of the present disclosure selects a partial image including an image captured outside a focus range from a plurality of frames of images captured at a first frame rate, and selects the partial image
  • the computer is operated so as to perform learning of the extraction means based on the extracted feature amount and correct answer information indicating the correct answer regarding the feature amount.
  • One aspect of the learning model generation device of this disclosure is to perform machine learning using a combination of an image captured outside the focus range and information indicating a feature amount included in the image as teacher data.
  • a learning model is generated that takes as input an image captured outside the focal range and outputs information about the feature amount of the input image.
  • One aspect of the estimating apparatus disclosed in this disclosure is a learning generated by performing machine learning using a set of an image captured outside the focus range and information indicating a feature amount included in the image as teacher data. Using the model, an image captured outside the in-focus range is input, and information about the feature amount of the input image is estimated.
  • FIG. 1 is a block diagram showing a hardware configuration of a learning system according to a first embodiment
  • FIG. 1 is a block diagram showing a functional configuration of a learning system according to a first embodiment
  • FIG. FIG. 4 is a conceptual diagram showing an example of a method of selecting images used for learning
  • 4 is a flow chart showing the flow of operation of the learning system according to the first embodiment
  • FIG. 4 is a block diagram showing a functional configuration of a learning system according to a modified example of the first embodiment
  • FIG. 9 is a flow chart showing the flow of operation of the learning system according to the modified example of the first embodiment
  • FIG. 11 is a conceptual diagram showing an operation example of the learning system according to the second embodiment
  • FIG. 12 is a conceptual diagram showing an operation example of the learning system according to the third embodiment;
  • FIG. 12 is a conceptual diagram showing an operation example of the learning system according to the fourth embodiment;
  • FIG. 14 is a table showing an operation example of the learning system according to the fifth embodiment;
  • FIG. FIG. 21 is a conceptual diagram showing an operation example of the learning system according to the sixth embodiment;
  • FIG. 21 is a conceptual diagram showing an operation example of the learning system according to the seventh embodiment;
  • FIG. 22 is a block diagram showing the functional configuration of an authentication system according to an eighth embodiment;
  • FIG. FIG. 21 is a flow chart showing the flow of operations of an authentication system according to the eighth embodiment;
  • FIG. FIG. 22 is a block diagram showing a functional configuration of a learning model generation device according to a ninth embodiment;
  • FIG. 22 is a block diagram showing the functional configuration of an estimation device according to the tenth embodiment;
  • FIG. 1 A learning system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 A learning system according to the first embodiment will be described with reference to FIGS. 1 to 4.
  • FIG. 1 is a block diagram showing the hardware configuration of the learning system according to the first embodiment.
  • the learning system 10 includes a processor 11, a RAM (Random Access Memory) 12, a ROM (Read Only Memory) 13, and a storage device 14.
  • Learning system 10 may further comprise an input device 15 and an output device 16 .
  • Processor 11 , RAM 12 , ROM 13 , storage device 14 , input device 15 , output device 16 and camera 20 are connected via data bus 17 .
  • the processor 11 reads a computer program.
  • processor 11 is configured to read a computer program stored in at least one of RAM 12, ROM 13 and storage device .
  • the processor 11 may read a computer program stored in a computer-readable recording medium using a recording medium reader (not shown).
  • the processor 11 may acquire (that is, read) a computer program from a device (not shown) arranged outside the learning system 10 via a network interface.
  • the processor 11 controls the RAM 12, the storage device 14, the input device 15 and the output device 16 by executing the read computer program.
  • the processor 11 implements functional blocks for executing processing related to machine learning.
  • processor 11 one of CPU (Central Processing Unit), GPU (Graphics Processing Unit), FPGA (Field-Programmable Gate Array), DSP (Demand-Side Platform), ASIC (Application Specific) integrated circuit is used. may be used, or a plurality of them may be used in parallel.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • FPGA Field-Programmable Gate Array
  • DSP Demand-Side Platform
  • ASIC Application Specific integrated circuit
  • the RAM 12 temporarily stores computer programs executed by the processor 11.
  • the RAM 12 temporarily stores data temporarily used by the processor 11 while the processor 11 is executing the computer program.
  • the RAM 12 may be, for example, a D-RAM (Dynamic RAM).
  • the ROM 13 stores computer programs executed by the processor 11 .
  • the ROM 13 may also store other fixed data.
  • the ROM 13 may be, for example, a P-ROM (Programmable ROM).
  • the storage device 14 stores data that the learning system 10 saves over the long term.
  • Storage device 14 may act as a temporary storage device for processor 11 .
  • the storage device 14 may include, for example, at least one of a hard disk device, a magneto-optical disk device, an SSD (Solid State Drive), and a disk array device.
  • the input device 15 is a device that receives input instructions from the user of the learning system 10 .
  • Input device 15 may include, for example, at least one of a keyboard, mouse, and touch panel.
  • the output device 16 is a device that outputs information about the learning system 10 to the outside.
  • output device 16 may be a display device (eg, display) capable of displaying information about learning system 10 .
  • FIG. 2 is a block diagram showing the functional configuration of the learning system according to the first embodiment.
  • the learning system 10 includes an image selection unit 110, a feature amount extraction unit 120, and a learning unit 130 as processing blocks for realizing its functions. It is Each of the image selection unit 110, the feature amount extraction unit 120, and the learning unit 130 may be implemented, for example, in the above-described processor 11 (see FIG. 1).
  • the image selection unit 110 is configured to be able to select a part of the images from the multiple frames of images captured at the first frame rate.
  • the “first frame rate” here is the frame rate at the time of capturing the image to be selected by the image selection unit 110, and is set as a relatively high rate.
  • a plurality of frame rate images captured at the first frame rate are appropriately referred to as "high frame rate images”.
  • the image selection unit 110 selects some images including images captured outside the focus range (in other words, out-of-focus images) from the high frame rate images.
  • the number of partial images selected by the image selection unit 110 is not particularly limited, and only one image may be selected, or a plurality of images may be selected.
  • the image selected by the image selection unit 110 is configured to be output to the feature amount extraction unit 120 .
  • the feature quantity extraction unit 120 is configured to be able to extract a feature quantity from the image selected by the image selection unit 110 (hereinafter referred to as "selected image” as appropriate).
  • the "feature amount” here indicates the feature of the image, and may be extracted as a value indicating the feature of an object included in the image, for example.
  • the feature amount extraction unit 120 may extract multiple types of feature amounts from one image. Moreover, when there are a plurality of selected images, the feature quantity extraction section 120 may extract a feature quantity for each of the plurality of selected images. It should be noted that existing techniques can be appropriately employed for a specific technique for extracting feature amounts from an image, so detailed description thereof will be omitted here.
  • the feature amount extracted by the feature amount extraction unit 120 is configured to be output to the learning unit 130 .
  • the learning unit 130 learns the feature amount extraction unit 120 based on the feature amount extracted by the feature amount extraction unit 120 and the correct answer information indicating the correct answer regarding the feature amount. Specifically, based on the feature amount extracted by the feature amount extraction unit 120 and the correct answer information, the learning unit 130 optimizes parameters so that the feature amount extraction unit 120 can extract the feature amount with higher accuracy. make a change.
  • the “correct answer information” here indicates the feature amount to be extracted by the feature amount extraction unit 120 from the image selected by the image selection unit 110 (in other words, the feature amount actually included in the image). It is information that is given in advance as a correct label for each image. For example, the correct answer information may be stored in association with the image, or may be input separately from the image.
  • the correct answer information may be information estimated from an image, or may be created by human work.
  • the learning unit 130 typically performs learning of the feature quantity extraction unit 120 using a plurality of selected images. It should be noted that the specific method of learning by the learning unit 130 can appropriately employ existing techniques, so detailed description thereof will be omitted here.
  • FIG. 3 is a conceptual diagram showing an example of a method of selecting images used for learning.
  • each upward arrow represents one image that is continuously captured.
  • a high frame rate image is an image of an object moving so as to pass through the focus range of the imaging unit captured at a first frame rate.
  • the image selection unit 110 selects some images from among the high frame rate images. Although two images are selected here, two or more images may be selected, or only one image may be selected.
  • the image selection unit 110 may randomly select a selection image. Alternatively, the image selection unit 110 may select images based on preset selection conditions. A more specific example of image selection by the image selection unit 110 will be described in detail in a later embodiment.
  • the selected images include images captured outside the in-focus range. Since an image captured outside the focus range is somewhat blurred, it is difficult for the feature amount extracting means to extract an accurate feature amount.
  • the learning system 10 in this way, by purposely using an image captured outside the focus range, learning is performed so that a feature amount can be accurately extracted even from a blurred image.
  • FIG. 4 is a flow chart showing the operation flow of the learning system according to the first embodiment.
  • the image selection unit 110 first selects some images from the high frame rate images (step S101). Image selection section 110 outputs the selected image to feature quantity extraction section 120 .
  • the feature amount extraction unit 120 extracts feature amounts from the selected image (step S102).
  • the feature quantity extraction unit 120 outputs the extracted feature quantity to the learning unit 130 .
  • the learning unit 130 performs learning processing for the feature amount extraction unit 120 based on the feature amount extracted by the feature amount extraction unit 120 and the correct answer information for the feature amount (step S103).
  • the learning unit 130 determines whether or not all learning has been completed (step S104). For example, the learning unit 130 may determine that learning has ended when the number of selected images used for learning reaches a predetermined number. Alternatively, the learning unit 130 may determine that learning has ended when a predetermined period of time has elapsed since the start of learning, or when an end operation is performed by the system administrator.
  • step S104 If it is determined that learning has ended (step S104: YES), the series of processes ends. On the other hand, if it is determined that learning has not ended (step S104: NO), the process may be started again from step S101.
  • the learning system 10 selects some images selected from the high frame rate images, and uses feature amounts extracted from the selected images to , the learning of the feature quantity extraction unit 120 is performed.
  • the feature amount extraction unit 120 By learning the feature amount extraction unit 120 in this way, it is possible to extract the feature amount with high accuracy even if the image is not captured within the focus range. Therefore, it is no longer required to capture an image within the focus range, and an increase in the cost of the imaging unit can be suppressed.
  • FIG. 5 and 6 A modification of the first embodiment will be described with reference to FIGS. 5 and 6.
  • FIG. 5 and 6 The modified example described below differs from the first embodiment only in part in configuration and operation, and the other parts are the same as those in the first embodiment (see FIGS. 1 to 4). you can Therefore, in the following, portions different from the already described first embodiment will be described in detail, and descriptions of other overlapping portions will be omitted as appropriate.
  • FIG. 5 is a block diagram showing a functional configuration of a learning system according to a modification of the first embodiment; In FIG. 5, the same symbols are attached to the same elements as those shown in FIG.
  • the learning system 10 includes an image selection unit 110, a feature quantity extraction unit 120, and a learning unit 130 as processing blocks for realizing the functions thereof. configured with.
  • the learning section 130 includes a loss function calculation section 131 , a gradient calculation section 132 and a parameter update section 133 .
  • the loss function calculation unit 131 is configured to be able to calculate a loss function based on the error between the feature amount extracted by the feature amount extraction unit 120 and the correct information on the feature amount.
  • a specific calculation method of the loss function an existing technique can be appropriately adopted, so detailed description thereof will be omitted here.
  • the gradient calculator 132 is configured to be able to calculate gradients using the loss function calculated by the loss function calculator 131 .
  • Existing techniques can be appropriately adopted for a specific calculation method of the gradient, so a detailed description thereof will be omitted here.
  • the parameter update unit 133 is configured to be able to update the parameters in the feature amount extraction unit 120 (that is, parameters for extracting feature amounts) based on the gradients calculated by the gradient calculation unit 132 .
  • the parameter updating unit 133 updates the parameters so that the loss calculated by the loss function becomes smaller, thereby optimizing the parameters so that the feature amount is estimated as information closer to the correct information.
  • FIG. 6 is a flow chart showing the operation flow of the learning system according to the modification of the first embodiment.
  • the same reference numerals are assigned to the same processes as those shown in FIG.
  • the image selection unit 110 first selects some images from the high frame rate images (step S101). Image selection section 110 outputs the selected image to feature quantity extraction section 120 .
  • the feature amount extraction unit 120 extracts feature amounts from the selected image (step S102).
  • the feature amount extraction section 120 outputs the extracted feature amount to the loss function calculation section 131 in the learning section 130 .
  • the loss function calculation unit 131 calculates a loss function based on the feature amount input from the feature amount extraction unit 120 and the separately input correct answer information (step S111).
  • the gradient calculator 132 then calculates the gradient using the loss function (step S112).
  • the parameter updating unit 133 updates the parameters of the feature quantity extracting unit 120 based on the calculated gradient (step S113).
  • step S104 determines whether or not all learning has been completed. If it is determined that learning has ended (step S104: YES), the series of processes ends. On the other hand, if it is determined that learning has not ended (step S104: NO), the process may be started again from step S101.
  • the parameters of the feature quantity extraction unit 120 are updated based on the gradient calculated from the loss function. Even when the feature amount extraction unit 120 learns in this way, similarly to the learning system 10 according to the first embodiment described above, even if the image is not captured within the focus range, the feature amount can be extracted with high accuracy. becomes possible. Therefore, it is no longer required to capture an image within the focus range, and an increase in the cost of the imaging unit can be suppressed.
  • a learning system 10 according to the second embodiment will be described with reference to FIG.
  • the second embodiment may differ from the above-described first embodiment only in a part of configuration and operation, and may be the same as the first embodiment (see FIGS. 1 to 6) in other parts. . Therefore, in the following description, descriptions of portions that overlap with the already described first embodiment will be omitted as appropriate.
  • FIG. 7 is a conceptual diagram showing an operation example of the learning system according to the second embodiment.
  • the learning system 10 uses an image including the iris of a living body as a high frame rate image. Therefore, the selected image selected by the image selection unit 110 also includes the iris of the living body.
  • the feature quantity extraction unit 120 according to the second embodiment is configured to be able to extract the feature quantity of the iris from an image including the iris of the living body (hereinafter referred to as "iris image" as appropriate). Note that the feature quantity extraction unit 120 extracts the feature quantity used for iris authentication after learning by the learning unit 130 .
  • a mode in which an iris image is captured while the subject to be authenticated is moving may be adopted.
  • the time during which the subject's iris is within the focus range is extremely short. For example, if the subject walks at a normal adult walking speed of 80 m per minute (1.333 cm per second), the depth of field (focusing range) at the imaging position by the optical lens in the imaging system is 1 cm. Therefore, even if an iris image is captured at 120 FPS (8.33 ms intervals), the number of iris images that can be captured within the focusing range is one or two.
  • the learning system 10 performs learning on the assumption that the iris image is captured at the low frame rate described above. That is, by selecting some iris images from the iris images captured at a high frame rate, learning is performed using the iris images captured outside the in-focus range.
  • the feature quantity extraction unit 120 that extracts the feature quantity of the iris learns using some iris images selected from the high frame rate images. be done. In this way, learning can be performed so that the feature amount can be extracted with high accuracy even from an iris image captured outside the in-focus range. Therefore, it is no longer required to capture an image within the focus range, and an increase in the cost of the imaging unit and the like can be suppressed.
  • a learning system 10 according to the third embodiment will be described with reference to FIG. It should be noted that the third embodiment may differ from the above-described first and second embodiments only in a part of configuration and operation, and other parts may be the same as those of the first and second embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 8 is a conceptual diagram showing an operation example of the learning system according to the third embodiment.
  • the image selection unit 110 selects images near the focus range from the high frame rate images.
  • a high-pass filter, Fourier transform, or the like may be used to determine the amount of high-frequency components in a high-frame-rate image, and images in which the high-frequency components exceed a preset threshold may be selected.
  • a distance sensor may measure the distance to the iris of the pedestrian, calculate the difference from the distance to the in-focus position, and select an image that is less than the preset distance difference.
  • near the focus range means a position relatively close to the focus range, and is set within a predetermined distance from the end of the focus range, for example.
  • the vicinity of the focus range may include both a portion before the focus range and a portion after the focus range.
  • the image selection unit 110 may select one image or a plurality of images. At that time, the image selection unit 110 may randomly select an image near the image range.
  • an image near the focus range is selected as the selected image.
  • learning can be performed using an image with relatively little blurring. Therefore, it is possible to avoid the situation where appropriate learning cannot be performed by using an image that is too far out of the focus range (that is, an image that is too blurred).
  • image that is too far out of the focus range that is, an image that is too blurred.
  • a learning system 10 according to the fourth embodiment will be described with reference to FIG. It should be noted that the fourth embodiment may differ from the first to third embodiments described above only in a part of the configuration and operation, and the other parts may be the same as those of the first to third embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 9 is a conceptual diagram showing an operation example of the learning system according to the fourth embodiment.
  • the image selection unit 110 sets the second frame rate lower than the first frame rate (that is, the frame rate at which the high frame rate image is captured). Select the corresponding image.
  • FIG. 9 shows an example in which the first frame rate is 120 FPS and the second frame rate is 30 FPS. Therefore, one high frame rate image is selected every four images. The selected images will be selected at regular intervals according to the second frame rate.
  • images corresponding to the second frame rate lower than the first frame rate are selected.
  • a frame image for learning is selected from high frame rate data by the selection method described above.
  • the optimal network for low frame rate estimation can be learned.
  • a learning system 10 according to the fifth embodiment will be described with reference to FIG.
  • the fifth embodiment may differ from the above-described fourth embodiment only in a part of configuration and operation, and the other parts may be the same as those of the first to fourth embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 10 is a table showing an operation example of the learning system according to the fifth embodiment.
  • the frame rate at which the image selection unit 110 selects images (that is, the second frame) is set as the frame rate for operating the feature amount extraction unit 120 after learning. ing. That is, some images are selected from the high frame rate images, assuming the frame rate of the images input to the feature amount extraction unit 120 after learning.
  • the high frame rate image is an image captured at 120 FPS.
  • the image selection unit 110 selects an image corresponding to 30 FPS from the high frame rate images. Specifically, the image selection unit 110 selects a high frame rate image every four frames.
  • the image selection unit 110 selects an image corresponding to 40 FPS from the high frame rate images. Specifically, the image selection unit 110 selects a high frame rate image every three frames.
  • the image selection unit 110 selects an image corresponding to 60 FPS from the high frame rate images. Specifically, the image selection unit 110 selects a high frame rate image every two frames.
  • images corresponding to the frame rate when operating the feature quantity extraction unit 120 are selected. In this way, it is possible to perform more appropriate learning by assuming the operation of the feature quantity extraction unit 120 after learning.
  • FIG. 10 A learning system 10 according to the sixth embodiment will be described with reference to FIG. It should be noted that the sixth embodiment may differ from the first to fifth embodiments described above only in a part of the configuration and operation, and the other parts may be the same as those of the first to fifth embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 11 is a conceptual diagram showing an operation example of the learning system according to the sixth embodiment.
  • the image selection unit 110 first selects a reference frame. That is, the image selection unit 110 selects one reference frame from among multiple high frame rate images.
  • a reference frame may be randomly selected from among the high frame rate images.
  • the image selection unit 110 further selects other images corresponding to the second frame rate based on the reference frame. Specifically, the image selection unit 110 selects the second image with an interval corresponding to the second frame rate from the reference frame. Then, the image selection unit 110 selects the third image with an interval corresponding to the second frame rate from the second image. Although an example of selecting three images is given here, the fourth and subsequent images may be selected similarly.
  • a frame image for learning is selected from high frame rate data by the selection method described above.
  • the optimal network for low frame rate estimation can be learned.
  • a learning system 10 according to the seventh embodiment will be described with reference to FIG. It should be noted that the seventh embodiment may differ from the above-described sixth embodiment only in a part of the configuration and operation, and the other parts may be the same as those of the first to sixth embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 12 is a conceptual diagram showing an operation example of the learning system according to the seventh embodiment.
  • the image selection unit 110 selects the reference frame immediately before the focus range.
  • "immediately before the focusing range” means a relatively close position in front of the focusing range, and is set as a range within a predetermined distance from the front end of the focusing range, for example. .
  • the image selected as the reference frame is not limited to the image captured at the position closest to the normal range.
  • the first image outside the imaging range is selected as the reference frame, but an earlier captured image may be selected as the reference frame. Note that if a plurality of high-rate images exist in a range that can be said to be immediately before the focusing range, the image selection unit 110 may randomly select one image from among them as the reference frame.
  • the reference frame is selected immediately before the imaging range. In this way, since a plurality of images positioned around the focus range are selected images, it is possible to easily and efficiently select images suitable for learning.
  • FIG. Note that the authentication system 20 according to the eighth embodiment is a system including the feature quantity extraction unit 120 trained by the learning system 10 according to the first to seventh embodiments described above, and its hardware configuration is described in the It may be the same as the learning system 10 (see FIG. 1) according to the first embodiment, and other parts may be the same as the learning system 10 according to the first to seventh embodiments. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • FIG. 13 is a block diagram showing the functional configuration of an authentication system according to the eighth embodiment.
  • symbol is attached
  • the learning authentication system 20 includes a feature quantity extraction unit 120 and an authentication unit 200 as processing blocks for realizing its functions.
  • the authentication unit 200 may be implemented by, for example, the above processor 11 (see FIG. 1). Alternatively, the authentication unit 200 may be realized by an external server or cloud.
  • the feature quantity extraction unit 120 is configured to be able to extract the feature quantity from the image as described in each of the above-described embodiments. However, the feature quantity extraction unit 120 according to the eighth embodiment has already been trained by the learning system 10 described in the first to seventh embodiments. The feature amount extracted by the feature amount extraction unit 120 is configured to be output to the authentication unit 200 .
  • the authentication unit 200 is configured to be able to perform authentication processing using the feature amount extracted by the feature amount extraction unit 120.
  • the authentication unit 200 is configured to be able to perform biometric authentication using an image of a living body.
  • the authentication unit 200 may be configured to be able to perform iris authentication using the iris feature amount extracted from the iris image. It should be noted that existing techniques can be appropriately adopted for a specific technique of the authentication process, so detailed description thereof will be omitted here.
  • FIG. 14 is a flow chart showing the operation flow of the authentication system according to the eighth embodiment.
  • the feature quantity extraction unit 120 first acquires an image (step S801).
  • the image acquired here may be, for example, an image captured at a low frame rate assumed at the time of learning.
  • an image captured by a camera may be directly input to the feature amount extraction unit 120, or an image stored in a storage or the like may be input.
  • the feature amount extraction unit 120 extracts feature amounts from the acquired image (step S802).
  • the feature quantity extraction unit 120 outputs the extracted feature quantity to the authentication unit 200 .
  • the authentication unit 200 uses the feature amount extracted by the feature amount extraction unit 120 to perform authentication processing (step S803).
  • the authentication unit 200 may read the feature amount registered in the registration database and determine whether or not the read feature amount and the feature amount extracted by the feature amount extraction unit 120 match.
  • the authentication unit 200 outputs the authentication result (step S804).
  • authentication processing is performed using the feature quantity extraction unit 120 learned by the learning system 10 according to the first to seventh embodiments. executed.
  • the learning of the feature amount extraction unit 120 is performed using some images (including images captured in the in-focus range) selected from the high-rate images. Therefore, even if the input image is not captured within the in-focus range, it is possible to accurately extract the feature amount of the image. Therefore, according to the authentication system 20 according to the eighth embodiment, it is possible to output an accurate authentication result regardless of whether an image captured inside or outside the focus range is input. be.
  • FIG. 15 is a block diagram showing the functional configuration of the learning model generation device according to the ninth embodiment.
  • the learning model generation device according to the ninth embodiment may share a part of the configuration and operation with the learning system 10 according to the first to seventh embodiments described above. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • the learning model generation device 30 As shown in FIG. 15, the learning model generation device 30 according to the ninth embodiment generates an image captured outside the focus range and information indicating the feature amount included in the image (that is, correct answer information). as an input.
  • the learning model generation device 30 is configured to be able to generate a learning model by performing machine learning using the input image and information indicating the feature amount.
  • the learning model is configured as, for example, a neural network, and is a model that receives as input an image captured outside the in-focus range and outputs information regarding the feature amount of the input image.
  • the learning model generation device 30 performs machine learning using an image captured outside the focus range (that is, out of focus). In this way, it is possible to generate a model capable of outputting information on feature quantities with high accuracy from an image captured outside the in-focus range. That is, even when an image is input in which it is difficult to accurately output the feature amount due to being captured outside the in-focus range, a model is generated that can output information on the feature amount with high accuracy. can.
  • FIG. 16 is a block diagram showing a functional configuration of an estimation device according to the tenth embodiment.
  • the learning model generation device according to the tenth embodiment is a device provided with the learning model generated by the learning model generation device 30 according to the ninth embodiment described above. Therefore, hereinafter, descriptions of portions that overlap with the already described embodiments will be omitted as appropriate.
  • the estimation device 40 is configured with a learning model 300 .
  • the learning model 300 is machine-learned using an image captured outside the in-focus range and information indicating feature amounts included in the image (that is, correct answer information). model.
  • the estimating device 40 receives an image captured outside the in-focus range as an input, and outputs information regarding the feature amount of the input image. More specifically, the estimating device 40 uses the learning model 300 to acquire feature amounts from the input image. Then, the estimation device 40 outputs the feature amount of the image acquired using the learning model 300 as an estimation result.
  • the feature amount of the image is estimated using the learning model 300 trained using the image captured outside the focus range. In this way, it is possible to accurately estimate the information regarding the feature amount from the image captured outside the focus range. That is, even when an image is input for which it is difficult to accurately output the feature amount due to being captured outside the in-focus range, it is possible to accurately estimate information regarding the feature amount.
  • a processing method of recording a program for operating the configuration of each embodiment so as to realize the functions of each embodiment described above on a recording medium, reading the program recorded on the recording medium as a code, and executing it on a computer is also implemented. Included in the category of form. That is, a computer-readable recording medium is also included in the scope of each embodiment. In addition to the recording medium on which the above program is recorded, the program itself is also included in each embodiment.
  • a floppy (registered trademark) disk, hard disk, optical disk, magneto-optical disk, CD-ROM, magnetic tape, non-volatile memory card, and ROM can be used as recording media.
  • the program recorded on the recording medium alone executes the process, but also the one that operates on the OS and executes the process in cooperation with other software and functions of the expansion board. included in the category of
  • the learning system includes selection means for selecting a portion of images including an image captured outside a focus range from images of a plurality of frames captured at a first frame rate;
  • the method is characterized by comprising: extracting means for extracting a feature amount from an image; and learning means for performing learning of the extracting means based on the extracted feature amount and correct answer information indicating a correct answer regarding the feature amount. It's a learning system.
  • the plurality of frame images are images including an iris of a living body, and the extracting means extracts the feature quantity used for iris authentication. It's a learning system.
  • the learning system according to Supplementary Note 3 is the learning system according to Supplementary Note 1 or 2, wherein the selecting means selects an image near the focus range as the partial image.
  • the selecting means selects images corresponding to a second frame rate lower than the first frame rate as the partial images. 4.
  • the learning system according to Supplementary Note 5 is the learning system according to Supplementary Note 4, wherein the second frame rate is a frame rate for operating the extraction means learned by the learning means.
  • the selection means selects one reference frame from the partial image, and selects another image corresponding to the second frame rate based on the reference frame.
  • the learning system according to Supplementary Note 7 is the learning system according to Supplementary Note 6, wherein the selecting means selects the reference frame from an image captured immediately before the focusing range.
  • the authentication system selects some images including an image captured outside a focus range from images of a plurality of frames captured at a first frame rate, and extracts features from the some images.
  • authentication for executing an authentication process using an extracting means that extracts a quantity, and is learned based on the extracted feature quantity and correct answer information indicating a correct answer regarding the feature quantity, and the extracted feature quantity;
  • An authentication system characterized by comprising means.
  • the learning method according to Appendix 9 selects some images including an image taken outside the in-focus range from the images of a plurality of frames taken at the first frame rate, and extracts the features from the some images.
  • the learning method is characterized by extracting a quantity, and performing learning of the extraction means based on the extracted feature amount and correct answer information indicating a correct answer regarding the feature amount.
  • the computer program according to Supplementary Note 10 selects some images including an image captured outside a focus range from images of a plurality of frames captured at a first frame rate, and extracts features from the some images
  • a computer program extracting a quantity and operating a computer so as to perform learning of the extraction means based on the extracted feature quantity and correct answer information indicating a correct answer regarding the feature quantity.
  • a recording medium according to appendix 11 is a recording medium characterized by recording the computer program according to appendix 10.
  • the learning model generation device performs machine learning using a combination of an image captured outside the focus range and information indicating the feature amount contained in the image as teacher data, thereby obtaining a focus range.
  • a learning model generation device for generating a learning model that receives an image captured outside as an input and outputs information about a feature amount of the input image.
  • the estimating device generates a learning model generated by performing machine learning using a combination of an image captured outside a focus range and information indicating a feature amount included in the image as teacher data. is used to estimate information about the feature amount of an input image captured outside the in-focus range.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Ophthalmology & Optometry (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

学習システム(10)は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択する選択手段(110)と、一部の画像から特徴量を抽出する抽出手段(120)と、抽出された特徴量と、特徴量に関する正解を示す正解情報とに基づいて、抽出手段の学習を行う学習手段(130)とを備える。このような学習システムによれば、低フレームレートでの撮影を想定して機械学習を実行することが可能である。

Description

学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置
 この開示は、機械学習を実行する学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置の技術分野に関する。
 この種のシステムとして、画像データを訓練データとして機械学習を行うシステムが知られている。例えば特許文献1では、生体の画像を用いて、画像から特徴量を抽出する際のパラメータを再起帰化する技術が開示されている。特許文献2では、車載カメラから出力される動画フレームから、歩行者が写った画像の共起特徴量を学習する技術が開示されている。特許文献3では、損失関数から勾配を算出して、ニューラルネットワークの学習を行う技術が開示されている。
 その他の関連する技術として、例えば特許文献4では、動画フレームの画像データから、画像に所定の識別対象が存在しているか否かを識別する装置が開示されている。特許文献5では、動画像における所定領域の位置を推定するために、低解像度画像から車両の画像特徴量を検出する技術が開示されている。
国際公開第2019/073745号 国際公開第2018/143277号 特開2019-185207号公報 特開2019-061495号公報 特開2017-2211760号公報
 この開示は、例えば上記各引用文献に鑑みてなされたものであり、機械学習を適切に実行することが可能な学習システム、認証システム、学習方法、コンピュータプログラム、、学習モデル生成装置、及び推定装置を提供することを目的とする。
 この開示の学習システムの一の態様は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択する選択手段と、前記一部の画像から特徴量を抽出する抽出手段と、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う学習手段とを備える。
 この開示の認証システムの一の態様は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて学習された抽出手段と、前記抽出された前記特徴量を用いて、認証処理を実行する認証手段とを備える。
 この開示の学習方法の一の態様は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う。
 この開示のコンピュータプログラムの一の態様は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行うようにコンピュータを動作させる。
 この開示の学習モデル生成装置の一の態様は、合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を出力する学習モデルを生成する。
 この開示の推定装置の一の態様は、合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより生成された学習モデルを用いて、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を推定する。
第1実施形態に係る学習システムのハードウェア構成を示すブロック図である。 第1実施形態に係る学習システムの機能的構成を示すブロック図である。 学習に用いる画像の選択方法の一例を示す概念図である。 第1実施形態に係る学習システムの動作の流れを示すフローチャートである。 第1実施形態の変形例に係る学習システムの機能的構成を示すブロック図である。 第1実施形態の変形例に係る学習システムの動作の流れを示すフローチャートである。 第2実施形態に係る学習システムの動作例を示す概念図である。 第3実施形態に係る学習システムの動作例を示す概念図である。 第4実施形態に係る学習システムの動作例を示す概念図である。 第5実施形態に係る学習システムの動作例を示す表である。 第6実施形態に係る学習システムの動作例を示す概念図である。 第7実施形態に係る学習システムの動作例を示す概念図である。 第8実施形態に係る認証システムの機能的構成を示すブロック図である。 第8実施形態に係る認証システムの動作の流れを示すフローチャートである。 第9実施形態に係る学習モデル生成装置の機能的構成を示すブロック図である。 第10実施形態に係る推定装置の機能的構成を示すブロック図である。
 以下、図面を参照しながら、学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置の実施形態について説明する。
 <第1実施形態>
 第1実施形態に係る学習システムについて、図1から図4を参照して説明する。
 (ハードウェア構成)
 まず、図1を参照しながら、第1実施形態に係る学習システム10のハードウェア構成について説明する。図1は、第1実施形態に係る学習システムのハードウェア構成を示すブロック図である。
 図1に示すように、第1実施形態に係る学習システム10は、プロセッサ11と、RAM(Random Access Memory)12と、ROM(Read Only Memory)13と、記憶装置14とを備えている。学習システム10は更に、入力装置15と、出力装置16とを備えていてもよい。プロセッサ11と、RAM12と、ROM13と、記憶装置14と、入力装置15と、出力装置16と、カメラ20とは、データバス17を介して接続されている。
 プロセッサ11は、コンピュータプログラムを読み込む。例えば、プロセッサ11は、RAM12、ROM13及び記憶装置14のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ11は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ11は、ネットワークインタフェースを介して、学習システム10の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい(つまり、読み込んでもよい)。プロセッサ11は、読み込んだコンピュータプログラムを実行することで、RAM12、記憶装置14、入力装置15及び出力装置16を制御する。本実施形態では特に、プロセッサ11が読み込んだコンピュータプログラムを実行すると、プロセッサ11内には、機械学習に関する処理を実行するための機能ブロックが実現される。また、プロセッサ11として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)、DSP(Demand-Side Platform)、ASIC(Application Specific Integrated Circuit)のうち一つを用いてもよいし、複数を並列で用いてもよい。
 RAM12は、プロセッサ11が実行するコンピュータプログラムを一時的に記憶する。RAM12は、プロセッサ11がコンピュータプログラムを実行している際にプロセッサ11が一時的に使用するデータを一時的に記憶する。RAM12は、例えば、D-RAM(Dynamic RAM)であってもよい。
 ROM13は、プロセッサ11が実行するコンピュータプログラムを記憶する。ROM13は、その他に固定的なデータを記憶していてもよい。ROM13は、例えば、P-ROM(Programmable ROM)であってもよい。
 記憶装置14は、学習システム10が長期的に保存するデータを記憶する。記憶装置14は、プロセッサ11の一時記憶装置として動作してもよい。記憶装置14は、例えば、ハードディスク装置、光磁気ディスク装置、SSD(Solid State Drive)及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。
 入力装置15は、学習システム10のユーザからの入力指示を受け取る装置である。入力装置15は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。
 出力装置16は、学習システム10に関する情報を外部に対して出力する装置である。例えば、出力装置16は、学習システム10に関する情報を表示可能な表示装置(例えば、ディスプレイ)であってもよい。
 (機能的構成)
 次に、図2を参照しながら、第1実施形態に係る学習システム10の機能的構成について説明する。図2は、第1実施形態に係る学習システムの機能的構成を示すブロック図である。
 図2に示すように、第1実施形態に係る学習システム10は、その機能を実現するための処理ブロックとして、画像選択部110と、特徴量抽出部120と、学習部130とを備えて構成されている。画像選択部110、特徴量抽出部120、及び学習部130の各々は、例えば上述したプロセッサ11(図1参照)において実現されればよい。
 画像選択部110は、第1のフレームレートで撮影された複数フレームの画像から、一部の画像を選択可能に構成されている。なお、ここでの「第1のフレームレート」は、画像選択部110の選択元となる画像を撮像する際のフレームレートであり、比較的高いレートとして設定されている。以下では、第1のフレームレートで撮影された複数のフレームレート画像を、適宜「高フレームレート画像」と称する。画像選択部110は、高フレームレート画像から、合焦範囲外で撮像された画像(言い換えれば、ピントがぼけた画像)を含む一部の画像を選択する。なお、画像選択部110によって選択される一部の画像の枚数は特に限定されず、1枚の画像のみが選択されてもよいし、複数枚の画像が選択されてもよい。画像選択部110によって選択された画像は、特徴量抽出部120に出力される構成となっている。
 特徴量抽出部120は、画像選択部110によって選択された画像(以下、適宜「選択画像」と称する)から、特徴量を抽出可能に構成されている。ここでの「特徴量」は、画像の特徴を示すものであり、例えば画像に含まれている物体の特徴を示す値として抽出されてもよい。特徴量抽出部120は、1枚の画像から複数種類の特徴量を抽出してもよい。また、選択画像が複数枚ある場合、特徴量抽出部120は、複数枚の選択画像の各々について特徴量を抽出してよい。なお、画像から特徴量を抽出する具体的な手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。特徴量抽出部120で抽出された特徴量は、学習部130に出力される構成となっている。
 学習部130は、特徴量抽出部120で抽出された特徴量と、特徴量に関する正解を示す正解情報とに基づいて、特徴量抽出部120の学習を行う。具体的には、学習部130は、特徴量抽出部120が抽出した特徴量と、正解情報とに基づいて、特徴量抽出部120がより高い精度で特徴量を抽出できるように、パラメータの最適化を行う。なお、ここでの「正解情報」とは、画像選択部110で選択された画像から特徴量抽出部120が抽出すべき特徴量(言い換えれば、実際に画像に含まれている特徴量)を示す情報であり、各画像の正解ラベルとして予め付与されたものである。正解情報は、例えば、画像に紐付いて記憶されているものであってもよいし、画像とは別に入力されるものであってもよい。正解情報は、画像から推定された情報であってもよいし、人の作業によって作成されたものであってもよい。学習部130は、典型的には、複数枚の選択画像を用いて特徴量抽出部120の学習を実行する。なお、学習部130による学習の具体的な手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。
 (画像の選択)
 次に、図3を参照しながら、上述した画像選択部110による画像の選択方法について具体的に説明する。図3は、学習に用いる画像の選択方法の一例を示す概念図である。
 図3において、上向きの矢印は、連続して撮像される画像1枚1枚を表している。高フレームレート画像は、撮像部の合焦範囲を通過するように移動する物体を、第1のフレームレートで撮影したものである。
 画像選択部110は、高フレームレート画像の中から一部の画像を選択する。なお、ここでは2枚の画像を選択しているが、2枚以上の画像が選択されてもよいし、1枚の画像だけが選択されてもよい。画像選択部110は、選択画像をランダムに選択してよい。或いは、画像選択部110は、予め設定された選択条件に基づいて画像を選択してもよい。画像選択部110による、より具体的な画像の選択例については、後の実施形態で詳しく説明する。
 選択画像は、すでに説明したように、合焦範囲外で撮像された画像を含んでいる。合焦範囲外で撮像された画像は、画像が多少なりともぼやけているため、特徴量抽出手段で正確な特徴量を抽出するのが難しい。本実施形態に係る学習システム10では、このように、あえて合焦範囲外で撮像された画像を用いることにより、ぼやけた画像からでも正確に特徴量を抽出できるような学習を行う。
 なお、合焦範囲の広さやフレームレートにもよるが、高フレームレート画像であっても、合焦範囲内で撮像される画像はごく一部となる(図3に示す例では、合焦範囲内で撮像された画像は1枚だけである)。よって、確実に合焦範囲内で撮像された画像を取得しようとすると、高いフレームレートで画像を撮像することが要求される。或いは、液体レンズのような手段を用いて、合焦範囲を調整することが要求される。
 上述した要求を満たそうとすると、コストの増加を避けるのは難しい。しかるに、ぼやけた画像からでも正確に特徴量を抽出できるように学習を行えば、合焦範囲内で画像を撮像することが要求されなくなる。その結果、コストの増加を抑制しつつ、精度よく特徴量を抽出することが可能となる。
 (動作の流れ)
 次に、図4を参照しながら、第1実施形態に係る学習システム10の動作の流れについて説明する。図4は、第1実施形態に係る学習システムの動作の流れを示すフローチャートである。
 図4に示すように、第1実施形態に係る学習システム10が動作する際には、まず画像選択部110が、高フレームレート画像から一部の画像を選択する(ステップS101)。画像選択部110は、選択画像を特徴量抽出部120に出力する。
 続いて、特徴量抽出部120が、選択画像から特徴量を抽出する(ステップS102)。特徴量抽出部120は、抽出した特徴量を学習部130に出力する。
 続いて、学習部130が、特徴量抽出部120で抽出された特徴量と、特徴量の正解情報とに基づいて、特徴量抽出部120の学習処理を行う(ステップS103)。
 続いて、学習部130は、すべての学習が終了したか否かを判定する(ステップS104)。学習部130は、例えば学習に用いた選択画像が所定枚数に到達した場合に、学習が終了したと判定してもよい。或いは、学習部130は、学習開始から所定期間が経過した場合や、システム管理者による終了操作があった場合に、学習が終了したと判定してもよい。
 学習が終了したと判定された場合(ステップS104:YES)、一連の処理は終了する。一方、学習が終了していないと判定された場合(ステップS104:NO)、再びステップS101から処理が開始されればよい。
 (技術的効果)
 次に、第1実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図1から図4で説明したように、第1実施形態に係る学習システム10では、高フレームレート画像から選択された一部の画像を選択し、その選択画像から抽出される特徴量を用いて、特徴量抽出部120の学習が行われる。このように特徴量抽出部120を学習すれば、合焦範囲内で撮像された画像でなくても、精度よく特徴量を抽出することが可能となる。従って、合焦範囲内で画像を撮像することが要求されなくなり、撮像部等のコスト増加を抑制することができる。
 <変形例>
 第1実施形態の変形例について、図5及び図6を参照して説明する。なお、以下で説明する変形例は、第1実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第1実施形態(図1から図4参照)と同一であってよい。このため、以下では、すでに説明した第1実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。
(変形例の構成)
 まず、図5を参照しながら、第1実施形態の変形例に係る学習システム10の機能的構成について説明する。図5は、第1実施形態の変形例に係る学習システムの機能的構成を示すブロック図である。図5では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図5に示すように、第1実施形態の変形例に係る学習システム10は、その機能を実現するための処理ブロックとして、画像選択部110と、特徴量抽出部120と、学習部130とを備えて構成されている。そして特に、変形例に係る学習システム10は、学習部130が、損失関数計算部131と、勾配計算部132と、パラメータ更新部133とを備えている。
 損失関数計算部131は、特徴量抽出部120で抽出された特徴量と、特徴量の正解情報との誤差に基づいて、損失関数を計算可能に構成されている。損失関数の具体的な計算方法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。
 勾配計算部132は、損失関数計算部131で計算された損失関数を用いて、勾配を計算可能に構成されている。勾配の具体的な計算方法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略する。
 パラメータ更新部133は、勾配計算部132で計算された勾配に基づいて、特徴量抽出部120におけるパラメータ(即ち、特徴量を抽出するためのパラメータ)を更新可能に構成されている。パラメータ更新部133は、損失関数で計算される損失が小さくなるようにパラメータを更新することで、特徴量がより正解情報に近い情報として推定されるようにパラメータを最適化する。
 (変形例の動作)
 次に、図6を参照しながら、第1実施形態の変形例にかかる学習システムの動作の流れについて説明する。図6は、第1実施形態の変形例に係る学習システムの動作の流れを示すフローチャートである。図6では、図4で示した処理と同様の処理に同一の符号を付している。
 図6に示すように、第1実施形態の変形例に係る学習システム10が動作する際には、まず画像選択部110が、高フレームレート画像から一部の画像を選択する(ステップS101)。画像選択部110は、選択画像を特徴量抽出部120に出力する。
 続いて、特徴量抽出部120が、選択画像から特徴量を抽出する(ステップS102)。特徴量抽出部120は、抽出した特徴量を学習部130における損失関数計算部131に出力する。
 続いて、損失関数計算部131が、特徴量抽出部120から入力された特徴量と、別途入力された正解情報とに基づいて損失関数を計算する(ステップS111)。そして、勾配計算部132が、損失関数を用いて勾配を計算する(ステップS112)。その後、パラメータ更新部133が、計算された勾配に基づいて、特徴量抽出部120のパラメータを更新する(ステップS113)。
 続いて、学習部130は、すべての学習が終了したか否かを判定する(ステップS104)。学習が終了したと判定された場合(ステップS104:YES)、一連の処理は終了する。一方、学習が終了していないと判定された場合(ステップS104:NO)、再びステップS101から処理が開始されればよい。
 (変形例の効果)
 次に、第1実施形態の変形例に係る学習システム10によって得られる技術的効果について説明する。
 図5から図6で説明したように、第1実施形態の変形例に係る学習システム10では、損失関数から計算される勾配に基づいて、特徴量抽出部120のパラメータが更新される。このように特徴量抽出部120を学習した場合でも、上述した第1実施形態に係る学習システム10と同様に、合焦範囲内で撮像された画像でなくても、精度よく特徴量を抽出することが可能となる。従って、合焦範囲内で画像を撮像することが要求されなくなり、撮像部等のコスト増加を抑制することができる。
 <第2実施形態>
 第2実施形態に係る学習システム10について、図7を参照して説明する。なお、第2実施形態は、上述した第1実施形態と一部の構成及び動作が異なるのみであり、その他の部分については第1実施形態(図1から図6参照)と同一であってよい。このため、以下では、すでに説明した第1実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図7を参照しながら、第2実施形態に係る学習システム10の動作例について説明する。図7は、第2実施形態に係る学習システムの動作例を示す概念図である。
 第2実施形態に係る学習システム10は、高フレームレート画像として、生体の虹彩を含む画像を用いる。よって、画像選択部110が選択する選択画像にも、生体の虹彩が含まれることとなる。そして、第2実施形態に係る特徴量抽出部120は、生体の虹彩を含む画像(以下、適宜「虹彩画像」と称する)から、虹彩の特徴量を抽出可能に構成されている。なお、特徴量抽出部120は、学習部130による学習後に、虹彩認証に用いる特徴量を抽出することになる。
 図7に示すように、虹彩認証を行うシステムでは、認証対象である対象者が移動している状態で虹彩画像を撮像する態様(所謂、ウォークスルー認証)が採用されることがある。このような認証システムでは、対象者の虹彩が合焦範囲内に位置する時間は極めて短い。例えば、対象者が大人の通常の歩行速度である分速80m(秒速1.333cm)で歩いた場合、撮像システムにおける光学レンズによる撮影位置での被写界深度(合焦範囲)が1cmであるとすると、仮に120FPS(8.33ms間隔)で虹彩画像を撮像したとしても、合焦範囲内で撮像できる虹彩画像は1~2枚である。よって、例えばフレームレートが低い状態(例えば、30FPS)で虹彩画像を撮像した場合、合焦範囲内で虹彩画像を撮像できなくなるおそれがある。即ち、すべての虹彩画像が合焦範囲外で撮像されたものになってしまう可能性がある。
 第2実施形態に係る学習システム10は、上述した低フレームレートでの虹彩画像の撮像を想定した学習を行う。即ち、高フレームレートで撮像された虹彩画像から一部の虹彩画像を選択することで、あえて合焦範囲外で撮像された虹彩画像を用いた学習を行う。
 (技術的効果)
 次に、第2実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図7で説明したように、第2実施形態に係る学習システム10では、高フレームレート画像から選択された一部の虹彩画像を用いて、虹彩の特徴量を抽出する特徴量抽出部120が学習される。このようにすれば、合焦範囲外で撮像された虹彩画像からでも、精度よく特徴量を抽出することができるような学習が行える。よって、合焦範囲内で画像を撮像することが要求されなくなり、撮像部等のコスト増加を抑制することができる。
 <第3実施形態>
 第3実施形態に係る学習システム10について、図8を参照して説明する。なお、第3実施形態は、上述した第1及び第2実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1及び第2実施形態と同一であってよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図8を参照しながら、第3実施形態に係る学習システム10の動作例について説明する。図8は、第3実施形態に係る学習システムの動作例を示す概念図である。
 図8に示すように、第3実施形態に係る学習システム10では、画像選択部110が、高フレームレート画像のうち、合焦範囲付近の画像を選択する。この選択方法は、ハイパスフィルタやフーリエ変換などを用いて高フレームレート画像における高周波成分量を求め、その高周波成分があらかじめ設定された閾値を超えた画像を選択してもよい。また、距離センサにて歩行者の虹彩までの距離を計測し、合焦位置までの距離との差を計算し、あらかじめ設定された距離の差を下回った画像を選択してもよい。なお、ここでの「合焦範囲付近」とは、合焦範囲から比較的近い位置であることを意味しており、例えば合焦範囲の端から所定距離内に収まる範囲として設定されている。また、合焦範囲付近には、合焦範囲より前の部分と、合焦範囲より後の部分の両方が含まれていてよい。なお、画像選択部110は、合焦範囲付近に複数の画像が含まれている場合、その中の1枚の画像を選択してもよいし、複数枚の画像を選択してもよい。その際、画像選択部110は、画像範囲付近の画像をランダムに選択するようにしてもよい。
 (技術的効果)
 次に、第3実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図8で説明したように、第3実施形態に係る学習システム10では、選択画像として、合焦範囲付近の画像が選択される。このようにすれば、仮に合焦範囲外の画像であっても、比較的ぼやけ具合が少ない画像を用いて学習が行える。このため、合焦範囲から外れすぎた画像(即ち、ぼやけすぎた画像)を用いることで、適切な学習が行えなくなってしまうことを回避できる。また、低フレームレートの撮像においても、合焦範囲付近の画像が多少は取得できることが想定されるため、実運用に合った条件で学習が行える。
 <第4実施形態>
 第4実施形態に係る学習システム10について、図9を参照して説明する。なお、第4実施形態は、上述した第1から第3実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1から第3実施形態と同一であってよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図9を参照しながら、第4実施形態に係る学習システム10の動作例について説明する。図9は、第4実施形態に係る学習システムの動作例を示す概念図である。
 図9に示すように、第4実施形態に係る学習システム10では、画像選択部110が、第1のフレームレート(即ち、高フレームレート画像を撮像したフレームレート)よりも低い第2のフレームレートに対応する画像を選択する。なお、図9では、第1のフレームレートが120FPSであり、第2のフレームレートが30FPSである例が示されている。このため、高フレームレート画像が4枚おきに1枚ずつ選択されている。選択画像は、第2のフレームレートに応じて等間隔で選択されることになる。
 (技術的効果)
 次に、第4実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図8で説明したように、第4実施形態に係る学習システム10では、第1のフレームレートよりも低い第2のフレームレートに対応する画像が選択される。上記のような選択方法で高フレームレートのデータから学習用のフレーム画像を選択する。選択されたフレーム画像を学習に用いることで低フレームレートの推定に最適なネットワークを学習できる。
 <第5実施形態>
 第5実施形態に係る学習システム10について、図10を参照して説明する。なお、第5実施形態は、上述した第4実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1から第4実施形態と同一であってよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図10を参照しながら、第5実施形態に係る学習システム10の動作例について説明する。図10は、第5実施形態に係る学習システムの動作例を示す表である。
 第5実施形態に係る学習システム10では、画像選択部110が画像を選択するフレームレート(即ち、第2のフレーム)が、学習後の特徴量抽出部120を運用する際のフレームレートとして設定されている。即ち、学習後の特徴量抽出部120に入力される画像のフレームレートを想定して、高フレームレート画像から一部の画像が選択される構成となっている。
 図10に示すように、例えば、高フレームレート画像が、120FPSで撮像された画像であるとする。この場合、特徴量抽出部120を運用する際のフレームレートが30FPSであるとすると、画像選択部110は30FPSに対応する画像を高フレームレート画像から選択する。具体的には、画像選択部110は、高フレームレート画像を4フレームおきに選択する。或いは、特徴量抽出部120を運用する際のフレームレートが40FPSであるとすると、画像選択部110は40FPSに対応する画像を高フレームレート画像から選択する。具体的には、画像選択部110は、高フレームレート画像を3フレームおきに選択する。或いは、特徴量抽出部120を運用する際のフレームレートが60FPSであるとすると、画像選択部110は60FPSに対応する画像を高フレームレート画像から選択する。具体的には、画像選択部110は、高フレームレート画像を2フレームおきに選択する。
 (技術的効果)
 次に、第5実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図10で説明したように、第5実施形態に係る学習システム10では、特徴量抽出部120を運用する際のフレームレートに対応する画像が選択される。このようにすれば、学習後の特徴量抽出部120が運用される際の動作を想定して、より適切な学習を行うことが可能となる。
 <第6実施形態>
 第6実施形態に係る学習システム10について、図11を参照して説明する。なお、第6実施形態は、上述した第1から第5実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1から第5実施形態と同一であってよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図11を参照しながら、第6実施形態に係る学習システム10の動作例について説明する。図11は、第6実施形態に係る学習システムの動作例を示す概念図である。
 図11に示すように、第6実施形態に係る学習システム10では、画像選択部110が、まず基準フレームを選択する。即ち、画像選択部110が、複数枚の高フレームレート画像の中から、1枚の基準フレームを選択する。基準フレームは、高フレームレート画像の中からランダムに選択されてよい。
 その後、画像選択部110は更に、基準フレームを基準として、第2のフレームレートに対応する他の画像を選択していく。具体的には、画像選択部110は、基準フレームから第2のフレームレートに対応する間隔を空けて2番目の画像を選択する。そして、画像選択部110は、2番目の画像から第2のフレームレートに対応売する間隔を空けて、3番目の画像を選択する。なお、ここでは、3枚の画像を選択する例を挙げているが、同様に4番目以降の画像が選択されてもよい。
 (技術的効果)
 次に、第6実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図8で説明したように、第6実施形態に係る学習システム10では、最初に選択される基準フレームを基準にして、その他の画像が選択される。上記のような選択方法で高フレームレートのデータから学習用のフレーム画像を選択する。選択されたフレーム画像を学習に用いることで低フレームレートの推定に最適なネットワークを学習できる。
 <第7実施形態>
 第7実施形態に係る学習システム10について、図12を参照して説明する。なお、第7実施形態は、上述した第6実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第1から第6実施形態と同一であってよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (動作例)
 まず、図12を参照しながら、第7実施形態に係る学習システム10の動作例について説明する。図12は、第7実施形態に係る学習システムの動作例を示す概念図である。
 図12に示すように、第7実施形態に係る学習システム10では、画像選択部110が、合焦範囲の直前から基準フレームを選択する。なお、ここでの「合焦範囲の直前」とは、合焦範囲の前にある比較的近い位置を意味しており、例えば合焦範囲の前端から所定距離内に収まる範囲として設定されている。なお、基準フレームとして選択される画像は、賀正範囲から最も近い位置で撮像される画像に限定されるものではない。図12に示す例では、撮像範囲の外側にある1番最初の画像が基準フレームとして選択されているが、それよりも前で撮像された画像が基準フレームとして選択されてもよい。なお、合焦範囲の直前といえる範囲に複数枚の高レート画像が存在する場合には、画像選択部110は、その中から1枚の画像をランダムに選択して基準フレームとしてよい。
 (技術的効果)
 次に、第7実施形態に係る学習システム10によって得られる技術的効果について説明する。
 図8で説明したように、第7実施形態に係る学習システム10では、撮像範囲の直前から基準フレームが選択される。このようにすれば、合焦範囲の周辺に位置する複数枚の画像が選択画像となるため、学習に適した画像を容易且つ効率的に選択することが可能である。
 <第8実施形態>
 第8実施形態に係る認証システム20について、図13及び図14を参照して説明する。なお、第8実施形態に係る認証システム20は、上述した第1から第7実施形態に係る学習システム10で学習された特徴量抽出部120を備えるシステムであり、そのハードウェア構成については、第1実施形態に係る学習システム10(図1参照)と同一であってよく、その他の部分についても、第1から第7実施形態に係る学習システム10と同様であってもよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 (機能的構成)
 まず、図13を参照しながら、第8実施形態に係る認証システム20の機能的構成について説明する。図13は、第8実施形態に係る認証システムの機能的構成を示すブロック図である。なお、図13では、図2で示した構成要素と同様の要素に同一の符号を付している。
 図13に示すように、第8実施形態に係る学習認証システム20は、その機能を実現するための処理ブロックとして、特徴量抽出部120と、認証部200とを備えて構成されている。認証部200は、例えば上述したプロセッサ11(図1参照)によって実現されてよい。或いは、認証部200は、外部のサーバやクラウドによって実現されるものであってもよい。
 特徴量抽出部120は、上述した各実施形態で説明したように、画像から特徴量を抽出可能に構成されている。ただし、第8実施形態に係る特徴量抽出部120は、第1から第7実施形態で説明した学習システム10によって学習済みとなったものである。特徴量抽出部120で抽出された特徴量は、認証部200に出力される構成となっている。
 認証部200は、特徴量抽出部120で抽出した特徴量を用いて、認証処理を実行可能に構成されている。例えば、認証部200は、生体を撮像した画像を用いて生体認証を行うことが可能に構成されている。認証部200は、虹彩画像から抽出された虹彩の特徴量を用いて、虹彩認証を実行可能に構成されてもよい。なお、認証処理の具体的な手法については、既存の技術を適宜採用することができるため、ここでの詳しい説明は省略するものとする。
 (動作の流れ)
 次に、図14を参照しながら、第8実施形態に係る認証システム20の動作の流れについて説明する。図14は、第8実施形態に係る認証システムの動作の流れを示すフローチャートである。
 図14に示すように、第8実施形態に係る認証システム20が動作する際には、まず特徴量抽出部120が画像を取得する(ステップS801)。ここで取得される画像は、例えば学習時に想定した低フレームレートで撮像された画像であってよい。特徴量抽出部120には、例えばカメラで撮像した画像が、そのまま直接入力されてもよいし、ストレージ等に記憶されている画像が入力されてもよい。
 続いて、特徴量抽出部120が、取得した画像から特徴量を抽出する(ステップS802)。特徴量抽出部120は、抽出した特徴量を認証部200に出力する。
 続いて、認証部200が、特徴量抽出部120で抽出された特徴量を用いて、認証処理を実行する(ステップS803)。認証部200は、例えば登録データベースに登録された特徴量を読み出し、読み出した特徴量と、特徴量抽出部120で抽出された特徴量とが一致するか否かを判定するようにしてもよい。認証処理が終了すると、認証部200は、認証結果を出力する(ステップS804)。
 (技術的効果)
 次に、第8実施形態に係る認証システム20によって得られる技術的効果について説明する。
 図13及び図24で説明したように、第8実施形態に係る認証システム20では、第1から第7実施形態に係る学習システム10によって学習された特徴量抽出部120を用いて、認証処理が実行される。特徴量抽出部120の学習は、すでに説明したように、高レート画像から選択した、一部の画像(合焦範囲で撮像された画像を含む)を用いて行われている。よって、入力画像が合焦範囲内で撮像されたものでなくても、画像の特徴量を精度よく抽出することが可能である。よって、第8実施形態に係る認証システム20によれば、合焦範囲の中又は外のいずれで撮像された画像が入力された場合であっても、正確な認証結果を出力することが可能である。
 <第9実施形態>
 第9実施形態に係る学習モデル生成装置について、図15を参照して説明する。図15は、第9実施形態に係る学習モデル生成装置の機能的構成を示すブロック図である。なお、第9実施形態に係る学習モデル生成装置は、上述した第1から第7実施形態に係る学習システム10と、一部の構成及び動作が共通していてもよい。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 図15に示すように、第9実施形態に係る学習モデル生成装置30は、合焦範囲外で撮像された画像と、その画像に含まれる特徴量を示す情報(即ち、正解情報)と、を入力としている。学習モデル生成装置30は、入力された画像及び特徴量を示す情報を用いて機械学習を行うことにより、学習モデルを生成可能に構成されている。学習モデルは、例えばニューラルネットワークとして構成されており、合焦範囲外で撮像された画像を入力として、入力された画像の特徴量に関する情報を出力するモデルである。
 図15で説明したように、第9実施形態に係る学習モデル生成装置30では、合焦範囲外で撮像された画像(即ち、ピントの合っていない)を用いて機械学習が行われる。このようにすれば、合焦範囲外で撮像された画像から、精度よく特徴量に関する情報を出力可能なモデルを生成できる。即ち、合焦範囲外で撮像されていることに起因して、特徴量を正確に出力することが難しい画像が入力された場合であっても、精度よく特徴量に関する情報を出力できるモデルを生成できる。
 <第10実施形態>
 第10実施形態に係る推定装置について、図16を参照して説明する。図16は、第10実施形態に係る推定装置の機能的構成を示すブロック図である。なお、第10実施形態に係る学習モデル生成装置は、上述した第9実施形態に係る学習モデル生成装置30によって生成された学習モデルを備える装置である。このため、以下では、すでに説明した実施形態と重複する部分については適宜説明を省略するものとする。
 図16に示すように、第10実施形態に係る推定装置40は、学習モデル300を備えて構成されている。学習モデル300は、第9実施形態で説明したように、合焦範囲外で撮像された画像と、その画像に含まれる特徴量を示す情報(即ち、正解情報)と、を用いて機械学習されたモデルである。推定装置40は、合焦範囲外で撮像された画像を入力として、入力された画像の特徴量に関する情報を出力する。より具体的には、推定装置40は、学習モデル300を用いて、入力された画像から特徴量を取得する。そして、推定装置40は、学習モデル300を用いて取得した画像の特徴量を、推定結果として出力する。
 図16で説明したように、第10実施形態に係る推定装置では、合焦範囲外で撮像された画像を用いて学習された学習モデル300を用いて、画像の特徴量が推定される。このようにすれば、合焦範囲外で撮像された画像から、精度よく特徴量に関する情報を推定することができる。即ち、合焦範囲外で撮像されていることに起因して、特徴量を正確に出力することが難しい画像が入力された場合であっても、精度よく特徴量に関する情報を推定できる。
 上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。
 記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS上で動作して処理を実行するものも各実施形態の範疇に含まれる。
 この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置もまたこの開示の技術思想に含まれる。
 <付記>
 以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 付記1に記載の学習システムは、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択する選択手段と、前記一部の画像から特徴量を抽出する抽出手段と、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う学習手段とを備えることを特徴とする学習システムである。
 (付記2)
 付記2に記載の学習システムは、前記複数フレームの画像は、生体の虹彩を含む画像であり、前記抽出手段は、虹彩認証に用いる前記特徴量を抽出することを特徴とする付記1に記載の学習システムである。
 (付記3)
 付記3に記載の学習システムは、前記選択手段は、前記合焦範囲付近の画像を、前記一部の画像として選択することを特徴とする付記1又は2に記載の学習システムである。
 (付記4)
 付記4に記載の学習システムは、前記選択手段は、前記第1のフレームレートよりもレートの低い第2のフレームレートに対応する画像を、前記一部の画像として選択することを特徴とする付記1から3のいずれか一項に記載の学習システムである。
 (付記5)
 付記5に記載の学習システムは、前記第2のフレームレートは、前記学習手段で学習した前記抽出手段を運用する際のフレームレートであることを特徴とする付記4に記載の学習システムである。
 (付記6)
 付記6に記載の学習システムは、前記選択手段は、前記一部の画像から基準フレームを1枚選択し、前記基準フレームを基準にして、前記第2のフレームレートに対応する他の画像を選択することを特徴とする付記4又は5に記載の学習システムである。
 (付記7)
 付記7に記載の学習システムは、前記選択手段は、前記合焦範囲の直前に撮像された画像から前記基準フレームを選択することを特徴とする付記6に記載の学習システムである。
 (付記8)
 付記8に記載の認証システムは、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて学習された抽出手段と、前記抽出された前記特徴量を用いて、認証処理を実行する認証手段とを備えることを特徴とする認証システムである。
 (付記9)
 付記9に記載の学習方法は、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行うことを特徴とする学習方法である。
 (付記10)
 付記10に記載のコンピュータプログラムは、第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行うようにコンピュータを動作させることを特徴とするコンピュータプログラムである。
 (付記11)
 付記11に記載の記録媒体は、付記10に記載のコンピュータプログラムを記録していることを特徴とする記録媒体である。
 (付記12)
 付記12に記載の学習モデル生成装置は、合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を出力する学習モデルを生成する、学習モデル生成装置である。
 (付記13)
 付記13に記載の推定装置は、合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより生成された学習モデルを用いて、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を推定する推定装置である。
 10 学習システム
 20 認証システム
 30 学習モデル生成装置
 40 推定装置
 110 画像選択部
 120 特徴量抽出部
 130 学習部
 131 損失関数計算部
 132 勾配計算部
 133 パラメータ更新部
 200 認証部
 300 学習モデル

Claims (12)

  1.  第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択する選択手段と、
     前記一部の画像から特徴量を抽出する抽出手段と、
     前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う学習手段と
     を備えることを特徴とする学習システム。
  2.  前記複数フレームの画像は、生体の虹彩を含む画像であり、
     前記抽出手段は、虹彩認証に用いる前記特徴量を抽出する
     ことを特徴とする請求項1に記載の学習システム。
  3.  前記選択手段は、前記合焦範囲付近の画像を、前記一部の画像として選択することを特徴とする請求項1又は2に記載の学習システム。
  4.  前記選択手段は、前記第1のフレームレートよりもレートの低い第2のフレームレートに対応する画像を、前記一部の画像として選択することを特徴とする請求項1から3のいずれか一項に記載の学習システム。
  5.  前記第2のフレームレートは、前記学習手段で学習した前記抽出手段を運用する際のフレームレートであることを特徴とする請求項4に記載の学習システム。
  6.  前記選択手段は、前記一部の画像から基準フレームを1枚選択し、前記基準フレームを基準にして、前記第2のフレームレートに対応する他の画像を選択することを特徴とする請求項4又は5に記載の学習システム。
  7.  前記選択手段は、前記合焦範囲の直前に撮像された画像から前記基準フレームを選択することを特徴とする請求項6に記載の学習システム。
  8.  第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、前記一部の画像から特徴量を抽出し、前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて学習された抽出手段と、
     前記抽出された前記特徴量を用いて、認証処理を実行する認証手段と
     を備えることを特徴とする認証システム。
  9.  第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、
     前記一部の画像から特徴量を抽出し、
     前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う
     ことを特徴とする学習方法。
  10.  第1のフレームレートで撮影された複数フレームの画像から、合焦範囲外で撮像された画像を含む一部の画像を選択し、
     前記一部の画像から特徴量を抽出し、
     前記抽出された特徴量と、前記特徴量に関する正解を示す正解情報とに基づいて、前記抽出手段の学習を行う
     ようにコンピュータを動作させることを特徴とするコンピュータプログラム。
  11.  合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を出力する学習モデルを生成する、学習モデル生成装置。
  12.  合焦範囲外で撮像された画像と、当該画像に含まれる特徴量を示す情報と、の組を教師データとして機械学習を行うことにより生成された学習モデルを用いて、合焦範囲外で撮像された画像を入力として当該入力された画像の特徴量に関する情報を推定する推定装置。
PCT/JP2021/013275 2021-03-29 2021-03-29 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置 WO2022208606A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/638,900 US20230351729A1 (en) 2021-03-29 2021-03-29 Learning system, authentication system, learning method, computer program, learning model generation apparatus, and estimation apparatus
PCT/JP2021/013275 WO2022208606A1 (ja) 2021-03-29 2021-03-29 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置
JP2023509920A JP7491465B2 (ja) 2021-03-29 2021-03-29 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/013275 WO2022208606A1 (ja) 2021-03-29 2021-03-29 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置

Publications (1)

Publication Number Publication Date
WO2022208606A1 true WO2022208606A1 (ja) 2022-10-06

Family

ID=83455725

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/013275 WO2022208606A1 (ja) 2021-03-29 2021-03-29 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置

Country Status (3)

Country Link
US (1) US20230351729A1 (ja)
JP (1) JP7491465B2 (ja)
WO (1) WO2022208606A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226729A (ja) * 2003-01-23 2004-08-12 Matsushita Electric Ind Co Ltd 認証対象画像撮像装置
JP2004328367A (ja) * 2003-04-24 2004-11-18 Matsushita Electric Ind Co Ltd 画像撮影装置および認証装置
WO2017175282A1 (ja) * 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004226729A (ja) * 2003-01-23 2004-08-12 Matsushita Electric Ind Co Ltd 認証対象画像撮像装置
JP2004328367A (ja) * 2003-04-24 2004-11-18 Matsushita Electric Ind Co Ltd 画像撮影装置および認証装置
WO2017175282A1 (ja) * 2016-04-04 2017-10-12 オリンパス株式会社 学習方法、画像認識装置およびプログラム

Also Published As

Publication number Publication date
JPWO2022208606A1 (ja) 2022-10-06
JP7491465B2 (ja) 2024-05-28
US20230351729A1 (en) 2023-11-02

Similar Documents

Publication Publication Date Title
KR101060753B1 (ko) 입력 이미지에 포함된 객체에 대한 콜렉션을 수행할 수 있도록 지원하기 위한 방법, 단말 장치 및 컴퓨터 판독 가능한 기록 매체
JP5826947B2 (ja) ソーシャルネットワーキング情報を利用した顔認識
US20160062456A1 (en) Method and apparatus for live user recognition
EP2182469B1 (en) System and method for sensing facial gesture
EP3588366A1 (en) Living body detection method, apparatus, system and non-transitory computer-readable recording medium
JP6678246B2 (ja) 大域的最適化に基づく意味的セグメント化
CN108875931B (zh) 神经网络训练及图像处理方法、装置、系统
EP3627821A1 (en) Focusing method and apparatus for realizing clear human face, and computer device
JP6833620B2 (ja) 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム
CN112785507A (zh) 图像处理方法及装置、存储介质、终端
JP5087037B2 (ja) 画像処理装置、方法及びプログラム
KR20180097915A (ko) 개인 맞춤형 3차원 얼굴 모델 생성 방법 및 그 장치
JP2019215647A (ja) 情報処理装置、その制御方法及びプログラム。
JP2011040993A (ja) 被写体追尾プログラム、およびカメラ
JP2019204518A (ja) 人物追跡方法、装置、機器及び記憶媒体
JP2019012360A (ja) 情報処理装置、プログラム及び情報処理方法
JP6204669B2 (ja) ロバストに非均一モーションブラーを推定する方法及び装置
JPWO2020059377A1 (ja) 位置推定装置、位置推定方法、及びプログラム
WO2022208606A1 (ja) 学習システム、認証システム、学習方法、コンピュータプログラム、学習モデル生成装置、及び推定装置
JP4717445B2 (ja) 画像処理システム、画像処理装置、ゲーム装置、プログラム、情報記憶媒体および画像処理方法
WO2021229761A1 (ja) 撮像システム、撮像方法、及びコンピュータプログラム
JP2010146522A (ja) 顔画像追跡装置及び顔画像追跡方法並びにプログラム
US20180157905A1 (en) Image processing device, image processing method, and storage medium
CN105763766B (zh) 控制方法、控制装置及电子装置
CN115037869A (zh) 自动对焦方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21934780

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023509920

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21934780

Country of ref document: EP

Kind code of ref document: A1