WO2022250071A1 - 学習方法、学習装置及びプログラム - Google Patents

学習方法、学習装置及びプログラム Download PDF

Info

Publication number
WO2022250071A1
WO2022250071A1 PCT/JP2022/021329 JP2022021329W WO2022250071A1 WO 2022250071 A1 WO2022250071 A1 WO 2022250071A1 JP 2022021329 W JP2022021329 W JP 2022021329W WO 2022250071 A1 WO2022250071 A1 WO 2022250071A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
label
synthetic
learning
teacher
Prior art date
Application number
PCT/JP2022/021329
Other languages
English (en)
French (fr)
Inventor
弘亘 藤吉
隆義 山下
翼 平川
和紀 小塚
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to EP22811341.1A priority Critical patent/EP4350612A1/en
Priority to JP2023523497A priority patent/JPWO2022250071A1/ja
Publication of WO2022250071A1 publication Critical patent/WO2022250071A1/ja
Priority to US18/512,767 priority patent/US20240087098A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Definitions

  • the present disclosure relates to a learning method and the like for generating a learning model used for image recognition.
  • Patent Document 1 shows that arbitrary noise is added to the image in order to enable generation of a more versatile and robust classifier.
  • the present disclosure provides a learning method and the like capable of generating a learning model that is robust against noise.
  • a learning method is a learning method for generating a learning model used for image recognition, wherein a first image is generated by adding noise to a first region of an original image, By adding noise to a second region of the original image excluding the first region to generate a second image, and performing weighted addition of the first image and the second image at a first ratio , generating a composite image, performing a weighted addition of a first base label corresponding to the correct label of the original image and a second base label corresponding to the incorrect label of the original image, the size of the first region;
  • a first teacher label is generated for the first image by performing at a second ratio, which is a ratio to the size of the second region, and weighted addition of the first base label and the second base label is performed on the second base label.
  • a second teacher label is generated for the second image by performing a ratio opposite to the ratio of 2, and a weighted addition of the first teacher label and the second teacher label is performed by the first ratio,
  • the learning model is generated by generating a synthetic teacher label for the synthetic image and performing machine learning using the synthetic image and the synthetic teacher label.
  • FIG. 1 is a conceptual diagram showing the results of recognition processing in a reference example.
  • FIG. 2 is a conceptual diagram showing learning in the reference example.
  • FIG. 3 is a conceptual diagram showing a partial noise added image in the reference example.
  • FIG. 4 is a block diagram showing the configuration of the learning device according to this embodiment.
  • FIG. 5 is a flow chart showing the operation of the learning device according to this embodiment.
  • FIG. 6 is a conceptual diagram showing details of generation of a synthesized image in this embodiment.
  • FIG. 7 is a conceptual diagram showing the details of synthetic teacher label generation in this embodiment.
  • FIG. 8 is a data diagram showing comparison results of recognition accuracies in this embodiment.
  • noise-added image by adding noise to an image and performing machine learning using the noise-added image, it is possible to generate a learning model that is robust against noise. Further, by adding noise to a part of an image and performing machine learning using the image to which noise is added to a part, a learning model that is more robust against noise may be generated.
  • a learning method is a learning method for generating a learning model used for image recognition, and by adding noise to a first region of the original image, the first image and adding noise to a second region of the original image excluding the first region to generate a second image, and performing weighted addition of the first image and the second image at a first ratio to generate a synthesized image, and weighted addition of a first base label corresponding to the correct label of the original image and a second base label corresponding to the incorrect label of the original image is performed in the first region and the size of the second region to generate a first teacher label for the first image, weighting the first base label and the second base label A second teacher label for the second image is generated by performing addition at a rate opposite to the second rate, and weighted addition of the first teacher label and the second teacher label is performed at the first rate.
  • a synthetic teacher label for the synthetic image is generated, and machine learning is performed using the synthetic image and the synthetic teacher label to generate the learning
  • the learning method generates the first image, the second image, the synthetic image, the first teacher label, the second teacher label, and the synthetic teacher label for each of a plurality of first regions.
  • a plurality of synthetic images and a plurality of synthetic teacher labels are generated, and machine learning is performed using the plurality of synthetic images and the plurality of synthetic teacher labels, thereby generating the learning model.
  • the learning method generates a plurality of synthetic images and a plurality of synthetic teacher labels by generating the synthetic images and the synthetic teacher labels for each of the plurality of first ratios, and
  • the learning model is generated by performing machine learning using the image and the plurality of synthetic teacher labels.
  • the first region is where W indicates the width of the original image, H indicates the height of the original image, r x1 indicates the left edge of the first area, r y1 indicates the top edge of the first area , r x2 indicates the right end of the first region, r y2 indicates the bottom end of the first region, a to U [b, c] are according to a uniform distribution of a from b to c Indicates that it is determined.
  • the first ratio is determined according to the beta distribution of B( ⁇ , ⁇ ), where B represents a beta function and ⁇ represents a positive real number.
  • a learning device is a learning device that generates a learning model used for image recognition, and includes a processor and a memory, and the processor uses the memory to generate an original image. generating a first image by adding noise to a first region of the original image; generating a second image by adding noise to a second region of the original image excluding the first region; A composite image is generated by performing weighted addition of the first image and the second image at a first ratio, and a first base label corresponding to the correct label of the original image and an incorrect label of the original image are obtained.
  • a first teacher label for the first image is generated by performing a weighted addition with the corresponding second base label at a second ratio, which is the ratio between the size of the first region and the size of the second region. and performing weighted addition of the first basic label and the second basic label at a ratio opposite to the second ratio to generate a second teacher label for the second image, and the first teacher label and the second teacher label at the first ratio to generate a synthetic teacher label for the synthetic image, and perform machine learning using the synthetic image and the synthetic teacher label to perform the Generate a learning model.
  • the learning device can execute the above learning method.
  • the above learning method is implemented by a learning device.
  • the program according to one aspect of the present disclosure may be a program for causing a computer to execute the learning method.
  • the program can cause the computer to execute the above learning method. Then, the above learning method is implemented by a program.
  • FIG. 1 is a conceptual diagram showing the result of recognition processing in the reference example.
  • a noise added image is generated by adding noise to the original image.
  • the noise added image is generated by adding the original image and the image obtained by multiplying the noise image by the weight of ⁇ .
  • image recognition is performed on this noise-added image, a correct recognition result may not be obtained.
  • adding two images together means adding together the pixel values of corresponding pixels in the two images.
  • FIG. 2 is a conceptual diagram showing learning in the reference example.
  • a model used for image recognition is trained using a noise added image. Specifically, the model is updated so that the noise-added image is correctly recognized as representing a "dog".
  • the model used for image recognition is a mathematical model, also called a recognition model or a learning model.
  • the model used for image recognition may be a neural network model. Also, as described above, learning that is performed by adding noise to the original image is an example of adversarial training.
  • FIG. 3 is a conceptual diagram showing a partial noise added image in the reference example.
  • the partial noise added image is an image obtained by adding noise to a partial region of the original image rather than the entire original image.
  • a mask image is generated in which areas other than the area to which noise is added are masked.
  • each pixel value in the area to which noise is added is set to 1
  • each pixel value other than the area to which noise is added is set to 0.
  • a noise image is generated that is composed of noise over the entire area of the image.
  • a noisy image may, for example, consist of uniform noise over the entire area of the image.
  • the partial noise added image is generated by adding the partial noise image and the original image pixel by pixel.
  • the model may be trained using such a partially noise-added image. This makes it possible to perform learning using more patterns and obtain a model that is more robust against noise.
  • noise is added to a part of the area and no noise is added to the remaining area.
  • a partially noise-added image in which the noise addition method is greatly different for each region may not be suitable for learning.
  • the label corresponding to the original image may not be appropriate as the label corresponding to the partial noise added image.
  • FIG. 4 is a block diagram showing the configuration of the learning device according to this embodiment.
  • a learning device 100 shown in FIG. 4 includes a processor 101 and a memory 102 .
  • Learning device 100 may be a computer.
  • the processor 101 is, for example, a dedicated or general-purpose electric circuit that performs information processing, and is a circuit that can access the memory 102 .
  • Processor 101 may be a processor such as a CPU. Also, the processor 101 may be an assembly of a plurality of electric circuits. Further, the processor 101 may perform information processing by reading a program from the memory 102 and executing the program. The processor 101 may perform machine learning as information processing, or may perform image recognition.
  • the processor 101 generates images for learning and labels corresponding to the images. Specifically, the processor 101 acquires the original image for learning and the original label corresponding to the original image, and from the original image and the original label, the additional image for learning and the additional image. Generate corresponding additional labels.
  • the processor 101 learns the model using images for learning and labels corresponding to the images. For example, the processor 101 learns by updating the model so that the label output from the model by inputting an image to the model matches the label corresponding to the image. Also, the processor 101 may perform image recognition using a trained model.
  • the memory 102 is, for example, a dedicated or general-purpose electric circuit that stores information for the processor 101 to process information. Memory 102 may be connected to processor 101 or may be included in processor 101 . Also, the memory 102 may be an assembly of a plurality of electric circuits.
  • the memory 102 may be a non-volatile memory or a volatile memory. Also, the memory 102 may be a magnetic disk, an optical disk, or the like, or may be expressed as a storage, recording medium, or the like. Also, the memory 102 may be a non-temporary recording medium such as a CD-ROM.
  • the memory 102 may store a model used for image recognition, may store a recognition target image, or may store a recognition result. Further, the memory 102 may store a program for the processor 101 to perform information processing.
  • FIG. 4 shows an example of the configuration of the learning device 100
  • the configuration of the learning device 100 is not limited to the example shown in FIG.
  • the learning device 100 may include multiple components that perform multiple processes described below.
  • FIG. 5 is a flow chart showing the operation of the learning device 100 shown in FIG. Specifically, in learning device 100, processor 101 uses memory 102 to perform the operation shown in FIG.
  • the processor 101 generates a first image by adding noise to a first region of the original image (S101). Also, the processor 101 generates a second image by adding noise to a second area of the original image excluding the first area (S102). Then, the processor 101 generates a composite image by performing weighted addition of the first image and the second image at the first ratio (S103).
  • the processor 101 generates a first teacher label for the first image by performing weighted addition of the first basic label and the second basic label at a second ratio (S104). Also, the processor 101 generates a second teacher label for the second image by performing weighted addition of the first basic label and the second basic label at a ratio opposite to the second ratio (S105). Then, a weighted addition of the first teacher label and the second teacher label is performed at a first ratio to generate a synthetic teacher label for the synthetic image (S106).
  • the first basic label corresponds to the correct label of the original image
  • the second basic label corresponds to the incorrect label of the original image.
  • Each label described above is not limited to a label representing one correct class, but may be a so-called soft label, or may represent a plurality of likelihoods for a plurality of classes.
  • the second ratio is the ratio between the size of the first area and the size of the second area.
  • processor 101 generates a learning model by performing machine learning using the synthesized image and the synthesized teacher label (S107). Specifically, processor 101 generates a learning model such that a synthetic teacher label is output when a synthetic image is input to the learning model.
  • the learning device 100 can add noise according to the first ratio to each of the first area of the original image and the second area of the original image excluding the first area. Therefore, learning device 100 can prevent noise from being added in a manner that differs greatly depending on the area. Therefore, learning device 100 can generate an image suitable for learning.
  • the learning device 100 can synthesize two teacher labels using the same ratio as that used to synthesize two images. Therefore, learning device 100 can generate an appropriate synthetic teacher label for a synthetic image.
  • the learning device 100 can generate a learning model that is robust against noise by using the synthesized image and the synthesized teacher label.
  • the learning device 100 may include a plurality of components respectively corresponding to the plurality of processes (S101 to S107) described above.
  • the learning device 100 includes a first image generator, a second image generator, a synthetic image generator, a first teacher label generator, a second teacher label generator, a synthetic teacher label generator, and a learning model generator. may be provided.
  • the processor 101 may generate a plurality of synthetic images and a plurality of synthetic teacher labels by performing the above processing (S101 to S106) for each of the plurality of first regions. Then, the processor 101 may generate a learning model by performing machine learning using multiple synthetic images and multiple synthetic teacher labels.
  • the plurality of first areas are, for example, different areas in the original image. Also, the plurality of first regions may partially overlap.
  • learning device 100 can generate various synthetic images and various synthetic teacher labels according to various first regions.
  • learning device 100 can generate a learning model that is robust against noise.
  • the processor 101 generates a synthetic image (S103) and a synthetic teacher label (S106) for each of the plurality of first ratios, thereby creating a plurality of synthetic images and a plurality of synthetic teacher labels. You may Then, the processor 101 may generate a learning model by performing machine learning using multiple synthetic images and multiple synthetic teacher labels.
  • the processor 101 performs the above processes (S101 to S106) for each of the plurality of first regions, and generates a synthetic image and a synthetic teacher label for each of the plurality of first ratios (S103 and S106) may be performed. And thereby, the processor 101 may generate multiple synthetic images and multiple synthetic teacher labels. Then, the processor 101 may generate a learning model by performing machine learning using multiple synthetic images and multiple synthetic teacher labels.
  • the learning device 100 can generate various synthetic images and various synthetic teacher labels according to various first regions and various first ratios.
  • learning device 100 can generate a learning model that is robust against noise.
  • FIG. 6 is a conceptual diagram showing details of generation of a synthesized image in this embodiment. Specifically, first, the processor 101 determines a first area of the original image, and determines a second area of the original image excluding the first area. Processor 101 may determine the first region according to the following formula.
  • W indicates the width of the original image
  • H indicates the height of the original image.
  • rx1 indicates the left edge of the first area
  • ry1 indicates the top edge of the first area
  • rx2 indicates the right edge of the first area
  • ry2 indicates the bottom edge of the first area.
  • a ⁇ U[b,c] indicates that a is determined according to a uniform distribution from b to c. Thereby, the first area is appropriately determined according to the size of the original image.
  • the processor 101 generates a first mask image by masking areas other than the first area (that is, the second area) out of the entire area of the original image.
  • each pixel value in the first region is set to 1
  • each pixel value in the second region other than the first region is set to 0.
  • the processor 101 also generates a second mask image in which the entire area of the original image is masked except for the second area (that is, the first area).
  • each pixel value in the second area is set to 1, and each pixel value in the first area other than the second area is set to 0.
  • the processor 101 generates a noise image whose entire area is composed of the same type of noise. Then, by multiplying the first mask image and the noise image pixel by pixel, a first noise image including noise only in the first region is generated. Further, by multiplying the second mask image and the noise image pixel by pixel, a second noise image including noise only in the second region is generated.
  • the first noise image and the second noise image can also be expressed as a first partial noise image and a second partial noise image, respectively.
  • the processor 101 adds the first noise image and the original image pixel by pixel to generate the first image.
  • a first image is generated in which noise is added to the first region of the original image.
  • the processor 101 also generates a second image by adding the second noise image and the original image pixel by pixel.
  • a second image is generated in which noise is added to the second area of the original image, excluding the first area.
  • the first image and the second image can also be expressed as a first partial noise-added image and a second partial noise-added image, respectively.
  • the processor 101 performs weighted addition of the first image in which noise is added to the first region and the second image in which noise is added to the second region at a first ratio to generate a composite image. .
  • the processor 101 weights the first image by ⁇ 2 and weights the second image by 1 ⁇ 2 , and performs a weighted addition of these pixel by pixel to generate a composite image.
  • ⁇ 2 is a value from 0 to 1, specifically, it may be a value of 0 or more and 1 or less, or may be a value greater than 0 and less than 1.
  • Processor 101 may determine ⁇ 2 according to the beta distribution of B( ⁇ , ⁇ ).
  • B indicates a beta function and ⁇ indicates a positive real number. This makes it possible to generate a synthetic image and a synthetic teacher label using the first ratio corresponding to ⁇ 2 that is appropriately determined according to a symmetrical probability distribution. Then, when a plurality of data sets are generated from the original image and the original teacher label, occurrence of bias in the plurality of data sets is suppressed.
  • a composite image is generated appropriately.
  • the above process is an example of the process for generating a composite image, and the process for generating a composite image is not limited to the above process.
  • the mask image, the noise image, the first noise image, and the second noise image may not be used, and the same type of noise is directly applied to each region of the original image, so that the first image and the second image are may be generated.
  • FIG. 7 is a conceptual diagram showing the details of synthetic teacher label generation in this embodiment.
  • corresponds to the second ratio between the size of the first area and the size of the second area. Specifically, ⁇ indicates the ratio of the size of the first area to the size of the original image, and 1 ⁇ indicates the ratio of the size of the second area to the size of the original image.
  • the first basic label corresponds to the correct label of the original image and may be expressed as the correct label.
  • a correct label is a label indicating the correct class of an object appearing in the original image. That is, the first base label may correspond to the teacher label for the original image.
  • the first base label may have a 100% likelihood for the correct class of objects in the original image and a 0% likelihood for each other class. For example, the first base label may have a 100% likelihood for the dog class and a 0% likelihood for each of the other classes.
  • the second basic label corresponds to the incorrect label of the original image and may be expressed as the incorrect label.
  • An incorrect label is a label indicating an incorrect class of an object appearing in the original image. That is, the second base label may correspond to the teacher label for the noise image.
  • the second base label may have a 0% likelihood for the correct class of objects in the original image and a greater than 0% likelihood for each other class.
  • the second base label may have a 0% likelihood for the dog class and a few percent likelihood for each of the other classes. More specifically, the second base label may have a likelihood of 1/total number of classes for each other class.
  • the total number of classes may be the total number of other classes.
  • y1 corresponds to the first teacher label for the first image.
  • y 1 is by performing a weighted addition of the first and second base labels corresponding to the correct and incorrect labels, respectively, according to the ratio of the noisy and non-noisy regions in the first image. can get. Specifically, as shown in FIG. 7, y 1 is obtained by giving a weight of ⁇ to the first basic label, giving a weight of 1 ⁇ to the second basic label, and performing weighted addition of these.
  • y2 corresponds to the second teacher label for the second image. y2 by performing a weighted addition of the first and second base labels corresponding to the correct and incorrect labels, respectively, according to the ratio of noisy to non-noisy regions in the second image. can get. Specifically, as shown in FIG. 7, y2 is obtained by weighting the second basic label with ⁇ and weighting the first basic label with 1 ⁇ and performing weighted addition.
  • y2 is obtained by performing a weighted addition of the first and second basic labels in a ratio opposite to that of y1 .
  • a reverse ratio means that the weight given to the first base label and the second base label are exchanged.
  • y corresponds to the synthetic teacher label for the synthetic image.
  • y is obtained by giving a weight of ⁇ 2 to the first teacher label (y 1 ), a weight of 1 ⁇ 2 to the second teacher label (y 2 ), and performing weighted addition of these.
  • ⁇ 2 corresponds to the first ratio. That is, the ratio for weighted addition of the first teacher label and the second teacher label is the same as the ratio for generating the synthesized image.
  • a synthetic teacher label is generated by the above processing.
  • the generation of the first teacher label for the first image and the generation of the second teacher label for the second image reflect the ratio of the noisy region.
  • the weighted addition of the first teacher label for the first image and the second teacher label for the second image reflects the first ratio for the weighted addition of the first image and the second image. Therefore, an appropriate synthesized teacher label is generated for a synthesized image in which noise is added to each region.
  • FIG. 8 is a data diagram showing comparison results of recognition accuracies in this embodiment. Specifically, FIG. 8 shows the recognition accuracy based on the learning method of the reference example described in FIG. 3 and the recognition accuracy of the present embodiment described in FIGS. A comparison with the recognition accuracy based on the morphological learning method is shown.
  • FGSM Fast Gradient Sign Method
  • PGD Project Gradient Descent
  • PDG-20 PDG-20
  • CIFAR Canadian Institute For Advanced Research
  • the learning method of the present embodiment suppresses deterioration of recognition accuracy against various noises.
  • the recognition accuracy of the learning method of the present embodiment is slightly lower than that of the learning method of the reference example, but it is 90% or more, which is a level without problems.
  • aspects of the learning method have been described above based on the embodiments, the aspects of the learning method are not limited to the embodiments. Modifications conceived by those skilled in the art may be applied to the embodiments, and multiple constituent elements in the embodiments may be combined arbitrarily. For example, operations performed by a particular component in an embodiment may be performed by another component in place of a particular component. In addition, the order of multiple processes may be changed, and multiple processes may be executed in parallel.
  • the learning method may be executed by any device or system. That is, the learning method may be performed by a learning device, or by another device or system.
  • the above learning method may be executed by a computer including a processor, memory, input/output circuits, and the like.
  • the learning method may be executed by the computer executing a program for causing the computer to execute the learning method.
  • the program may be recorded in a non-temporary computer-readable recording medium such as a CD-ROM.
  • the above program is a learning method for generating a learning model to be used for image recognition in a computer, wherein the first image is generated by adding noise to the first region of the original image, and the By adding noise to a second region of the original image excluding the first region to generate a second image, and performing weighted addition of the first image and the second image at a first ratio, A synthetic image is generated, and a weighted addition of a first base label corresponding to the correct label of the original image and a second base label corresponding to the incorrect label of the original image is performed with the size of the first region and the A first teacher label is generated for the first image by performing a second ratio, which is a ratio to the size of the second region, and weighted addition of the first base label and the second base label is performed on the second base label.
  • a second ratio which is a ratio to the size of the second region
  • a second teacher label for the second image is generated by performing a ratio opposite to the ratio, and a weighted addition of the first teacher label and the second teacher label is performed by the first ratio, so that the A learning method for generating the learning model is executed by generating a synthetic teacher label for the synthetic image and performing machine learning using the synthetic image and the synthetic teacher label.
  • the plurality of components of the learning device that executes the learning method may be composed of dedicated hardware, may be composed of general-purpose hardware that executes the above program, etc., or may be a combination thereof.
  • the general-purpose hardware may be composed of a memory in which a program is stored, a general-purpose processor that reads and executes the program from the memory, and the like.
  • the memory may be a semiconductor memory, a hard disk, or the like
  • the general-purpose processor may be a CPU or the like.
  • dedicated hardware may be configured with a memory, a dedicated processor, and the like.
  • a dedicated processor may refer to the memory and execute the learning method described above.
  • each component of the learning device that executes the learning method may be an electric circuit.
  • These electric circuits may form one electric circuit as a whole, or may be separate electric circuits. Further, these electric circuits may correspond to dedicated hardware, or may correspond to general-purpose hardware for executing the above-described programs and the like.
  • a method of generating learning data is a method of generating learning data for generating a learning model used for image recognition by machine learning. generating a first image, adding noise to a second area of the original image excluding the first area to generate a second image, and performing weighted addition of the first image and the second image; A synthetic image is generated by performing at a ratio of 1, and the weighted addition of the first base label corresponding to the correct label of the original image and the second base label corresponding to the incorrect label of the original image is performed by the weighted addition of the first base label corresponding to the incorrect label of the original image.
  • a first teacher label for the first image is generated by performing at a second ratio, which is a ratio of the size of the first region and the size of the second region, and the first base label and the second base label are generated. at a ratio opposite to the second ratio to generate a second teacher label for the second image, and weighted addition of the first teacher label and the second teacher label is performed at the first Learning data including the synthetic image and the synthetic teacher label corresponding to the synthetic image is generated by generating the synthetic teacher label for the synthetic image by performing the ratio.
  • the composite image may have a third area whose noise is different from that of the first and second areas.
  • a synthetic teacher label may then be generated based on the size of the first area, the size of the second area, and the size of the third area.
  • the first area in the composite image is a rectangular area, it may be a non-rectangular area.
  • the present disclosure is useful, for example, for learning devices that generate learning models used for image recognition, and is applicable to image recognition systems, character recognition systems, biometric authentication systems, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

学習方法は、第1領域にノイズを付与することにより、第1画像を生成し、第2領域にノイズを付与することにより、第2画像を生成し、第1画像と第2画像との重み付け加算を行うことにより、合成画像を生成し、第1画像に対する第1教師ラベル(y1)を生成し、第2画像に対する第2教師ラベル(y2)を生成し、第1教師ラベル(y1)と第2教師ラベル(y2)との重み付け加算を行うことにより、合成教師ラベル(y)を生成し、合成画像及び合成教師ラベル(y)を用いて機械学習を行うことにより、学習モデルを生成する。

Description

学習方法、学習装置及びプログラム
 本開示は、画像認識に用いられる学習モデルを生成する学習方法等に関する。
 特許文献1には、より汎用的で頑健な分類器の生成を可能とするため、画像に恣意的なノイズが加えられることが示されている。
特開2019-79374号公報
 しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。そして、元画像とは全く異なる画像に対して元画像の教師ラベルで機械学習が行われることにより、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。
 そこで、本開示は、ノイズに対して頑健な学習モデルを生成することができる学習方法等を提供する。
 本開示の一態様に係る学習方法は、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。
 なお、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 本開示の一態様に係る学習方法等によって、ノイズに対して頑健な学習モデルを生成することが可能になる。
図1は、参考例における認識処理の結果を示す概念図である。 図2は、参考例における学習を示す概念図である。 図3は、参考例における部分ノイズ付与画像を示す概念図である。 図4は、本実施の形態における学習装置の構成を示すブロック図である。 図5は、本実施の形態における学習装置の動作を示すフローチャートである。 図6は、本実施の形態における合成画像の生成の詳細を示す概念図である。 図7は、本実施の形態における合成教師ラベルの生成の詳細を示す概念図である。 図8は、本実施の形態における認識精度の比較結果を示すデータ図である。
 例えば、画像にノイズを付与し、ノイズが付与された画像を用いて、機械学習を行うことにより、ノイズに対して頑健な学習モデルが生成される可能性がある。また、画像の一部にノイズを付与し、一部にノイズが付与された画像を用いて、機械学習を行うことにより、ノイズに対してより頑健な学習モデルが生成される可能性がある。
 しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。また、元画像の一部にノイズが付与される場合、ノイズのある領域と、ノイズのない領域との存在によって、元画像の教師ラベルが適切でなくなる可能性がある。このような画像に対して元画像の教師ラベルで機械学習が行われることにより、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。
 そこで、例えば、本開示の一態様に係る学習方法は、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。
 これにより、第1比率に従って各領域にノイズが付与された合成画像を生成することが可能になる。したがって、これにより、学習に適切な画像が生成される可能性がある。また、第1比率に従って、2つの画像が合成され、かつ、2つの教師ラベルが合成されるため、合成画像に対して適切な合成教師ラベルを生成することが可能になる。そして、合成画像及び合成教師ラベルを用いることにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、前記学習方法は、複数の第1領域のそれぞれについて、前記第1画像、前記第2画像、前記合成画像、前記第1教師ラベル、前記第2教師ラベル及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。
 これにより、様々な第1領域に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、前記学習方法は、複数の第1比率のそれぞれについて、前記合成画像及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。
 これにより、様々な第1比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、前記第1領域は、
Figure JPOXMLDOC01-appb-M000002
に従って決定され、Wは、前記元画像の幅を示し、Hは、前記元画像の高さを示し、rx1は、前記第1領域の左端を示し、ry1は、前記第1領域の上端を示し、rx2は、前記第1領域の右端を示し、ry2は、前記第1領域の下端を示し、a~U[b、c]は、aがbからcまでの一様分布に従って決定されることを示す。
 これにより、元画像の大きさに従って適切に決定される第1領域を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、前記第1比率は、B(α、α)のベータ分布に従って決定され、Bは、ベータ関数を示し、αは、正の実数を示す。
 これにより、対称性を有する確率分布に従って適切に決定される第1比率を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、本開示の一態様に係る学習装置は、画像認識に用いられる学習モデルを生成する学習装置であって、プロセッサ及びメモリを備え、前記プロセッサは、前記メモリを用いて、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する。
 これにより、学習装置は、上記の学習方法を実行することができる。そして、上記の学習方法が、学習装置によって実現される。
 また、例えば、本開示の一態様に係るプログラムは、前記学習方法をコンピュータに実行させるためのプログラムであってもよい。
 これにより、プログラムは、上記の学習方法をコンピュータに実行させることができる。そして、上記の学習方法が、プログラムによって実現される。
 さらに、これらの包括的又は具体的な態様は、システム、装置、方法、集積回路、コンピュータプログラム、又は、コンピュータ読み取り可能なCD-ROMなどの非一時的な記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラム、及び、記録媒体の任意な組み合わせで実現されてもよい。
 以下、図面を用いて、実施の形態について説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示す。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、請求の範囲を限定する主旨ではない。
 図1は、参考例における認識処理の結果を示す概念図である。例えば、元画像に対してノイズが付与されることにより、ノイズ付与画像が生成される。具体的には、元画像と、ノイズ画像にεの重みを掛けることで得られる画像とを足し合わせることにより、ノイズ付与画像が生成される。このノイズ付与画像に対して画像認識が行われた場合、正しい認識結果が得られない場合がある。なお、画像と画像とを足し合わせるとは、2つの画像の対応する画素の画素値を足し合わせることを意味する。
 図1の例では、元画像に対して認識処理が行われた場合、元画像が「犬」を表していると正しく認識される。一方、ノイズ付与画像に対して認識処理が行われた場合、ノイズ付与画像が「猫」を表していると誤って認識される。つまり、元画像に対して付与されたノイズによって、誤認識が発生する可能性がある。
 図2は、参考例における学習を示す概念図である。図2の例では、画像認識に用いられるモデルに対して、ノイズ付与画像を用いて学習が行われている。具体的には、ノイズ付与画像が「犬」を表していると正しく認識されるように、モデルが更新されている。
 画像認識に用いられるモデルは、認識モデル又は学習モデルとも呼ばれる数理モデルである。画像認識に用いられるモデルは、ニューラルネットワークモデルであってもよい。また、上記のように、元画像に敢えてノイズを付与して行われる学習は、敵対的学習(Adversarial Training)の一例である。
 上記のような学習が行われることにより、画像がノイズを含んでいても、正しい認識結果が得られる。したがって、ノイズに対して頑健なモデルが得られる。しかしながら、元画像にノイズが付与されることで、元画像とは全く異なる画像が得られる可能性がある。そして、元画像とは全く異なる画像に対して元画像の教師ラベルで学習が行われると、画像認識の精度が劣化する可能性がある。したがって、ノイズに対して頑健な画像認識を行うことは必ずしも容易ではない。
 図3は、参考例における部分ノイズ付与画像を示す概念図である。ここで、部分ノイズ付与画像は、元画像の全体ではなく、元画像の一部の領域にノイズを付与することによって得られる画像である。
 具体的には、画像の全領域のうち、ノイズが付与される領域以外がマスクされたマスク画像が生成される。マスク画像では、ノイズが付与される領域の各画素値が1に設定され、ノイズが付与される領域以外の各画素値が0に設定される。また、画像の全領域にわたってノイズで構成されるノイズ画像が生成される。ノイズ画像は、例えば、画像の全領域にわたって一様なノイズで構成されてもよい。
 そして、マスク画像とノイズ画像とが画素毎に掛け合わされることにより、ノイズが付与される領域のみにノイズを含む部分ノイズ画像が生成される。そして、部分ノイズ画像と、元画像とが画素毎に足し合わされることにより、部分ノイズ付与画像が生成される。
 このような、部分ノイズ付与画像を用いてモデルに対して学習が行われてもよい。これにより、より多くのパターンを用いて学習を行うことが可能になり、ノイズに対してより頑健なモデルを得ることが可能になる。
 しかしながら、部分ノイズ付与画像では、一部の領域にノイズが付与され、残りの領域にノイズが全く付与されない。領域毎にノイズ付与方法が大きく異なる部分ノイズ付与画像は、学習に適切でない可能性がある。また、元画像に対応するラベルが、部分ノイズ付与画像に対応するラベルとして適切でない可能性がある。
 そこで、以下では、学習に適切な画像及びラベルを生成し、学習に適切な画像及びラベルを用いて学習を行う学習方法が説明される。
 図4は、本実施の形態における学習装置の構成を示すブロック図である。図4に示された学習装置100は、プロセッサ101及びメモリ102を備える。学習装置100は、コンピュータであってもよい。
 プロセッサ101は、例えば、情報処理を行う専用又は汎用の電気回路であり、メモリ102にアクセス可能な回路である。プロセッサ101は、CPUのようなプロセッサであってもよい。また、プロセッサ101は、複数の電気回路の集合体であってもよい。また、プロセッサ101は、メモリ102からプログラムを読み出して、プログラムを実行することにより、情報処理を行ってもよい。プロセッサ101は、情報処理として機械学習を行ってもよいし、画像認識を行ってもよい。
 例えば、プロセッサ101は、学習のための画像、及び、画像に対応するラベルを生成する。具体的には、プロセッサ101は、学習のための元画像、及び、元画像に対応する元ラベルを取得し、元画像及び元ラベルから、学習のための追加の画像、及び、追加の画像に対応する追加のラベルを生成する。
 また、プロセッサ101は、学習のための画像、及び、画像に対応するラベルを用いて、モデルに対して学習を行う。例えば、プロセッサ101は、モデルに対して画像を入力することによりモデルから出力されるラベルが、画像に対応するラベルに一致するように、モデルを更新することにより学習を行う。また、プロセッサ101は、学習が行われたモデルを用いて画像認識を行ってもよい。
 メモリ102は、例えば、プロセッサ101が情報処理を行うための情報が記憶される専用又は汎用の電気回路である。メモリ102は、プロセッサ101に接続されていてもよいし、プロセッサ101に含まれていてもよい。また、メモリ102は、複数の電気回路の集合体であってもよい。
 また、メモリ102は、不揮発性メモリでもよいし、揮発性メモリでもよい。また、メモリ102は、磁気ディスク又は光ディスク等であってもよいし、ストレージ又は記録媒体等と表現されてもよい。また、メモリ102は、CD-ROM等の非一時的な記録媒体であってもよい。
 また、メモリ102には、画像認識に用いられるモデルが記憶されていてもよいし、認識対象画像が記憶されてもよいし、認識結果が記憶されてもよい。また、メモリ102には、プロセッサ101が、情報処理を行うためのプログラムが記憶されていてもよい。
 また、図4には、学習装置100の構成の例が示されているが、学習装置100の構成は、図4に示された例に限られない。学習装置100は、以下に説明される複数の処理を行う複数の構成要素を備えていてもよい。
 図5は、図4に示された学習装置100の動作を示すフローチャートである。具体的には、学習装置100において、プロセッサ101が、メモリ102を用いて、図5に示された動作を行う。
 まず、プロセッサ101は、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成する(S101)。また、プロセッサ101は、元画像のうち第1領域を除く第2領域にノイズを付与することにより、第2画像を生成する(S102)。そして、プロセッサ101は、第1画像と第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成する(S103)。
 また、プロセッサ101は、第1基礎ラベルと第2基礎ラベルとの重み付け加算を第2比率で行うことにより、第1画像に対する第1教師ラベルを生成する(S104)。また、プロセッサ101は、第1基礎ラベルと第2基礎ラベルとの重み付け加算を第2比率とは逆の比率で行うことにより、第2画像に対する第2教師ラベルを生成する(S105)。そして、第1教師ラベルと第2教師ラベルとの重み付け加算を第1比率で行うことにより、合成画像に対する合成教師ラベルを生成する(S106)。
 ここで、第1基礎ラベルは、元画像の正解ラベルに対応し、第2基礎ラベルは、元画像の不正解ラベルに対応する。上記の各ラベルは、1つの正解クラスを表すラベルに限られず、いわゆるソフトラベルであってもよく、複数のクラスに対する複数の尤度を表してもよい。また、第2比率は、第1領域のサイズと、第2領域のサイズとの比率である。
 最後に、プロセッサ101は、合成画像及び合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成する(S107)。具体的には、プロセッサ101は、合成画像が学習モデルに入力されると、合成教師ラベルが出力されるように、学習モデルを生成する。
 上記の動作によって、学習装置100は、元画像のうちの第1領域と、元画像のうち第1領域を除く第2領域とのそれぞれに第1比率に従ってノイズを付与することができる。したがって、学習装置100は、領域によって大きく異なる方法でノイズが付与されることを抑制することができる。よって、学習装置100は、学習に適切な画像を生成することができる。
 また、学習装置100は、2つの画像の合成に用いられる比率と同じ比率を用いて2つの教師ラベルを合成することができる。したがって、学習装置100は、合成画像に対して適切な合成教師ラベルを生成することができる。そして、学習装置100は、合成画像及び合成教師ラベルを用いることにより、ノイズに対して頑健な学習モデルを生成することができる。
 学習装置100は、上記の複数の処理(S101~S107)にそれぞれ対応する複数の構成要素を備えていてもよい。例えば、学習装置100は、第1画像生成部、第2画像生成部、合成画像生成部、第1教師ラベル生成部、第2教師ラベル生成部、合成教師ラベル生成部、及び、学習モデル生成部を備えていてもよい。
 また、例えば、プロセッサ101は、複数の第1領域のそれぞれについて、上記の処理(S101~S106)を行うことにより、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ101は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。複数の第1領域は、例えば、元画像における互いに異なる領域である。また、複数の第1領域は、部分的に重複していてもよい。
 これにより、学習装置100は、様々な第1領域に従って、様々な合成画像及び様々な合成教師ラベルを生成することができる。そして、これにより、学習装置100は、ノイズに対して頑健な学習モデルを生成することができる。
 また、例えば、プロセッサ101は、複数の第1比率のそれぞれについて、合成画像を生成(S103)し、合成教師ラベルを生成(S106)することにより、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ101は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。
 これにより、学習装置100は、様々な第1比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することが可能になる。そして、これにより、ノイズに対して頑健な学習モデルを生成することが可能になる。
 また、例えば、プロセッサ101は、複数の第1領域のそれぞれについて、上記の処理(S101~S106)を行い、かつ、複数の第1比率のそれぞれについて、合成画像及び合成教師ラベルの生成(S103及びS106)を行ってもよい。そして、これにより、プロセッサ101は、複数の合成画像及び複数の合成教師ラベルを生成してもよい。そして、プロセッサ101は、複数の合成画像及び複数の合成教師ラベルを用いて機械学習を行うことにより、学習モデルを生成してもよい。
 これにより、学習装置100は、様々な第1領域及び様々な第1比率に従って、様々な合成画像及び様々な合成教師ラベルを生成することができる。そして、これにより、学習装置100は、ノイズに対して頑健な学習モデルを生成することができる。
 図6は、本実施の形態における合成画像の生成の詳細を示す概念図である。具体的には、まず、プロセッサ101は、元画像のうちの第1領域を決定し、元画像のうち第1領域を除く第2領域を決定する。プロセッサ101は、以下の式に従って、第1領域を決定してもよい。
Figure JPOXMLDOC01-appb-M000003
 ここで、Wは、元画像の幅を示し、Hは、元画像の高さを示す。また、rx1は、第1領域の左端を示し、ry1は、第1領域の上端を示し、rx2は、第1領域の右端を示し、ry2は、第1領域の下端を示す。また、a~U[b、c]は、aがbからcまでの一様分布に従って決定されることを示す。これにより、第1領域が、元画像の大きさに従って適切に決定される。
 そして、プロセッサ101は、元画像の全領域のうち、第1領域以外(つまり第2領域)がマスクされた第1マスク画像を生成する。第1マスク画像では、第1領域の各画素値が1に設定され、第1領域以外の第2領域の各画素値が0に設定される。また、プロセッサ101は、元画像の全領域のうち、第2領域以外(つまり第1領域)がマスクされた第2マスク画像を生成する。第2マスク画像では、第2領域の各画素値が1に設定され、第2領域以外の第1領域の各画素値が0に設定される。
 また、プロセッサ101は、全領域が同種のノイズで構成されるノイズ画像を生成する。そして、第1マスク画像とノイズ画像とが画素毎に掛け合わされることにより、第1領域のみにノイズを含む第1ノイズ画像が生成される。また、第2マスク画像とノイズ画像とが画素毎に掛け合わされることにより、第2領域のみにノイズを含む第2ノイズ画像が生成される。第1ノイズ画像及び第2ノイズ画像は、それぞれ、第1部分ノイズ画像及び第2部分ノイズ画像とも表現され得る。
 そして、プロセッサ101は、第1ノイズ画像と元画像とを画素毎に足し合わせることにより、第1画像を生成する。これにより、元画像のうち第1領域にノイズが付与された第1画像が生成される。また、プロセッサ101は、第2ノイズ画像と元画像とを画素毎に足し合わせることにより、第2画像を生成する。これにより、元画像のうち第1領域を除く第2領域にノイズが付与された第2画像が生成される。第1画像及び第2画像は、それぞれ、第1部分ノイズ付与画像及び第2部分ノイズ付与画像とも表現され得る。
 そして、プロセッサ101は、第1領域にノイズが付与された第1画像と、第2領域にノイズが付与された第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成する。具体的には、プロセッサ101は、第1画像にλの重みを与え、第2画像に1-λの重みを与え、これらの重み付け加算を画素毎に行うことにより、合成画像を生成する。ここで、λは、0から1までの値であり、具体的には、0以上1以下の値であってもよいし、0よりも大きく1よりも小さい値であってもよい。
 プロセッサ101は、B(α、α)のベータ分布に従ってλを決定してもよい。ここで、Bは、ベータ関数を示し、αは、正の実数を示す。これにより、対称性を有する確率分布に従って適切に決定されるλに対応する第1比率を用いて、合成画像及び合成教師ラベルを生成することが可能になる。そして、元画像及び元教師ラベルから複数のデータセットが生成される場合において、複数のデータセットに偏りが発生することが抑制される。
 上記の処理によって、合成画像が適切に生成される。なお、上記の処理は、合成画像を生成するための処理の一例であって、合成画像を生成するための処理は、上記の処理に限られない。例えば、マスク画像、ノイズ画像、第1ノイズ画像及び第2ノイズ画像が用いられなくてもよく、元画像の各領域に同種のノイズが直接付与されることにより、第1画像及び第2画像が生成されてもよい。
 図7は、本実施の形態における合成教師ラベルの生成の詳細を示す概念図である。図7において、λは、第1領域のサイズと、第2領域のサイズとの第2比率に対応する。具体的には、λは、元画像のサイズに対する第1領域のサイズの割合を示し、1-λは、元画像のサイズに対する第2領域のサイズの割合を示す。
 第1基礎ラベルは、元画像の正解ラベルに対応し、正解ラベルと表現されてもよい。正解ラベルは、元画像に写る物体の正しいクラスを示すラベルである。すなわち、第1基礎ラベルは、元画像に対する教師ラベルに対応し得る。第1基礎ラベルは、元画像に写る物体の正しいクラスに対して100%の尤度を有し、他の各クラスに対して0%の尤度を有していてもよい。例えば、第1基礎ラベルは、犬のクラスに対して100%の尤度を有し、他の各クラスに対して0%の尤度を有していてもよい。
 第2基礎ラベルは、元画像の不正解ラベルに対応し、不正解ラベルと表現されてもよい。不正解ラベルは、元画像に写る物体の正しくないクラスを示すラベルである。すなわち、第2基礎ラベルは、ノイズ画像に対する教師ラベルに対応し得る。第2基礎ラベルは、元画像に写る物体の正しいクラスに対して0%の尤度を有し、他の各クラスに対して0%よりも大きい尤度を有していてもよい。
 例えば、第2基礎ラベルは、犬のクラスに対して0%の尤度を有し、他の各クラスに対して数パーセントの尤度を有していてもよい。より具体的には、第2基礎ラベルは、他の各クラスに対して1/総クラス数の尤度を有していてもよい。ここで、総クラス数は、他のクラスの総数であってもよい。
 yは、第1画像に対する第1教師ラベルに対応する。yは、第1画像においてノイズのある領域とノイズのない領域との比率に従って、正解ラベルと不正解ラベルとにそれぞれ対応する第1基礎ラベルと第2基礎ラベルとの重み付け加算を行うことにより得られる。具体的には、yは、図7の通り、第1基礎ラベルにλの重みを与え、第2基礎ラベルに1-λの重みを与え、これらの重み付け加算を行うことにより得られる。
 yは、第2画像に対する第2教師ラベルに対応する。yは、第2画像においてノイズのある領域とノイズのない領域との比率に従って、正解ラベルと不正解ラベルとにそれぞれ対応する第1基礎ラベルと第2基礎ラベルとの重み付け加算を行うことにより得られる。具体的には、yは、図7の通り、第2基礎ラベルにλの重みを与え、第1基礎ラベルに1-λの重みを与え、これらの重み付け加算を行うことにより得られる。
 すなわち、yは、yとは逆の比率で、第1基礎ラベルと第2基礎ラベルとの重み付け加算を行うことにより得られる。逆の比率とは、第1基礎ラベルと第2基礎ラベルとに与える重みを入れ替えることを意味する。
 yは、合成画像に対する合成教師ラベルに対応する。yは、第1教師ラベル(y)にλの重みを与え、第2教師ラベル(y)に1-λの重みを与え、これらの重み付け加算を行うことにより得られる。λは、第1比率に対応する。つまり、第1教師ラベルと第2教師ラベルとの重み付け加算のための比率は、合成画像を生成するための比率と同じである。
 上記の処理によって、合成教師ラベルが生成される。例えば、第1画像に対する第1教師ラベルの生成、及び、第2画像に対する第2教師ラベルの生成に、ノイズのある領域の割合が反映される。そして、第1画像に対する第1教師ラベルと、第2画像に対する第2教師ラベルとの重み付け加算に、第1画像と第2画像との重み付け加算のための第1比率が反映される。したがって、各領域にノイズが付与された合成画像に対して適切な合成教師ラベルが生成される。
 図8は、本実施の形態における認識精度の比較結果を示すデータ図である。具体的には、図8には、画像に付与されるノイズの種類毎に、図3において説明された参考例の学習方法に基づく認識精度と、図4~図7において説明された本実施の形態の学習方法に基づく認識精度とが比較して示されている。
 また、ここでは、ノイズの種類として、ノイズなし、FGSM(Fast Gradient Sign Method)、PGD(Project Gradient Descent)-10、及び、PDG-20が用いられている。また、評価用のデータセットとしてCIFAR(Canadian Institute For Advanced Research)-10データセットが用いられている。
 参考例の学習方法と比較して、本実施の形態の学習方法では、様々なノイズに対して、認識精度の劣化が抑制されている。ノイズがない場合、本実施の形態の学習方法の認識精度は、参考例の学習方法と比較して若干低いが、90%以上であり、問題のないレベルである。
 以上、学習方法の態様を実施の形態に基づいて説明したが、学習方法の態様は、実施の形態に限定されない。実施の形態に対して当業者が思いつく変形が施されてもよいし、実施の形態における複数の構成要素が任意に組み合わされてもよい。例えば、実施の形態において特定の構成要素によって実行される処理を特定の構成要素の代わりに別の構成要素が実行してもよい。また、複数の処理の順序が変更されてもよいし、複数の処理が並行して実行されてもよい。
 また、説明に用いられた第1及び第2等の序数は、適宜、付け替えられてもよいし、取り除かれてもよいし、新たに付与されてもよい。これらの序数は、意味のある順序に必ずしも対応せず、要素の識別に用いられてもよい。
 また、学習方法が任意の装置又はシステムによって実行されてもよい。つまり、学習方法は、学習装置によって実行されてもよいし、他の装置又はシステムによって実行されてもよい。
 例えば、上記の学習方法は、プロセッサ、メモリおよび入出力回路等を備えるコンピュータによって実行されてもよい。その際、コンピュータに学習方法を実行させるためのプログラムがコンピュータによって実行されることにより、学習方法が実行されてもよい。また、CD-ROM等の非一時的なコンピュータ読み取り可能な記録媒体に、プログラムが記録されていてもよい。
 例えば、上記のプログラムは、コンピュータに、画像認識に用いられる学習モデルを生成する学習方法であって、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する学習方法を実行させる。
 また、学習方法を実行する学習装置の複数の構成要素は、専用のハードウェアで構成されてもよいし、上記のプログラム等を実行する汎用のハードウェアで構成されてもよいし、これらの組み合わせで構成されてもよい。また、汎用のハードウェアは、プログラムが記憶されたメモリ、及び、メモリからプログラムを読み出して実行する汎用のプロセッサ等で構成されてもよい。ここで、メモリは、半導体メモリ又はハードディスク等でもよいし、汎用のプロセッサは、CPU等でもよい。
 また、専用のハードウェアが、メモリ及び専用のプロセッサ等で構成されてもよい。例えば、専用のプロセッサが、メモリを参照して、上記の学習方法を実行してもよい。
 また、学習方法を実行する学習装置の各構成要素は、電気回路であってもよい。これらの電気回路は、全体として1つの電気回路を構成してもよいし、それぞれ別々の電気回路であってもよい。また、これらの電気回路は、専用のハードウェアに対応していてもよいし、上記のプログラム等を実行する汎用のハードウェアに対応していてもよい。
 また、本開示は、機械学習により学習モデルを生成するための学習用データ(いわゆる、データセット)の生成方法として実現されてもよい。学習用データの生成方法は、画像認識に用いられる学習モデルを機械学習により生成するための学習用データの生成方法であって、元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成することで、前記合成画像及び前記合成画像に対応する前記合成教師ラベルを含む学習用データを生成する。
 また、合成画像は、第1領域及び第2領域に加えて、第1領域及び第2領域とノイズが異なる第3領域を有していてもよい。そして、合成教師ラベルは、第1領域のサイズと、第2領域のサイズと、第3領域のサイズとに基づいて生成されてもよい。
 また、合成画像における第1領域は、矩形状の領域であるが、非矩形状の領域であってもよい。
 本開示は、例えば、画像認識に用いられる学習モデルを生成する学習装置に有用であり、画像認識システム、文字認識システム及び生体認証システム等に適用可能である。
  100 学習装置
  101 プロセッサ
  102 メモリ

Claims (7)

  1.  画像認識に用いられる学習モデルを生成する学習方法であって、
     元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、
     前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、
     前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、
     前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、
     前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、
     前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、
     前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
     学習方法。
  2.  複数の第1領域のそれぞれについて、前記第1画像、前記第2画像、前記合成画像、前記第1教師ラベル、前記第2教師ラベル及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、
     前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
     請求項1に記載の学習方法。
  3.  複数の第1比率のそれぞれについて、前記合成画像及び前記合成教師ラベルを生成することにより、複数の合成画像及び複数の合成教師ラベルを生成し、
     前記複数の合成画像及び前記複数の合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
     請求項1又は2に記載の学習方法。
  4.  前記第1領域は、
    Figure JPOXMLDOC01-appb-M000001
    に従って決定され、
     Wは、前記元画像の幅を示し、Hは、前記元画像の高さを示し、
     rx1は、前記第1領域の左端を示し、ry1は、前記第1領域の上端を示し、rx2は、前記第1領域の右端を示し、ry2は、前記第1領域の下端を示し、
     a~U[b、c]は、aがbからcまでの一様分布に従って決定されることを示す
     請求項1又は2に記載の学習方法。
  5.  前記第1比率は、B(α、α)のベータ分布に従って決定され、
     Bは、ベータ関数を示し、
     αは、正の実数を示す
     請求項1又は2に記載の学習方法。
  6.  画像認識に用いられる学習モデルを生成する学習装置であって、
     プロセッサ及びメモリを備え、
     前記プロセッサは、前記メモリを用いて、
     元画像のうちの第1領域にノイズを付与することにより、第1画像を生成し、
     前記元画像のうち前記第1領域を除く第2領域にノイズを付与することにより、第2画像を生成し、
     前記第1画像と前記第2画像との重み付け加算を第1比率で行うことにより、合成画像を生成し、
     前記元画像の正解ラベルに対応する第1基礎ラベルと、前記元画像の不正解ラベルに対応する第2基礎ラベルとの重み付け加算を、前記第1領域のサイズと、前記第2領域のサイズとの比率である第2比率で行うことにより、前記第1画像に対する第1教師ラベルを生成し、
     前記第1基礎ラベルと前記第2基礎ラベルとの重み付け加算を前記第2比率とは逆の比率で行うことにより、前記第2画像に対する第2教師ラベルを生成し、
     前記第1教師ラベルと前記第2教師ラベルとの重み付け加算を前記第1比率で行うことにより、前記合成画像に対する合成教師ラベルを生成し、
     前記合成画像及び前記合成教師ラベルを用いて機械学習を行うことにより、前記学習モデルを生成する
     学習装置。
  7.  請求項1又は2に記載の学習方法をコンピュータに実行させるためのプログラム。
PCT/JP2022/021329 2021-05-27 2022-05-25 学習方法、学習装置及びプログラム WO2022250071A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP22811341.1A EP4350612A1 (en) 2021-05-27 2022-05-25 Learning method, learning device, and program
JP2023523497A JPWO2022250071A1 (ja) 2021-05-27 2022-05-25
US18/512,767 US20240087098A1 (en) 2021-05-27 2023-11-17 Training method and training device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163193785P 2021-05-27 2021-05-27
US63/193,785 2021-05-27

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/512,767 Continuation US20240087098A1 (en) 2021-05-27 2023-11-17 Training method and training device

Publications (1)

Publication Number Publication Date
WO2022250071A1 true WO2022250071A1 (ja) 2022-12-01

Family

ID=84230098

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/021329 WO2022250071A1 (ja) 2021-05-27 2022-05-25 学習方法、学習装置及びプログラム

Country Status (4)

Country Link
US (1) US20240087098A1 (ja)
EP (1) EP4350612A1 (ja)
JP (1) JPWO2022250071A1 (ja)
WO (1) WO2022250071A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079374A (ja) 2017-10-26 2019-05-23 株式会社Preferred Networks 画像処理システム、画像処理方法および画像処理プログラム
JP2020038668A (ja) * 2018-09-05 2020-03-12 株式会社ストラドビジョン 自律走行状況で、障害物検出のためのcnn学習用イメージデータセットの生成方法及びコンピューティング装置
JP2020173150A (ja) * 2019-04-10 2020-10-22 株式会社神戸製鋼所 土質判定装置、土質判定用学習モデル生成装置および土質判定方法
JP2021013685A (ja) * 2019-07-16 2021-02-12 富士フイルム株式会社 放射線画像処理装置、方法およびプログラム
WO2021176605A1 (ja) * 2020-03-04 2021-09-10 オリンパス株式会社 学習データ作成システム及び学習データ作成方法
JP2022037804A (ja) * 2020-08-25 2022-03-09 トヨタ自動車株式会社 画像処理装置、画像処理プログラムおよび画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079374A (ja) 2017-10-26 2019-05-23 株式会社Preferred Networks 画像処理システム、画像処理方法および画像処理プログラム
JP2020038668A (ja) * 2018-09-05 2020-03-12 株式会社ストラドビジョン 自律走行状況で、障害物検出のためのcnn学習用イメージデータセットの生成方法及びコンピューティング装置
JP2020173150A (ja) * 2019-04-10 2020-10-22 株式会社神戸製鋼所 土質判定装置、土質判定用学習モデル生成装置および土質判定方法
JP2021013685A (ja) * 2019-07-16 2021-02-12 富士フイルム株式会社 放射線画像処理装置、方法およびプログラム
WO2021176605A1 (ja) * 2020-03-04 2021-09-10 オリンパス株式会社 学習データ作成システム及び学習データ作成方法
JP2022037804A (ja) * 2020-08-25 2022-03-09 トヨタ自動車株式会社 画像処理装置、画像処理プログラムおよび画像処理方法

Also Published As

Publication number Publication date
JPWO2022250071A1 (ja) 2022-12-01
EP4350612A1 (en) 2024-04-10
US20240087098A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
JP6441980B2 (ja) 教師画像を生成する方法、コンピュータおよびプログラム
US11244430B2 (en) Digital image fill
Prakash et al. It GAN DO better: GAN-based detection of objects on images with varying quality
US20180225817A1 (en) Optimization of Integrated Circuit Mask Design
US11886990B2 (en) Classification device, classification method, and computer program product
JP6612486B1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
JP2019159836A (ja) 学習プログラム、学習方法および学習装置
JP2021051589A5 (ja)
US10580127B2 (en) Model generation apparatus, evaluation apparatus, model generation method, evaluation method, and storage medium
WO2022250071A1 (ja) 学習方法、学習装置及びプログラム
Kareem et al. Layout pattern synthesis for lithography optimizations
JP6622369B1 (ja) 訓練データを生成する方法、コンピュータおよびプログラム
Bach et al. Analyzing classifiers: Fisher vectors and deep neural networks
US11532088B2 (en) Arithmetic processing apparatus and method
Lee et al. TREND: Truncated generalized normal density estimation of Inception embeddings for GAN evaluation
KR102477700B1 (ko) 대조 학습과 적대적 생성 신경망을 활용하는 이미지 생성 및 편집 방법과 장치
JP7264272B2 (ja) 検出方法、検出プログラム及び検出装置
CN115731561A (zh) 使用视觉箭头关系检测的手绘示图识别
CN114596209A (zh) 指纹图像修复方法、系统、设备及存储介质
JPWO2009151002A1 (ja) パターン識別方法、装置およびプログラム
Vellasques et al. A dual-purpose memory approach for dynamic particle swarm optimization of recurrent problems
CN115083001B (zh) 基于图像敏感位置定位的对抗补丁生成方法与装置
JP6994572B2 (ja) データ処理システムおよびデータ処理方法
WO2021111832A1 (ja) 情報処理方法、情報処理システム及び情報処理装置
JP6633267B2 (ja) 次元削減装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22811341

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023523497

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2022811341

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022811341

Country of ref document: EP

Effective date: 20240102