WO2021130888A1 - 学習装置、推定装置および学習方法 - Google Patents

学習装置、推定装置および学習方法 Download PDF

Info

Publication number
WO2021130888A1
WO2021130888A1 PCT/JP2019/050784 JP2019050784W WO2021130888A1 WO 2021130888 A1 WO2021130888 A1 WO 2021130888A1 JP 2019050784 W JP2019050784 W JP 2019050784W WO 2021130888 A1 WO2021130888 A1 WO 2021130888A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
data
attention
learning model
image
Prior art date
Application number
PCT/JP2019/050784
Other languages
English (en)
French (fr)
Inventor
剛 菅野
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/784,152 priority Critical patent/US20230024586A1/en
Priority to PCT/JP2019/050784 priority patent/WO2021130888A1/ja
Priority to JP2021566628A priority patent/JP7334801B2/ja
Publication of WO2021130888A1 publication Critical patent/WO2021130888A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation

Definitions

  • the present invention relates to machine learning, and more particularly to a technique for improving estimation accuracy by a learning model generated by machine learning.
  • Data classification using a learning model generated by machine learning using deep learning has become widely used. For example, in machine learning for image classification, a learning model trained using image data and a label indicating an object on the image as teacher data is generated, and the generated learning model is used to generate an object on the image. Classification (meaning the category to be classified) is estimated. In addition, as the estimation of data classification using the learning model generated by machine learning has become widely used, higher estimation accuracy is required. Therefore, a technique for generating a learning model that can improve the accuracy of estimation is also being developed. As a technique for generating a highly accurate learning model, for example, a technique such as Patent Document 1 is disclosed.
  • Patent Document 1 performs learning using image data selected based on the classification certainty, which is an index indicating the certainty of image classification, when performing machine learning.
  • Patent Document 1 states that by performing machine learning using an image having a high degree of classification certainty, it is possible to generate a highly accurate learning model while suppressing the time required to generate the learning model.
  • Non-Patent Document 1 describes the Grad-CAM (Gradient-weighted Class Activation Mapping) method, which is a method for detecting a region recognized by a learning model as having a classification target when estimating image classification. Is disclosed. Further, in Non-Patent Document 2, a learning model is generated by performing machine learning using the signal data of the electrocardiogram and the emotion corresponding to the signal data as teacher data, and the learning model is recognized as a characteristic part in the signal data. A technique for detecting a portion of a data by the Grad-CAM method is disclosed.
  • Grad-CAM Gradient-weighted Class Activation Mapping
  • Patent Document 1 is not sufficient in the following points. Since the machine learning device of Patent Document 1 selectively uses image data having a high classification certainty for learning, an image having a low classification certainty may not be sufficiently reflected in the learning model. Therefore, in the learning model used by the learning device of Patent Document 1, there is a possibility that sufficient estimation accuracy cannot be obtained when estimating the classification of image data similar to the image data having low classification certainty. Further, Non-Patent Document 1 and Non-Patent Document 2 relate to a technique of detecting a portion of interest of a learning model, and do not disclose a technique of generating a learning model capable of improving estimation accuracy. ..
  • An object of the present invention is to provide a learning device that generates a learning model capable of improving estimation accuracy for various data in order to solve the above problems.
  • the learning device of the present invention includes a learning unit, a attention portion detection unit, and a data generation unit.
  • the learning unit executes machine learning based on the first learning data, and generates a learning model that classifies the categories of the first learning data.
  • the attention portion detection unit classifies the first training data category using the generated learning model.
  • the attention portion detection unit detects the portion of interest on the first learning data when the learning model classifies the data.
  • the data generation unit generates a second learning data in which the focused portion is processed based on the ratio of the focused portion to the predetermined remarkable attention-determined portion.
  • the learning method of the present invention executes machine learning based on the first learning data, and generates a learning model that classifies the categories of the first learning data.
  • the learning model detects the portion of interest on the first learning data.
  • the learning method of the present invention generates second learning data in which the focused portion is processed based on the ratio of the focused portion to the predetermined remarkable attention-determined portion.
  • the recording medium of the present invention records a computer program that causes a computer to execute a process.
  • the computer program executes machine learning based on the first learning data, and causes the computer to execute a process of generating a learning model that classifies the categories of the first learning data.
  • the computer program classifies the category of the first learning data by using the learning model, the computer program causes the computer to execute the process of detecting the portion of interest on the first learning data by the learning model.
  • the computer program causes the computer to perform a process of generating a second learning data obtained by processing the focused portion based on a ratio in which the focused portion matches the predetermined remarkable attention-determined portion.
  • a learning model capable of improving the estimation accuracy for various data can be obtained.
  • FIG. 1A is a diagram showing the configuration of the learning device of the present embodiment. Further, FIG. 1B is a diagram showing an operation flow of the learning device of the present embodiment.
  • the learning device of the present embodiment includes a learning unit 1, a attention portion detection unit 2, and a data generation unit 3.
  • the learning unit 1 executes machine learning based on the first learning data, and generates a learning model that classifies the categories of the first learning data.
  • the attention portion detection unit 2 classifies the first training data category using the generated learning model.
  • the attention portion detection unit 2 detects the portion of interest on the first learning data when the learning model classifies the classification.
  • the data generation unit 3 generates the second learning data obtained by processing the focused portion based on the ratio of the focused portion to the predetermined remarkable attention-determined portion. In the data generation unit 3, for example, the ratio at which the portion of interest when classifying categories using the learning model on the first learning data matches the predetermined notable portion (attention determination portion).
  • the focused portion is processed so that the contribution of the focused portion to the classification becomes small, and the second training data is generated as the training data of the learning model.
  • the data generation unit 3 includes a match detection unit and a data processing unit that detect the match ratio.
  • the data processing unit processes the part focused by the learning model so that the learning model does not classify the category, and processes the second learning data for learning the learning model. Generate as data.
  • the learning unit 1 of the learning device of the present embodiment executes machine learning based on the first learning data and generates a learning model for classifying the categories of the first learning data.
  • the attention portion detecting unit 2 instructs the learning unit 1 to classify the category of the first learning data using the generated learning model.
  • the attention portion detection unit 2 detects the portion of interest that the learning model has focused on during classification (step S2).
  • the data generation unit 3 determines the portion of attention when classifying the categories using the learning model on the first learning data into a predetermined attention determination portion. Detect the matching ratio.
  • the attention decision part which is a noteworthy part, will be explained.
  • the learning unit 1 classifies the image into the dog category. ..
  • the attention determination part is the part in which the dog is reflected in the image.
  • the first learning data is linguistic data including text data, and in step S2, the learning unit 1 classifies the categories implied by the linguistic data.
  • the attention determination part is a part that strongly influences the classification of the category, for example, a word or an expression part related to the category.
  • the first learning data is time-series data representing a time-series signal
  • the learning unit 1 classifies the time-series data category, for example, whether the time-series data is abnormal or normal.
  • the attention determination part is the part that strongly influences the classification of the category. For example, it is a part with an abnormal waveform that is distinguished from the normal state, or a part where a sign leading to an abnormality has occurred.
  • the data generation unit 3 When the matching ratio is lower than the predetermined value, the data generation unit 3 generates the second learning data obtained by processing the attention portion detected by the attention portion detection unit 2 in step S2 (step S3). By the processing of step S3, a learning model is generated so as not to focus on and classify the parts that should not be originally noticed in the learning using the second learning data.
  • the matching rate is, for example, an index generated by comparing the part of interest of the learning model with a predetermined attention-determining part, and the index is the rate of matching of the positions of both parts. Shown. Further, processing so that the learning model does not classify categories when the matching ratio is lower than a predetermined value means that the attention portion detection unit 2 pays attention when performing machine learning to generate a learning model that classifies the training data. It means processing so that the contribution of the part to the classification of the category is small. When the learning model is processed so as not to classify the categories, the processing may be performed to the extent that the portion of interest by the attention portion detecting unit 2 does not contribute to the classification of the categories. As for the specific processing method, the processing method described in the second embodiment is used. Processing so that the learning model does not classify the category into the focused part means processing so that machine learning does not ignite in the focused part, in other words, processing that inactivates in machine learning. means.
  • the learning device of the present embodiment when the matching rate is lower than the predetermined value, the data processed so that the learning model does not classify the category for the part focused on by the learning model is used for learning as the second learning data. Therefore, after learning using the second learning data, it is less likely that the learning for classifying the categories will be performed by focusing on the parts that should not be noticed. Therefore, the learning device of the present embodiment can generate a learning model in which various learning data for classifying into the same category are learned by appropriately paying attention to the points of interest. For example, even if the learning unit learns a learning model using the first learning data having a low classification certainty, the learning model is reconstructed by learning with the second learning data and is appropriate for a noteworthy part. Learned to pay attention to. Therefore, the learning device of the present embodiment can improve the accuracy of classification for various data. This makes it possible to improve the accuracy of categorization estimation by the finally generated learning model.
  • FIG. 2 is a diagram showing a configuration of the learning system of the present embodiment.
  • the learning system of this embodiment includes a learning device 10 and a terminal device 100.
  • the learning device 10 and the terminal device 100 are connected via a communication cable or a network.
  • the learning device 10 and the terminal device 100 may be connected via a wireless line.
  • the learning system of this embodiment is a machine learning system that uses data to be analyzed and label data as teacher data and generates a learning model by deep learning using a neural network (NN) represented by CNN (Convolutional Neural Network).
  • NN neural network
  • CNN Convolutional Neural Network
  • the data to be analyzed is sample data to which machine learning using CNN can be applied, such as images, languages, and time-series signals.
  • a learning model for estimating the category in which the object in the image is classified is generated based on the image data in which the object to be classified into the category is included in the image and the label data indicating the classification category of the object. A case will be described as an example.
  • FIG. 3 is a diagram showing the configuration of the learning device 10 of the present embodiment.
  • the learning device 10 includes a learning data input unit 11, a learning data storage unit 12, a learning unit 13, a learning model storage unit 14, a attention portion detection unit 15, a match detection unit 16, and a data processing unit 17. It has.
  • the match detection unit 16 and the data processing unit 17 are examples of data generation means.
  • the learning data input unit 11 is a machine learning learning data (first learning data) composed of image data in which an object to be classified into a category is included in the image and label data indicating the classification of the target object. ) And the information of the attention determination part are accepted.
  • the learning data input unit 11 receives the information of the attention determination portion and the learning data from the terminal device 100.
  • the learning data input unit 11 stores the information of the attention determination portion and the learning data in the learning data storage unit 12 in association with each other.
  • the information of the attention determination part is the information indicating the part where the object to classify the category exists, and in the case of the image, it is the information indicating the area on the image where the object of the object exists.
  • the attention determination portion corresponds to, for example, a region in which the dog is shown on the image when machine learning is performed using the image data in which the dog is shown and the correct answer label data indicating the dog as teacher data.
  • the attention determination part is set, for example, by the user operating an input device (not shown).
  • a trajectory indicating the position of the target by moving the cursor around the target whose category should be judged on the image of the learning data displayed on the input device by the user, or by marking by touch input. Is generated.
  • the image portion surrounded by the marking locus generated in this way is set as the attention determination portion.
  • the information indicating the attention determination portion is image data including the image portion surrounded by the marking locus. The marking will be described in detail in the description of the terminal device 100.
  • the information of the attention determination part may be image data other than the above. Further, even if the learning data is text data or time-series signal data, if the area of the portion surrounded by the marking can be set by the terminal device 100, the image data is used as the information of the attention determination portion. It is created in the same way as the information of the attention determination part.
  • the training data is data including teacher data used for machine learning, and is a combination of image data in which the object to be classified into a category is included in the image and label data indicating the classification of the object on the image data. It is data.
  • the learning data storage unit 12 stores the information of the attention determination portion and the learning data in association with each other. Further, the learning data storage unit 12 uses the image data (second learning data) generated by the data processing unit 17, which will be described later, for learning data (first learning) including the image data before processing. Data) and save it.
  • the learning unit 13 generates a learning model by machine learning using CNN.
  • the learning unit 13 uses the learning data, that is, the image data in which the object to be classified into the category is photographed and the label data indicating the classification of the objects on the image data as the teacher data, and the teacher data as input. Generate a learning model that estimates the classification of objects on image data. Further, the learning unit 13 relearns using the image data generated by the data processing unit 17 and updates the learning model.
  • the learning unit 13 stores the generated learning model data in the learning model storage unit 14. Further, when the learning unit 13 performs re-learning, the learning model stored in the learning model storage unit 14 is updated using the result of the re-learning. Further, the learning unit 13 estimates the classification of an object on an unknown image by using the learning model generated by machine learning.
  • the attention portion detection unit 15 detects the portion of interest on the first learning data by the learning model.
  • the part of interest is the part that contributed to the classification of categories. Specifically, when classifying an object category using a learning model generated by machine learning using CNN, a region recognized as having an object to be classified into the category is detected as a focused portion.
  • the attention portion detection unit 15 extracts the attention portion by using, for example, the Grad-CAM (Gradient-weighted Class Activation Mapping) method disclosed in Non-Patent Document 1.
  • Grad-CAM Grad-CAM (Gradient-weighted Class Activation Mapping) method disclosed in Non-Patent Document 1.
  • detecting the part of interest of the learning model using the GRAD-CAM method is also called visualization of the characteristic part.
  • the part that the learning model pays attention to has a feature amount that affects the classification, and is therefore also called a feature part.
  • the attention part detection unit 15 detects and pays attention to the part of interest by the learning model by using a visualization method of the attention part called Attention. You may perform visualization of the part that has been done.
  • the method by which the attention portion detection unit 15 detects the portion of interest by the NN learning model is not limited to the method by Grad-CAM or Attention.
  • the method by Attention is disclosed in F. Wang, et al., “Residual Attention Network for Image Classification”, arXiv: 1704.06904v1 [cs.CV] 23 Apr 2017, and detailed explanation is omitted.
  • the match detection unit 16 uses the information of the attention determination portion associated with the learning data and the data of the portion detected by using the Grad-CAM method.
  • the match detection unit 16 determines the ratio of the portion of interest to the attention determination portion when the learning model estimates the classification of the object category. For example, the match detection unit 16 compares the data of the attention determination portion associated with the learning data with the information of the attention portion detected by using the Grad-CAM method, and calculates the matching ratio.
  • the match detection unit 16 detects, for example, the number of pixels (the number of first pixels) of the portion where the attention determination portion and the attention portion overlap each other.
  • the match detection unit 16 detects the number of pixels (second number of pixels) of the attention portion detected by the attention portion detection unit 15.
  • the match detection unit 16 calculates the ratio of the detected first pixel number to the second pixel number as the match ratio. When the match ratio is less than the preset reference value, the match detection unit 16 determines that the portion of interest of the learning model does not match the attention determination portion.
  • the data processing unit 17 processes the image of the learning data for which the matching ratio is determined to be less than the reference value so that the learning model does not classify the portion of interest of the learning model. Therefore, the processed second learning data does not have a feature that machine learning can recognize when there is an object for classifying the category. Processing the learning model so that it does not classify categories is also called inactivating machine learning.
  • the learning unit 13 performs machine learning by re-learning using the second learning data and updating the learning model, the machine learning is not activated by the erroneous attention part, that is, the erroneous attention part is classified into the category. Contribution to is avoided.
  • the data processing unit 17 prevents the learning model from classifying categories by, for example, lowering the contrast ratio of the portion other than the image portion corresponding to the attention determination portion associated with the training data to a preset standard or less. ..
  • the process of preventing the learning model from classifying the categories may be performed only on the attention portion where the percentage of matches with the attention determination portion is less than the standard.
  • the process of preventing the training model from categorizing is to change either the difference in brightness or chromaticity between each pixel in the area to be processed, or the difference in both, within a preset range. It may be done.
  • the processing to prevent the training model from classifying categories is to add noise by a random pattern to the attention part where the percentage of matches with the attention determination part is less than the standard, and to add a lot of figures of dot patterns and other patterns. , May be done by adding. Further, the processing for preventing the learning model from classifying the categories may be performed by painting the attention portion in which the ratio of coincidence with the attention determination portion is less than the standard with a preset color.
  • the data processing unit 17 changes the processing strength according to the matching ratio.
  • the data processing unit 17 changes the contrast ratio of the portion other than the image portion corresponding to the attention determination portion according to the matching ratio.
  • the data processing unit 17 processes the contrast ratio so as to decrease as the matching ratio decreases.
  • the relationship between the match ratio and the contrast ratio is preset. Similarly, when changing the brightness and chromaticity between each pixel in the area to be processed, the difference in brightness and chromaticity between each pixel is reduced as the matching ratio decreases.
  • the data processing unit 17 determines the size of the portion to be processed according to the matching ratio when processing the attention portion by the learning model in which the matching ratio with the attention determination portion is less than the standard. It may be changed. For example, the data processing unit 17 performs processing so that the portion to be processed becomes larger as the matching rate becomes lower. Further, the data processing unit 17 performs processing to prevent the learning model from classifying the category by adding noise or a dot pattern by a random pattern to the attention portion where the ratio of coincidence with the attention determination portion is less than the standard. At the time of application, a random pattern or noise density may be changed according to the matching rate. For example, the data processing unit 17 processes so that the density of random patterns and noise increases as the matching rate decreases.
  • the intensity of processing that prevents the learning model from classifying categories by the data processing unit 17 may be set in stages according to the stage of the matching ratio by dividing the matching ratio into a plurality of stages. Further, the data processing unit 17 may perform the processing for preventing the learning model from classifying the categories by combining the above-mentioned processing methods according to the matching ratio. Further, the processing for preventing the learning model from classifying the categories by the data processing unit 17 may be performed with a predetermined constant intensity when the matching ratio is less than the standard.
  • FIG. 10 is a diagram schematically showing an example of a comparative image in which the attention portion detected by the Grad-CAM method and the attention determination portion associated with the image of the training data are shown on the same image.
  • FIGS. 11 and 12 are diagrams schematically showing an example in which the image data is processed so that the learning model does not classify the parts other than the image part corresponding to the attention determination part. ..
  • FIG. 11 shows an example in which the contrast ratio of a portion other than the image portion corresponding to the attention determination portion is lowered to a predetermined value.
  • FIG. 12 shows an example in which the contrast ratio of only the attention portion is lowered to a predetermined value when the ratio of coincidence with the attention determination portion is less than the standard.
  • Each process in the learning data input unit 11, the learning unit 13, the attention part detection unit 15, the match detection unit 16 and the data processing unit 17 is performed on the CPU (Central Processing Unit) or the CPU and GPU (Graphics Processing Unit). It is done by running a computer program.
  • the computer program that performs each process is recorded in, for example, a hard disk drive.
  • the CPU, or the CPU and GPU, executes by reading a computer program that performs each process into the memory.
  • the learning data storage unit 12 and the learning model storage unit 14 are composed of storage devices such as a non-volatile semiconductor storage device and a hard disk drive, or a combination of these storage devices. Either or both of the learning data storage unit 12 and the learning model storage unit 14 may be provided outside the learning device 10 and connected via a network. Further, the learning device 10 may be configured by combining a plurality of information processing devices.
  • FIG. 4 is a diagram showing the configuration of the terminal device 100 of the present embodiment.
  • the terminal device 100 is an operation terminal of an operator that generates learning data when machine learning is performed to generate a learning model.
  • the terminal device 100 of the present embodiment includes a learning data generation unit 101, a control unit 102, a data transmission / reception unit 103, an input unit 104, and an output unit 105.
  • the learning data generation unit 101 generates the data of the attention determination part.
  • the method of generating the data of the attention determination part will be described later.
  • the data of the attention determination portion is generated as, for example, image data in which the attention determination portion is surrounded by a line in an image having the same size as the image data used for the training model, that is, the same number of pixels.
  • the data of the attention determination portion may be in a format that can identify the attention determination portion on the image, and may be, for example, image data in which the portion other than the attention determination portion is filled with black or another color.
  • the learning data generation unit 101 outputs the data of the attention determination portion as data associated with the learning data.
  • the control unit 102 controls the overall operation of the terminal device 100 and the transmission / reception of data necessary for machine learning in the learning device 10.
  • the control unit 102 controls the output of the image data received from the learning device 10 and the data of the matching ratio to the display device, and controls the operation according to the input result of the operator.
  • the data transmission / reception unit 103 transmits the learning data in which the information of the attention determination portion is associated with the learning device 10. Further, the data transmission / reception unit 103 is confirmed by the operator when performing machine learning such as image data processed so that the learning model does not classify categories, the calculation result of the matching ratio, and the generation result of the learning model. Alternatively, data for which selection needs to be made is received from the learning device 10.
  • the input unit 104 receives information indicating a attention determination portion in the image used for learning data.
  • the input unit 104 receives input from an input device such as a mouse, a pen tablet, or a keyboard.
  • the input device that sends input data to the input unit 104 may be composed of a combination of a plurality of types of input devices.
  • the output unit 105 outputs the display data of the image to be set to the display device when setting the attention portion. Further, the output unit 105 outputs the display data of the information sent from the learning device 10 to the display device based on the instruction of the control unit 102.
  • Each process in the learning data generation unit 101, control unit 102, data transmission / reception unit 103, input unit 104, and output unit 105 of the terminal device 100 is performed by executing a computer program on the CPU.
  • the computer program that performs each process is recorded in, for example, a hard disk drive.
  • the CPU executes the computer program that performs each process by reading it into the memory.
  • FIG. 5 is a diagram showing an operation flow of the learning device 10 in the learning system of the present embodiment.
  • data is generated by adding the information of the attention determination portion to the learning data.
  • the information of the attention determination portion is generated by adding a locus by marking surrounding the attention portion to the image data in which the object to be classified into the category is photographed. It is generated before processing used for machine learning and associated with learning data.
  • the image data is input to the terminal device 100 by the operator before the start of the work.
  • the image data may be input to the terminal device 100 via the network. Further, the image data may be stored in the learning device 10 or the terminal device 100 in advance.
  • the control unit 102 of the terminal device 100 requests the output unit 105 to output image data to which the information of the attention determination portion is added.
  • the output unit 105 Upon receiving the request for output of the image data, the output unit 105 generates the image data requesting the designation of the image classification and the designation of the attention determination portion, and outputs the image data to the display device.
  • the information of the attention determination part is generated by marking the area on the image where the object to be classified into the category is shown.
  • the information of the attention determination portion added by marking is associated with the learning data as the marked portion as image data different from the original image data.
  • the information of the portion of interest may be associated with the learning data as data having only numerical information indicating the position and range of the marked portion as coordinate data.
  • Marking is performed, for example, by enclosing the outline of the area in which the object to be classified into the category is reflected with a line. Marking may be performed by enclosing the area in which the object to be classified into the category is reflected by a quadrangle or other polygonal line. The marking may be not only surrounded by a line, but may be set as an internal region connecting each point with a straight line by attaching a plurality of points as a attention determination portion. Further, the marking may be performed by marking the area in which the object to be classified into the category is reflected with a circle or a mark having another shape. In such a configuration, a certain range around the marked point may be set as the attention determination portion.
  • FIG. 6 is a diagram schematically showing an example of an image showing an object to be classified into a category.
  • FIG. 6 shows a case where a dog, a cat, and furniture to be classified into categories are present on the image.
  • the background is omitted in FIG. 6 for the convenience of drawing, it is assumed that the background exists in the actual image.
  • FIG. 7 is a diagram schematically showing an example of an image in which the attention determination portion is marked. In FIG. 7, marking is performed by enclosing a dog, which is a target for classifying a category, as a attention determination portion with a line.
  • the area corresponding to the attention determination portion surrounded by the marking is generally not the entire dog but the area centered on the dog's face.
  • the control unit 102 requests the data transmission / reception unit 103 to transmit the learning data associated with the attention determination portion to the learning device 10.
  • the data transmission / reception unit 103 sends the learning data associated with the learning device 10 to the learning device 10.
  • the learning data sent from the terminal device 100 to the learning device 10 is input to the learning device 10 from the learning data input unit 11. Since the learning data associated with the information of the attention determination portion is input, the learning data input unit 11 stores the learning data associated with the information of the attention determination portion in the learning data storage unit 12 (step S11). ).
  • the learning unit 13 When the learning data is saved, the learning unit 13 performs machine learning using CNN based on the learning data (here, the first learning data) to generate a learning model (step S12). .. Machine learning using the learning data is repeated a preset number of times using the plurality of first learning data. The learning unit 13 stores the generated learning model data in the learning model storage unit 14.
  • the operation shifts to the operation of the attention portion detection unit 15. That is, the attention portion detection unit 15 instructs the learning unit 13 to, for example, input the image data used for machine learning and perform a process of estimating the classification of the object using the learning model.
  • the attention portion detection unit 15 is noticed by the portion that contributed to the classification into the category when the learning model classifies the object of the image data, that is, the learning model.
  • the portion (hereinafter, also referred to as the attention portion) is detected (step S13).
  • the attention portion detection unit 15 detects the information of the attention portion for each image when detecting the target object for classifying the tegori from the image by using the Grad-CAM method.
  • 8 and 9 are diagrams schematically showing an example in which information indicating a region of interest detected by using the Grad-CAM method is added to an image as a heat map.
  • the learning model using CNN focuses on dogs.
  • the learning model using CNN focuses on cats.
  • the learning model pays attention to the correct part on the image.
  • the learning model focuses on the part that needs attention, that is, the part different from the part where the dog exists.
  • the attention portion detection unit 15 sends the detected information of the attention portion to the match detection unit 16.
  • the match detection unit 16 compares the attention portion detected by the Grad-CAM method with the attention determination portion associated with the learning data.
  • the match detection unit 16 calculates the ratio at which the position of the attention portion detected by the attention portion detection unit 15 matches the position of the attention determination portion associated with the learning data (step S14). Specifically, the match detection unit 16 counts the number of pixels in which the attention portion detected by the attention portion detection unit 15 and the attention determination portion associated with the learning data overlap each other. Next, the match detection unit 16 calculates the ratio of the number of overlapping pixels to the number of pixels of the attention determination portion associated with the learning data as the rate of match. When the match ratio is calculated, the match detection unit 16 compares the match ratio with a preset reference value.
  • the match detection unit 16 When the match ratio is less than the standard (No in step S15), the match detection unit 16 needs to process the image data whose match ratio is less than the standard so that the learning model does not classify the categories. to decide. When it is determined that the learning model needs to be processed so as not to classify the categories, the match detection unit 16 sends a request for processing for inactivating the image data to the data processing unit 17.
  • the data processing unit 17 Upon receiving the request for processing the inactivation of the image data, the data processing unit 17 prevents the learning model from classifying the attention portion that does not match for the image data whose matching ratio is less than the standard. Processing is performed (step S16). The data processing unit 17 is based on the information of the attention determination portion associated with the learning data of the learning data storage unit 12, and the image corresponding to the attention portion that does not match, that is, the attention determination portion that has been pre-marked. The image data is processed so that the learning model does not classify the parts other than the parts.
  • the data processing unit 17 stores the image data processed so that the learning model does not classify the categories in the learning data storage unit 12 for the parts that should not be noted (Ste S17).
  • the image data whose matching ratio is not detected is from the learning data storage unit 12. It is output to the learning unit 13 and the operation from step S13 is repeated.
  • the matching ratio is equal to or higher than the standard in all the images. ..
  • step S19 there is an image that has been processed so that the matching ratio is less than the standard and the learning model does not classify the categories, and the matching ratio is not equal to or higher than the standard in all the images, so the result is No in step S19. If No in step S19, the learning unit 13 relearns the learning model using the learning data stored in the learning data storage unit 12.
  • the re-learning was not processed to prevent the training model from classifying the categories because the training model did not classify the image data and the matching rate exceeded the standard. This is done using image data as teacher data.
  • the number of unprocessed image data may be set with respect to the number of processed image data. Further, when re-learning, new learning data may be used as teacher data.
  • the learning unit 13 updates the learning model data of the learning model storage unit 14 with the learning model generated as a result of the re-learning (step S20).
  • the learning unit 13 verifies the estimation accuracy of the generated learning model.
  • the learning unit 13 reads image data of a plurality of verification images and estimates the classification of objects on the verification image using the learning model.
  • the learning unit 13 is performed by comparing the result of classification of the estimated object (category) with the label data indicating the correct answer associated with the image data.
  • the accuracy is verified by such a method, the learning unit 13 has sufficient accuracy when the ratio of images (correct answer rate) in which the estimation result and the label data match is equal to or more than a preset value. It is judged that it meets the termination criteria.
  • the end criterion is satisfied (Yes in step S21), the generation of the learning model is completed.
  • the generated training model is used to estimate the classification of image data categories. Further, when the end criterion is not satisfied (No in step S21), the operation from step S13 is repeated, and processing is performed so that the learning model does not classify the image for which the matching ratio does not meet the criterion. To. Reprocessing of an image in which the matching ratio is less than the reference is performed, for example, by lowering the contrast ratio from the previous processing.
  • step S15 When the match ratio calculated in step S15 is equal to or higher than the standard (Yes in step S15), the match detection unit 16 determines that the corresponding image data does not need to be processed so that the learning model does not classify the categories. .. If it is determined that the inactivation processing is unnecessary, the match detection unit 16 may add information indicating that the inactivation processing is not performed to the learning data.
  • step S18 when there is an image in which the matching ratio has not been detected (Yes in step S18), the image data in which the matching ratio has not been detected is output from the learning data storage unit 12 to the learning unit 13, and in step S13. The operation from is repeated.
  • the learning unit 13 is the learning data storage unit. Re-learning is performed using the 12 learning data. Re-learning is both processed image data that prevents the training model from classifying categories and unprocessed image data that prevents the training model from classifying categories when the match rate is above the standard. Is done using.
  • the learning unit 13 updates the learning model data of the learning model storage unit 14 with the learning model generated as a result of the re-learning (step S20).
  • the learning unit 13 verifies the accuracy of the generated learning model. Further, in step S19, Yes, that is, the accuracy of the learning model is verified even when the matching ratio is equal to or higher than the standard in all the images and there is no image processed so that the learning model does not classify the categories. ..
  • step S21 By verifying the accuracy of the learning model, when the end criteria are met (Yes in step S21), the generation of the learning model is completed.
  • the generated training model is used to estimate the classification of image data. Further, when the end criterion is not satisfied (No in step S21), the operation from step S13 is repeated, and processing is performed so that the learning model does not classify the image for which the matching ratio does not meet the criterion.
  • the process of preventing the training model from classifying categories after retraining is performed, for example, by further lowering the contrast ratio other than the attention determination part associated with the training data or expanding the inactivated area. ..
  • processing from detection of the attention portion by the learning model to determination of the matching ratio and image processing is performed for each image data.
  • the image whose matching ratio is less than the reference may be processed.
  • step S18 it may be determined whether or not there are all undetected images in the learning data of a predetermined number of images. Further, steps S19 and S20 may be omitted.
  • the learning device 10 and the terminal device 100 are independent devices, but the learning device 10 may have a part or all of the functions of the terminal device 100. Further, although the configuration for estimating the classification of objects on the image has been described in the above description, the learning device 10 can also be used for language analysis and time series signal analysis. When applied to language analysis, the Grad-CAM method is applied to a learning model generated by machine learning using CNN or RNN to detect which part of the language or signal is focused on.
  • machine learning is performed by CNN using the time-series signal data and the phenomenon indicated by the signal data as teacher data, and the information of the part of the signal data that the learning model is paying attention to is Grad. -Detected by the CAM method.
  • machine learning using CNN is performed to learn phenomena that correspond to vibration waveform data of buildings and machines, natural phenomena such as earthquakes, and phenomena that correspond to waveform data of living body observation results such as electrocardiograms as teacher data.
  • Information on the part of interest of the model can be detected using the Grad-CAM method. In this way, when the detected part of interest is different from the part corresponding to the phenomenon to be estimated, the learning model is obtained by flattening the signal waveform of the part of interest of the learning model and adding noise.
  • the learning device 10 of the present embodiment detects a part of the learning model generated by machine learning using CNN or RNN that is paying attention when classifying data categories. Further, in the learning device 10, when the ratio of the portion of interest when classifying categories using the learning model to the preset attention determination portion is lower than a predetermined value, the portion of interest of the learning model. In addition, the learning data used for re-learning is generated by processing so that the learning model does not classify the categories. When the learning model is paying attention to the part where the ratio of matching with the preset attention determination part is low, the data processed so that the learning model does not classify the part that the learning model is paying attention to is learned.
  • the learning device 10 of the present embodiment By performing re-learning by using it as data for use, learning that focuses more on the target that classifies the category will be performed. Therefore, the learning device 10 of the present embodiment generates a learning model that can accurately estimate the classification of categories even when data for which it is difficult to distinguish between the part to be classified into categories and other parts is input. Can be done. As a result, the accuracy of estimation of category classification can be improved by performing estimation using the learning model generated by using the learning device 10 of the present embodiment.
  • FIG. 13 is a diagram showing the configuration of the learning system of the present embodiment.
  • the learning system of the present embodiment is a user terminal device in which a user uses a candidate for an image after processing when processing an image so that the learning model does not classify categories by focusing on a part that should not be originally noticed. It is characterized in that it is shown to the user via.
  • a user is a person who receives a learning model and uses the learning model to analyze data.
  • the learning system of this embodiment includes a learning device 20, a user terminal device 30, and a terminal device 100.
  • the configuration and function of the terminal device 100 are the same as those in the second embodiment.
  • the learning device 20 and the terminal device 100 are connected via a communication cable or a network.
  • the learning device 20 and the user terminal device 30 are also connected via a communication cable or a network.
  • the learning device 20 and the user terminal device 30 may be connected to the terminal device 100 via a wireless line, respectively.
  • FIG. 14 is a diagram showing the configuration of the learning device 20 of the present embodiment.
  • the learning device 20 of the present embodiment includes a learning data input unit 11, a learning data storage unit 12, a learning unit 13, a learning model storage unit 14, a attention portion detection unit 15, a match detection unit 16, and so on. It includes a data processing unit 21, a data processing control unit 22, and a user terminal communication unit 23.
  • the configuration and function of the learning data input unit 11, the learning data storage unit 12, the learning unit 13, the learning model storage unit 14, the attention portion detection unit 15, and the match detection unit 16 of the learning device 20 of the present embodiment are second. It is the same as the part of the same name of the embodiment.
  • the data processing unit 21 performs processing so that the learning model does not classify the portion of interest of the learning model.
  • the data processing unit 21 generates a plurality of image candidates when performing processing that prevents the learning model from classifying categories.
  • the data processing unit 21 generates, for example, a plurality of image candidates having different contrast ratios when performing processing for lowering the contrast ratio for a portion other than the attention determination portion associated with the learning model.
  • the data processing unit 21 calculates, for example, the average contrast ratio of the area to be processed, and generates a plurality of image candidates in which the contrast ratio of the area to be processed is lower than the calculated average value and the contrast ratios are different from each other. To do.
  • the data processing unit 21 may generate a plurality of image candidates by changing the range covering the portion of interest of the learning model.
  • the data processing control unit 22 sends the image candidates generated by the data processing unit 21 to the user terminal device 30 via the user terminal communication unit 23. Further, the data processing control unit 22 instructs the data processing unit 21 to use image data as learning data based on the selection result of the image candidate received from the user terminal device 30.
  • the user terminal communication unit 23 transmits / receives data to / from the user terminal device 30 via the network.
  • the user terminal communication unit 23 transmits the image candidate data input from the data processing control unit 22 to the user terminal device 30. Further, the user terminal communication unit 23 sends the selection result of the image candidate received from the user terminal device 30 to the data processing control unit 22.
  • Each process in the learning data input unit 11, the learning unit 13, the attention part detection unit 15, the match detection unit 16, the data processing unit 21, the data processing control unit 22, and the user terminal communication unit 23 is performed by the CPU, or the CPU and GPU. It is done by running a computer program on.
  • the computer program that performs each process is recorded in, for example, a hard disk drive.
  • the CPU, or the CPU and GPU, executes by reading a computer program that performs each process into the memory.
  • the learning data storage unit 12 and the learning model storage unit 14 of the learning device 20 are composed of storage devices such as a non-volatile semiconductor storage device and a hard disk drive, or a combination of these storage devices. Either or both of the learning data storage unit 12 and the learning model storage unit 14 may be provided outside the learning device 20 and connected via a network. Further, the learning device 20 may be configured by combining a plurality of information processing devices.
  • the user terminal device 30 displays the image candidate data at the time of processing so that the learning model does not classify the categories on the display device and presents it to the user.
  • the user terminal device 30 transmits the selection result of the user to the learning device 20.
  • an information processing device having a communication function such as a personal computer or a tablet type terminal device is used.
  • FIG. 15 is a diagram showing an operation flow of the learning device 20.
  • the operation of generating the learning data to which the information of the attention portion is added is the same as that of the second embodiment.
  • a learning model is generated by repeating machine learning using CNN using the generated learning data as teacher data a preset number of times, and the attention portion is detected to determine the matching ratio.
  • the operation of steps S31 to S34 for performing the calculation is the same as the operation of steps S11 to S14 of the second embodiment. Therefore, in the following, the operation after calculating the matching ratio in step S34 will be described.
  • the match detection unit 16 compares the calculated match ratio with the preset reference value.
  • the match detection unit 16 sets the learning model in the image portion other than the attention determination portion associated with the training data for the corresponding image data. It is judged that processing is necessary so as not to classify. When it is determined that the learning model needs to be processed so as not to classify the categories, the match detection unit 16 sends a processing request to prevent the learning model from classifying the categories to the data processing unit 21.
  • the data processing unit 21 Upon receiving the processing request to prevent the learning model from classifying the categories, the data processing unit 21 performs processing to prevent the learning model from classifying the parts other than the attention determination part associated with the training data. (Step S36).
  • the processing for preventing the learning model from classifying the categories is performed in the same manner as in the second embodiment.
  • the data processing unit 21 generates a plurality of image candidates when performing processing that prevents the learning model from classifying categories.
  • the data processing unit 21 generates, for example, a plurality of image candidates having different contrast ratios when performing processing for lowering the contrast ratio for a portion other than the attention portion added to the learning model.
  • the data processing unit 21 calculates, for example, the average contrast ratio of the area to be processed, and generates a plurality of image candidates in which the contrast ratio of the area to be processed is lower than the calculated average value and the contrast ratios are different from each other. To do.
  • the data processing unit 21 may generate a plurality of image candidates by changing the range covering the portion of interest of the learning model.
  • the data processing unit 21 When the learning model is processed so as not to classify the categories, the data processing unit 21 temporarily stores the inactivated image data. When the data processing unit 21 saves the image data, if there is an image for which the determination of the matching ratio has not been completed (Yes in step S37), the process returns to step S33, and the image for which the determination of the matching ratio has not been completed is performed. The part of interest of the learning model is detected.
  • the data processing unit 21 saves the image data and the determination of the match ratio is completed for all the images (No in step S37), it is confirmed whether the match ratio is equal to or higher than the standard for all the images. Will be done.
  • the matching ratio is not equal to or higher than the standard in all the images, that is, when there is an image processed so that the training model does not classify the categories (No in step S38)
  • the data processing unit 21 is the generated candidate.
  • the image candidate data is sent to the data processing control unit 22.
  • the data processing control unit 22 Upon receiving the image candidate data, the data processing control unit 22 sends the image candidate data to the user terminal communication unit 23.
  • the user terminal communication unit 23 transmits the received image candidate data to the user terminal device 30 via the network (step S39).
  • the user terminal device 30 receives data from the learning device 20 via the network and acquires the data of the candidate image. When the image candidate data is acquired, the user terminal device 30 generates display data when the user selects any image from the image candidates and displays the display data on the display device.
  • the user refers to the display, selects an appropriate processing content from the image candidate data, and inputs the selection result.
  • the selection of the processing content may be performed for each image or for each classification of the object.
  • FIG. 16 is a diagram schematically showing an example of display data sent by the candidate data output unit 33 to the display device.
  • the processed image when two types of processing are performed on one image is shown as candidate A and candidate B.
  • a selection button when the user selects a candidate image is displayed. The user inputs the selection result by selecting candidate A or candidate B using, for example, a mouse.
  • the user terminal device 30 transmits the selection result to the learning device 20 via the network.
  • the user terminal communication unit 23 of the learning device 20 receives data from the user terminal device 30 via the network and acquires the selection result (step S40). When the selection result is acquired, the user terminal communication unit 23 sends the acquired selection result to the data processing control unit 22. Upon receiving the selection result, the data processing control unit 22 sends information for selecting the image shown in the selection result as image data to be used as learning data to the data processing unit 21.
  • the data processing unit 21 Upon receiving the information of the image data to be used as the learning data, the data processing unit 21 saves the image data corresponding to the received information in the learning data storage unit 12 as the learning data (step S41).
  • the learning unit 13 again executes machine learning using CNN using the saved learning data to relearn the learning model (Ste S42).
  • Re-learning is both processed image data that prevents the training model from classifying categories and unprocessed image data that prevents the training model from classifying categories when the match rate is above the standard. Is done using.
  • the learning unit 13 verifies the estimation accuracy by the learning model. Further, in step S38, the accuracy of the learning model is verified even when Yes, that is, when the matching ratio is equal to or higher than the standard in all the images and there is no image processed so that the learning model does not classify the categories. ..
  • Verification of estimation accuracy is performed in the same manner as in the second embodiment.
  • the estimation accuracy is verified by the learning model and the estimation accuracy satisfies the standard (Yes in step S43)
  • the generation of the learning model is completed.
  • the estimation accuracy does not meet the criteria (No in step S43)
  • the process returns to step S33, and processing is performed so that the learning model does not classify the images whose matching rate does not meet the criteria.
  • the user terminal device 30 when selecting the processing content, shows an example in which the display device displays the state of the processed image for each processing content.
  • the user terminal device 30 may display the portion of interest of the learning model on the display device by superimposing it on the image.
  • FIG. 17 is a diagram schematically showing an example of display data in which the portion of interest of the learning model is superimposed on the image.
  • the portion of the image 1 and the image 2 that the learning model paid attention to is shown as a heat map.
  • operation buttons for displaying other images are displayed.
  • FIG. 18 is a diagram schematically showing an example of display data in which the attention portion added to the image used as the learning data and the image data in which the attention portion due to the learning model is shown on the image are displayed side by side. ..
  • FIG. 18 shows display data in which an image showing the marking of the portion of interest added to the image and an image shown as a heat map of the portion of interest by the learning model are displayed side by side. Further, in the display data of FIG. 18, an operation button for displaying another image is displayed.
  • FIG. 19 is a diagram schematically showing an example of display data in which the attention portion added to the image used as the training data and the image data in which the attention portion due to the learning model is shown on the image are superimposed and displayed. is there.
  • FIG. 19 for the two images of image 1 and image 2, the marking of the portion of interest added to the image and the heat map of the portion of interest of the learning model are shown superimposed on the same image. Further, in the display data of FIG. 19, an operation button for displaying another image is displayed.
  • processing from detection of the attention portion by the learning model to determination of the matching ratio and image processing is performed for each image data.
  • the image whose matching ratio is less than the reference may be processed.
  • the learning device 20, the user terminal device 30, and the terminal device 100 are independent devices, but they may have some or all of the functions of the other devices.
  • the learning device 20 may have some or all of the functions of the terminal device 100.
  • the user terminal device 30 and the terminal device 100 may be configured as an integrated device, or may have some of the functions of the other devices in an overlapping manner.
  • the learning device 20 can also be used for language analysis and time-series signal analysis as in the second embodiment.
  • the learning system of the present embodiment transmits image data indicating a state after processing when the learning device 20 performs processing so as not to classify categories to the user terminal device 30.
  • the user terminal device 30 displays an image showing the processed state on the display device, the user can select the processed state of the image while observing the processed state. Therefore, the user can select an appropriate processing state, and an appropriate learning model can be generated according to the application. Therefore, the estimation accuracy of the learning model is improved by using the learning model of the present embodiment.
  • the learning model generated by machine learning in the second embodiment and the third embodiment can be used as a learning model for estimating the classification of the input data category in the estimation device as shown in FIG.
  • FIG. 20 is a diagram showing the configuration of the estimation device 40.
  • the estimation device 40 of FIG. 20 is a device that estimates the input data using the learning model generated by machine learning in the second embodiment and the third embodiment. In the following, the case of an estimation device that estimates the classification of objects on an image will be described as an example.
  • the estimation device 40 of FIG. 20 includes a data input unit 41, a data storage unit 42, an estimation unit 43, a learning model storage unit 44, and an estimation result output unit 45.
  • the data input unit 41 accepts input of image data for estimating the classification of objects on the image.
  • the data input unit 41 stores the input image data in the data storage unit 42.
  • the data storage unit 42 stores the image data input to the data input unit 41.
  • the estimation unit 43 estimates the classification of the object captured in the image data by using the learning model stored in the learning model storage unit 44.
  • the learning model used in the estimation device 40 is a learning model similar to the learning model generated in the second embodiment and the third embodiment.
  • the learning model storage unit 44 stores a model that has been learned by machine learning, that is, a learning model.
  • the learning model is input to the estimation device 40 by the operator.
  • the learning model may be obtained from another server over the network.
  • the estimation result output unit 45 sends the estimation result of the classification on the image by the estimation unit 43 to the display device.
  • the estimation result output unit 45 may transmit the estimation result by the estimation unit 43 to another terminal device via the network.
  • the estimation device 40 of FIG. 20 may be provided as a part of the learning system of the second embodiment and the third embodiment.
  • the image data may be input to the estimation device 40 and the estimation result may be acquired by using the terminal device or the user terminal device.
  • the estimation device 40 can also be used for estimating the classification by the learning model that performs language analysis and time series signal analysis.
  • FIG. 21 shows an example of the configuration of the computer 50 that executes the computer program that performs each process in the learning device.
  • the computer 50 includes a CPU 51, a memory 52, a storage device 53, and an I / F (Interface) unit 54.
  • the terminal device of the second embodiment and the third embodiment, the user terminal of the third embodiment, and the estimation device of the fourth embodiment have the same configuration.
  • the CPU 51 reads a computer program that performs each process from the storage device 53 and executes it.
  • the arithmetic processing unit that executes the computer program may be configured by a combination of a CPU and a GPU instead of the CPU 51.
  • the memory 52 is configured by a DRAM (Dynamic Random Access Memory) or the like, and a computer program executed by the CPU 51 and data being processed are temporarily stored.
  • the storage device 53 stores a computer program executed by the CPU 51.
  • the storage device 53 is composed of, for example, a non-volatile semiconductor storage device.
  • another storage device such as a hard disk drive may be used.
  • the I / F unit 54 is an interface for inputting / outputting data to / from other units of the learning system, terminals of the network to be managed, and the like.
  • the computer 50 may further include a communication module that communicates with another information processing device via a communication network.
  • the computer program performed for each process can be stored in a recording medium and distributed.
  • a recording medium for example, a magnetic tape for data recording or a magnetic disk such as a hard disk can be used.
  • an optical disk such as a CD-ROM (Compact Disc Read Only Memory) can also be used.
  • a non-volatile semiconductor storage device may be used as the recording medium.
  • a learning means that executes machine learning based on the first learning data and generates a learning model that classifies the categories of the first learning data.
  • the attention portion detecting means for detecting the portion of interest on the first learning data by the learning model, and the attention portion detecting means.
  • a learning device including a data generation means for generating a second learning data obtained by processing the focused portion based on a ratio in which the focused portion matches a predetermined remarkable attention determining portion.
  • the data generation means processes the focused portion so that the contribution of the focused portion to the classification becomes small when the ratio of the focused portion to the attention determination portion is lower than a predetermined value.
  • the learning device according to Appendix 1, which generates the second learning data.
  • the data generation means A match detection means for detecting the ratio at which the attention determination portion matches the attention portion when classifying categories using the learning model. If the match ratio is lower than a predetermined value, the attention portion is processed so that the learning model does not classify the categories, and the data processing means for generating the second learning data by processing is included.
  • the learning device according to 1 or 2.
  • Appendix 6 The following is described in any of Appendix 1 to 5, further comprising a learning data storage means for storing information on a portion of the data in which a target for classifying a category exists as information on a portion of interest in association with the first learning data. Learning device.
  • the data generation means is described in any one of Supplementary notes 1 to 6 for generating the second learning data, which is processed based on a plurality of different processing contents when the second learning data is generated. Learning device.
  • the learning means executes machine learning using the first learning data associated with information indicating a region on an image in which an object for classifying a category exists as information of the attention determination portion, and performs machine learning on the image. Generate a learning model that estimates the classification of objects in When the data generation means classifies the categories on the image using the learning model and the ratio of the focused portion to the attention determination portion is lower than a predetermined value, the data generating means is said to be on the image.
  • the learning device according to any one of Supplementary note 1 to 7, wherein the portion of interest is processed so as not to contribute to the classification of the category, and the second learning data is generated.
  • the data generation means has the ratio of the number of first pixels, which is the portion where the attention portion and the attention determination portion overlap, to the ratio of the number of first pixels to which the learning model is the second pixel number, which is the attention portion.
  • the learning device according to Appendix 8 calculated as.
  • Appendix 10 The learning device according to Appendix 8 or 9, wherein the data generation means performs processing for changing at least one of the contrast ratio, brightness, and chromaticity of the image to generate the second learning data.
  • Machine learning is executed based on the first learning data, a learning model that classifies the categories of the first learning data is generated, and the learning model is generated.
  • the learning model detects a portion of interest on the first learning data.
  • a learning method for generating a second learning data obtained by processing the focused portion based on a ratio in which the focused portion matches a predetermined remarkable attention determining portion.
  • Machine learning is executed using the first learning data in which the information indicating the region on the image in which the object to be classified into the category exists as the information of the attention determination portion is associated with the image data, and the object on the image is executed. Generate a learning model that estimates the classification of When the category is classified using the learning model on the image, when the ratio of the focused portion to the attention determination portion is lower than a predetermined value, the focused portion on the image is the category.
  • the learning method according to any one of Supplementary note 11 to 17, which is processed so as not to contribute to the classification and generates the second learning data.
  • Appendix 19 In Appendix 18, the ratio of the number of first pixels, which is the portion where the attention portion and the attention determination portion overlap, to the number of second pixels, which is the portion of interest by the learning model, is calculated as the matching ratio. Described learning method.
  • Appendix 20 The learning method according to Appendix 18 or 19, wherein processing is performed to change at least one of the contrast ratio, brightness, and chromaticity of the image to generate the second learning data.
  • Appendix 21 A process of executing machine learning based on the first learning data and generating a learning model for classifying the categories of the first learning data.
  • a process of detecting a portion of interest on the first learning data by the learning model a process of detecting a portion of interest on the first learning data.
  • a computer program that causes a computer to perform a process of generating a second learning data obtained by processing the focused portion based on a ratio in which the focused portion matches a predetermined remarkable attention determination portion. Recording medium on which the data was recorded.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

様々なデータに対して学習モデルによる推定精度を向上するため、学習部1と、注目部分検出部2と、データ生成部3を備える構成とする。学習部1は、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する。注目部分検出部2は、生成された学習モデルを用いて第1の学習用データのカテゴリを分類する。注目部分検出部2は、その分類をする際に、学習モデルが第1の学習用データ上で注目した部分を検出する。データ生成部3は、注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、注目した部分を加工した第2の学習用データを生成する。

Description

学習装置、推定装置および学習方法
 本発明は、機械学習に関するものであり、特に、機械学習によって生成する学習モデルによる推定精度を向上する技術に関するものである。
 ディープラーニングを使用した機械学習によって生成された学習モデルを用いたデータの分類が広く用いられるようになっている。例えば、画像の分類のための機械学習では、画像データと、画像上の対象物を示すラベルを教師データとして学習された学習モデルが生成され、生成した学習モデルを用いて画像上の対象物の分類(分類されるカテゴリを意味する)の推定が行われる。また、機械学習によって生成された学習モデルを用いたデータの分類の推定が広く用いられるようになるにつれ、より高い推定の精度が要求されるようになっている。そのため、推定の精度を向上できる学習モデルを生成する技術の開発も行われている。精度の高い学習モデルを生成する技術としては、例えば、特許文献1のような技術が開示されている。
 特許文献1の学習装置は、機械学習を行う際に、画像の分類の確からしさを示す指標である分類確信度に基づいて選択された画像データを用いて学習を行っている。特許文献1は、分類確信度の高い画像を用いて機械学習を行うことで、学習モデルの生成に要する時間を抑制しつつ精度の高い学習モデルを生成することが出来るとしている。
 非特許文献1には、学習モデルが画像の分類を推定する際に分類の対象が存在していると認識している領域を検出する手法であるGrad-CAM(Gradient-weighted Class Activation Mapping)法が開示されている。また、非特許文献2には、心電図の信号データと、信号データに対応する感情を教師データとして機械学習を行って学習モデルを生成し、学習モデルが信号データ中で特徴のある部分と認識している部分をGrad-CAM法によって検出する技術が開示されている。
国際公開第2017/145960号
Ramprasaath R. Selvaraju、外5名、"Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization"、[online]、2017年3月21日、[2019年11月23日検索]、インターネット<https://arxiv.org/pdf/1610.02391.pdf> 清水 茂樹、外5名、「深層学習を用いた心電位によるドライバー感情推定」、自動車技術会論文集、自動車技術会、2019年3月15日、第50巻、第2号、p.505-510
 しかしながら特許文献1の技術は、次のような点で十分ではない。特許文献1の機械学習装置は、分類確信度の高い画像データを選択的に用いて学習を行っているため、分類確信度が低い画像については学習モデルに十分に反映されない恐れがある。そのため、特許文献1の学習装置が用いている学習モデルでは、分類確信度が低い画像データと類似したような画像データの分類を推定する際に、十分な推定精度が得られない恐れがある。また、非特許文献1および非特許文献2は、学習モデルが注目している部分を検出する技術に関するものであり、推定精度を向上することができる学習モデルを生成する技術については開示されていない。
 本発明は、上記の課題を解決するため、様々なデータに対して推定精度を向上することができる学習モデルを生成する学習装置を提供することを目的としている。
 上記の課題を解決するため、本発明の学習装置は、学習部と、注目部分検出部と、データ生成部を備えている。学習部は、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する。注目部分検出部は、生成された学習モデルを用いて第1の学習用データのカテゴリを分類する。注目部分検出部は、その分類をする際に、学習モデルが第1の学習用データ上で注目した部分を検出する。データ生成部は、注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、注目した部分を加工した第2の学習用データを生成する。
 本発明の学習方法は、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する。本発明の学習方法は、学習モデルを用いて第1の学習用データのカテゴリを分類する際に、学習モデルが第1の学習用データ上で注目した部分を検出する。本発明の学習方法は、注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、注目した部分を加工した第2の学習用データを生成する。
 本発明の記録媒体は、コンピュータに処理を実行させるコンピュータプログラムを記録する。コンピュータプログラムは、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する処理をコンピュータに実行させる。コンピュータプログラムは、学習モデルを用いて第1の学習用データのカテゴリを分類する際に、学習モデルが第1の学習用データ上で注目した部分を検出する処理をコンピュータに実行させる。コンピュータプログラムは、注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、注目した部分を加工した第2の学習用データを生成する処理をコンピュータに実行させる。
 本発明によると、様々なデータに対して推定精度を向上することができる学習モデルが得られる。
本発明の第1の実施形態の構成を示す図である。 本発明の第1の実施形態における動作フローを示す図である。 本発明の第2の実施形態の構成を示す図である。 本発明の第2の実施形態の学習装置の構成を示す図である。 本発明の第2の実施形態の端末装置の構成を示す図である。 本発明の第2の実施形態における動作フローを示す図である。 本発明の第2の実施形態において機械学習に用いる画像の例を示す図である。 本発明の第2の実施形態において注目部分にマーキングを行った画像の例を示す図である。 本発明の第2の実施形態において学習モデルが注目部分を模式的に示した画像の例を示す図である。 本発明の第2の実施形態において学習モデルが注目部分を模式的に示した画像の例を示す図である。 本発明の第2の実施形態における比較画像の例を示す図である。 本発明の第2の実施形態において不活性化の加工を行った画像の例を示す図である。 本発明の第2の実施形態において不活性化の加工を行った画像の例を示す図である。 本発明の第3の実施形態の構成を示す図である。 本発明の第3の実施形態の学習装置の構成を示す図である。 本発明の第3の実施形態の学習装置の動作フローを示す図である。 本発明の第3の実施形態におけるユーザインタフェースの例を示す図である。 本発明の第3の実施形態におけるユーザインタフェースの例を示す図である。 本発明の第3の実施形態におけるユーザインタフェースの例を示す図である。 本発明の第3の実施形態におけるユーザインタフェースの例を示す図である。 本発明の推定装置の構成を示す図である。 本発明の他の構成の例を示す図である。
 (第1の実施形態)
 本発明の第1の実施形態について図を参照して詳細に説明する。図1Aは、本実施形態の学習装置の構成を示した図である。また、図1Bは、本実施形態の学習装置の動作フローを示した図である。本実施形態の学習装置は、学習部1と、注目部分検出部2と、データ生成部3を備えている。
 学習部1は、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する。注目部分検出部2は、生成された学習モデルを用いて第1の学習用データのカテゴリを分類する。注目部分検出部2は、その分類をする際に、学習モデルが第1の学習用データ上で注目した部分を検出する。データ生成部3は、注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、注目した部分を加工した第2の学習用データを生成する。データ生成部3は、例えば、第1の学習用データ上において学習モデルを用いてカテゴリを分類するときに注目した部分が、予め決定された注目すべき部分(注目決定部分)に対し一致する割合(一致の割合)が所定値より低い場合、注目した部分の分類に対する寄与が小さくなるように注目した部分を加工して第2の学習用データを学習モデルの学習用データとして生成する。たとえば、データ生成部3は、一致の割合を検出する一致検出部とデータ加工部とを含む。データ加工部は、一致の割合が所定値より低い場合、学習モデルが注目した部分に対して、学習モデルがカテゴリを分類しないよう加工し、加工によって第2の学習用データを学習モデルの学習用データとして生成する。
 本実施形態の学習装置の動作の一例について説明する。図1Bに示すように、本実施形態の学習装置の学習部1は、第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する(ステップS1)。学習モデルが生成されると、注目部分検出部2は、学習部1に対し、生成した学習モデルを用いて第1の学習用データのカテゴリを分類するように指示する。注目部分検出部2は、分類の際に学習モデルが注目した部分を検出する(ステップS2)。学習モデルが注目した部分の検出が行われると、データ生成部3は、第1の学習用データ上において学習モデルを用いてカテゴリを分類するときに注目した部分が予め決定された注目決定部分に対し一致する割合を検出する。
 注目すべき部分である注目決定部分について説明する。たとえば、第1に、第1の学習用データが画像で、ステップS2においてその画像に映っている対象物である犬を識別する場合、学習部1は画像を犬のカテゴリに分類するものとする。この場合、注目決定部分は、画像中の犬が映っている部分である。第2に、第1の学習用データがテキストデータを含む言語データで、ステップS2において学習部1は言語データが含意するカテゴリを分類するものとする。この場合、注目決定部分はカテゴリの分類に強く影響を与える部分であり、たとえば、単語、カテゴリに関連する表現部分である。第3に、第1の学習用データが時系列の信号を表す時系列データで、ステップS2において学習部1は時系列データのカテゴリ、たとえば、時系列データが異常か正常かを分類するものとする。この場合、注目決定部分はカテゴリの分類に強く影響を与える部分である。たとえば正常状態と区別される、異常な波形の部分あるいは、異常につながる兆候が生じた部分である。
 データ生成部3は、一致の割合が所定値より低い場合、ステップS2において注目部分検出部2で検出された注目した部分を加工した第2の学習用データを生成する(ステップS3)。ステップS3の加工により、第2の学習用データを用いた学習では本来注目すべきでない部分に注目して分類しないよう学習モデルが生成される。
 なお、一致の割合とは、たとえば、学習モデルが注目した部分を、予め決定された注目決定部分と比較することにより生成される指標であり、その指標は、両部分の位置の一致の割合を示す。また、一致の割合が所定値より低い場合に学習モデルがカテゴリを分類しないよう加工するとは、学習データに対し分類を行う学習モデルを生成する機械学習を行うときに、注目部分検出部2が注目した部分のカテゴリの分類への寄与が小さくなるように加工することをいう。学習モデルがカテゴリを分類しないよう加工する際に、注目部分検出部2が注目した部分がカテゴリの分類に寄与しない程度に加工を行ってもよい。その具体的な加工方法については、第2の実施形態で説明される加工方法が利用される。そのように学習モデルが注目した部分にカテゴリを分類しないように加工することは、注目した部分で機械学習が発火しないよう加工すること、言い換えれば、機械学習において不活性化する加工を施すことを意味する。
 本実施形態の学習装置では、一致の割合が所定値より低い場合、学習モデルが注目した部分に対し学習モデルがカテゴリを分類しないよう加工したデータを、第2の学習用データとして学習に用いる。したがって、第2の学習用データを用いた学習後には、注目すべきでない部分に注目してカテゴリを分類する学習を行う可能性が低くなる。よって、本実施形態の学習装置は、同じカテゴリに分類するための様々な学習データに対して、注目すべき箇所に適切に注目して学習を行った学習モデルを生成することができる。たとえば、学習部は、分類確信度が低い第1の学習用データを用いて学習モデルを学習した場合でも、第2の学習用データによる学習によって学習モデルが再構成され、注目すべき箇所に適切に注目するように学習される。そのため、本実施形態の学習装置は、様々なデータに対して分類の精度を向上することができる。これによって、最終的に生成される学習モデルによるカテゴリ分類の推定の精度を向上することができる。
 (第2の実施形態)
 本発明の第2の実施形態について図を参照して詳細に説明する。図2は、本実施形態の学習システムの構成を示した図である。本実施形態の学習システムは、学習装置10と、端末装置100を備えている。学習装置10と端末装置100は、通信ケーブルまたはネットワークを介して接続されている。学習装置10と端末装置100は、無線回線を介して接続されていてもよい。
 本実施形態の学習システムは、分析対象のデータとラベルデータを教師データとして用い、CNN(Convolutional Neural Network)を代表とするニューラルネットワーク(NN)を用いたディープラーニングによって学習モデルを生成する機械学習システムである。分析対象のデータは、例えば、画像、言語および時系列信号などCNNを用いた機械学習が適用可能なサンプルデータである。以下では、カテゴリを分類する対象となる物体が画像中に含まれる画像データと、物体の分類カテゴリを示すラベルデータを基に、画像中の物体が分類されるカテゴリを推定する学習モデルを生成する場合を例に説明する。
 学習装置10の構成について説明する。図3は、本実施形態の学習装置10の構成を示した図である。学習装置10は、学習用データ入力部11と、学習用データ保存部12と、学習部13と、学習モデル保存部14と、注目部分検出部15と、一致検出部16と、データ加工部17を備えている。一致検出部16と、データ加工部17は、データ生成手段の一例である。
 学習用データ入力部11は、カテゴリを分類する対象となる物体が画像中に含まれる画像データと、対象の物体の分類を示すラベルデータからなる機械学習の学習用データ(第1の学習用データ)と、注目決定部分の情報とを受け付ける。学習用データ入力部11は、注目決定部分の情報及び学習用データを端末装置100から受け取る。学習用データ入力部11は、注目決定部分の情報及び学習用データを互いに関連付けして学習用データ保存部12に保存する。
 注目決定部分の情報は、カテゴリを分類する対象が存在する部分を示す情報であり、画像の場合、対象の物体が存在する画像上の領域を示す情報である。具体的に言えば、注目決定部分は、例えば、犬が映っている画像データと犬を示す正解ラベルデータを教師データとして機械学習を行うとき、画像上において犬が映っている領域が該当する。
 注目決定部分は、たとえば、ユーザが、図示しない入力デバイスを操作することによって設定される。ユーザが入力デバイスに表示されている学習用データの画像上で、カテゴリが判断されるべき対象を囲むようカーソルを移動させる、あるいはタッチ入力することでマーキングを施すことで、対象の位置を示す軌跡が生成される。このように生成されたマーキングの軌跡で囲まれた画像部分が、注目決定部分として設定される。注目決定部分を示す情報は、マーキング軌跡で囲まれた画像部分を含む画像データである。マーキングについては、端末装置100の説明においても詳述する。
 なお、注目決定部分の情報は、上記以外の画像データであってもよい。また、学習用データがテキストデータあるいは時系列信号のデータであっても、マーキングによって囲まれた部分の領域を端末装置100によって設定可能であれば、注目決定部分の情報は、画像データを用いた注目決定部分の情報と同様に作成される。
 学習用データは、機械学習に用いる教師データが含まれるデータであり、カテゴリを分類する対象の物体が画像中に含まれる画像データと、画像データ上の物体の分類を示すラベルデータが組み合わされたデータである。
 学習用データ保存部12は、注目決定部分の情報と学習用データを互いに関連付けて保存する。また、学習用データ保存部12は、後述するデータ加工部17において生成された画像データ(第2の学習用データ)を、加工前の画像データが含まれている学習用データ(第1の学習用データ)に関連付けて保存する。
 学習部13は、CNNを用いた機械学習によって学習モデルを生成する。学習部13は、学習用データ、すなわち、カテゴリを分類する対象の物体が撮影された画像データと、画像データ上の物体の分類を示すラベルデータを教師データとして用いて、教師データを入力として、画像データ上の物体の分類を推定する学習モデルを生成する。また、学習部13は、データ加工部17で生成された画像データを用いて再学習を行い、学習モデルを更新する。学習部13は、生成した学習モデルのデータを学習モデル保存部14に保存する。また、学習部13は、再学習を行った際に、再学習の結果を用いて学習モデル保存部14に保存されている学習モデルを更新する。また、学習部13は、機械学習によって生成した学習モデルを用いて、未知の画像上の物体の分類を推定する。
 注目部分検出部15は、学習部13において学習モデルを用いて第1の学習用データのカテゴリを分類する場合に、学習モデルが第1の学習用データ上で注目した部分を検出する。注目した部分は、カテゴリの分類に寄与した部分である。具体的には、CNNを用いた機械学習によって生成された学習モデルを用いて物体のカテゴリを分類する際に、カテゴリを分類する対象の物体が存在すると認識した領域を注目した部分として検出する。注目部分検出部15は、たとえば、非特許文献1に開示されているGrad-CAM(Gradient-weighted Class Activation Mapping)法を用いて、注目した部分を抽出する。CNNを用いてカテゴリの分類を推定する際に、学習モデルが注目している部分をGRAD-CAM法を用いて検出することは特徴部位の可視化ともいう。また、学習モデルが注目した部分は、分類に影響を与えた特徴量を有するので、特徴部位とも呼ばれる。
 機械学習の学習モデルが回帰型ニューラルネットワーク(Recurrent Neural Network:RNN)の場合、注目部分検出部15は、Attentionと呼ばれる注目部分の視覚化手法を用いて、学習モデルが注目した部分の検出および注目した部分の視覚化を実行してもよい。なお、注目部分検出部15がNNの学習モデルが注目した部分を検出する手法は、Grad-CAMやAttentionによる手法に限定されない。Attentionによる手法は、F. Wang, et al., “Residual Attention Network for Image Classification”, arXiv:1704.06904v1 [cs.CV] 23 Apr 2017に開示されており、詳しい説明は省略する。
 一致検出部16は、学習用データに関連付けされた注目決定部分の情報と、Grad-CAM法を用いて検出した部分のデータを用いる。一致検出部16は、学習モデルが物体のカテゴリの分類を推定している際に注目した部分が注目決定部分に対して一致する割合を判定する。たとえば、一致検出部16は、学習用データに関連付けされた注目決定部分のデータと、Grad-CAM法を用いて検出された注目した部分の情報を比較し一致の割合を算出する。
 一致検出部16は、例えば、注目決定部分と注目した部分とが互いに重なっている部分のピクセルの数(第1のピクセル数)を検出する。一致検出部16は、注目部分検出部15が検出した注目した部分のピクセル数(第2のピクセル数)を検出する。一致検出部16は、検出した第1のピクセル数の第2のピクセル数に対する比を、一致の割合として算出する。一致検出部16は、一致の割合があらかじめ設定された基準値未満のとき、学習モデルが注目した部分が注目決定部分と一致していないと判定する。
 データ加工部17は、一致の割合が基準値未満と判定された学習用データの画像について、学習モデルが注目した部分を学習モデルがカテゴリを分類しないようにする加工を行う。したがって、加工後の第2の学習用データには、カテゴリを分類する対象が存在すると機械学習が認識できる特徴がない。学習モデルがカテゴリを分類しないよう加工するとは、機械学習に対して不活性化するともいう。学習部13が第2の学習用データを用いて再学習して学習モデルを更新する機械学習を行う場合、誤った注目部分によって機械学習が活性化されない、つまり誤った注目部分がカテゴリへの分類に寄与することは、避けられる。
 データ加工部17は、例えば、学習用データに関連付けされた注目決定部分に対応する画像部分以外の部分のコントラスト比をあらかじめ設定された基準以下まで下げることで学習モデルがカテゴリを分類しないようにする。学習モデルがカテゴリを分類しないようにする加工は、注目決定部分との一致の割合が基準未満となった注目部分にのみ行われてもよい。学習モデルがカテゴリを分類しないようにする加工は、加工を施す領域内の各ピクセル間の輝度または色度のいずれか一方の差、または両方の差をあらかじめ設定された範囲内に変更することで行われてもよい。
 学習モデルがカテゴリを分類しないようにする加工は、注目決定部分との一致の割合が基準未満となった注目部分に、ランダムなパターンによるノイズの付加や、ドットパターンやその他のパターンの図形を多数、付加することで行われてもよい。また、学習モデルがカテゴリを分類しないようにする加工は、注目決定部分との一致の割合が基準未満となった注目部分をあらかじめ設定された色で塗りつぶすことによって行われてもよい。
 データ加工部17は、一致の割合に応じて加工の強度を変化させる。データ加工部17は、注目決定分部に対応する画像部分以外の部分のコントラスト比を一致の割合に応じて変化させる。データ加工部17は、一致の割合が下がるにつれてコントラスト比を下げるように加工する。一致の割合とコントラスト比の関係はあらかじめ設定されている。加工を施す領域内の各ピクセル間の輝度や色度を変化させる場合も同様に、一致の割合が下がるにつれて各ピクセル間の輝度や色度の差を小さくする。
 データ加工部17は、注目決定部分との一致の割合が基準未満となった、学習モデルによる注目部分に加工を施す際に、加工を施す対象となる部分の大きさを一致の割合に応じて変化させてもよい。例えば、データ加工部17は、一致の割合が低くなるにつれて加工を施す対象となる部分が大きくなるように加工を施す。また、データ加工部17は、注目決定部分との一致の割合が基準未満となった注目部分に、ランダムなパターンによるノイズやドットパターン付加することで学習モデルがカテゴリを分類しないようにする加工を施す際に、一致の割合に応じてランダムなパターンやノイズの密度を変化させてもよい。例えば、データ加工部17は、一致の割合が低くなるにつれてランダムなパターンやノイズの密度が大きくなるように加工を施す。
 データ加工部17が、学習モデルがカテゴリを分類しないようにする加工の強度は、一致の割合を複数段階に分け、一致の割合の段階に応じて段階的に設定されていてもよい。また、データ加工部17が、学習モデルがカテゴリを分類しないようにする加工は、一致の割合に応じて上述した加工方法が組み合わされて行われてもよい。また、データ加工部17が、学習モデルがカテゴリを分類しないようにする加工は、一致の割合が基準未満であったときにあらかじめ設定された一定の強度で行われてもよい。
 図10は、Grad-CAM法によって検出した注目部分と、学習用データの画像に関連付けされた注目決定部分を同一の画像上に示した比較画像の例を模式的に示した図である。また、図11および図12は、注目決定部分に対応する画像部分以外の部分を学習モデルがカテゴリを分類しないようにする加工を画像データに施した場合の例を模式的に示した図である。
 図11では、注目決定部分に対応する画像部分以外の部分のコントラスト比を所定の値まで下げた場合の例を示している。また、図12は、注目決定部分との一致の割合が基準未満となった、注目部分のみコントラスト比を所定の値まで下げた場合の例を示している。図11または図12のような加工を行うことで、注目決定部分との一致の割合が基準未満となった、注目部分を、カテゴリの分類に寄与しない部分とすることができるため、加工後の画像を用いて学習を行う際に正しく犬の部分に注目する可能性が高くなる。
 学習用データ入力部11、学習部13、注目部分検出部15、一致検出部16およびデータ加工部17における各処理は、CPU(Central Processing Unit)、または、CPUおよびGPU(Graphics Processing Unit)上でコンピュータプログラムを実行することで行われる。各処理を行うコンピュータプログラムは、例えば、ハードディスクドライブに記録されている。CPU、または、CPUおよびGPUは、各処理を行うコンピュータプログラムをメモリ上に読み出すことで実行する。
 学習用データ保存部12および学習モデル保存部14は、不揮発性の半導体記憶装置やハードディスクドライブなどの記憶装置またはそれらの記憶装置の組み合わせによって構成されている。学習用データ保存部12および学習モデル保存部14のいずれか一方または両方は、学習装置10の外部に備えられ、ネットワークを介して接続されていてもよい。また、学習装置10は、複数の情報処理装置を組み合わせることで構成されていてもよい。
  〔端末装置100の構成〕
 図2に示す端末装置100の構成について説明する。図4は、本実施形態の端末装置100の構成を示す図である。端末装置100は、機械学習を行って学習モデル生成する際に学習用データを生成する作業者の操作用端末である。本実施形態の端末装置100は、学習用データ生成部101と、制御部102と、データ送受信部103と、入力部104と、出力部105を備えている。
 学習用データ生成部101は、注目決定部分のデータを生成する。注目決定部分のデータの生成方法については後で説明する。注目決定部分のデータは、例えば、学習用モデルに用いる画像データと同じ大きさ、すなわち、同じピクセル数の画像において、注目決定部分を線で囲った画像データとして生成される。注目決定部分のデータは、画像上で注目決定部分を特定できる形式のものであればよく、例えば、注目決定部分以外が黒または他の色で塗りつぶされた画像データであってもよい。学習用データ生成部101は、注目決定部分のデータを学習用データに関連づけたデータとして出力する。
 制御部102は、端末装置100の動作全般と、学習装置10における機械学習に必要なデータの送受信の制御を行う。制御部102は、学習装置10から受信した画像データおよび一致の割合のデータの表示装置への出力の制御、並びに作業者の入力結果に応じた動作の制御を行う。
 データ送受信部103は、学習装置10に注目決定部分の情報が関連づけられた学習用データを送信する。また、データ送受信部103は、学習モデルがカテゴリを分類しないようにする加工が施された画像データ、一致の割合の算出結果および学習モデルの生成結果などの機械学習を行う際に作業者が確認または選択を行う必要があるデータを学習装置10から受信する。
 入力部104は、学習用データに用いる画像中の注目決定部分を示す情報を受け付ける。入力部104は、マウス、ペンタブレットまたはキーボードなどの入力装置からの入力を受け付ける。入力部104に入力データを送る入力装置は、複数の種類の入力装置の組み合わせによって構成されていてもよい。
 出力部105は、注目部分の設定を行う際に、設定を行う画像の表示データをディスプレイ装置に出力する。また、出力部105は、制御部102の指示に基づいて学習装置10から送られてきた情報の表示データをディスプレイ装置に出力する。
 端末装置100の学習用データ生成部101、制御部102、データ送受信部103、入力部104および出力部105における各処理は、CPU上でコンピュータプログラムを実行することで行われる。各処理を行うコンピュータプログラムは、例えば、ハードディスクドライブに記録されている。CPUは、各処理を行うコンピュータプログラムをメモリ上に読み出すことで実行する。
  〔学習システムの動作〕
 本実施形態の学習システムの動作について説明する。図5は、本実施形態の学習システムのうち学習装置10の動作フローを示す図である。
 始めに、端末装置100において、学習用データに注目決定部分の情報を付加したデータの生成が行われる。注目決定部分の情報は、カテゴリを分類する対象の物体が撮影された画像データに、注目すべき対象の部分を囲むマーキングによる軌跡を付加することで生成される。機械学習に用いる加工前に生成され学習用データに関連付けされる。画像データは、作業の開始前に端末装置100に作業者によって入力される。画像データは、ネットワークを介して端末装置100に入力されてもよい。また、画像データは、あらかじめ学習装置10または端末装置100内に保存されていてもよい。
 端末装置100の制御部102は、出力部105に注目決定部分の情報を付加する画像データの出力を要求する。画像データの出力の要求を受けると、出力部105は、画像の分類の指定と注目決定部分の指定を要求する画像データを生成してディスプレイ装置に出力する。
 注目決定部分の情報の生成は、カテゴリを分類する対象の物体が映っている画像上の領域に対してマーキングを施すことで行われる。マーキングすることで付加された注目決定部分の情報は、マーキングされた部分を元の画像データとは別の画像データとして学習用データに関連付けされる。注目部分の情報は、マーキングを施した部分の位置や範囲を座標データとして示した数値情報のみのデータとして学習用データに関連付けられてもよい。
 マーキングは、例えば、カテゴリを分類する対象の物体が映っている領域の輪郭を線で囲むことで行われる。マーキングは、カテゴリを分類する対象の物体が映っている領域を四角形やその他の多角形の線で囲むことで行われてもよい。マーキングは、線で囲むだけでなく、複数の点を付けることで各点を直線で結んだ内部の領域が注目決定部分として設定されるようにしてもよい。また、マーキングは、カテゴリを分類する対象の物体が映っている領域に丸印やその他形状の印を付けることで行われてもよい。そのような構成とした場合に、印を付けた点を中心として一定の範囲内が注目決定部分として設定されるようにしてもよい。
 図6は、カテゴリを分類する対象の物体が映っている画像の例を模式的に示した図である。図6は画像上にカテゴリを分類する対象としたい犬と、猫および家具が存在する場合を示している。なお、図面作成の都合上、図6には、背景が省略されているが、実際の画像には背景が存在するものとする。図7は、注目決定部分のマーキングを行った画像の例を模式的に示した図である。図7では、カテゴリを分類する対象である犬を注目決定部分として線で囲むことでマーキングが行われている。マーキングで囲む注目決定部分に対応する領域は、一般的には犬全体でなく、犬の顔を中心とする領域である。
 注目決定部分の情報が関連付けされた学習用データの生成が完了すると、制御部102は、注目決定部分が関連付けされた学習用データを学習装置10に送信する要求をデータ送受信部103に要求する。注目決定部分の情報が関連付けされた学習用データを学習装置10に送信する要求を受け取ると、データ送受信部103は、が関連付けされた学習用データを学習装置10に送る。
 端末装置100から学習装置10に送られた学習用データは、学習用データ入力部11から学習装置10に入力される。注目決定部分の情報が関連付けされた学習用データを入力するので、学習用データ入力部11は、注目決定部分の情報が関連付けされた学習用データを学習用データ保存部12に保存する(ステップS11)。
 学習用データが保存されると、学習部13は、学習用データ(ここでは第1の学習用データとする)を基にCNNを用いた機械学習を行って学習モデルを生成する(ステップS12)。学習用データを用いた機械学習は、複数の第1の学習用データを用いてあらかじめ設定された回数、反復して行われる。学習部13は、生成した学習モデルのデータを学習モデル保存部14に保存する。
 学習モデルが生成されると、注目部分検出部15の動作に移行する。すなわち、注目部分検出部15は、学習部13に対し、たとえば、機械学習に用いた画像データを入力として、学習モデルを用いて物体の分類を推定する処理を行うよう指示する。物体の分類を推定する処理が実行されると、注目部分検出部15は、学習モデルが画像データの物体の分類を行う際に、カテゴリへの分類に寄与した部分、すなわち、学習モデルによって注目された部分(以下、注目部分とも呼ばれる)の検出を行う(ステップS13)。
 注目部分検出部15は、Grad-CAM法を用いて画像からテゴリを分類する対象の物体を検出するときの、注目部分の情報を画像ごとに検出する。図8および図9は、Grad-CAM法を用いて検出した注目部分を示す情報をヒートマップとして画像上に付加した例を模式的に示した図である。図8の例では、CNNを用いた学習モデルは、犬に注目している。また、図9の例では、CNNを用いた学習モデルは、猫に注目している。このとき、ラベルデータの正解カテゴリが犬であったとすると、図8の例では、学習モデルは画像上の正しい部分を注目している。一方で、図9の例では、学習モデルは、注目が必要な部分、すなわち、犬が存在する部分とは異なった部分に注目している。
 注目部分の情報を検出すると、注目部分検出部15は、検出した注目部分の情報を一致検出部16に送る。注目部分の情報を受け取ると、一致検出部16、学習用データ保存部12から対応する学習用データに関連付けられている注目決定部分の情報を読み出す。注目部分の情報を読み出すと一致検出部16は、Grad-CAM法によって検出した注目部分と、学習用データに関連付けられている注目決定部分を比較する。
 一致検出部16は、注目部分検出部15が検出した注目部分の位置が、学習用データに関連付けられている注目決定部分の位置に対し、一致する割合を算出する(ステップS14)。具体的に、一致検出部16は、注目部分検出部15が検出した注目部分と、学習用データに関連付けられている注目決定部分との互いに重なっているピクセルの数を計数する。次に、一致検出部16は、重なっているピクセル数の学習用データに関連付けされた注目決定部分のピクセル数に対する比を一致の割合として算出する。一致の割合を算出すると、一致検出部16は、一致の割合をあらかじめ設定された基準値と比較する。
 一致の割合が基準未満であったとき(ステップS15でNo)、一致検出部16は、一致の割合が基準未満の画像データについて、学習モデルがカテゴリを分類しないようにする加工が必要であると判断する。学習モデルがカテゴリを分類しないようにする加工が必要であると判断すると、一致検出部16は、画像データの不活性化の加工の要求をデータ加工部17に送る。
 画像データの不活性化の加工の要求を受け取ると、データ加工部17は、一致の割合が基準未満の画像データに対して、一致していない注目部分を学習モデルがカテゴリを分類しないようにする加工を行う(ステップS16)。データ加工部17は、学習用データ保存部12の学習用データに関連付けされた注目決定部分の情報を基に、一致していない注目部分、すなわち、予めマーキングを施した注目決定部分に対応する画像部分以外の部分を学習モデルがカテゴリを分類しないようにする加工を画像データに施す。
 画像データの加工を行うと、データ加工部17は、注目すべきではない部分について、学習モデルがカテゴリを分類しないようにする加工を施した画像データを、学習用データ保存部12に保存する(ステップS17)。加工を施したデータが学習用データとして保存されたときに一致の割合が未検出の画像があるとき(ステップS18でYes)、一致の割合が未検出の画像データが学習用データ保存部12から学習部13に出力されステップS13からの動作が繰り返される。加工を施したデータが学習用データとして保存されたときに一致の割合が未検出の画像がないとき(ステップS18でNo)、一致の割合が全ての画像で基準以上であったかの確認が行われる。この場合、一致の割合が基準未満で学習モデルがカテゴリを分類しないようにする加工を施した画像があり、一致の割合が全ての画像で基準以上でないためステップS19でNoとなる。ステップS19でNoとなると、学習部13は、学習用データ保存部12に保存された学習用データを用いて学習モデルの再学習を行う。
 再学習は、学習モデルがカテゴリを分類しないようにする加工が施された画像データと、一致の割合が基準を超えているために学習モデルがカテゴリを分類しないようにする加工が施されなかった画像データを教師データとして用いて行われる。再学習を行う際に、加工が行われた画像データの数に対して、加工が行われていない画像データの数が設定されてもよい。また、再学習を行う際に、教師データとして新たな学習用データが用いられてもよい。
 再学習を終えると、学習部13は、再学習の結果として生成した学習モデルで、学習モデル保存部14の学習モデルのデータを更新する(ステップS20)。
 学習モデルのデータが更新されると、学習部13は、生成した学習モデルの推定精度の検証を行う。学習モデルの精度の検証は、例えば、学習部13が複数の検証用画像の画像データを読み込み、学習モデルを用いて検証用画像上の物体の分類を推定する。学習部13は、推定した物体(のカテゴリ)の分類の結果と、画像データに紐づけられた正解を示すラベルデータを比較することで行われる。そのような方法で、精度の検証が行われる場合に、学習部13は、推定結果とラベルデータが一致する画像の割合(正答率)があらかじめ設定された値以上である場合に、精度が十分であり終了基準を満たすと判断する。終了基準を満たすとき(ステップS21でYes)、学習モデルの生成は完了する。生成が完了した学習モデルは、画像データのカテゴリの分類の推定に用いられる。また、終了基準を満たさないとき(ステップS21でNo)、ステップS13からの動作が繰り返され、一致の割合が基準を満たさない画像に対して学習モデルがカテゴリを分類しないようにする加工が施される。一致の割合が基準未満の画像の再加工は、例えば、コントラスト比を前回の加工時よりも下げることによって行われる。
 ステップS15において算出した一致の割合が基準以上であったとき(ステップS15でYes)、一致検出部16は、対応する画像データについて、学習モデルがカテゴリを分類しないようにする加工は不要と判断する。不活性化の加工を不要と判断すると、一致検出部16は、学習用データに不活性化の加工を行っていないことを示す情報を付加してもよい。次に、ステップS18において、一致の割合が未検出の画像があるとき(ステップS18でYes)、一致の割合が未検出の画像データが学習用データ保存部12から学習部13に出力されステップS13からの動作が繰り返される。加工を施したデータが学習用データとして保存されたときに一致の割合が未検出の画像がないとき(ステップS18でNo)、一致の割合が全ての画像で基準以上であったかの確認が行われる。一致の割合が全ての画像で基準以上でないとき、すなわち、学習モデルがカテゴリを分類しないようにする加工を施した画像があるとき(ステップS19でNo)、学習部13は、学習用データ保存部12の学習用データを用いて再学習を行う。再学習は、学習モデルがカテゴリを分類しないようにする加工が行われた画像データと、一致の割合が基準以上で学習モデルがカテゴリを分類しないようにする加工が行われていない画像データの両方を用いて行われる。再学習を終えると、学習部13は、再学習の結果として生成した学習モデルで、学習モデル保存部14の学習モデルのデータを更新する(ステップS20)。
 学習モデルのデータが更新されると、学習部13は、生成した学習モデルの精度の検証を行なう。また、ステップS19でYes、すなわち、一致の割合が全ての画像で基準以上であり、学習モデルがカテゴリを分類しないようにする加工を施した画像がないときも学習モデルの精度の検証が行われる。
 学習モデルの精度の検証によって、終了基準を満たすとき(ステップS21でYes)、学習モデルの生成は完了する。生成が完了した学習モデルは、画像データの分類の推定に用いられる。また、終了基準を満たさないとき(ステップS21でNo)、ステップS13からの動作が繰り返され、一致の割合が基準を満たさない画像に対して学習モデルがカテゴリを分類しないようにする加工が施される。再学習後に行われる学習モデルがカテゴリを分類しないようにする加工では、例えば、学習用データに関連付けされた注目決定部分以外のコントラスト比をさらに下げる処理や不活性化する領域を広げることによって行われる。
 上記の説明では、学習モデルによる注目部分の検出から、一致の割合の判定、画像の加工までの処理を画像データ1枚ごとに行っている。そのような処理方法に代えて、複数の画像データまたは全ての画像データについて、学習モデルによる注目部分の検出を行った後に、一致の割合が基準未満の画像の加工が行われてもよい。
 また、ステップS18の代わりに、所定枚数の画像の学習用データに対して全て未検出の画像があるかを判断してもよい。また、ステップS19及びステップS20は、省略してもよい。
 上記の説明では、学習装置10と端末装置100をそれぞれ独立した装置としているが、学習装置10が端末装置100の機能の一部または全てを有していてもよい。また、上記の説明では画像上の物体の分類を推定する構成について説明したが、学習装置10は、言語解析や時系列の信号解析に用いることもできる。言語解析に適用する場合には、CNNあるいはRNNを用いた機械学習によって生成した学習モデルに、Grad-CAM法を適用することで言語や信号のどの部分に注目しているかを検出する。
 時系列信号の信号解析では、時系列の信号データと、その信号データが指し示す現象を教師データとして、CNNによる機械学習が行われ、信号データのうち学習モデルが注目している部分の情報がGrad-CAM法で検出される。例えば、建造物や機械などの振動の波形データを対応する現象、地震など自然現象や心電図などの生体の観測結果の波形データと対応する現象を教師データとしてCNNを用いた機械学習を行い、学習モデルが注目している部分の情報をGrad-CAM法を用いて検出することができる。そのように、検出した注目部分が、推定対象となる現象に対応する部分と異なっていたときに、学習モデルが注目した部分の信号の波形のフラット化や、ノイズの添加を行うことで学習モデルがカテゴリを分類しないようにする加工を施した学習用データを生成することができる。また、言語解析においても、単語の認識の精度が低いときに、Grad-CAM法を用いて学習モデルが注目している部分を検出し、誤認識に影響を与えていると思われる部分に学習モデルがカテゴリを分類しないようにする加工を施すことで、認識の精度を向上する学習用データを生成することができる。
 本実施形態の学習装置10は、CNNやRNNを用いた機械学習によって生成した学習モデルが、データのカテゴリを分類する際に注目している部分を検出している。また、学習装置10は、学習モデルを用いてカテゴリを分類するときに注目した部分が、あらかじめ設定された注目決定部分に対し一致する割合が所定値より低い場合、学習モデルが注目している部分に、学習モデルがカテゴリを分類しないようにする加工を施すことで再学習の際に用いる学習用データを生成している。あらかじめ設定された注目決定部分と一致する割合が低い部分を学習モデルが注目していたときに、学習モデルが注目している部分に学習モデルがカテゴリを分類しないように加工を施したデータを学習用データとして用いて再学習を行うことで、カテゴリを分類する対象により注目した学習が行われるようになる。そのため、本実施形態の学習装置10は、カテゴリを分類する対象となる部分と他の部分の識別が難しいデータが入力された場合にも、カテゴリの分類を精度よく推定できる学習モデルを生成することができる。その結果、本実施形態の学習装置10を用いて生成した学習モデルを用いて推定を行うことで、カテゴリの分類の推定の精度を向上することができる。
 (第3の実施形態)
 本発明の第3の実施形態の学習システムについて図を参照して詳細に説明する。図13は、本実施形態の学習システムの構成を示した図である。本実施形態の学習システムは、本来注目すべきでない部分に注目して学習モデルがカテゴリを分類しないようにする加工を画像に施す際に、加工後の画像の候補を、ユーザが用いるユーザ端末装置を介してユーザに示すことを特徴とする。ユーザとは、学習モデルの提供を受けてデータの解析に学習モデルを利用する人物のことをいう。
 本実施形態の学習システムは、学習装置20と、ユーザ端末装置30と、端末装置100を備えている。端末装置100の構成と機能は、第2の実施形態と同様である。学習装置20と端末装置100は、通信ケーブルまたはネットワークを介して接続されている。また、学習装置20とユーザ端末装置30も、通信ケーブルまたはネットワークを介して接続されている。学習装置20およびユーザ端末装置30は、端末装置100とそれぞれ無線回線を介して接続されていてもよい。
 学習装置20の構成について説明する。図14は、本実施形態の学習装置20の構成を示す図である。本実施形態の学習装置20は、学習用データ入力部11と、学習用データ保存部12と、学習部13と、学習モデル保存部14と、注目部分検出部15と、一致検出部16と、データ加工部21と、データ加工制御部22と、ユーザ端末通信部23を備えている。
 本実施形態の学習装置20の学習用データ入力部11、学習用データ保存部12、学習部13、学習モデル保存部14、注目部分検出部15および一致検出部16の構成と機能は、第2の実施形態の同名称の部位と同様である。
 データ加工部21は、第2の実施形態のデータ加工部17と同様に、学習モデルが注目している部分を学習モデルがカテゴリを分類しないようにする加工を行う。データ加工部21は、学習モデルがカテゴリを分類しないようにする加工を行う際に複数の画像候補を生成する。
 データ加工部21は、例えば、学習用モデルに関連付けされた注目決定部分以外の部分について、コントラスト比を下げる加工を行う際にコントラスト比の異なる複数の画像候補を生成する。データ加工部21は、例えば、加工対象となる領域の平均のコントラスト比を算出し、加工対象の領域のコントラスト比が、算出した平均値よりも低く、互いにコントラスト比が異なる複数の画像候補を生成する。データ加工部21は、学習モデルが注目した部分を覆う範囲を変えることで複数の画像候補を生成してもよい。
 データ加工制御部22は、データ加工部21が生成した画像候補をユーザ端末装置30にユーザ端末通信部23を介して送る。また、データ加工制御部22は、ユーザ端末装置30から受信する画像候補の選択結果に基づいて、データ加工部21に学習用データとして用いる画像データを指示する。
 ユーザ端末通信部23は、ネットワークを介してユーザ端末装置30とデータの送受信を行う。ユーザ端末通信部23は、データ加工制御部22から入力された画像候補のデータをユーザ端末装置30に送信する。また、ユーザ端末通信部23は、ユーザ端末装置30から受信する画像候補の選択結果をデータ加工制御部22に送る。
 学習用データ入力部11、学習部13、注目部分検出部15、一致検出部16、データ加工部21、データ加工制御部22およびユーザ端末通信部23における各処理は、CPU、または、CPUおよびGPU上でコンピュータプログラムを実行することで行われる。各処理を行うコンピュータプログラムは、例えば、ハードディスクドライブに記録されている。CPU、または、CPUおよびGPUは、各処理を行うコンピュータプログラムをメモリ上に読み出すことで実行する。
 学習装置20の学習用データ保存部12および学習モデル保存部14は、不揮発性の半導体記憶装置やハードディスクドライブなどの記憶装置またはそれらの記憶装置の組み合わせによって構成されている。学習用データ保存部12および学習モデル保存部14のいずれか一方または両方は、学習装置20の外部に備えられ、ネットワークを介して接続されていてもよい。また、学習装置20は、複数の情報処理装置を組み合わせることで構成されていてもよい。
 ユーザ端末装置30は、学習モデルがカテゴリを分類しないようにする加工を行う際の画像候補のデータを、ディスプレイ装置に表示しユーザに提示する。ユーザ端末装置30は、ユーザの選択結果を学習装置20に送信する。ユーザ端末装置30には、パーソナルコンピュータやタブレット型端末装置などの通信機能を有する情報処理装置が用いされる。
 本実施形態の学習システムの動作について説明する。図15は、学習装置20の動作フローを示す図である。
 本実施形態において、注目部分の情報を付加した学習用データを生成する動作は、第2の実施形態と同様である。また、本実施形態において、生成した学習用データを教師データとしてCNNを用いた機械学習をあらかじめ設定された回数、反復して学習モデルを生成し、注目部分の検出を行って、一致の割合の算出を行うステップS31からS34までの動作は、第2の実施形態のステップS11からS14までの動作と同じである。よって、以下では、ステップS34において一致の割合の算出を行った後の動作から説明する。
 ステップS34において一致の割合を算出すると、一致検出部16は、算出した一致の割合をあらかじめ設定された基準値と比較する。
 算出した一致の割合が基準未満であったとき(ステップS35でNo)、一致検出部16は、対応する画像データについて、学習用データに関連付けされた注目決定部分以外の画像部分を学習モデルがカテゴリを分類しないようにする加工が必要であると判断する。学習モデルがカテゴリを分類しないようにする加工が必要であると判断すると、一致検出部16は、学習モデルがカテゴリを分類しないようにする加工の要求をデータ加工部21に送る。
 学習モデルがカテゴリを分類しないようにする加工の要求を受け取ると、データ加工部21は、学習用データに関連付けされた注目決定部分以外の部分を学習モデルがカテゴリを分類しないようにする加工を行う(ステップS36)。学習モデルがカテゴリを分類しないようにする加工は、第2の実施形態と同様に行われる。
 データ加工部21は、学習モデルがカテゴリを分類しないようにする加工を行う際に、複数の画像候補を生成する。データ加工部21は、例えば、学習用モデルに付加された注目部分以外の部分について、コントラスト比を下げる加工を行う際にコントラスト比の異なる複数の画像候補を生成する。データ加工部21は、例えば、加工対象となる領域の平均のコントラスト比を算出し、加工対象の領域のコントラスト比が、算出した平均値よりも低く、互いにコントラスト比が異なる複数の画像候補を生成する。データ加工部21は、学習モデルが注目した部分を覆う範囲を変えることで複数の画像候補を生成してもよい。
 学習モデルがカテゴリを分類しないようにする加工を行うと、データ加工部21は、不活性化した画像データを一時保存する。データ加工部21が画像データを保存した際に、一致の割合の判定が未了の画像が存在するとき(ステップS37でYes)、ステップS33に戻り、一致の割合の判定が未了の画像について学習モデルが注目している部分の検出が行われる。
 データ加工部21が画像データを保存した際に、一致の割合の判定がすべての画像について完了しているとき(ステップS37でNo)、一致の割合が全ての画像で基準以上であったかの確認が行われる。一致の割合が全ての画像で基準以上でないとき、すなわち、学習モデルがカテゴリを分類しないようにする加工を施した画像があるとき(ステップS38でNo)、データ加工部21は、生成した候補の画像候補のデータをデータ加工制御部22に送る。画像候補のデータを受け取ると、データ加工制御部22は、画像候補のデータをユーザ端末通信部23に送る。画像候補のデータと送信の要求を受け取ると、ユーザ端末通信部23は、受け取った画像候補のデータをユーザ端末装置30にネットワークを介して送信する(ステップS39)。
 ユーザ端末装置30は、ネットワークを介して学習装置20からデータを受信し、候補画像のデータを取得する。画像候補のデータを取得すると、ユーザ端末装置30は、画像候補からいずれかの画像をユーザが選択する際の表示データを生成して表示データをディスプレイ装置に表示する。
 ユーザは、表示を参照し画像候補のデータから適切な加工内容を選択し、選択結果を入力する。加工の内容の選択は画像ごとに行われてもよく、物体の分類ごとに行われてもよい。
 図16は、候補データ出力部33がディスプレイ装置に送る表示データの例を模式的に示した図である。図16の例では、1つの画像に対して、2通りの加工を行った場合の加工後の画像が候補A、候補Bとして示されている。また、ユーザが候補画像を選択する際の選択ボタンが表示されている。ユーザは、例えば、マウスを用いて候補Aか候補Bを選択することで選択結果を入力する。
 ユーザによる選択結果の入力が行われると、ユーザ端末装置30は、選択結果を学習装置20にネットワークを介して送信する。
 学習装置20のユーザ端末通信部23は、ネットワークを介してユーザ端末装置30からデータを受信し、選択結果を取得する(ステップS40)。選択結果を取得すると、ユーザ端末通信部23は、取得した選択結果をデータ加工制御部22に送る。選択結果を受け取ると、データ加工制御部22は、選択結果に示されている画像を、学習用データとして用いる画像データとして選択する情報をデータ加工部21に送る。
 学習用データとして用いる画像データの情報を受け取ると、データ加工部21は、受け取った情報に対応する画像データを、学習用データとして学習用データ保存部12に保存する(ステップS41)。加工が行われた画像データが学習用データとして保存されると、学習部13は、保存された学習用データを用いて再度、CNNを用いた機械学習を実行し学習モデルの再学習を行う(ステップS42)。再学習は、学習モデルがカテゴリを分類しないようにする加工が行われた画像データと、一致の割合が基準以上で学習モデルがカテゴリを分類しないようにする加工が行われていない画像データの両方を用いて行われる。
 再学習が完了すると、学習部13は、学習モデルによる推定精度の検証を行なう。また、ステップS38でYes、すなわち、一致の割合が全ての画像で基準以上であり、学習モデルがカテゴリを分類しないようにする加工を施した画像がないときも学習モデルの精度の検証が行われる。
 推定精度の検証は、第2の実施形態と同様に行われる。学習モデルによる推定精度の検証を行った際に、推定精度が基準を満たすとき(ステップS43でYes)、学習モデルの生成は完了する。推定精度が基準を満たさないとき(ステップS43でNo)、ステップS33に戻り、一致の割合が基準を満たさない画像に対して学習モデルがカテゴリを分類しないようにする加工が施される。
 上記の例では、加工内容の選択を行う際に、ユーザ端末装置30がディスプレイ装置に加工内容ごとの加工後の画像の状態を表示する例を示した。ユーザ端末装置30は、学習モデルが注目している部分を画像上に重ねてディスプレイ装置に表示してもよい。
 図17は、学習モデルが注目している部分を画像上に重ねて示した表示データの例を模式的に示した図である。図17では、画像1および画像2のそれぞれの画像に対して学習モデルが注目した部分が、ヒートマップとして示されている。また、図17の表示データでは、他の画像の表示を行うための操作ボタンが表示されている。
 図18は、学習用データとして用いた画像に付加した注目部分と、学習モデルが注目による注目部分を画像上に示した画像データを並べて表示する表示データの例を模式的に示した図である。図18では、画像に付加した注目部分のマーキングが示された画像と、学習モデルが注目した部分のヒートマップとして示されている画像を並べて表示する表示データを示している。また、図18の表示データでは、他の画像の表示を行うための操作ボタンが表示されている。
 図19は、学習用データとして用いた画像に付加した注目部分と、学習モデルが注目による注目部分を画像上に示した画像データを重ねて表示する表示データの例を模式的に示した図である。図19では画像1と、画像2の2つの画像について、画像に付加した注目部分のマーキングと、学習モデルが注目した部分のヒートマップが同一の画像上に重ねて示されている。また、図19の表示データでは、他の画像の表示を行うための操作ボタンが表示されている。
 上記の説明では、学習モデルによる注目部分の検出から、一致の割合の判定、画像の加工までの処理を画像データ1枚ごとに行っている。そのような処理方法に代えて、複数の画像データまたは全ての画像データについて、学習モデルによる注目部分の検出を行った後に、一致の割合が基準未満の画像の加工が行われてもよい。
 上記の説明では、学習装置20、ユーザ端末装置30および端末装置100をそれぞれ独立した装置としているが、他の装置が有する機能の一部または全てを有していてもよい。例えば、学習装置20が端末装置100の機能の一部または全てを有していてもよい。また、ユーザ端末装置30と端末装置100は、一体の装置として構成されていてもよく、他の装置が有する機能の一部を重複して有していてもよい。また、上記の説明では画像上の物体の分類を推定する構成について説明したが、学習装置20は第2の実施形態と同様に、言語解析や時系列の信号解析に用いることもできる。
 本実施形態の学習システムは、学習装置20がカテゴリを分類しないようにする加工を行う際の加工後の状態を示す画像データをユーザ端末装置30に送信している。ユーザ端末装置30がディスプレイ装置に加工後の状態を示す画像を表示することでユーザは、加工後の状態を見ながら画像の加工状態を選択することができる。よって、ユーザが適切な加工状態を選択できるようになり用途に応じた適切な学習モデルを生成することができる。そのため、本実施形態の学習モデルを用いることで学習モデルの推定精度が向上する。
 第2の実施形態および第3の実施形態において機械学習によって生成された学習モデルは、図20のような推定装置において、入力されたデータのカテゴリの分類を推定する学習モデルとして用いることができる。図20は、推定装置40の構成を示す図である。図20の推定装置40は、第2の実施形態および第3の実施形態において機械学習によって生成された学習モデルを用いて、入力されるデータの推定を行う装置である。以下では、画像上の物体の分類を推定する推定装置の場合を例に説明する。
 図20の推定装置40は、データ入力部41と、データ保存部42と、推定部43と、学習モデル保存部44と、推定結果出力部45を備えている。
 データ入力部41は、画像上の物体の分類を推定する画像データの入力を受け付ける。データ入力部41は、入力された画像データをデータ保存部42に保存する。
 データ保存部42は、データ入力部41に入力された画像データを保存する。
 推定部43は、学習モデル保存部44に保存された学習モデルを用いて、画像データに撮影されている物体の分類を推定する。推定装置40において用いられる学習モデルは、第2の実施形態および第3の実施形態において生成される学習モデルと同様の学習モデルである。
 学習モデル保存部44は、機械学習による学習済みのモデル、すなわち、学習モデルを保存する。学習モデルは、作業者によって推定装置40に入力される。学習モデルは、ネットワークを介した他のサーバから取得されてもよい。
 推定結果出力部45は、推定部43による画像上の分類の推定結果をディスプレイ装置に送る。推定結果出力部45は、推定部43による推定結果を他の端末装置にネットワークを介して送信してもよい。
 図20の推定装置40は、第2の実施形態および第3の実施形態の学習システムの一部として備えられていてもよい。そのような構成とした場合に、推定装置40への画像データの入力および推定結果の取得を、端末装置やユーザ端末装置を用いて行う構成としてもよい。また、上記の説明では画像上の物体の分類を推定する学習モデルについて説明したが、推定装置40は、言語解析や時系列の信号解析を行う学習モデルによる分類の推定に用いることもできる。
 第1の実施形態の学習装置、第2の実施形態の学習装置および第3の実施形態の学習装置における各処理は、コンピュータプログラムをコンピュータで実行することによって行うことができる。図21は、学習装置における各処理を行うコンピュータプログラムを実行するコンピュータ50の構成の例を示したものである。コンピュータ50は、CPU51と、メモリ52と、記憶装置53と、I/F(Interface)部54を備えている。また、第2の実施形態および第3の実施形態の端末装置、第3の実施形態のユーザ端末、並びに第4の実施形態の推定装置も同様の構成を備えている。
 CPU51は、記憶装置53から各処理を行うコンピュータプログラムを読み出して実行する。コンピュータプログラムを実行する演算処理部は、CPU51に代えて、CPUとGPUとの組み合わせによって構成されていてもよい。メモリ52は、DRAM(Dynamic Random Access Memory)等によって構成され、CPU51が実行するコンピュータプログラムや処理中のデータが一時保存される。記憶装置53は、CPU51が実行するコンピュータプログラムを保存している。記憶装置53は、例えば、不揮発性の半導体記憶装置によって構成されている。記憶装置53には、ハードディスクドライブ等の他の記憶装置が用いられてもよい。I/F部54は、学習システムの他のユニットや管理対象のネットワークの端末等との間でデータの入出力を行うインタフェースである。コンピュータ50は、通信ネットワークを介して他の情報処理装置と通信を行う通信モジュールをさらに備えていてもよい。
 また、各処理に行うコンピュータプログラムは、記録媒体に格納して頒布することもできる。記録媒体としては、例えば、データ記録用磁気テープや、ハードディスクなどの磁気ディスクを用いることができる。また、記録媒体としては、CD-ROM(Compact Disc Read Only Memory)等の光ディスクを用いることもできる。不揮発性の半導体記憶装置を記録媒体として用いてもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する学習手段と、
 前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出する注目部分検出手段と、
 前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成するデータ生成手段と
 を備える学習装置。
 (付記2)
 前記データ生成手段は、前記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する付記1に記載の学習装置。
 (付記3)
 前記データ生成手段は、
  前記注目決定部分が、前記学習モデルを用いてカテゴリを分類するときに前記注目した部分に対し一致する割合を検出する一致検出手段と、
  前記一致の割合が所定値より低い場合、前記注目した部分に対して、前記学習モデルがカテゴリを分類しないよう加工し、加工によって前記第2の学習用データを生成するデータ加工手段と
 を含む付記1または2に記載の学習装置。
 (付記4)
 前記学習手段は、前記第2の学習用データを用いた再学習によって前記学習モデルを更新する付記1から3いずれかに記載の学習装置。
 (付記5)
 前記学習手段は、前記学習モデルの推定精度が所定の基準を満たすとき、前記学習モデルの生成が終了したと判断する付記1から4いずれかに記載の学習装置。
 (付記6)
 前記データ上においてカテゴリを分類する対象が存在する部分の情報を注目部分の情報として前記第1の学習用データに関連付けて保存する学習用データ保存手段をさらに備える付記1から5いずれかに記載の学習装置。
 (付記7)
 前記データ生成手段は、前記第2の学習用データを生成する際に、それぞれ異なる複数の加工内容に基づいて加工を施した前記第2の学習用データを生成する付記1から6いずれかに記載の学習装置。
 (付記8)
 前記学習手段は、前記注目決定部分の情報としてカテゴリを分類する対象が存在する画像上の領域を示す情報を関連付けた前記第1の学習用データを用いて機械学習を実行して、前記画像上の物体の分類を推定する学習モデルを生成し、
 前記データ生成手段は、前記画像上において前記学習モデルを用いて前記カテゴリを分類するときに前記注目した部分が、前記注目決定部分に対し一致する割合が所定値より低い場合、前記画像上の前記注目した部分がカテゴリの分類に寄与しないように加工し前記第2の学習用データを生成する付記1から7いずれかに記載の学習装置。
 (付記9)
 前記データ生成手段は、前記注目した部分と前記注目決定部分が重なっている部分である第1のピクセル数の前記学習モデルが前記注目した部分である第2のピクセル数に対する比を前記一致する割合として算出する付記8に記載の学習装置。
 (付記10)
 前記データ生成手段は、前記画像のコントラスト比、輝度または色度のうち少なくとも1つを変化させる加工を施して前記第2の学習用データを生成する付記8または9に記載の学習装置。
 (付記11)
 第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成し、
 前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出し、
 前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成する
 学習方法。
 (付記12)
 前記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する付記11に記載の学習方法。
 (付記13)
 前記注目決定部分が、前記学習モデルを用いてカテゴリを分類するときに前記注目した部分に対し一致する割合を検出し、
 前記一致の割合が所定値より低い場合、前記注目した部分に対して、前記学習モデルがカテゴリを分類しないよう加工し、加工によって前記第2の学習用データを生成する付記11または12に記載の学習方法。
 (付記14)
 前記第2の学習用データを用いた再学習によって前記学習モデルを更新する付記11から13いずれかに記載の学習方法。
 (付記15)
 前記学習モデルの推定精度が所定の基準を満たすとき、前記学習モデルの生成が終了したと判断する付記11から14いずれかに記載の学習方法。
 (付記16)
 前記データ上においてカテゴリを分類する対象が存在する部分の情報を注目部分の情報として前記第1の学習用データに関連付けて保存する付記11から15いずれかに記載の学習方法。
 (付記17)
 前記第2の学習用データを生成する際に、それぞれ異なる複数の加工内容に基づいて加工を施した前記第2の学習用データを生成する付記11から16いずれかに記載の学習方法。
 (付記18)
 前記注目決定部分の情報としてカテゴリを分類する対象が存在する画像上の領域を示す情報を画像データと関連付けた前記第1の学習用データを用いて機械学習を実行して、前記画像上の物体の分類を推定する学習モデルを生成し、
 前記画像上において前記学習モデルを用いて前記カテゴリを分類するときに前記注目した部分が、前記注目決定部分に対し一致する割合が所定値より低い場合、前記画像上の前記注目した部分がカテゴリの分類に寄与しないように加工し前記第2の学習用データを生成する付記11から17いずれかに記載の学習方法。
 (付記19)
 前記注目した部分と前記注目決定部分が重なっている部分である第1のピクセル数の前記学習モデルが前記注目した部分である第2のピクセル数に対する比を前記一致する割合として算出する付記18に記載の学習方法。
 (付記20)
 前記画像のコントラスト比、輝度または色度のうち少なくとも1つを変化させる加工を施して前記第2の学習用データを生成する付記18または19に記載の学習方法。
 (付記21)
 第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する処理と、
 前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出する処理と、
 前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成する処理と
 をコンピュータに実行させるコンピュータプログラムを記録した記録媒体。
 (付記22)
 記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する処理をコンピュータに実行させるコンピュータプログラムを記録した付記21に記載の記録媒体。
 以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
 1  学習部
 2  注目部分検出部
 3  データ生成部
 10  学習装置
 11  学習用データ入力部
 12  学習用データ保存部
 13  学習部
 14  学習モデル保存部
 15  注目部分検出部
 16  一致検出部
 17  データ加工部
 20  学習装置
 21  データ加工部
 22  データ加工制御部
 23  ユーザ端末通信部
 30  ユーザ端末装置
 31  候補データ受信部
 32  ユーザ端末制御部
 33  候補データ出力部
 34  選択結果入力部
 35  選択結果送信部
 40  推定装置
 41  データ入力部
 42  データ保存部
 43  推定部
 44  学習モデル保存部
 45  推定結果出力部
 50  コンピュータ
 51  CPU
 52  メモリ
 53  記憶装置
 54  I/F部
 100  端末装置
 101  学習用データ生成部
 102  制御部
 103  データ送受信部
 104  入力部
 105  出力部

Claims (22)

  1.  第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する学習手段と、
     前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出する注目部分検出手段と、
     前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成するデータ生成手段と
     を備える学習装置。
  2.  前記データ生成手段は、前記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する請求項1に記載の学習装置。
  3.  前記データ生成手段は、
      前記注目決定部分が、前記学習モデルを用いてカテゴリを分類するときに前記注目した部分に対し一致する割合を検出する一致検出手段と、
      前記一致の割合が所定値より低い場合、前記注目した部分に対して、前記学習モデルがカテゴリを分類しないよう加工し、加工によって前記第2の学習用データを生成するデータ加工手段と
     を含む請求項1または2に記載の学習装置。
  4.  前記学習手段は、前記第2の学習用データを用いた再学習によって前記学習モデルを更新する請求項1から3いずれかに記載の学習装置。
  5.  前記学習手段は、前記学習モデルの推定精度が所定の基準を満たすとき、前記学習モデルの生成が終了したと判断する請求項1から4いずれかに記載の学習装置。
  6.  前記データ上においてカテゴリを分類する対象が存在する部分の情報を注目部分の情報として前記第1の学習用データに関連付けて保存する学習用データ保存手段をさらに備える請求項1から5いずれかに記載の学習装置。
  7.  前記データ生成手段は、前記第2の学習用データを生成する際に、それぞれ異なる複数の加工内容に基づいて加工を施した前記第2の学習用データを生成する請求項1から6いずれかに記載の学習装置。
  8.  前記学習手段は、前記注目決定部分の情報としてカテゴリを分類する対象が存在する画像上の領域を示す情報を関連付けた前記第1の学習用データを用いて機械学習を実行して、前記画像上の物体の分類を推定する学習モデルを生成し、
     前記データ生成手段は、前記画像上において前記学習モデルを用いて前記カテゴリを分類するときに前記注目した部分が、前記注目決定部分に対し一致する割合が所定値より低い場合、前記画像上の前記注目した部分がカテゴリの分類に寄与しないように加工し前記第2の学習用データを生成する請求項1から7いずれかに記載の学習装置。
  9.  前記データ生成手段は、前記注目した部分と前記注目決定部分が重なっている部分である第1のピクセル数の前記学習モデルが前記注目した部分である第2のピクセル数に対する比を前記一致する割合として算出する請求項8に記載の学習装置。
  10.  前記データ生成手段は、前記画像のコントラスト比、輝度または色度のうち少なくとも1つを変化させる加工を施して前記第2の学習用データを生成する請求項8または9に記載の学習装置。
  11.  第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成し、
     前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出し、
     前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成する
     学習方法。
  12.  前記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する請求項11に記載の学習方法。
  13.  前記注目決定部分が、前記学習モデルを用いてカテゴリを分類するときに前記注目した部分に対し一致する割合を検出し、
     前記一致の割合が所定値より低い場合、前記注目した部分に対して、前記学習モデルがカテゴリを分類しないよう加工し、加工によって前記第2の学習用データを生成する請求項11または12に記載の学習方法。
  14.  前記第2の学習用データを用いた再学習によって前記学習モデルを更新する請求項11から13いずれかに記載の学習方法。
  15.  前記学習モデルの推定精度が所定の基準を満たすとき、前記学習モデルの生成が終了したと判断する請求項11から14いずれかに記載の学習方法。
  16.  前記データ上においてカテゴリを分類する対象が存在する部分の情報を注目部分の情報として前記第1の学習用データに関連付けて保存する請求項11から15いずれかに記載の学習方法。
  17.  前記第2の学習用データを生成する際に、それぞれ異なる複数の加工内容に基づいて加工を施した前記第2の学習用データを生成する請求項11から16いずれかに記載の学習方法。
  18.  前記注目決定部分の情報としてカテゴリを分類する対象が存在する画像上の領域を示す情報を画像データと関連付けた前記第1の学習用データを用いて機械学習を実行して、前記画像上の物体の分類を推定する学習モデルを生成し、
     前記画像上において前記学習モデルを用いて前記カテゴリを分類するときに前記注目した部分が、前記注目決定部分に対し一致する割合が所定値より低い場合、前記画像上の前記注目した部分がカテゴリの分類に寄与しないように加工し前記第2の学習用データを生成する請求項11から17いずれかに記載の学習方法。
  19.  前記注目した部分と前記注目決定部分が重なっている部分である第1のピクセル数の前記学習モデルが前記注目した部分である第2のピクセル数に対する比を前記一致する割合として算出する請求項18に記載の学習方法。
  20.  前記画像のコントラスト比、輝度または色度のうち少なくとも1つを変化させる加工を施して前記第2の学習用データを生成する請求項18または19に記載の学習方法。
  21.  第1の学習用データを基に機械学習を実行し、第1の学習用データのカテゴリを分類する学習モデルを生成する処理と、
     前記学習モデルを用いて前記第1の学習用データのカテゴリを分類する際に、前記学習モデルが前記第1の学習用データ上で注目した部分を検出する処理と、
     前記注目した部分が、予め決定された注目すべき注目決定部分に対し一致する割合に基づいて、前記注目した部分を加工した第2の学習用データを生成する処理と
     をコンピュータに実行させるコンピュータプログラムを記録した記録媒体。
  22.  記注目した部分が前記注目決定部分に対し一致する割合が所定値よりも低い場合に、前記注目した部分の前記分類に対する寄与が小さくなるように前記注目した部分を加工して前記第2の学習用データを生成する処理をコンピュータに実行させるコンピュータプログラムを記録した請求項21に記載の記録媒体。
PCT/JP2019/050784 2019-12-25 2019-12-25 学習装置、推定装置および学習方法 WO2021130888A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/784,152 US20230024586A1 (en) 2019-12-25 2019-12-25 Learning device, learning method, and recording medium
PCT/JP2019/050784 WO2021130888A1 (ja) 2019-12-25 2019-12-25 学習装置、推定装置および学習方法
JP2021566628A JP7334801B2 (ja) 2019-12-25 2019-12-25 学習装置、学習方法および学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050784 WO2021130888A1 (ja) 2019-12-25 2019-12-25 学習装置、推定装置および学習方法

Publications (1)

Publication Number Publication Date
WO2021130888A1 true WO2021130888A1 (ja) 2021-07-01

Family

ID=76573137

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/050784 WO2021130888A1 (ja) 2019-12-25 2019-12-25 学習装置、推定装置および学習方法

Country Status (3)

Country Link
US (1) US20230024586A1 (ja)
JP (1) JP7334801B2 (ja)
WO (1) WO2021130888A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198216A1 (en) * 2020-12-17 2022-06-23 Fujitsu Limited Computer-readable recording medium storing image output program, image output method, and image output apparatus
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム
WO2023166940A1 (ja) * 2022-03-03 2023-09-07 パナソニックIpマネジメント株式会社 注視領域モデル生成システム及び推論装置
JP7383684B2 (ja) 2021-12-08 2023-11-20 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、並びにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273475A (ja) * 2000-03-24 2001-10-05 Denso Corp 教師データ選別方法及び装置,学習機能付き制御装置,記録媒体
JP2018173814A (ja) * 2017-03-31 2018-11-08 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171122A1 (en) * 2018-03-05 2019-09-12 Omron Corporation Method, device, system and program for detecting workpiece and storage medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273475A (ja) * 2000-03-24 2001-10-05 Denso Corp 教師データ選別方法及び装置,学習機能付き制御装置,記録媒体
JP2018173814A (ja) * 2017-03-31 2018-11-08 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラム、及び教師データ生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ADACHI, KAZUKI; HAMAGAMI, TOMOKI: "Regularization for Feature Maps of Convolutional Neural Networks (CNN)Based on ROI", IEICE TRANSACTIONS D, vol. J102-D, no. 3, JP , pages 185 - 193, XP009533837, ISSN: 1881-0225 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220198216A1 (en) * 2020-12-17 2022-06-23 Fujitsu Limited Computer-readable recording medium storing image output program, image output method, and image output apparatus
JP7383684B2 (ja) 2021-12-08 2023-11-20 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、並びにプログラム
WO2023166940A1 (ja) * 2022-03-03 2023-09-07 パナソニックIpマネジメント株式会社 注視領域モデル生成システム及び推論装置
JP7299542B1 (ja) 2022-05-18 2023-06-28 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム
JP2023169922A (ja) * 2022-05-18 2023-12-01 キヤノンマーケティングジャパン株式会社 情報処理システム及びその制御方法、プログラム

Also Published As

Publication number Publication date
JP7334801B2 (ja) 2023-08-29
US20230024586A1 (en) 2023-01-26
JPWO2021130888A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
WO2021130888A1 (ja) 学習装置、推定装置および学習方法
US10769487B2 (en) Method and device for extracting information from pie chart
JP2020008896A (ja) 画像識別装置、画像識別方法及びプログラム
JP2020528623A (ja) 能動学習のシステム及び方法
CN106982196A (zh) 一种异常访问检测方法及设备
KR102185893B1 (ko) 뉴럴 네트워크를 이용한 질병의 진단 시스템 및 방법
KR20110124223A (ko) 얼굴들을 상관시킴으로써 디지털 이미지들을 구조화하기
JP2019086475A (ja) 学習プログラム、検出プログラム、学習方法、検出方法、学習装置および検出装置
JP6653929B1 (ja) 自動判別処理装置、自動判別処理方法、検査システム、プログラム、および記録媒体
JP7318197B2 (ja) 逐次学習プログラム、逐次学習装置および逐次学習方法
JP2022510113A (ja) 半教師あり学習を用いた診断システム提供方法、及びそれを用いた診断システム
JP7422548B2 (ja) ラベルノイズ検出プログラム、ラベルノイズ検出方法及びラベルノイズ検出装置
Ousmane et al. Automatic recognition system of emotions expressed through the face using machine learning: Application to police interrogation simulation
WO2020097461A1 (en) Convolutional neural networks with reduced attention overlap
CN111652350B (zh) 神经网络可视化解释方法及弱监督定位物体方法
EP3819907A2 (en) Diagnosis result generation system and method
EP3819910A2 (en) Disease diagnosis system and method using multiple color models and neural network
CN110503205A (zh) 一种多模态数据处理方法及系统
CN113808192B (zh) 一种户型图生成方法、装置、设备及存储介质
WO2021161628A1 (ja) 機械学習方法および機械学習用情報処理装置
WO2020183706A1 (ja) 学習画像の教師データ修正方法、教師データ修正装置及びプログラム
JP2021177312A (ja) 情報処理装置、情報処理方法
KR102560770B1 (ko) 인공지능을 이용한 차트 데이터 분석 장치 및 그 방법
US20230103374A1 (en) Visualization method, program for the same, visualization device, and discrimination device having the same
WO2023209786A1 (ja) アノテーション装置、アノテーション方法及び学習装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19957555

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021566628

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19957555

Country of ref document: EP

Kind code of ref document: A1