WO2022185432A1 - 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム - Google Patents

画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム Download PDF

Info

Publication number
WO2022185432A1
WO2022185432A1 PCT/JP2021/008095 JP2021008095W WO2022185432A1 WO 2022185432 A1 WO2022185432 A1 WO 2022185432A1 JP 2021008095 W JP2021008095 W JP 2021008095W WO 2022185432 A1 WO2022185432 A1 WO 2022185432A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
image recognition
learning
attention
feature map
Prior art date
Application number
PCT/JP2021/008095
Other languages
English (en)
French (fr)
Inventor
智規 中井
達也 今井
Original Assignee
Heroz株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heroz株式会社 filed Critical Heroz株式会社
Priority to PCT/JP2021/008095 priority Critical patent/WO2022185432A1/ja
Publication of WO2022185432A1 publication Critical patent/WO2022185432A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to an image recognition learning system, an image recognition learning method, an image recognition learning program, an image recognition machine learning device, and an image recognition system.
  • an attention map representing the gaze area of the network is created from the feature map. Attempts have been made to visualize the gaze region of a model in image recognition by outputting it and using it in the recognition process.
  • Patent Literature 1 discloses a data processing device aimed at obtaining feature quantities that contribute to output in a model using a neural network.
  • This data processing device uses a model trained to generate feature attention representing the degree of contribution to the output of the model using an attention mechanism for each feature amount of multivariate time-series data, and processes the multivariate data to be processed.
  • a feature attention is generated for each feature amount of time-series data, and each generated weight is output in association with the feature amount.
  • Patent Document 2 discloses an evidence presentation device aimed at creating, at low cost, a saliency map that indicates the basis for judgment even in a neural network that handles a variety of input data.
  • This evidence presentation device presents the reasoning for inference by a neural network that learns by referring to a data set of a machine learning device.
  • the evidence presentation device describes, for example, a learning method using a neural network system that presents judgment results of correct and incorrect answers for input image data ("whether or not a dog is in the picture", etc.) together with the judgment evidence.
  • As an application field of these learning methods in input images of products, parts, etc., visual inspection that classifies whether the product etc. is in a normal state or a state including abnormal parts (scratches, damages, etc.) The field of
  • Patent Document 3 discloses an image processing system capable of optimizing image processing for finding a detection target from an image in image processing technology for visual inspection.
  • this image processing system the image of the product to be inspected and the image of the normal product are used as input images, image processing is performed, and the resulting output image is compared with the teacher image, which is an image with abnormal areas, to find the detection target. Have been described.
  • Patent Literatures 1 and 2 when the area to be detected (for example, an abnormal location) is extremely small, it is difficult to find that area, and it is difficult to determine which area to pay attention to. There is a problem that it is difficult and learning does not progress (is not stable).
  • the image of the abnormal part is used as the teacher image, it is used to verify the result of the image processing after the fact and optimize the image processing, and learning is required from the beginning. The idea of using the anomaly image for stabilization is not shown.
  • the present invention has been devised in view of such circumstances, and in the case of learning a neural network that recognizes an image including a detection target, early learning is performed even if the area to be detected is extremely small.
  • an input unit that receives training images, a feature map generation unit that generates a feature map based on the training images received by the input unit, and an attention based on the feature map generated by the feature map generation unit an attention map generation unit that generates a map; an image recognition unit that recognizes an image based on the feature map generated by the feature map generation unit or the attention map generated by the attention map generation unit; an image of interest and attention corresponding to the training image
  • An image recognition learning system includes a focus loss calculation unit that calculates a loss with respect to the attention map generated by the map generation unit.
  • the attention image focused on the detection target is generated. It is possible to provide an image recognition learning system capable of stabilizing the learning at an early stage even when the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label.
  • the image recognition unit may be characterized by outputting a label. According to this, it is possible to provide an image recognition learning system capable of classifying images by labels.
  • the image recognition unit may be characterized by outputting a predicted value. According to this, it is possible to provide an image recognition learning system capable of outputting the content indicated by the image based on the predicted value.
  • the image of interest corresponding to the training image may be an image including a portion designated as a portion having a high contribution rate in the attention map generated by the attention map generation unit in the training image.
  • the image of interest is an image that includes a portion indicated as a portion with a high contribution rate in the attention map, the calculated loss is focused on the detection target region, and the detection target is Even if it is extremely small, it is possible to stabilize learning at an early stage.
  • the image of interest may include a portion of interest corresponding to the abnormal portion of the abnormal image. According to this, when the detection target is an area including an abnormal portion, the image of interest includes the portion of interest corresponding to the abnormal portion, so that the calculated loss focuses on the abnormal portion. It is possible to provide an image recognition learning system for discriminating abnormal images that can stabilize learning at an early stage even if the size is extremely small.
  • An image recognition learning method comprising the steps of recognizing an image based on an attention map, and calculating a loss between an image of interest corresponding to a training image and the generated attention map. According to this, by calculating the loss between the attention map corresponding to the training image and the attention map, and updating the weights of the neural network based on this loss in the learning process, the attention image focused on the detection target is generated. Therefore, it is possible to provide an image recognition learning method capable of quickly stabilizing learning even when the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label.
  • An image recognition learning program causes a computer to perform the steps of recognizing an image based on the attention map and calculating the loss between the image of interest corresponding to the training image and the generated attention map. According to this, by calculating the loss between the attention map corresponding to the training image and the attention map, and updating the weights of the neural network based on this loss in the learning process, the attention image focused on the detection target is generated. It is possible to provide an image recognition learning program that can stabilize learning at an early stage even if the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label.
  • an input unit that receives training images, a feature map generation unit that generates a feature map based on the training images received by the input unit, and an attention based on the feature map generated by the feature map generation unit an attention map generation unit that generates a map; an image recognition unit that recognizes an image based on the feature map generated by the feature map generation unit or the attention map generated by the attention map generation unit; an image of interest and attention corresponding to the training image
  • An image recognition machine learning device includes a focus loss calculator that calculates a loss with respect to the attention map generated by the map generator.
  • the attention image focused on the detection target is generated. Therefore, it is possible to provide an image recognition machine learner capable of quickly stabilizing the learning even when the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label.
  • an image recognition unit trained by the above image recognition learning system is included, the input unit receives an image for recognition, and the image recognition unit recognizes the image received by the input unit , an image recognition system is provided. According to this, by calculating the loss between the attention map corresponding to the training image and the attention map, and updating the weights of the neural network based on this loss in the learning process, the attention image focused on the detection target is generated. , By using it in the learning process from the beginning together with the correct label, the trained model trained by the image recognition learning system that can stabilize the learning at an early stage even if the area to be detected is extremely small. It is possible to provide an image recognition system having
  • FIG. 1 is a configuration block diagram of an image recognition learning system according to a first embodiment of the present invention
  • FIG. FIG. 4 is an explanatory diagram showing a learning process in the image recognition learning system of the first embodiment according to the present invention
  • 4 is a flow chart showing a learning flow in the image recognition learning system of the first embodiment according to the present invention
  • A a normal image
  • B an abnormal image (an example of an extremely small abnormal portion)
  • C an image of interest (indicating an abnormality) in the input image to the image recognition learning system of the first embodiment according to the present invention image).
  • FIG. 4 is a diagram showing an example of a loss calculation method in the image recognition learning system of the first embodiment according to the present invention
  • FIG. 2 is a configuration block diagram of an image recognition system according to a second embodiment of the present invention
  • 1 is a hardware configuration diagram of an image recognition learning system of a first embodiment and an image recognition system of a second embodiment according to the present invention
  • FIG. 1 An image recognition learning system 100 according to the present embodiment will be described with reference to FIGS. 1 to 5.
  • FIG. The image recognition learning system 100 is a system for training a multilayer neural network that recognizes and infers images by deep learning of supervised learning that uses teacher data. Deep learning is a machine learning method that repeatedly updates the weights in the network and derives appropriate weights in the network so that the accuracy of recognition and inference using a multi-layer neural network is improved.
  • deep learning for recognizing and inferring images includes a class classification task that outputs class labels such as dogs and cats, good and bad, and areas in which dogs are shown, abnormal areas, etc.
  • class labels such as dogs and cats, good and bad, and areas in which dogs are shown, abnormal areas, etc.
  • segmentation There is the task of segmentation to segment.
  • Conventional deep learning class classification uses only the error between the correct label and the recognition/inference result, and learns by repeatedly updating the weights in the network with the aim of minimizing the error. Therefore, for example, in the appearance inspection of a basketball product as shown in FIG. 4, if the abnormal part (surface scratch) is extremely small as shown in FIG. In the classification, since position information is not given, it is difficult to find an abnormal point, and there is a problem that learning becomes unstable and learning does not progress.
  • the image recognition learning system 100 uses not only the error between the correct label and the recognition/inference result, but also the error between the attention map focusing on the detection target and the attention map. (Loss) is minimized with a smaller number of iterations than in the prior art, and learning is stabilized in a short period of time.
  • the image recognition learning system 100 includes an input unit 10 that receives training/learning images, a feature map generation unit 20 that generates a feature map, an attention map generation unit 30 that generates an attention map, An image recognition unit 40 for recognizing an image, an output unit 50 for outputting the attention map and the output result of the image recognition unit 40, a focus loss calculation unit 60 for calculating the loss between the focus image and the attention map, and a correct label and output. and a recognition loss calculator 70 for calculating the loss with the result.
  • the input unit 10 accepts an image file composed of two-dimensional image data having color information (color tone and gradation) for each pixel.
  • the input unit 10 configures an input layer having nodes corresponding to each pixel of an input image file in a neural network.
  • image files input in the learning phase can be classified into training images used for learning, confirmation images used for readjusting neural network weights, and test images used for evaluating recognition results. In this specification, these images used in the learning phase are collectively referred to as training images or training/learning images.
  • the input unit 10 receives not only training/learning images, but also images for recognition/inference in the recognition/inference phase, as will be described later.
  • the feature map generation unit 20 constitutes part of the so-called hidden layer in the neural network, and generates a feature map based on the image received by the input unit 10.
  • a feature map indicates the strength of the response, indicating where the feature exists in the received image.
  • the feature map generator 20 roughly corresponds to the first half of the neural network structure. output a plurality of feature maps indicating feature amounts corresponding to . Parameters such as the number of filters, filter size, stride, etc. are selected as appropriate. Pooling is also performed appropriately according to the size and resolution of the feature map to be generated.
  • a multi-layered convolutional neural network it is possible to obtain feature maps from low-order to high-order by performing such a convolution operation, and the degree of multi-layered structure to be adopted can be determined as appropriate.
  • the neural network of the image recognition learning system 100 is based on the Encoder-Decoder structure, it is mainly composed of Encoder elements.
  • the feature map generation unit 20 outputs the feature map obtained with the encoder structure.
  • Feature map generator 20 is not limited to a specific neural network structure.
  • the attention map generation unit 30 constitutes part of the so-called hidden layer in the neural network, and generates an attention map based on the feature map generated by the feature map generation unit 20.
  • the attention map is shown as a weight representing the degree of contribution (importance to the output) corresponding to the generated feature map. Attention is generally used to automatically learn which area of a feature map should be focused on by applying an attention mechanism, and to clarify the grounds for the output of the network.
  • the attention map generator 30 applies the attention mechanism to the immediately preceding feature map, such as a fully connected layer including several convolutional layers. However, it is not limited to this, and may be applied to any stage of the feature map, and the feature amount that contributes to the output of the feature map may be selected in descending order.
  • the attention mechanism applies a convolution layer to the feature map and passes it through an activation function, for example, to create an attention mask with the same width and height and one channel.
  • the attention mask functions as a mask in which the larger the value, the more attention is paid to that region.
  • the image recognition unit 40 constitutes part of the so-called hidden layer in the neural network, and recognizes and infers images based on the feature map generated by the feature map generation unit 20 or the attention map generated by the attention map generation unit 30.
  • the image recognition unit 40 roughly corresponds to the latter half of the neural network structure, and is the part that obtains the final output regarding recognition and inference by repeating fully connected layers including several convolution layers.
  • the image recognition unit 40 may receive the input of the feature map generated by the feature map generation unit 20 in a fully connected layer and output regarding recognition/inference, or may receive the input of the attention map generated by the attention map generation unit 30. It may be received by the coupling layer and output related to recognition/inference. Further, the image recognition unit 40 may receive both the feature map and the attention map, and may output recognition/inference based on the weighted feature map.
  • the output unit 50 outputs the attention map generated by the attention map generation unit 30 and the output result recognized by the image recognition unit 40 .
  • the output unit 50 for the image recognition unit 40 configures an output layer having nodes corresponding to the number of types of recognition/inference results from the preceding hidden layer in the neural network. For example, if there are two types of recognition results, a "normal image” and an "abnormal image,” the output unit 50 has two nodes and outputs probabilities for these two labels. Also, in the case of a regression problem that predicts continuous real values, such as when the inference result is the content shown by the image instead of discrete class classification, the number of nodes of the output unit 50 can be changed according to the type of target value. It decides and outputs the predicted value that is the content.
  • the image recognition unit 40 When the recognition result of the image recognition unit 40 is a label, the image can be classified according to the label, and when the inference result of the image recognition unit 40 is a predicted value, the content indicated by the image can be output. Also, the output unit 50 to the attention map generation unit 30 outputs pixel information having vertical and horizontal sizes and the number of channels that can be compared with the image of interest.
  • the recognition loss calculation unit 70 calculates the loss between the correct label corresponding to the training/learning image and the output result recognized/inferred by the image recognition unit 40 .
  • a correct label is prepared in advance corresponding to each training/learning image. For example, a training/learning image of a dog may be labeled as "dog", and a training/learning image containing an abnormal portion may be labeled as "abnormal".
  • the recognition loss calculation unit 70 calculates the loss (error) between the correct label and the output result recognized by the image recognition unit 40 using a predetermined objective function. For example, in the simplest example, the probability that the image recognition unit 40 is "abnormal" for training/learning images containing an abnormal portion is 80% (conversely, the probability that it is "normal” is 20%).
  • the loss for the correct label "abnormal" (100%) is calculated as 20% by subtraction.
  • the calculation method in the recognition loss calculation unit 70 may also be calculated from these values using the cross-entropy function in the case of the classification problem and the mean square error function in the case of the regression problem, and the objective function is not particularly limited. .
  • the recognition loss calculator 70 adjusts the weights (parameters) in the network when it determines that the loss is equal to or greater than a predetermined threshold.
  • the method of adjustment is preferably the error backpropagation method, which propagates the loss in the backward direction of the network and updates the weight matrix of each layer. method is used.
  • the attention loss calculation unit 60 calculates the loss between the attention image corresponding to the training/learning image and the attention map generated by the attention map generation unit 30 .
  • the image of interest is prepared in advance corresponding to each training/learning image, with the aim of focusing on the feature (detection target) when recognizing/inferring the image in the training/learning image. be prepared.
  • the image of interest is an image that includes a portion designated as a portion with a high contribution rate in the attention map or feature map among the training/learning images.
  • the image of interest is an image designated as an area to focus on the "dog's face" for training/learning images of a dog, and a "damaged area” for training/learning images containing abnormal areas. is an image designated as the region to focus on.
  • the image of interest is an image that includes a portion designated as a portion with a high contribution rate in the attention map, so that the calculated loss is focused on the detection target region, and the detection target is extremely Even if it is small, it is possible to stabilize learning at an early stage.
  • the images of interest correspond to the images for training and learning. prepared for
  • FIG. 4 shows an example of scratches (damaged parts) on the surface of a basketball.
  • This figure (A) is an image of a basketball in a normal state (normal image) with no scratches on the surface of the basketball.
  • This figure (B) is an image (abnormal image) of a basketball in an abnormal state with a triangular scratch along the seam between the panels slightly below the center.
  • (C) of this figure is a noted image showing a portion that can be a feature when recognizing whether the basketball is normal or abnormal, corresponding to the triangular flaw (portion of interest) in (B) of this drawing. For example, if there is knowledge that basketballs often have scratches along the seam between panels, the image showing the area along the seam (part of interest) is the image of interest.
  • the image of interest includes the portion of interest corresponding to the abnormal portion, so that the calculated loss focuses on the abnormal portion, and the abnormal portion is extremely large. It is possible to provide an image recognition learning system 100 for abnormal image identification that can stabilize learning at an early stage even if the size is small.
  • the attention loss calculation unit 60 calculates the loss (error) between such a attention image and the attention map generated by the attention map generation unit 30 .
  • An example of a loss calculation method is shown in FIG.
  • the image is composed of nine unit areas. This figure compares the prepared attention map (image) with the generated attention map (image), subtracts the two images, squares them, and averages them to calculate the loss, that is, to calculate the mean squared error. showing.
  • the bottom third of the image is the most focused area (with a weight of 200), and the middle third of the image is the second most focused area (with a weight of 100).
  • the area that has the least amount of focus (the area with a weight of 0) is indicated in the top third of the image.
  • the region (region having a weight of 200) recognized as having the highest degree of contribution when the feature map generation unit 20 generates the feature map is the right one-third of the image.
  • the region perceived as having a medium contribution is the middle third
  • the region perceived as having the lowest contribution is the right third.
  • the generated attention map (B) shows a case in which the degree of contribution differs not only in the horizontal direction but also in the vertical direction. If the loss is calculated in the same way in this case, the loss is calculated as 3333. Comparing the attention map (A) and the attention map (B), the attention map (A) has a larger loss.
  • the loss calculated by the loss-of-interest calculator 60 is large means that the feature map generator 20 recognizes that the contribution rate is the highest when generating the feature map, and the attention map shown by the target image has a high contribution rate. This means that the area designated as the part is largely deviated. In the learning phase, if this loss is large, it indicates that the learning has not been performed properly, and further learning is performed to reduce this loss.
  • FIG. 2 shows, as an example, the process of correcting the weights in the network while going backwards through the network (backpropagation) using the losses calculated by the loss-of-interest calculation unit 60 and the recognition loss calculation unit 70 .
  • the attention loss calculation unit 60 After receiving the attention map generated by the attention map generation unit 30 via the output unit 50, the attention loss calculation unit 60 calculates the attention map and the attention image loss as described above. Then, if the loss is equal to or greater than a predetermined threshold, the noted loss calculation unit 60 regards the calculated loss as the loss in the output unit 50, and uses the loss as the weight for the attention map generation unit 30 and the weight for the feature map generation unit 20. to correct and update the weights between nodes in the neural network.
  • the recognition loss calculation unit 70 calculates the loss of the output result and the correct label as described above. Then, when the loss is equal to or greater than a predetermined threshold, the recognition loss calculation unit 70 regards the calculated loss as the loss in the output unit 50, and uses the loss as the weight of the image recognition unit 40, the weight of the feature map generation unit 20, and the weight of the feature map generation unit 20.
  • the weights of the attention map generator 30 are back-propagated to correct and update the weights between nodes in the neural network. These updates may occur simultaneously.
  • the feature map generation unit 20, the attention map generation unit 30, and the image recognition unit 40 do not learn separately in completely independent networks, but they also learn simultaneously in one network, and loss occurs. It is preferable that the information is transmitted retroactively from the output side to the input side so that the entire network is learned.
  • the attention image focused on the detection target is generated. It is possible to provide an image recognition learning system 100 that can stabilize learning at an early stage even if the area to be detected is extremely small, by using it in the learning process from the beginning together with the correct label. That is, in the image recognition learning system 100, the information in the learning process is insufficient if there is only the recognition loss calculation unit 70 that calculates the loss with the correct label, but the attention loss calculation unit 60 that calculates the loss of the attention map and the image of interest. Learning can be stabilized at an early stage by having Moreover, providing the loss-of-interest calculation unit 60 is relatively difficult and can be easily implemented.
  • S in the flow chart means a step.
  • the image recognition learning system 100 receives training/learning images from the input unit 10 in S100.
  • the feature map generation unit 20 calculates the feature amount of the input training/learning image according to the initial weights, and generates a feature map.
  • the attention map generator 30 generates an attention map based on the generated feature map in S104.
  • the attention loss calculation unit 60 compares the generated attention map and the attention image to calculate the loss.
  • the image recognition unit 40 performs recognition/inference based on the generated feature map and attention map.
  • the recognition loss calculator 70 compares the recognition/inference result and the correct label to calculate the loss.
  • the image recognition learning system 100 combines the losses calculated in S106 and S110, and updates the initial weights between the nodes in the neural network using the error backpropagation method. Further, when another training/learning image is input, the above learning flow is repeated, and the weights are gradually updated to advance learning.
  • this image recognition learning method includes steps of receiving a training image, generating a feature map based on the received training image, generating an attention map based on the generated feature map, generating a feature map Alternatively, a step of recognizing an image based on the attention map, a step of calculating a loss between the image of interest corresponding to the training image and the generated attention map, and a step of calculating a loss between the recognized/inferred output result and the correct label. and a method comprising:
  • the attention image focused on the detection target is generated. Therefore, it is possible to provide an image recognition learning method capable of quickly stabilizing learning even when the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label.
  • the methods described above may be provided as programs, software, modules, and applications that are executed by a computer. Similarly, it is possible to provide an image recognition learning program or the like that can stabilize learning at an early stage by using an image of interest in the learning process from the beginning, even if the area to be detected is extremely small. can.
  • a “program” is a data processing method written in any language or writing method, regardless of the format such as source code or binary code.
  • the "program” is not necessarily limited to a single configuration, but is distributed as multiple modules or libraries, or cooperates with a separate program represented by the OS to achieve its function. Including things.
  • the image recognition learning program can also be executed by a general-purpose computer processor (CPU: Central Processing Unit). It can also be executed by a processing GPU (Graphics Processing Unit). As a result, it is possible to provide an image recognition machine learning device capable of stabilizing learning at an early stage even when the area to be detected is extremely small by using the image of interest in the learning process from the beginning. can.
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the image recognition system 1 in this embodiment will be described with reference to FIG.
  • the image recognition system 1 includes an input unit 10 that receives an image for recognition/inference, a feature map generation unit 20 that generates a feature map learned by the image recognition learning system 100, and an image input based on the learned feature map. and an output unit 50 for outputting the recognition/inference result of the image recognition unit 40 .
  • the weights between the nodes in the neural networks of the feature map generation unit 20 and the image recognition unit 40 are learned weights learned by the image recognition learning system 100 described above.
  • the attention image focused on the detection target is generated.
  • the trained model trained by the image recognition learning system 100 can stabilize the learning at an early stage even if the area to be detected is extremely small by using it in the learning process from the beginning together with the correct label. It is possible to provide an image recognition system 1 having
  • the field of image recognition to which the present invention is applied is applied to various fields such as the so-called cat and dog classification, the comparison of the image after restoration and the image before restoration, etc. in addition to the appearance inspection of products and parts. can.
  • this method it is preferable to apply this method when the area to be detected or the part of interest is extremely small compared to the area of the entire image.
  • FIG. 7 a computer system 300 for implementing aspects according to embodiments of the present disclosure is described.
  • the mechanisms and apparatus of various embodiments disclosed herein may be applied to any suitable computing system.
  • the major components of computer system 300 include one or more processors 302 , memory 304 , terminal interfaces 312 , storage interfaces 314 , I/O (input/output) device interfaces 316 , and network interfaces 318 . These components may be interconnected via memory bus 306 , I/O bus 308 , bus interface unit 309 and I/O bus interface unit 310 .
  • Computer system 300 may include one or more general-purpose programmable central processing units (CPUs) 302A and 302B, collectively referred to as processors 302. In some embodiments, computer system 300 may include multiple processors, and in other embodiments, computer system 300 may be a single CPU system. Each processor 302 executes instructions stored in memory 304 and may include an on-board cache.
  • CPUs general-purpose programmable central processing units
  • processors 302. may include multiple processors, and in other embodiments, computer system 300 may be a single CPU system.
  • Each processor 302 executes instructions stored in memory 304 and may include an on-board cache.
  • memory 304 may include random access semiconductor memory, storage devices, or storage media (either volatile or non-volatile) for storing data and programs.
  • memory 304 represents the entire virtual memory of computer system 300 and may include the virtual memory of other computer systems that are connected to computer system 300 over a network.
  • this memory 304 may conceptually be considered a single entity, in other embodiments this memory 304 may be a more complex arrangement, such as a hierarchy of caches and other memory devices.
  • memory may exist as multiple levels of caches, and these caches may be partitioned by function. As a result, one cache may hold instructions and another cache may hold non-instruction data used by the processor.
  • the memory may be distributed and associated with various different CPUs, such as in so-called NUMA (Non-Uniform Memory Access) computer architectures.
  • NUMA Non-Uniform Memory Access
  • Memory 304 may store all or some of the programs, modules, applications, and data structures that implement the functions described herein.
  • memory 304 may store image recognition training application 350 .
  • image recognition training application 350 may include instructions or descriptions that perform the functions described below on processor 302, or may include instructions or descriptions that are interpreted by other instructions or descriptions.
  • image recognition training application 350 may be implemented on semiconductor devices, chips, logic gates, circuits, circuit cards, and/or other physical hardware instead of or in addition to processor-based systems. It may be implemented in hardware via a device.
  • image recognition training application 350 may include data other than instructions or descriptions.
  • a camera, sensor, or other data input device may be provided in direct communication with bus interface unit 309, processor 302, or other hardware of computer system 300. . Such a configuration may reduce the need for processor 302 to access memory 304 and image recognition training applications.
  • the computer system 300 configures the image recognition learning system 100 by sequentially loading and executing the image recognition learning application programs stored in the memory 304 in the processor 302 .
  • Computer system 300 may include bus interface unit 309 that provides communication between processor 302 , memory 304 , display system 324 , and I/O bus interface unit 310 .
  • I/O bus interface unit 310 may be coupled to I/O bus 308 for transferring data to and from various I/O units.
  • I/O bus interface unit 310 communicates, via I/O bus 308, a plurality of I/O interface units 312, 314, 316, also known as I/O processors (IOPs) or I/O adapters (IOAs); and 318.
  • Display system 324 may include a display controller, display memory, or both. The display controller can provide video, audio, or both data to display device 326 .
  • Computer system 300 may also include one or more sensors or other devices configured to collect data and provide such data to processor 302 .
  • the display memory may be dedicated memory for buffering video data.
  • the display system 324 may be connected to a display device 326 such as a single display screen, television, tablet, or handheld device.
  • display device 326 may include speakers to render audio.
  • speakers for rendering audio may be connected to the I/O interface unit.
  • the functionality provided by display system 324 may be implemented by an integrated circuit that includes processor 302 .
  • bus interface unit 309 may be implemented by an integrated circuit including processor 302 .
  • the I/O interface unit has the function of communicating with various storage or I/O devices.
  • terminal interface 312 may be a user output device such as a video display, speaker television, etc., or a user input device such as a keyboard, mouse, keypad, touchpad, trackball, buttons, light pen, or other pointing device.
  • Any user I/O device 320 can be attached.
  • a user inputs input data and instructions to the user I/O device 320 and the computer system 300 by operating the user input device using the user interface, and receives output data from the computer system 300. good too.
  • the user interface may be displayed on a display device, played by a speaker, or printed via a printer, for example, via user I/O device 320 .
  • Storage interface 314 connects to one or more disk drives or direct access storage device 322 (typically a magnetic disk drive storage device, but an array of disk drives or other storage device configured to appear as a single disk drive). ) can be attached.
  • storage device 322 may be implemented as any secondary storage device.
  • the contents of memory 304 may be stored in storage device 322 and read from storage device 322 as needed.
  • I/O device interface 316 may provide an interface to other I/O devices such as printers, fax machines, and the like.
  • Network interface 318 may provide a communication pathway to allow computer system 300 and other devices to communicate with each other. This communication path may be, for example, network 330 .
  • Computer system 300 shown in FIG. 7 includes a bus structure that provides a direct communication path between processor 302, memory 304, bus interface unit 309, display system 324, and I/O bus interface unit 310;
  • computer system 300 may include point-to-point links in hierarchical, star, or web configurations, multiple hierarchical buses, parallel or redundant communication paths.
  • I/O bus interface unit 310 and I/O bus 308 are shown as a single unit, in reality computer system 300 may include multiple I/O bus interface units 310 or multiple I/Os.
  • a bus 308 may be provided.
  • multiple I/O interface units are shown for isolating the I/O bus 308 from various communication paths leading to various I/O devices, in other embodiments, one of the I/O devices Some or all may be directly connected to one system I/O bus.
  • computer system 300 is a device that receives requests from other computer systems (clients) that do not have a direct user interface, such as multi-user mainframe computer systems, single-user systems, or server computers. There may be. In other embodiments, computer system 300 may be a desktop computer, handheld computer, laptop, tablet computer, pocket computer, phone, smart phone, or any other suitable electronic device.
  • image recognition system 100 image recognition learning system 10 input unit 20 feature map generation unit 30 attention map generation unit 40 image recognition unit 50 output unit 60 attention loss calculation unit 70 recognition loss calculation unit NN neural network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムを提供するため、画像認識学習システム100は、訓練用画像を受け付ける入力部10と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部20と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部30と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部40と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部60と、を備える。検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、早期に学習を安定化できる。

Description

画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム
 本発明は、画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムに関する。
 従来から、ニューラルネットワークによる深層学習(ディープラーニング)において、ニューラルネットワークの出力が何を根拠に決定されたか不明確であるという問題に対処するために、特徴マップからネットワークの注視領域を表すアテンションマップを出力し認識過程に利用することで、画像認識においてモデルの注視領域の可視化を行うことが試みられている。
 たとえば、特許文献1は、ニューラルネットワークを用いるモデルにおいて、出力に寄与した特徴量を得ることを目的としたデータ処理装置を開示する。このデータ処理装置は、多変量時系列データの特徴量毎に、アテンション機構を用いて、モデルの出力に対する寄与度を表す特徴アテンションを生成するよう学習されたモデルを用いて、処理対象の多変量時系列データの特徴量毎に特徴アテンションを生成し、生成された各重みを、特徴量に対応付けて出力する。
 また、特許文献2は、多様な入力データを扱うニューラルネットワークであっても、その判断根拠を示す顕著性マップを低コストで作成することを目的とした根拠提示装置を開示する。この根拠提示装置は、機械学習装置のデータセットを参照して学習するニューラルネットワークによる推論の判断根拠を提示する。根拠提示装置では、たとえば、入力画像データに対する正解、不正解の判別結果(「犬が写っている」か否か、等)を判断根拠と共に提示するニューラルネットワークシステムによる学習方法が記載されている。これらの学習方法の適用分野として、製品、部品等が撮影された入力画像において、その製品等が正常な状態なのか、それとも異常個所(傷や損傷など)を含む状態なのかを分類する外観検査の分野が考えられる。
 この点、特許文献3は、外観検査の画像処理技術おいて画像から検出対象を見つけ出す画像処理を最適化できる画像処理システムを開示する。この画像処理システムでは、検査対象製品画像と正常製品画像を入力画像として画像処理を行い、得られた出力画像を教師画像である異常箇所のある画像と比較することによって、検出対象を見つけ出す方法が記載されている。
特開2020-149601号公報 特開2020-135438号公報 特開2020-107009号公報
 しかし、上記の特許文献1、2の技術においては、検出対象となる領域(たとえば、異常箇所)が極めて小さい場合には、その領域を見つけ出すのが難しく、どの領域に注視すべきか判別するのが困難で学習が進まない(安定しない)という問題がある。また、特許文献3の技術においては、異常箇所の画像を教師画像として用いているものの、画像処理の成果を事後的に検証して画像処理を最適化するために用いており、当初より学習を安定させるために異常箇所画像を用いるような考え方は示されていない。
 そこで、本発明は、かかる事情に鑑みて考案されたものであり、検出対象を含む画像を認識するニューラルネットワークを学習させる場合において、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムを提供するものである。
 上記課題を解決するために、訓練用画像を受け付ける入力部と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、を備える画像認識学習システムが提供される。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムを提供することができる。
 さらに、画像認識部は、ラベルを出力することを特徴としてもよい。
 これによれば、ラベルにより、画像をクラス分類することができる画像認識学習システムを提供することができる。
 さらに、画像認識部は、予測値を出力することを特徴としてもよい。
 これによれば、予測値により、画像が示す内容を出力することができる画像認識学習システムを提供することができる。
 さらに、訓練用画像に対応する着目画像は、訓練用画像の中で、アテンションマップ生成部が生成するアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることを特徴としてもよい。
 これによれば、着目画像がアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることで、計算される損失が検出対象となる領域に焦点が当たったものとなり、検出対象が極めて小さい場合であっても早期に学習の安定化を図ることができる。
 さらに、正常画像と異常部分を含む異常画像とを識別することを学習する画像認識学習システムであって、着目画像は、異常画像の異常部分に対応する着目部分を含むことを特徴としてもよい。
 これによれば、検出対象が異常部分を含む領域である場合、着目画像が異常部分に対応する着目部分を含むことで、計算される損失が異常部分に焦点が当たったものとなり、異常部分が極めて小さい場合であっても早期に学習の安定化を図ることができる異常画像識別用の画像認識学習システムを提供することができる。
 上記課題を解決するために、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、を備える画像認識学習方法が提供される。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習方法を提供することができる。
 上記課題を解決するために、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、をコンピュータに実行させる画像認識学習プログラムが提供される。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習プログラムを提供することができる。
 上記課題を解決するために、訓練用画像を受け付ける入力部と、入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、特徴マップ生成部が生成した特徴マップまたはアテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、訓練用画像に対応する着目画像とアテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、を備える画像認識機械学習器が提供される。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識機械学習器を提供することができる。
 上記課題を解決するために、上記の画像認識学習システムにより学習された画像認識部を含み、入力部は、認識するための画像を受け付け、画像認識部は、入力部が受け付けた画像を認識する、画像認識システムが提供される。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システムにより学習された学習済みモデルを有する画像認識システムを提供することができる。
 以上説明したように、本発明によれば、検出対象を含む画像を認識するニューラルネットワークを学習させる場合において、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システムを提供することができる。
本発明に係る第一実施形態の画像認識学習システムの構成ブロック図。 本発明に係る第一実施形態の画像認識学習システムにおける学習過程を示す説明図。 本発明に係る第一実施形態の画像認識学習システムにおける学習フローを示すフローチャート。 本発明に係る第一実施形態の画像認識学習システムに対する入力画像における、(A)正常画像、(B)異常画像(異常箇所が極めて小さい例)、(C)着目画像(異常であることを示す画像)を示す図。 本発明に係る第一実施形態の画像認識学習システムにおける損失の計算方法の例を示す図。 本発明に係る第二実施形態の画像認識システムの構成ブロック図。 本発明に係る第一実施形態の画像認識学習システムおよび第二実施形態の画像認識システムのハードウェア構成図。
 以下では、図面を参照しながら、本発明に係る各実施形態について説明する。
<第一実施形態>
 図1~図5を参照し、本実施形態における画像認識学習システム100を説明する。画像認識学習システム100は、教師データを使用する教師あり学習のディープラーニングによって、画像を認識・推論する多層ニューラルネットワークを学習させるためのシステムである。ディープラーニングは、多層ニューラルネットワークを使用した認識・推論の精度が向上するように、ネットワーク内の重みの更新を繰り返し実行し、ネットワーク内の適切な重みを導出する機械学習の一手法である。
 一般的に、画像を認識・推論するディープラーニングには、タスクとしては、犬猫、良不良等のクラスのラベルを出力するクラス分類のタスクと、犬が写っている領域や、異常領域等を区分けするセグメンテーションのタスクがある。従来のディープラーニングのクラス分類においては、正解ラベルと認識・推論結果との誤差のみを用い、その誤差を最小化することを目的としてネットワーク内の重みの更新を繰り返すことで学習していく。そのため、たとえば図4のようなバスケットボールの製品の外観検査等において、図4(B)のように異常箇所(表面の傷)が極めて小さい場合には、セグメンテーションの難易度は比較的低いものの、クラス分類では位置情報が与えられないため異常箇所を見つけ出すのが難しく、学習が不安定になって学習が進まないことがあるという問題がある。
 画像認識学習システム100は、かかる問題を解決するために、正解ラベルと認識・推論結果との誤差だけでなく、検出対象に焦点を当てる着目画像とアテンションマップとの誤差をも用いることで、誤差(損失)を従来技術に比べてより少ない繰り返し回数で最小化させ、学習を短期間に安定させるものである。
 画像認識学習システム100は、図1に示すように、訓練・学習用画像を受け付ける入力部10と、特徴マップを生成する特徴マップ生成部20と、アテンションマップを生成するアテンションマップ生成部30と、画像を認識する画像認識部40と、アテンションマップと画像認識部40の出力結果を出力する出力部50と、着目画像とアテンションマップとの損失を計算する着目損失計算部60と、正解ラベルと出力結果との損失を計算する認識損失計算部70と、を備える。
 入力部10は、1ピクセルごとに色情報(色調や階調)を有する2次元の画像データから構成される画像ファイルを受け付ける。入力部10は、ニューラルネットワークにおいて、入力される画像ファイルの各ピクセルに対応するノードを有する入力層を構成する。一般的に、学習フェーズで入力される画像ファイルは、学習に利用する訓練用画像、ニューラルネットワークの重み再調整に利用する確認用画像、認識結果の評価に利用するテスト用画像に分類できるが、本明細書では、学習フェーズで利用するこれらの画像を訓練用画像または訓練・学習用画像と総称する。入力部10は、訓練・学習用画像だけでなく、後述するように認識・推論フェーズでは認識・推論するための画像を受け付ける。
 特徴マップ生成部20は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、入力部10が受け付けた画像に基づき特徴マップを生成する。特徴マップとは、受け付けた画像のどこに特徴が存在するのかという反応の強さを示すものである。画像認識学習システム100におけるニューラルネットワークが畳み込みニューラルネットワークを有する例では、特徴マップ生成部20は、ニューラルネットワーク構造のおおよそ前半部分に相当し、入力された画像データに対して各フィルタ(特徴検出器)に対応した特徴量を示す複数の特徴マップを出力する。フィルタの数、フィルタのサイズ、ストライドなどのパラメータは適宜選定される。また、生成する特徴マップのサイズや解像度に応じて、プーリングも適宜行われる。
 多層の畳み込みニューラルネットワークでは、このような畳み込み演算を行うことにより低次から高次の特徴マップを得ることができ、どの程度の多層構造を採用するかは適宜定められる。画像認識学習システム100のニューラルネットワークは、Encoder-Decoder構造を基本とするも、主としてEncoder要素をから構成されている。特徴マップ生成部20は、Encoder構造で得た特徴マップを出力する。特徴マップ生成部20は、特定のニューラルネットワーク構造に限定されるものではない。
 アテンションマップ生成部30は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、特徴マップ生成部20が生成した特徴マップに基づきアテンションマップを生成する。アテンションマップは、生成した特徴マップに対応した寄与度(出力に対する重要度)を表す重みとして示される。アテンションは、一般的に、特徴マップのどの領域に注目すればいいのかをアテンション機構を適用することにより自動的に学習し、ネットワークの出力の根拠を明確にするため使用される。
 この場合、アテンションマップ生成部30は、いくつかの畳み込み層を含む全結合層等の直前の特徴マップに対してアテンション機構を適用する。しかし、これに限定されず、どの段階の特徴マップに適用してもよく、特徴マップの出力に寄与する特徴量を高い方から選択してもよい。なお、アテンション機構は、たとえば、特徴マップに対して畳み込み層を適用し、活性化関数を通すことで、幅や高さはそのままでチャネル数が1のアテンションマスクを作成するものである。アテンションマスクは、値が大きいほどその領域に注目するというマスクとして機能する。
 画像認識部40は、ニューラルネットワークにおいて所謂隠れ層の一部を構成し、特徴マップ生成部20が生成した特徴マップまたはアテンションマップ生成部30が生成したアテンションマップに基づき画像を認識・推論する。画像認識部40は、ニューラルネットワーク構造のおおよそ後半部分に相当し、いくつかの畳み込み層を含む全結合層等を繰り返すことで認識・推論に関して最終的な出力を得る部分である。画像認識部40は、特徴マップ生成部20が生成した特徴マップの入力を全結合層で受けて認識・推論に関する出力してもよいし、アテンションマップ生成部30が生成したアテンションマップの入力を全結合層で受けて認識・推論に関する出力してもよい。また、画像認識部40は、特徴マップとアテンションマップの両方を受けて、重み付き特徴マップに基づき認識・推論に関する出力してもよい。
 出力部50は、アテンションマップ生成部30が生成したアテンションマップと画像認識部40が認識した出力結果を出力する。画像認識部40に対する出力部50は、ニューラルネットワークにおいて、前段の隠れ層からの認識・推論結果をその種類の数に対応させたノードを有する出力層を構成する。たとえば、認識結果が「正常画像」または「異常画像」の2種類である場合、出力部50は、2つのノードを有し、この2つのラベルについての確率を出力する。また、離散的なクラス分類ではなく、推論結果が画像が示す内容である場合など、連続的な実数値を予測する回帰問題の場合は、目標値の種類に合わせて出力部50のノード数を決定し、内容である予測値を出力する。画像認識部40の認識結果がラベルである場合ラベルにより画像をクラス分類することができ、画像認識部40の推論結果が予測値である場合画像が示す内容を出力することができる。また、アテンションマップ生成部30に対する出力部50は、着目画像と比較可能な縦横の大きさとチャネル数を有するピクセル情報を出力する。
 認識損失計算部70は、訓練・学習用画像に対応する正解ラベルと画像認識部40が認識・推論した出力結果との損失を計算する。正解ラベルは、それぞれの訓練・学習用画像に対応して事前に用意される。たとえば、犬の訓練・学習画像に対して「犬」という正解ラベル、異常個所を含む訓練・学習画像に対して「異常」という正解ラベルの如きである。認識損失計算部70は、その正解ラベルと画像認識部40が認識した出力結果との損失(誤差)を所定の目的関数により算出する。たとえば、最も単純な例では、画像認識部40が異常個所を含む訓練・学習画像に対して「異常」である確率は80%である(逆に言えば「正常」である確率は20%)と出力した場合、正解ラベル「異常」(100%)に対する損失は減算することにより20%と算出される。認識損失計算部70における算出方法は、他にこれらの値から、分類問題の場合は交差エントロピー関数、回帰問題の場合は平均二乗誤差関数を用いて算出してもよく、目的関数は特に限定されない。
 学習フェーズでは、損失が大きければ学習が適切に行われていないことを示し、この損失が小さくなるようにさらに学習される。認識損失計算部70は、損失が所定の閾値以上であると判断する場合には、ネットワーク内の重み(パラメータ)を調整する。調整の方法は、損失をネットワークの逆方向に伝えて各層の重み行列を更新する誤差逆伝播法が好ましいが、ニューラルネットワークの学習フェーズにおいて出力精度を高めるためにネットワーク内の重みを調整する既知の手法が用いられる。
 着目損失計算部60は、訓練・学習用画像に対応する着目画像とアテンションマップ生成部30が生成したアテンションマップとの損失を計算する。着目画像は、訓練・学習用画像の中で画像を認識・推論する際に特徴となる部分(検出対象)に焦点を当てることを目的として、それぞれの訓練・学習用画像に対応して事前に用意される。換言すれば、着目画像は、訓練・学習用画像の中でアテンションマップや特徴マップにおける寄与率の高い部分として指示された部分を含む画像である。
 たとえば、着目画像は、犬の訓練・学習画像に対して「犬の顔」の部分に焦点を当てる領域として指示された画像、異常個所を含む訓練・学習画像に対して「損傷個所」の部分に焦点を当てる領域として指示された画像である。このように、着目画像がアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることで、計算される損失が検出対象となる領域に焦点が当たったものとなり、検出対象が極めて小さい場合であっても早期に学習の安定化を図ることができる。着目画像は、たとえば、訓練・学習用画像のそれぞれに対応して、人が塗ったり、明るさ・色・位置を追加削除変更したり、実際に異常を含む物体を検出したりして、事前に用意される。
 バスケットボールの表面における傷(損傷個所)の例を図4に示す。本図(A)は、バスケットボールの表面に傷は無い正常な状態のバスケットボールの画像(正常画像)である。本図(B)は、中央やや下の辺りにパネル間の縫い目に沿って三角状の傷の有る異常な状態のバスケットボールの画像(異常画像)である。本図(C)は、バスケットボールが正常か異常かを認識する場合に特徴となりうる部分を、本図(B)の三角状の傷(着目部分)に対応して示した着目画像である。たとえば、バスケットボールがパネル間の縫い目に沿った領域に傷があることが多いという知見があるならば、縫い目に沿った領域(着目部分)を示した画像が着目画像となる。このように、検出対象が異常部分を含む領域である場合、着目画像が異常部分に対応する着目部分を含むことで、計算される損失が異常部分に焦点が当たったものとなり、異常部分が極めて小さい場合であっても早期に学習の安定化を図ることができる異常画像識別用の画像認識学習システム100を提供することができる。
 着目損失計算部60は、そのような着目画像とアテンションマップ生成部30が生成したアテンションマップとの損失(誤差)を計算する。損失の算出方法の一例を図5に示す。なお、本図は画像が9つの単位領域から構成されている。本図は、用意した着目画像と生成されたアテンションマップ(画像)を比較し、2枚の画像を引き算して2乗にして平均することで損失を計算、すなわち平均二乗誤差を計算することを示している。本図における着目画像は、画像の下3分の1に最も焦点を当てる領域(200の重みを有する領域)として、画像の中段3分の1は2番目に焦点を当てる領域(100の重みを有する領域)として、画像の上3分の1に最も焦点を当てなくてよい領域(0の重みを有する領域)として指示されている。
 生成されたアテンションマップ(A)は、特徴マップ生成部20が特徴マップを生成する際に最も寄与度が高いと認識した領域(200の重みを有する領域)は画像の右3分の1であり、寄与度が中程度と認識した領域(100の重みを有する領域)は中央3分の1であり、寄与度が最も低いと認識した領域(0の重みを有する領域)は右3分の1であることを示している。着目画像からアテンションマップ(A)を減算し、減算した値を2乗し、これらの値を加算し平均すると、単位領域平均で16666の損失があると算出される。また、生成されたアテンションマップ(B)は、寄与度が左右方向だけでなく上下方向にも違いがある場合を示す。この場合も同様に損失を算出すると、損失は3333と算出される。アテンションマップ(A)とアテンションマップ(B)を比較すると、アテンションマップ(A)の方が、損失が大きいことになる。
 着目損失計算部60が算出した損失が大きいということは、特徴マップ生成部20が特徴マップを生成する際に最も寄与度が高いと認識した領域と、着目画像が示すアテンションマップにおける寄与率の高い部分として指示した領域とが大きくずれていることを意味している。学習フェーズでは、この損失が大きい場合学習が適切に行われていないことを示し、この損失が小さくなるようにさらに学習される。
 図2は、例として、着目損失計算部60および認識損失計算部70で算出された損失を用いて、ネットワークを逆に遡りながらネットワーク内の重みを補正してゆく(逆伝播)過程を示す。着目損失計算部60は、出力部50を介して、アテンションマップ生成部30が生成したアテンションマップを受け取った後、上述したようにアテンションマップと着目画像の損失を算出する。そして、その損失が所定の閾値以上である場合、着目損失計算部60は、算出した損失を出力部50における損失として、その損失をアテンションマップ生成部30の重み、さらに特徴マップ生成部20の重みに逆伝播させて、ニューラルネットワーク内のノード間の重みを補正し、更新してゆく。
 同様に、認識損失計算部70は、出力部50を介して、画像認識部40が出力した認識・推論結果を受け取った後、上述したように出力結果と正解ラベルの損失を算出する。そして、その損失が所定の閾値以上である場合、認識損失計算部70は、算出した損失を出力部50における損失として、その損失を画像認識部40の重み、さらに特徴マップ生成部20の重みやアテンションマップ生成部30の重みに逆伝播させて、ニューラルネットワーク内のノード間の重みを補正し、更新してゆく。これらの更新は、同時に行われてもよい。すなわち、特徴マップ生成部20、アテンションマップ生成部30、画像認識部40が完全に独立したネットワークで別々に学習しているわけではなく、1つのネットワークで学習も同時に行っており、損失が発生したという情報が遡るように出力側から入力側に伝わって、ネットワーク全体が学習されるようになっていることが好ましい。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム100を提供することができる。すなわち、画像認識学習システム100は、正解ラベルとの損失を算出する認識損失計算部70だけであると学習過程における情報が不十分だが、アテンションマップと着目画像の損失を算出する着目損失計算部60があることで早期に学習を安定させることができる。しかも、着目損失計算部60を設けることは、難易度が比較的低く、容易に実装可能である。
 図3を参照して、画像認識学習システム100における学習フローを説明する。なお、フローチャートにおけるSはステップを意味する。画像認識学習システム100は、S100において、入力部10から訓練・学習用画像を入力される。特徴マップ生成部20は、S102において、初期の重みに従って、入力された訓練・学習用画像の特徴量を演算し、特徴マップを生成する。アテンションマップ生成部30は、S104において、生成された特徴マップに基づきアテンションマップを生成する。着目損失計算部60は、S106において、生成されたアテンションマップと着目画像を比較して損失を計算する。
 一方、画像認識部40は、S108において、生成された特徴マップとアテンションマップに基づき認識・推論を行う。認識損失計算部70は、S110において、認識・推論結果と正解ラベルを比較して損失を計算する。画像認識学習システム100は、S112において、S106とS110で算出した損失をまとめて、誤差逆伝播法を用いてニューラルネットワーク内のノード間の初期の重みを更新する。さらに、他の訓練・学習用画像が入力されると上記の学習フローが繰り返され、徐々に重みが更新されていき学習が進むことになる。
 上述したことは、画像を認識する学習方法でもある。すなわち、この画像認識学習方法は、訓練用画像を受け付けるステップと、受け付けた訓練用画像に基づき特徴マップを生成するステップと、生成した特徴マップに基づきアテンションマップを生成するステップと、生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、認識・推論した出力結果と正解ラベルとの損失を計算するステップと、を備える方法である。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習方法を提供することができる。上述した方法は、コンピュータに実行させるプログラム、ソフトウェア、モジュール、アプリケーションとして提供されてもよい。同様に、着目画像を当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習プログラム等を提供することができる。
 なお、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。
 また、画像認識学習プログラム等を汎用の計算機のプロセッサ(CPU:Central Processing Unit)により実行することもできるが、この画像認識学習方法のロジックをハードウェアとして構成し、行列計算を並列的に高速に処理するGPU(Graphics Processing Unit)により実行するも可能である。これにより、着目画像を当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識機械学習器を提供することができる。
<第二実施形態>
 図6を参照し、本実施形態における画像認識システム1を説明する。画像認識システム1は、認識・推論用画像を受け付ける入力部10と、画像認識学習システム100により学習された特徴マップを生成する特徴マップ生成部20と、学習された特徴マップに基づき入力された画像を認識・推論する画像認識部40と、画像認識部40の認識・推論結果を出力する出力部50と、を備える。特徴マップ生成部20と画像認識部40のニューラルネットワークにおけるノード間の重みは、上述した画像認識学習システム100により学習行った学習済みの重みである。
 これによれば、訓練用画像に対応する着目画像とアテンションマップとの損失を計算し、学習過程においてこの損失に基づきニューラルネットワークの重みを更新することで、検出対象に焦点を当てた着目画像を、正解ラベルと共に当初から学習過程に利用することにより、検出対象となる領域が極めて小さい場合であっても早期に学習の安定化を図ることができる画像認識学習システム100により学習された学習済みモデルを有する画像認識システム1を提供することができる。
 なお、本発明が適用される画像認識の分野は、製品や部品等の外観検査の他、いわゆる犬猫分類や、建物の修復後の画像と修復前の画像の比較等、種々の分野に適用できる。特に、検出対象や着目部分となる領域が画像全体の領域に比べて極めて小さい場合に適用されることが好ましい。
<画像認識学習システムおよび画像認識システムにおけるハードウェア構成の例>
 図7を参照し、本開示の実施形態による態様を実施するためのコンピュータシステム300を説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム300の主要コンポーネントは、1つ以上のプロセッサ302、メモリ304、端末インターフェース312、ストレージインターフェース314、I/O(入出力)デバイスインターフェース316、及びネットワークインターフェース318を含む。これらのコンポーネントは、メモリバス306、I/Oバス308、バスインターフェースユニット309、及びI/Oバスインターフェースユニット310を介して、相互的に接続されてもよい。
 コンピュータシステム300は、プロセッサ302と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)302A及び302Bを含んでもよい。ある実施形態では、コンピュータシステム300は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム300は単一のCPUシステムであってもよい。各プロセッサ302は、メモリ304に格納された命令を実行し、オンボードキャッシュを含んでもよい。
 ある実施形態では、メモリ304は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。ある実施形態では、メモリ304は、コンピュータシステム300の仮想メモリ全体を表しており、ネットワークを介してコンピュータシステム300に接続された他のコンピュータシステムの仮想メモリを含んでもよい。メモリ304は、概念的には単一のものとみなされてもよいが、他の実施形態では、このメモリ304は、キャッシュおよび他のメモリデバイスの階層など、より複雑な構成となる場合がある。例えば、メモリは複数のレベルのキャッシュとして存在し、これらのキャッシュは機能毎に分割されてもよい。その結果、1つのキャッシュは命令を保持し、他のキャッシュはプロセッサによって使用される非命令データを保持する構成であってもよい。メモリは、いわゆるNUMA(Non-Uniform Memory Access)コンピュータアーキテクチャのように、分散され、種々の異なるCPUに関連付けられてもよい。
 メモリ304は、本明細書で説明する機能を実施するプログラム、モジュール、アプリケーション及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ304は、画像認識学習アプリケーション350を格納していてもよい。ある実施形態では、画像認識学習アプリケーション350は、後述する機能をプロセッサ302上で実行する命令又は記述を含んでもよく、あるいは別の命令又は記述によって解釈される命令又は記述を含んでもよい。ある実施形態では、画像認識学習アプリケーション350は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、画像認識学習アプリケーション350は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット309、プロセッサ302、またはコンピュータシステム300の他のハードウェアと直接通信するように提供されてもよい。このような構成では、プロセッサ302がメモリ304及び画像認識学習アプリケーションにアクセスする必要性が低減する可能性がある。メモリ304に格納された画像認識学習アプリケーション用プログラムは、プロセッサ302に逐次ロードされ実行されることにより、コンピュータシステム300は、画像認識学習システム100を構成する。
 コンピュータシステム300は、プロセッサ302、メモリ304、表示システム324、及びI/Oバスインターフェースユニット310間の通信を行うバスインターフェースユニット309を含んでもよい。I/Oバスインターフェースユニット310は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス308と連結していてもよい。I/Oバスインターフェースユニット310は、I/Oバス308を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインターフェースユニット312、314、316、及び318と通信してもよい。表示システム324は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置326に提供することができる。また、コンピュータシステム300は、データを収集し、プロセッサ302に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。表示メモリは、ビデオデータをバッファするための専用メモリであってもよい。表示システム324は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置326に接続されてもよい。ある実施形態では、表示装置326は、オーディオをレンダリングするためスピーカを含んでもよい。あるいは、オーディオをレンダリングするためのスピーカは、I/Oインターフェースユニットと接続されてもよい。他の実施形態では、表示システム324が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。同様に、バスインターフェースユニット309が提供する機能は、プロセッサ302を含む集積回路によって実現されてもよい。
 I/Oインターフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インターフェース312は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス320の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス320及びコンピュータシステム300に対して入力データや指示を入力し、コンピュータシステム300からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス320を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
 ストレージインターフェース314は、1つ又は複数のディスクドライブや直接アクセスストレージ装置322(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置322は、任意の二次記憶装置として実装されてもよい。メモリ304の内容は、記憶装置322に記憶され、必要に応じて記憶装置322から読み出されてもよい。I/Oデバイスインターフェース316は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース318は、コンピュータシステム300と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク330であってもよい。
 図7に示されるコンピュータシステム300は、プロセッサ302、メモリ304、バスインターフェースユニット309、表示システム324、及びI/Oバスインターフェースユニット310の間の直接通信経路を提供するバス構造を備えているが、他の実施形態では、コンピュータシステム300は、階層構成、スター構成、又はウェブ構成のポイントツーポイントリンク、複数の階層バス、平行又は冗長の通信経路を含んでもよい。さらに、I/Oバスインターフェースユニット310及びI/Oバス308が単一のユニットとして示されているが、実際には、コンピュータシステム300は複数のI/Oバスインターフェースユニット310又は複数のI/Oバス308を備えてもよい。また、I/Oバス308を様々なI/Oデバイスに繋がる各種通信経路から分離するための複数のI/Oインターフェースユニットが示されているが、他の実施形態では、I/Oデバイスの一部または全部が、1つのシステムI/Oバスに直接接続されてもよい。
 ある実施形態では、コンピュータシステム300は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム300は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
 なお、本発明は、例示した実施例に限定するものではなく、特許請求の範囲の各項に記載された内容から逸脱しない範囲の構成による実施が可能である。すなわち、本発明は、主に特定の実施形態に関して特に図示され、かつ説明されているが、本発明の技術的思想および目的の範囲から逸脱することなく、以上述べた実施形態に対し、数量、その他の詳細な構成において、当業者が様々な変形を加えることができるものである。
 1    画像認識システム
 100  画像認識学習システム
 10   入力部
 20   特徴マップ生成部
 30   アテンションマップ生成部
 40   画像認識部
 50   出力部
 60   着目損失計算部
 70   認識損失計算部
 NN   ニューラルネットワーク

Claims (9)

  1.  訓練用画像を受け付ける入力部と、
     前記入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、
     前記特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、
     前記特徴マップ生成部が生成した特徴マップまたは前記アテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、
     訓練用画像に対応する着目画像と前記アテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、
     を備える画像認識学習システム。
  2.  前記画像認識部は、ラベルを出力することを特徴とする請求項1に記載の画像認識学習システム。
  3.  前記画像認識部は、予測値を出力することを特徴とする請求項1に記載の画像認識学習システム。
  4.  訓練用画像に対応する着目画像は、訓練用画像の中で、前記アテンションマップ生成部が生成するアテンションマップにおける寄与率の高い部分として指示された部分を含む画像であることを特徴とする請求項1乃至3のいずれかに記載の画像認識学習システム。
  5.  正常画像と異常部分を含む異常画像とを識別することを学習する画像認識学習システムであって、
     着目画像は、異常画像の異常部分に対応する着目部分を含むことを特徴とする請求項1乃至4のいずれかに記載の画像認識学習システム。
  6.  訓練用画像を受け付けるステップと、
     受け付けた訓練用画像に基づき特徴マップを生成するステップと、
     生成した特徴マップに基づきアテンションマップを生成するステップと、
     生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、
     訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、
     を備える画像認識学習方法。
  7.  訓練用画像を受け付けるステップと、
     受け付けた訓練用画像に基づき特徴マップを生成するステップと、
     生成した特徴マップに基づきアテンションマップを生成するステップと、
     生成した特徴マップまたはアテンションマップに基づき画像を認識するステップと、
     訓練用画像に対応する着目画像と生成したアテンションマップとの損失を計算するステップと、
     をコンピュータに実行させる画像認識学習プログラム。
  8.  訓練用画像を受け付ける入力部と、
     前記入力部が受け付けた訓練用画像に基づき特徴マップを生成する特徴マップ生成部と、
     前記特徴マップ生成部が生成した特徴マップに基づきアテンションマップを生成するアテンションマップ生成部と、
     前記特徴マップ生成部が生成した特徴マップまたは前記アテンションマップ生成部が生成したアテンションマップに基づき画像を認識する画像認識部と、
     訓練用画像に対応する着目画像と前記アテンションマップ生成部が生成したアテンションマップとの損失を計算する着目損失計算部と、
     を備える画像認識機械学習器。
  9.  請求項1乃至5のいずれかに記載の画像認識学習システムにより学習された前記画像認識部を含み、
     前記入力部は、認識するための画像を受け付け、
     前記画像認識部は、前記入力部が受け付けた画像を認識する、
     画像認識システム。
PCT/JP2021/008095 2021-03-03 2021-03-03 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム WO2022185432A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/008095 WO2022185432A1 (ja) 2021-03-03 2021-03-03 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/008095 WO2022185432A1 (ja) 2021-03-03 2021-03-03 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Publications (1)

Publication Number Publication Date
WO2022185432A1 true WO2022185432A1 (ja) 2022-09-09

Family

ID=83154013

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/008095 WO2022185432A1 (ja) 2021-03-03 2021-03-03 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム

Country Status (1)

Country Link
WO (1) WO2022185432A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7366325B1 (ja) 2022-12-14 2023-10-20 三菱電機株式会社 情報処理装置
JP7489503B1 (ja) 2023-02-14 2024-05-23 エヌ・ティ・ティ・コムウェア株式会社 テキスト生成装置、テキスト生成方法、およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042001A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 評価装置、評価方法、評価プログラム、及び検査装置
JP2020135465A (ja) * 2019-02-20 2020-08-31 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP2020181240A (ja) * 2019-04-23 2020-11-05 株式会社東芝 データ生成装置、データ生成方法およびプログラム
JP2021022368A (ja) * 2019-07-25 2021-02-18 学校法人中部大学 ニューラルネットワークを用いた画像認識装置およびトレーニング装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042001A (ja) * 2018-09-07 2020-03-19 株式会社フジクラ 評価装置、評価方法、評価プログラム、及び検査装置
JP2020135465A (ja) * 2019-02-20 2020-08-31 株式会社東芝 学習装置、学習方法、プログラムおよび認識装置
JP2020181240A (ja) * 2019-04-23 2020-11-05 株式会社東芝 データ生成装置、データ生成方法およびプログラム
JP2021022368A (ja) * 2019-07-25 2021-02-18 学校法人中部大学 ニューラルネットワークを用いた画像認識装置およびトレーニング装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7366325B1 (ja) 2022-12-14 2023-10-20 三菱電機株式会社 情報処理装置
JP7489503B1 (ja) 2023-02-14 2024-05-23 エヌ・ティ・ティ・コムウェア株式会社 テキスト生成装置、テキスト生成方法、およびプログラム

Similar Documents

Publication Publication Date Title
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
Islam et al. Revisiting salient object detection: Simultaneous detection, ranking, and subitizing of multiple salient objects
Gollapudi Learn computer vision using OpenCV
KR101298393B1 (ko) 그래픽 처리 유닛 상에서 콘볼루션 신경망을 트레이닝하는방법
US20190057507A1 (en) System and method for semantic segmentation of images
WO2022185432A1 (ja) 画像認識学習システム、画像認識学習方法、画像認識学習プログラム、画像認識機械学習器、および画像認識システム
US11645508B2 (en) Electronic apparatus and method for generating trained model
EP2243089A2 (en) Method for training a learning machine having a deep multi-layered network with labeled and unlabeled training data
US20210374477A1 (en) Method for training image classification model and apparatus for executing the same
WO2020240808A1 (ja) 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム
WO2021141726A1 (en) Radioactive data generation
US20200265294A1 (en) Object Animation Using Generative Neural Networks
CN111275660A (zh) 一种平板显示器缺陷检测方法及装置
CN111738249A (zh) 图像检测方法、装置、电子设备及存储介质
US20210279618A1 (en) System and method for building and using learning machines to understand and explain learning machines
JP6989450B2 (ja) 画像解析装置、画像解析方法及びプログラム
CN111046771A (zh) 用于恢复书写轨迹的网络模型的训练方法
Chen et al. SCPA‐Net: Self‐calibrated pyramid aggregation for image dehazing
CN111523351A (zh) 神经网络的训练方法、装置和电子设备
Sikka Elements of Deep Learning for Computer Vision: Explore Deep Neural Network Architectures, PyTorch, Object Detection Algorithms, and Computer Vision Applications for Python Coders (English Edition)
JP7472471B2 (ja) 推定システム、推定装置および推定方法
JPWO2018135516A1 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、及び、ニューラルネットワーク学習プログラム
US11568303B2 (en) Electronic apparatus and control method thereof
US11663761B2 (en) Hand-drawn diagram recognition using visual arrow-relation detection
CN113239909B (zh) 一种题目处理方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21929008

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21929008

Country of ref document: EP

Kind code of ref document: A1