WO2021176605A1 - 学習データ作成システム及び学習データ作成方法 - Google Patents

学習データ作成システム及び学習データ作成方法 Download PDF

Info

Publication number
WO2021176605A1
WO2021176605A1 PCT/JP2020/009215 JP2020009215W WO2021176605A1 WO 2021176605 A1 WO2021176605 A1 WO 2021176605A1 JP 2020009215 W JP2020009215 W JP 2020009215W WO 2021176605 A1 WO2021176605 A1 WO 2021176605A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
feature map
output error
neural network
learning data
Prior art date
Application number
PCT/JP2020/009215
Other languages
English (en)
French (fr)
Inventor
淳 安藤
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to PCT/JP2020/009215 priority Critical patent/WO2021176605A1/ja
Priority to CN202080097998.5A priority patent/CN115210751A/zh
Priority to JP2022504849A priority patent/JP7298010B2/ja
Publication of WO2021176605A1 publication Critical patent/WO2021176605A1/ja
Priority to US17/902,009 priority patent/US20230011053A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Definitions

  • the present invention relates to a learning data creation system, a learning data creation method, and the like.
  • Non-Patent Document 1 Manifold Mixup is disclosed in Non-Patent Document 1 as a method for inflating learning data.
  • the CNN Convolutional Neural Network
  • the feature map that is the output of the intermediate layer of the CNN is taken out
  • the feature map of the first image and the feature map of the second image are taken out.
  • the feature map is synthesized by weighting and adding, and the synthesized feature map is used as the input of the next intermediate layer.
  • the learning to synthesize the feature map is performed in the intermediate layer, and as a result, the learning data is inflated.
  • the texture information included in the feature maps of each image is lost. For example, by weighting and adding feature maps, small differences in textures are crushed. Therefore, when recognizing an object based on the texture included in the image, there is a problem that the recognition accuracy is not sufficiently improved even if learning is performed by using the inflating method of the prior art. For example, when performing lesion discrimination from a medical image such as an ultrasonic image, it is important to be able to recognize a subtle difference in the texture of the lesion shown in the image.
  • One aspect of the present disclosure is an acquisition unit that acquires a first image, a second image, a first correct answer information corresponding to the first image, and a second correct answer information corresponding to the second image, and the first image. Is input to generate a first feature map, and a second image is input to generate a second feature map. A first neural network and a part of the first feature map are part of the second feature. A feature map synthesizer that generates a composite feature map by replacing a part of the map, a second neural network that generates output information based on the composite feature map, the output information, the first correct answer information, and the above.
  • a learning data creation system including an output error calculation unit that calculates an output error based on the second correct answer information, and a neural network update unit that updates the first neural network and the second neural network based on the output error.
  • Another aspect of the present disclosure is to acquire the first image, the second image, the first correct answer information corresponding to the first image, and the second correct answer information corresponding to the second image, and the first image.
  • the second image is input to the first neural network to generate a second feature map.
  • a composite feature map is generated by replacing a part of the second feature map with a part of the second feature map, the second neural network generates output information based on the composite feature map, and the output information, said.
  • Creation of training data including calculating an output error based on the first correct answer information and the second correct answer information, and updating the first neural network and the second neural network based on the output error. It is related to the method.
  • the first configuration example of the learning data creation system The figure explaining the process of the learning data creation system.
  • the flowchart of the process performed by the processing unit in the 1st configuration example The figure which showed typically the process performed by the processing unit in the 1st configuration example.
  • a second configuration example of the learning data creation system The flowchart of the process performed by the processing unit in the 2nd configuration example.
  • the Manifold Mixup method will be described with reference to FIG.
  • the neural network 5 is a CNN (Convolutional Neural Network) that performs image recognition using convolution processing. In image recognition after learning, the neural network 5 outputs one score map for one input image. On the other hand, at the time of learning, the learning data is inflated by inputting two input images into the neural network 5 and synthesizing the feature map in the intermediate layer.
  • CNN Convolutional Neural Network
  • the input images IMA1 and IMA2 are input to the input layer of the neural network 5.
  • the CNN convolution layer outputs image data called a feature map.
  • the feature map MAPA1 corresponding to the input image IMA1 and the feature map MAPA2 corresponding to the input image IMA2 are taken out from a certain intermediate layer.
  • MAPA1 is a feature map generated by applying CNNs from the input layer to the intermediate layer to the input image IMA1.
  • the feature map MAPA1 has a plurality of channels, and each channel is one image data. The same applies to MAPA2.
  • FIG. 1 shows an example in which the feature map has three channels. Let this channel be ch1 to ch3. Ch1 of the feature map MAPA1 and ch1 of the feature map MAPA2 are weighted and added to generate ch1 of the composite feature map SMAPA. The same weighting addition is performed for ch2 and ch3, and ch2 and ch3 of the synthetic feature map SMAPA are generated.
  • the synthetic feature map SMAPA is input to the intermediate layer next to the intermediate layer from which the feature maps MAPA1 and MAPA2 are taken out.
  • the neural network 5 outputs a score map as output information NNQA, and the neural network 5 is updated based on the score map and the correct answer information.
  • FIG. 2 is a first configuration example of the learning data creation system 10 of the present embodiment.
  • the learning data creation system 10 includes an acquisition unit 110, a first neural network 121, a second neural network 122, a feature map synthesis unit 130, an output error calculation unit 140, and a neural network update unit 150.
  • FIG. 3 is a diagram illustrating the processing of the learning data creation system 10.
  • the acquisition unit 110 acquires the first correct answer information TD1 corresponding to the first image IM1, the second image IM2, the first image IM1, and the second correct answer information TD2 corresponding to the second image IM2.
  • the first neural network 121 generates the first feature map MAP1 when the first image IM1 is input, and generates the second feature map MAP2 when the second image IM2 is input.
  • the feature map synthesizing unit 130 generates a composite feature map SMAP by replacing a part of the first feature map MAP1 with a part of the second feature map MAP2. Note that FIG. 3 shows an example in which ch2 and ch3 of the first feature map MAP1 are replaced by ch2 and ch3 of the second feature map MAP2.
  • the second neural network 122 generates output information NNQ based on the synthetic feature map SMAP.
  • the output error calculation unit 140 calculates the output error ERQ based on the output information NNQ, the first correct answer information TD1, and the second correct answer information TD2.
  • the neural network update unit 150 updates the first neural network 121 and the second neural network 122 based on the output error ERQ.
  • replace means to delete a part of the channel or area of the first feature map MAP1 and arrange a part of the channel or area of the second feature map MAP2 in place of the deleted part of the channel or area. It is to be. From the perspective of the synthetic feature map SMAP, it can be said that a part of the synthetic feature map SMAP is selected from the first feature map MAP1 and the rest of the synthetic feature map SMAP is selected from the second feature map MAP2.
  • the texture of the feature map is retained in the composite feature map SMAP without being weighted and added.
  • the feature map can be synthesized while maintaining the texture information better than that of the above-mentioned conventional technique, so that the accuracy of image recognition by AI can be improved.
  • the padding method by image synthesis can be used, even when the learning data is small. High recognition performance can be obtained.
  • the learning data creation system 10 includes a processing unit 100 and a storage unit 200.
  • the processing unit 100 includes an acquisition unit 110, a neural network 120, a feature map synthesis unit 130, an output error calculation unit 140, and a neural network update unit 150.
  • the learning data creation system 10 is an information processing device such as a PC (Personal Computer).
  • the learning data creation system 10 may be composed of a terminal device and an information processing device.
  • the terminal device may include a storage unit 200, a display unit (not shown), an operation unit (not shown), and the like
  • the information processing device includes a processing unit 100
  • the terminal device and the information processing device may be connected via a network.
  • the learning data creation system 10 may be a cloud system in which a plurality of information processing devices connected via a network perform distributed processing.
  • the storage unit 200 stores the teacher data used for learning the neural network 120.
  • the teacher data is composed of a learning image and correct answer information attached to the learning image. Correct answer information is also called a teacher label.
  • the storage unit 200 is a storage device such as a memory, a hard disk drive, or an optical drive.
  • the memory is a semiconductor memory, which is a volatile memory such as RAM or a non-volatile memory such as EPROM.
  • the processing unit 100 is a processing circuit or processing device including one or a plurality of circuit components.
  • the processing unit 100 includes a processor such as a CPU (Central Processing Unit), a GPU (Graphical Processing Unit), or a DSP (Digital Signal Processor).
  • the processor may be an integrated circuit device such as FPGA (Field Programmable Gate Array) or ASIC (Application Specific Integrated Circuit).
  • the processing unit 100 may include a plurality of processors.
  • the processor realizes the function of the processing unit 100 by executing the program stored in the storage unit 200. In the program, the functions of the acquisition unit 110, the neural network 120, the feature map synthesis unit 130, the output error calculation unit 140, and the neural network update unit 150 are described.
  • the storage unit 200 stores the learning model of the neural network 120.
  • the processor executes the inference processing of the neural network 120 using the learning model, and updates the parameters stored in the storage unit 200 with the parameters updated by the learning.
  • FIG. 4 is a flowchart of the processing performed by the processing unit 100 in the first configuration example
  • FIG. 5 is a diagram schematically showing the processing.
  • step S101 the processing unit 100 initializes the neural network 120.
  • steps S102 and S103 the first image IM1 and the second image IM2 are input to the processing unit 100, and in steps S104 and S105, the first correct answer information TD1 and the second correct answer information TD2 are input to the processing unit 100.
  • Steps S102 to S105 are not limited to the execution order shown in FIG. 4, and may be executed in any order, or may be executed in parallel.
  • the acquisition unit 110 acquires the image acquisition unit 111 that acquires the first image IM1 and the second image IM2 from the storage unit 200, and the first correct answer information TD1 and the second correct answer information TD2 from the storage unit 200.
  • the correct answer information acquisition unit 112 and the like are included.
  • the acquisition unit 110 is, for example, an access control unit that controls access to the storage unit 200.
  • the recognition target TG1 is shown in the first image IM1
  • the recognition target TG2 having a different classification category from the recognition target TG1 is shown in the second image IM2. That is, the storage unit 200 stores the first learning image group and the second learning image group having different classification categories in image recognition.
  • the classification category is an organ, a site within an organ, a classification of a lesion, or the like.
  • the image acquisition unit 111 acquires any one of the first learning image groups as the first image IM1, and acquires any one of the second learning image groups as the second image IM2.
  • step S108 the processing unit 100 applies the first neural network 121 to the first image IM1, and the first neural network 121 outputs the first feature map MAP1. Further, the processing unit 100 applies the first neural network 121 to the second image IM2, and the first neural network 121 outputs the second feature map MAP2.
  • step S109 the feature map synthesizing unit 130 synthesizes the first feature map MAP1 and the second feature map MAP2, and outputs the composite feature map SMAP.
  • step S110 the processing unit 100 applies the second neural network 122 to the synthetic feature map SMAP, and the second neural network 122 outputs the output information NNQ.
  • the neural network 120 is a CNN
  • the CNN divided by the intermediate layer is the first neural network 121 and the second neural network 122. That is, the first neural network 121 is from the input layer to the intermediate layer of the CNN, and the second neural network 122 is from the intermediate layer to the output layer next to the intermediate layer.
  • the CNN has a convolutional layer, a normalization layer, an activation layer, and a pooling layer, and may be divided into a first neural network 121 and a second neural network 122 at any of them as a boundary. Although there are a plurality of intermediate layers in deep learning, which intermediate layer is divided may be different for each image input.
  • FIG. 5 shows an example in which the first neural network 121 outputs a feature map having 6 channels.
  • Each channel of the feature map is image data to which the output value of the node is assigned to each pixel.
  • the feature map synthesizing unit 130 replaces the channels ch2 and ch3 of the first feature map MAP1 with the channels ch2 and ch3 of the second feature map MAP2. That is, channels ch1 and ch4 to ch6 of the first feature map MAP1 are assigned to some channels ch1 and ch4 to ch6 of the synthetic feature map SMAP. Channels ch2 and ch3 of the second feature map MAP2 are assigned to the remaining some channels ch2 and ch3.
  • the ratio of each feature map to the synthetic feature map SMAP is called the replacement rate.
  • the replacement rate of the first feature map MAP1 is 4/6 ⁇ 0.7
  • the replacement rate of the second feature map MAP2 is 2/6 ⁇ 0.3.
  • the number of channels in the feature map is not limited to 6. Further, which channel to replace and the number of channels to be replaced are not limited to the example of FIG. 5, and may be randomly set for each image input, for example.
  • the output information NNQ output by the second neural network 122 is data called a score map.
  • the score map has a plurality of channels, and one channel corresponds to one classification category.
  • FIG. 5 shows an example in which there are two classification categories.
  • Each channel of the score map is image data to which an estimated value is assigned to each pixel.
  • the estimated value is a value indicating the certainty that the recognition target is detected in the pixel.
  • the neural network update unit 150 updates the neural network 120 based on the output error ERQ. Updating the neural network 120 means updating parameters such as weighting coefficients between nodes. As the update method, various known methods such as the backpropagation method can be adopted.
  • the processing unit 100 determines whether or not the learning end condition is satisfied. The end condition is that the output error ERQ is equal to or less than a predetermined value, or that a predetermined number of images have been learned. The processing unit 100 ends the processing of this flow when the end condition is satisfied, and returns to step S102 when the end condition is not satisfied.
  • FIG. 6 is a simulation result of image recognition for a lesion.
  • the horizontal axis is the correct answer rate for lesions in all classification categories to be recognized.
  • the vertical axis is the correct answer rate for small lesions in the classification categories to be recognized.
  • DA is the simulation result of the conventional method of inflating the learning data from only a single image
  • DB is the simulation result of Manifold Mixup
  • DC is the simulation result of the method of the present embodiment. Three points are plotted in each result, and these are the results of simulation with different offsets for the detection of small lesions.
  • the graph is in the upper right, that is, in the direction in which both the overall lesion accuracy rate and the small lesion accuracy rate are higher, the better the image recognition result.
  • the simulation result DC using the method of the present embodiment is located on the upper right side of the simulation results DA and DB using the conventional technique, and can perform image recognition with higher accuracy than the conventional technique.
  • the information contained in the part is lost.
  • the number of channels in the intermediate layer is set to be large, the information contained in the output of the intermediate layer is redundant. Therefore, even if some information is lost due to replacement, it does not matter much.
  • the weighting factor of this linear combination is a parameter that is updated in the training of the neural network. Therefore, it can be expected that the weighting coefficient is optimized in the learning so that the fine difference in the texture is not lost.
  • the first feature map MAP1 includes the first plurality of channels
  • the second feature map MAP2 includes the second plurality of channels.
  • the feature map synthesizing unit 130 replaces a part of the entire first plurality of channels with the entire part of the second plurality of channels.
  • a part of the first feature map MAP1 can be replaced with a part of the second feature map MAP2.
  • Different textures are extracted for each channel, but the first image IM1 is selected for a certain texture, the second image IM2 is selected for another texture, and so on.
  • the feature map synthesizing unit 130 may replace a part of the area of the channel included in the first plurality of channels with a part of the area of the channel included in the second plurality of channels.
  • the feature map synthesizing unit 130 may replace the band-shaped area of the channel included in the first plurality of channels with the band-shaped area of the channel included in the second plurality of channels.
  • the method of replacing a part of the channel is not limited to the above.
  • the feature map synthesizing unit 130 replaces the periodically set region in the channels included in the first plurality of channels with the periodically set region in the channels included in the second plurality of channels. May be good.
  • the periodically set region is, for example, a striped region, a checkered pattern region, or the like.
  • the channels of the first feature map and the channels of the second feature map can be mixed while leaving their respective textures.
  • the recognition target in the channel is cut out and replaced, the positions of the recognition targets of the first image IM1 and the second image IM2 need to match.
  • the textures of the recognition target can be mixed while remaining.
  • the feature map synthesizing unit 130 may determine the size of a part of the area to be replaced in the channels included in the first plurality of channels based on the classification categories of the first image and the second image.
  • the feature map can be replaced in the area of the size corresponding to the classification category of the image. For example, when a characteristic size of a lesion or the like is determined in the classification category, the characteristic map is replaced in the area of that size. Thereby, for example, it is possible to generate a composite feature map in which the recognition target of the other feature map is fitted in the background of one feature map.
  • the first image IM1 and the second image IM2 are ultrasonic images.
  • a system for learning based on an ultrasonic image will be described later in FIG. 13 and the like.
  • Ultrasound images are usually monochrome images, and texture is an important factor in image recognition.
  • high-precision image recognition based on a delicate difference in texture is possible, so that an image recognition system suitable for ultrasonic image diagnosis can be generated.
  • the application target of this embodiment is not limited to ultrasonic images, and can be applied to various medical images.
  • the method of the present embodiment can be applied to a medical image acquired by an endoscopic system captured by using an image sensor.
  • the first image IM1 and the second image IM2 are different classification categories.
  • the boundary between the classification category of the first image IM1 and the classification category of the second image IM2 is learned.
  • the classification category of the first image IM1 and the classification category of the second image IM2 are a combination that is difficult to distinguish in the image recognition process.
  • the recognition accuracy of classification categories that are difficult to distinguish is improved.
  • the first image IM1 and the second image IM2 may be in the same classification category.
  • the output error calculation unit 140 calculates the first output error ERR1 based on the output information NNQ and the first correct answer information TD1, and the second output error based on the output information NNQ and the second correct answer information TD2.
  • ERR2 is calculated, and the weighted sum of the first output error ERR1 and the second output error ERR2 is calculated as the output error ERQ.
  • the output information NNQ is weighted between the estimated value for the classification category of the first image IM1 and the estimated value for the classification category of the second image IM2. It is the added information.
  • the output error ERQ corresponding to the output information NNQ can be obtained by calculating the weighted sum of the first output error ERR1 and the second output error ERR2.
  • the feature map synthesizing unit 130 replaces a part of the first feature map MAP1 with a part of the MAP2 of the second feature map at the first ratio.
  • the output error calculation unit 140 calculates the weighted sum of the first output error ERR1 and the second output error ERR2 by the weighting based on the first ratio, and sets the weighted sum as the output error ERQ.
  • the weighting of the estimated value in the output information NNQ described above is weighting according to the first ratio.
  • the weighting sum of the first output error ERR1 and the second output error ERR2 is calculated by the weighting based on the first ratio, so that the output error ERQ corresponding to the output information NNQ can be obtained.
  • the output error calculation unit 140 calculates the weighted sum of the first output error ERR1 and the second output error ERR2 at the same ratio as the first ratio.
  • the weighting of the estimated value in the above-mentioned output information NNQ is expected to be the same as the first ratio.
  • the weighting sum of the first output error ERR1 and the second output error ERR2 is calculated at the same ratio as the first ratio, so that the weighting of the estimated value in the output information NNQ is the expected value. Feedback is given so that the ratio is 1.
  • the output error calculation unit 140 may calculate the weighted sum of the first output error ERR1 and the second output error ERR2 at a ratio different from the first ratio.
  • weighting may be performed so that the estimated value of a small amount category such as a rare lesion is offset in the positive direction.
  • a small amount category such as a rare lesion
  • the weighting of the first output error ERR1 is made larger than the first ratio.
  • the output error calculation unit 140 may create a correct answer probability distribution from the first correct answer information TD1 and the second correct answer information TD2, and use the KL divergence calculated from the output information NNQ and the correct answer probability distribution as the output error ERQ.
  • FIG. 7 is a second configuration example of the learning data creation system 10.
  • the image acquisition unit 111 includes an image expansion unit 160.
  • FIG. 8 is a flowchart of the process performed by the processing unit 100 in the second configuration example
  • FIG. 9 is a diagram schematically showing the process.
  • the components and steps described in the first configuration example are designated by the same reference numerals, and the description of the components and steps will be omitted as appropriate.
  • the storage unit 200 stores the first input image IM1'and the second input image IM2'.
  • the image acquisition unit 111 reads the first input image IM1'and the second input image IM2' from the storage unit 200.
  • the image expansion unit 160 generates the second image IM2 by performing the first expansion process of generating the first image IM1 by expanding the image of the first input image IM1'and the image expansion of the second input image IM2'. At least one of the second extension processing is performed.
  • Image expansion is image processing for the input image of the neural network 120.
  • the processing of converting the input image into an image suitable for learning or the generation of an image having a different appearance of the recognition target improves the learning accuracy.
  • Image processing for this purpose is possible by applying image expansion to at least one of the first input image IM1'and the second input image IM2'.
  • the image expansion unit 160 expands the image of the first input image IM1'in step S106, and expands the image of the second input image IM2'in step S107.
  • steps S106 and S107 may be executed, or only one of them may be executed.
  • FIG. 9 shows an example in which only the second expansion process for expanding the image of the second input image IM2'is executed.
  • the second expansion process is based on the positional relationship between the first recognition target TG1 reflected in the first input image IM1'and the second recognition target TG2 reflected in the second input image IM2', and the position of the second recognition target TG2. It includes a process of performing correction on the second input image IM2'.
  • Position correction is an affine transformation that includes translation.
  • the image expansion unit 160 grasps the positions of the first recognition target TG1 from the first correct answer information TD1, grasps the positions of the second recognition target TG2 from the second correct answer information TD2, and corrects them so that the positions match. conduct. For example, the image expansion unit 160 corrects the position so that the position of the center of gravity of the first recognition target TG1 and the position of the center of gravity of the second recognition target TG2 match.
  • the first recognition is performed based on the positional relationship between the first recognition target TG1 reflected in the first input image IM1'and the second recognition target TG2 reflected in the second input image IM2'. It includes a process of performing position correction of the target TG1 on the first input image IM1'.
  • the position of the first recognition target TG1 in the first image IM1 and the position of the second recognition target TG2 in the second image IM2 coincide with each other.
  • the position of the first recognition target TG1 and the position of the second recognition target TG2 match, so that the boundary of the classification category can be appropriately learned.
  • the first expansion process and the second extension process are not limited to the above position correction.
  • the image expansion unit 160 may perform at least one of the first expansion processing and the second expansion processing by at least one processing of color correction, brightness correction, smoothing processing, sharpening processing, noise addition, and affine transformation. good.
  • the neural network 120 is a CNN.
  • the basic configuration of CNN will be described.
  • FIG. 10 shows an example of the overall configuration of CNN.
  • the input layer of CNN is a convolution layer, followed by a normalization layer and an activation layer. Next, the same set is repeated with the pooling layer, the convolution layer, the normalization layer, and the activation layer as one set.
  • the output layer of CNN is a convolution layer.
  • the convolution layer outputs a feature map by performing a convolution process on the input. The number of channels in the feature map tends to increase and the image size of one channel tends to decrease as the number of convolution layers in the latter stage increases.
  • Each layer of CNN contains a node, and the node and the node of the next layer are connected by a weighting coefficient.
  • the neural network 120 is trained by updating the weighting coefficient between the nodes based on the output error.
  • FIG. 11 shows an example of the convolution process.
  • a 2-channel output map is generated from a 3-channel input map and the filter size of the weighting factor is 3 ⁇ 3
  • the input map is an input image
  • the output map is a score map.
  • both the input map and the output map are feature maps.
  • One channel of the output map is generated by convolving the 3-channel weighting coefficient filter with respect to the 3-channel input map.
  • the convolution operation the sum of products of the 3 ⁇ 3 windows of the input map and the weighting factors is taken, and the sum of products is calculated for the entire input map by sequentially sliding the windows one pixel at a time. Specifically, the following equation (1) is calculated.
  • y oc n, m are values arranged in n rows and m columns of channel oc in the output map.
  • w oc, ic j, i are values arranged in the j row and i column of the channel ic of the set oc in the weighting coefficient filter.
  • x ic n + j, m + i are values arranged in n + j rows and m + i columns of channel ic in the input map.
  • FIG. 12 shows an example of the recognition result output by CNN.
  • the output information shows the recognition result output from the CNN, and is a score map in which an estimated value is assigned to each of the positions (u, v).
  • the estimated value indicates the certainty that the recognition target is detected at that position.
  • the correct answer information indicates an ideal recognition result, and is mask information in which 1 is assigned to the position (u, v) where the recognition target exists.
  • the above-mentioned weighting coefficient is updated so that the error between the correct answer information and the output information becomes small.
  • FIG. 13 is a system configuration example in which an ultrasonic image is input to the learning data creation system 10.
  • the system of FIG. 13 includes an ultrasonic diagnostic system 20, a teacher data creation system 30, a learning data creation system 10, and an ultrasonic diagnostic system 40. It is not necessary that these are always connected, and they may be appropriately connected at each stage of the work.
  • the ultrasonic diagnostic system 20 takes an ultrasonic image as a learning image and transfers the ultrasonic image to the teacher data creation system 30.
  • the teacher data creation system 30 displays an ultrasonic image on a display, accepts input of correct answer information from a user, creates teacher data by associating the ultrasonic image with the correct answer information, and uses the teacher data as a learning data creation system 10. Transfer to.
  • the training data creation system 10 trains the neural network 120 based on the teacher data, and transfers the trained model to the ultrasonic diagnostic system 40.
  • the ultrasonic diagnostic system 40 may be the same system as the ultrasonic diagnostic system 20, or may be a different system.
  • the ultrasonic diagnostic system 40 includes a probe 41 and a processing unit 42.
  • the probe 41 detects an ultrasonic echo from a subject.
  • the processing unit 42 generates an ultrasonic image based on the ultrasonic echo.
  • the processing unit 42 includes a neural network 50 that performs image recognition processing based on the trained model on the ultrasonic image.
  • the processing unit 42 displays the result of the image recognition processing on the display.
  • FIG. 14 is a configuration example of the neural network 50.
  • the neural network 50 has the same algorithm as the neural network 120 of the training data creation system 10, and by using parameters such as weighting coefficients included in the trained model, an image in which the learning result in the training data creation system 10 is reflected. Perform recognition processing.
  • the first neural network 51 and the second neural network 52 correspond to the first neural network 121 and the second neural network 122 of the learning data creation system 10.
  • One image IM is input to the first neural network 51, and a feature map MAP corresponding to the image IM is output from the first neural network 51. Since the ultrasonic diagnostic system 40 does not synthesize the feature map, the feature map MAP output by the first neural network 51 is the input of the second neural network 52.
  • FIG. 14 shows the first neural network 51 and the second neural network 52 for comparison with the learning data creation system 10, the neural network 50 is not divided in the actual processing.
  • the present disclosure is not limited to each embodiment and its modified examples as they are, and at the implementation stage, the components are modified within a range that does not deviate from the gist. Can be embodied.
  • a plurality of components disclosed in the above-described embodiments and modifications can be appropriately combined. For example, some components may be deleted from all the components described in each embodiment or modification. Further, the components described in different embodiments and modifications may be combined as appropriate. As described above, various modifications and applications are possible within a range that does not deviate from the gist of the present disclosure.
  • a term described at least once in the specification or drawing together with a different term having a broader meaning or a synonym may be replaced with the different term at any part of the specification or drawing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

学習データ作成システム(10)は、取得部(110)と第1ニューラルネットワーク(121)と第2ニューラルネットワーク(122)と特徴マップ合成部(130)と出力誤差算出部(140)とニューラルネットワーク更新部(150)とを含む。第1ニューラルネットワークは、第1画像(IM1)が入力されることで第1特徴マップ(MAP1)を生成し、第2画像(IM2)が入力されることで第2特徴マップ(MAP2)を生成する。特徴マップ合成部は、第1特徴マップの一部を第2特徴マップの一部で差し替えることで合成特徴マップ(SMAP)を生成する。第2ニューラルネットワークは、合成特徴マップに基づいて出力情報(NNQ)を生成する。出力誤差算出部は、出力情報、第1正解情報(TD1)、及び第2正解情報(TD2)に基づいて出力誤差(ERQ)を算出する。

Description

学習データ作成システム及び学習データ作成方法
 本発明は、学習データ作成システム及び学習データ作成方法等に関する。
 ディープラーニングによってAI(Artificial Intelligence)の精度を高めるには大量の学習データが必要である。大量の学習データを用意するために、オリジナルの学習データを元にして学習データを水増しする手法が知られている。学習データを水増しする手法として、非特許文献1にManifold Mixupが開示されている。この手法では、異なる2枚の画像をCNN(Convolutional Neural Network)に入力し、CNNの中間層の出力である特徴マップを取り出し、1枚目の画像の特徴マップと2枚目の画像の特徴マップとを重み付け加算することで特徴マップを合成し、その合成した特徴マップを次の中間層の入力とする。2枚のオリジナル画像による学習に加えて、中間層において特徴マップを合成する学習が行われるので、結果的に学習データが水増しされている。
Vikas Verma, Alex Lamb, Christopher Beckham, Amir Najafi, Ioannis Mitliagkas, Aaron Courville, David Lopez-Paz and Yoshua Bengio: "Manifold Mixup: Better Representations by Interpolating Hidden States", arXiv: 1806.05236 (2018)
 上記の従来技術では、CNNの中間層において2枚の画像の特徴マップを重み付け加算するため、各画像の特徴マップに含まれるテクスチャ情報が失われてしまう。例えば、特徴マップを重み付け加算することで、テクスチャの細かな違いが潰れてしまう。このため、画像に含まれるテクスチャに基づいて対象を画像認識する場合には、従来技術の水増し手法を用いて学習を行ったとしても、認識の精度が十分に上がらないという課題がある。例えば、超音波画像等の医療画像から病変鑑別を行う際には、画像に写る病変のテクスチャの微妙な差を認識できることが重要になる。
 本開示の一態様は、第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得する取得部と、前記第1画像が入力されることで第1特徴マップを生成し、前記第2画像が入力されることで第2特徴マップを生成する第1ニューラルネットワークと、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、前記合成特徴マップに基づいて出力情報を生成する第2ニューラルネットワークと、前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出する出力誤差算出部と、前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新するニューラルネットワーク更新部と、を含む学習データ作成システムに関係する。
 本開示の他の態様は、第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得することと、前記第1画像が第1ニューラルネットワークに入力されることで第1特徴マップを生成し、前記第2画像が前記第1ニューラルネットワークに入力されることで第2特徴マップを生成することと、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成することと、第2ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出することと、前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新することと、を含む学習データ作成方法に関係する。
Manifold Mixupの説明図。 学習データ作成システムの第1構成例。 学習データ作成システムの処理を説明する図。 第1構成例において処理部が行う処理のフローチャート。 第1構成例において処理部が行う処理を模式的に示した図。 病変に対する画像認識のシミュレーション結果。 学習データ作成システムの第2構成例。 第2構成例において処理部が行う処理のフローチャート。 第2構成例において処理部が行う処理を模式的に示した図。 CNNの全体構成例。 畳み込み処理の例。 CNNが出力する認識結果の例。 超音波画像を学習データ作成システムに入力する場合のシステム構成例。 超音波診断システムにおけるニューラルネットワークの構成例。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本開示の必須構成要件であるとは限らない。
 1.第1構成例
 ディープラーニングを用いた認識処理では、過学習を避けるために大量の学習データが必要である。しかし、医療画像のように、認識に必要な大量の学習データを集めることが困難な場合がある。例えば、希少病変の画像は、その症例自体が少ないことから学習データを大量に収集することが難しい。或いは、医療画像に教師ラベルを付す必要があるが、専門的な知識が必要であること等から、大量の画像に教師ラベルを付すことが難しい。
 このような問題に対して、既存の学習データに変形等の処理を加えることで、学習データを拡張する画像拡張が提案されている。この手法は、データオーギュメンテーションとも呼ばれる。或いは、異なるラベルをもつ2枚の画像を重み付け和によって合成した画像を学習画像に加えることでラベル間の境界付近を重点的に学習するMixupが提案されている。或いは、上述した非特許文献1のように、異なるラベルをもつ2枚の画像をCNNの中間層で重み付け和によって合成するManifold Mixupが提案されている。主に自然画像認識でMixup及びManifold Mixupの有効性が示されている。
 図1を用いて、Manifold Mixupの手法を説明する。ニューラルネットワーク5は、畳み込み処理を用いた画像認識を行うCNN(Convolutional Neural Network)である。学習後の画像認識では、ニューラルネットワーク5は、1枚の入力画像に対して1つのスコアマップを出力する。一方、学習時には、ニューラルネットワーク5に2枚の入力画像を入力し、中間層において特徴マップの合成を行うことで学習データの水増しが行われる。
 具体的には、ニューラルネットワーク5の入力層には、入力画像IMA1、IMA2が入力される。CNNの畳み込み層は、特徴マップと呼ばれる画像データを出力する。ある中間層から、入力画像IMA1に対応した特徴マップMAPA1と、入力画像IMA2に対応した特徴マップMAPA2とを取り出す。MAPA1は、入力層から当該中間層までのCNNが入力画像IMA1に対して適用されることによって生成された特徴マップである。特徴マップMAPA1は複数のチャンネルを有しており、各チャンネルが、それぞれ1枚の画像データとなっている。MAPA2についても同様である。
 図1には、特徴マップが3つのチャンネルを有する例を示す。このチャンネルをch1~ch3とする。特徴マップMAPA1のch1と特徴マップMAPA2のch1が重み付け加算され、合成特徴マップSMAPAのch1が生成される。ch2、ch3についても同様の重み付け加算が行われ、合成特徴マップSMAPAのch2、ch3が生成される。合成特徴マップSMAPAは、特徴マップMAPA1、MAPA2が取り出された中間層の次の中間層に入力される。ニューラルネットワーク5は、出力情報NNQAとしてスコアマップを出力し、そのスコアマップと正解情報とに基づいてニューラルネットワーク5が更新される。
 特徴マップの各チャンネルには、畳み込み処理のフィルタ重み係数に応じて様々な特徴が抽出されている。上記図1の手法では、特徴マップMAPA1、MAPA2のチャンネルが重み付け加算されるので、各特徴マップが有しているテクスチャの情報が混合される。このため、テクスチャの微妙な差が適切に学習されない可能性がある。例えば超音波内視鏡画像からの病変鑑別のように、病変のテクスチャの微妙な差を認識する必要がある場合において、十分な学習効果が得られない可能性がある。
 図2は、本実施形態の学習データ作成システム10の第1構成例である。学習データ作成システム10は、取得部110と第1ニューラルネットワーク121と第2ニューラルネットワーク122と特徴マップ合成部130と出力誤差算出部140とニューラルネットワーク更新部150とを含む。図3は、学習データ作成システム10の処理を説明する図である。
 取得部110は、第1画像IM1、第2画像IM2、第1画像IM1に対応する第1正解情報TD1、及び第2画像IM2に対応する第2正解情報TD2を取得する。第1ニューラルネットワーク121は、第1画像IM1が入力されることで第1特徴マップMAP1を生成し、第2画像IM2が入力されることで第2特徴マップMAP2を生成する。特徴マップ合成部130は、第1特徴マップMAP1の一部を第2特徴マップMAP2の一部で差し替えることで合成特徴マップSMAPを生成する。なお図3には、第1特徴マップMAP1のch2、ch3が第2特徴マップMAP2のch2、ch3で差し替えられた例を示す。第2ニューラルネットワーク122は、合成特徴マップSMAPに基づいて出力情報NNQを生成する。出力誤差算出部140は、出力情報NNQ、第1正解情報TD1、及び第2正解情報TD2に基づいて出力誤差ERQを算出する。ニューラルネットワーク更新部150は、出力誤差ERQに基づいて第1ニューラルネットワーク121及び第2ニューラルネットワーク122を更新する。
 ここで、「差し替える」とは、第1特徴マップMAP1の一部のチャンネル又は領域を削除し、削除した一部のチャンネル又は領域の代わりに第2特徴マップMAP2の一部のチャンネル又は領域を配置することである。合成特徴マップSMAPの側で考えれば、合成特徴マップSMAPの一部が第1特徴マップMAP1から選択され、合成特徴マップSMAPの残りの部分が第2特徴マップMAP2から選択される、とも言える。
 本実施形態によれば、第1特徴マップMAP1の一部が第2特徴マップMAP2の一部で差し替えられるので、特徴マップが有するテクスチャが重み付け加算されることなく合成特徴マップSMAPに保持される。これにより、上述の従来技術に比べてテクスチャの情報を良好に保持したまま特徴マップを合成できるので、AIによる画像認識の精度を向上できる。具体的には、超音波内視鏡画像からの病変鑑別のように、病変テクスチャの微妙な差を認識する必要がある場合においても画像合成による水増し方法が活用でき、学習データが少量の場合でも高い認識性能が得られる。
 以下、第1構成例の詳細を説明する。図2に示すように、学習データ作成システム10は、処理部100と記憶部200とを含む。処理部100は、取得部110とニューラルネットワーク120と特徴マップ合成部130と出力誤差算出部140とニューラルネットワーク更新部150とを含む。
 学習データ作成システム10は、例えばPC(Personal Computer)等の情報処理装置である。或いは、学習データ作成システム10は、端末装置と情報処理装置により構成されてもよい。例えば、端末装置は記憶部200と不図示の表示部と不図示の操作部等を含み、情報処理装置は処理部100を含み、端末装置と情報処理装置がネットワークを介して接続されてもよい。或いは、学習データ作成システム10は、ネットワークを介して接続された複数の情報処理装置が分散処理を行うクラウドシステムであってもよい。
 記憶部200は、ニューラルネットワーク120の学習に用いられる教師データを記憶する。教師データは、学習用画像と、その学習用画像に付された正解情報と、で構成される。正解情報は教師ラベルとも呼ばれる。記憶部200は、メモリ、ハードディスクドライブ又は光学ドライブ等の記憶装置である。メモリは半導体メモリであり、RAM等の揮発性メモリ、又はEPROM等の不揮発性メモリである。
 処理部100は、1又は複数の回路部品を含む処理回路又は処理装置である。処理部100は、CPU(Central Processing Unit)、GPU(Graphical Processing Unit)又はDSP(Digital Signal Processor)等のプロセッサを含む。プロセッサは、FPGA(Field Programmable Gate Array)又はASIC(Application Specific Integrated Circuit)等の集積回路装置であってもよい。処理部100は、複数のプロセッサを含んでもよい。プロセッサは、記憶部200に記憶されたプログラムを実行することで処理部100の機能を実現する。プログラムには、取得部110、ニューラルネットワーク120、特徴マップ合成部130、出力誤差算出部140及びニューラルネットワーク更新部150の機能が記述されている。記憶部200は、ニューラルネットワーク120の学習モデルを記憶している。学習モデルには、ニューラルネットワーク120のアルゴリズムと、その学習モデルに用いられるパラメータとが記述されている。パラメータは、ノード間の重み付け係数等である。プロセッサは、学習モデルを用いてニューラルネットワーク120の推論処理を実行し、学習により更新されたパラメータで、記憶部200に記憶されたパラメータを更新する。
 図4は、第1構成例において処理部100が行う処理のフローチャートであり、図5は、その処理を模式的に示した図である。
 ステップS101において処理部100はニューラルネットワーク120を初期化する。ステップS102、S103において第1画像IM1と第2画像IM2が処理部100に入力され、ステップS104、S105において第1正解情報TD1と第2正解情報TD2が処理部100に入力される。ステップS102~S105は、図4の実行順序に限定されず順不同に実行されてもよいし、或いは並列的に実行されてもよい。
 具体的には、取得部110は、記憶部200から第1画像IM1と第2画像IM2を取得する画像取得部111と、記憶部200から第1正解情報TD1と第2正解情報TD2を取得する正解情報取得部112と、を含む。取得部110は、例えば、記憶部200へのアクセスを制御するアクセス制御部である。
 図5に示すように、第1画像IM1には認識対象TG1が写り、第2画像IM2には、認識対象TG1と分類カテゴリが異なる認識対象TG2が写っている。即ち、記憶部200は、画像認識における分類カテゴリが異なる第1学習用画像群と第2学習用画像群とを記憶している。分類カテゴリは、臓器、臓器内の部位、又は病変の分類等である。画像取得部111は、第1学習用画像群のうち任意の1つを第1画像IM1として取得し、第2学習用画像群のうち任意の1つを第2画像IM2として取得する。
 ステップS108において処理部100は第1画像IM1に第1ニューラルネットワーク121を適用し、第1ニューラルネットワーク121が第1特徴マップMAP1を出力する。また、処理部100は第2画像IM2に第1ニューラルネットワーク121を適用し、第1ニューラルネットワーク121が第2特徴マップMAP2を出力する。ステップS109において特徴マップ合成部130が第1特徴マップMAP1と第2特徴マップMAP2を合成し、合成特徴マップSMAPを出力する。ステップS110において、処理部100は合成特徴マップSMAPに第2ニューラルネットワーク122を適用し、第2ニューラルネットワーク122が出力情報NNQを出力する。
 具体的には、ニューラルネットワーク120はCNNであり、そのCNNが中間層で分割されたものが第1ニューラルネットワーク121と第2ニューラルネットワーク122である。即ち、CNNの入力層から当該中間層までが第1ニューラルネットワーク121となり、当該中間層の次の中間層から出力層までが第2ニューラルネットワーク122となる。CNNは、畳み込み層、正規化層、活性化層及びプーリング層を有するが、そのいずれを境に第1ニューラルネットワーク121と第2ニューラルネットワーク122に分割されてもよい。ディープラーニングにおいて中間層は複数存在するが、そのいずれの中間層で分割するのかを、画像入力毎に異ならせてもよい。
 図5には、第1ニューラルネットワーク121がチャンネル数6の特徴マップを出力する例を示す。特徴マップの各チャンネルは、各画素にノードの出力値が割り当てられた画像データである。特徴マップ合成部130は、第1特徴マップMAP1のチャンネルch2、ch3を第2特徴マップMAP2のチャンネルch2、ch3に差し替える。即ち、合成特徴マップSMAPの一部のチャンネルch1、ch4~ch6に第1特徴マップMAP1のチャンネルch1、ch4~ch6が割り当てられ。残りの一部のチャンネルch2、ch3に第2特徴マップMAP2のチャンネルch2、ch3が割り当てられる。
 合成特徴マップSMAPに占める各特徴マップの割合を差し替え率と呼ぶこととする。第1特徴マップMAP1の差し替え率は、4/6≒0.7であり、第2特徴マップMAP2の差し替え率は、2/6≒0.3である。なお、特徴マップのチャンネル数は6に限定されない。また、どのチャンネルを差し替えるのか、及び差し替えるチャンネル数は、図5の例に限定されず、例えば画像入力毎にランダムに設定されてもよい。
 第2ニューラルネットワーク122が出力する出力情報NNQは、スコアマップと呼ばれるデータである。複数の分類カテゴリがある場合には、スコアマップは複数のチャンネルを有し、1つのチャンネルが1つの分類カテゴリに対応する。図5には、分類カテゴリが2つである例を示す。スコアマップの各チャンネルは、各画素に推定値が割り当てられた画像データである。推定値は、その画素に認識対象が検出された確からしさを示す値である。
 図4のステップS111において、出力誤差算出部140は、出力情報NNQと第1正解情報TD1と第2正解情報TD2に基づいて出力誤差ERQを求める。図5に示すように、出力誤差算出部140は、出力情報NNQと第1正解情報TD1の誤差を示す第1出力誤差ERR1と、出力情報NNQと第2正解情報TD2の誤差を示す第2出力誤差ERR2と、を求める。出力誤差算出部140は、第1出力誤差ERR1と第2出力誤差ERR2を差し替え率で重み付け加算することで出力誤差ERQを求める。図5の例では、ERQ=ERR1×0.7+ERR2+0.3である。
 図4のステップS112において、ニューラルネットワーク更新部150は、出力誤差ERQに基づいてニューラルネットワーク120を更新する。ニューラルネットワーク120の更新とは、ノード間の重み付け係数等のパラメータを更新することである。更新手法としては、誤差逆伝播法等の種々の公知の手法を採用できる。ステップS113において、処理部100は学習の終了条件を満たすか否かを判断する。終了条件は、出力誤差ERQが所定以下となったこと、或いは所定数の画像を学習したこと等である。処理部100は、終了条件が満たされた場合には本フローの処理を終了し、終了条件が満たされていない場合にはステップS102に戻る。
 図6は、病変に対する画像認識のシミュレーション結果である。横軸は、認識対象となっている全ての分類カテゴリの病変に対する正解率である。縦軸は、認識対象となっている分類カテゴリのうち少量病変に対する正解率である。DAは、単一の画像だけから学習データを水増しする従来手法のシミュレーション結果であり、DBは、Manifold Mixupのシミュレーション結果であり、DCは、本実施形態の手法のシミュレーション結果である。各結果に3点ずつプロットされているが、これらは少量病変の検出に対するオフセットを異ならせてシミュレーションした結果である。
 図6において、右上、即ち全体病変正解率と少量病変正解率の両方が高くなる方向にグラフがあるほど、画像認識の成績がよい。本実施形態の手法を用いたシミュレーション結果DCは、従来技術を用いたシミュレーション結果DA、DBよりも右上にあり、従来技術よりも高精度な画像認識が可能である。
 なお、第1特徴マップMAP1の一部が差し替えられることで、その一部に含まれる情報が失われている。しかし、中間層のチャンネル数は大きめに設定されるので、中間層の出力が持つ情報には冗長性がある。このため、差し替えによって一部の情報が失われたとしても、あまり問題にならない。
 また、特徴マップを合成する際に重み付け加算を行わなかったとしても、その後段の中間層においてチャンネル間の線形結合が行われる。しかし、この線形結合の重み付け係数は、ニューラルネットワークの学習において更新されるパラメータである。このため、テクスチャの細かい違いが失われないように、学習において重み付け係数が最適化されることが期待できる。
 以上の本実施形態によれば、第1特徴マップMAP1は、第1の複数のチャンネルを含み、第2特徴マップMAP2は、第2の複数のチャンネルを含む。特徴マップ合成部130は、第1の複数のチャンネルのうち一部のチャンネル全体を、第2の複数のチャンネルのうち一部のチャンネル全体で差し替える。
 このようにすれば、一部のチャンネルの全体を差し替えることで、第1特徴マップMAP1の一部を第2特徴マップMAP2の一部で差し替えることができる。各チャンネルには異なるテクスチャが抽出されているが、あるテクスチャについては第1画像IM1が選択され、他のあるテクスチャについては第2画像IM2が選択される、といった混ざり方になる。
 或いは、特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルの一部の領域を、第2の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えてもよい。
 このようにすれば、チャンネル全体でなくチャンネル内の一部の領域が差し替えられる。これにより、例えば、認識対象が存在する領域のみを差し替えることで、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。或いは、認識対象の一部を差し替えることで、2つの特徴マップの認識対象を合成したような合成特徴マップを生成できる。
 特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルの帯状領域を、第2の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えてもよい。なお、チャンネルの一部領域を差し替える手法は上記に限定されない。例えば、特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、第2の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えてもよい。周期的に設定された領域は、例えば縞状の領域、或いはチェッカードパターン状の領域等である。
 このようにすれば、第1特徴マップのチャンネルと第2特徴マップのチャンネルを、各々のテクスチャを残しつつ混ぜ合わせることができる。例えば、チャンネルにおける認識対象を切り抜いて差し替えるような場合には、第1画像IM1と第2画像IM2の認識対象の位置が一致する必要がある。本実施形態では、第1画像IM1と第2画像IM2で認識対象の位置が一致していなくても、その認識対象のテクスチャを残しつつ混ぜ合わせることが可能である。
 特徴マップ合成部130は、第1の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる一部の領域のサイズを、第1画像と第2画像の分類カテゴリに基づいて決定してもよい。
 このようにすれば、画像の分類カテゴリに応じたサイズの領域で特徴マップを差し替えることができる。例えば、分類カテゴリにおいて病変等の認識対象に特徴的なサイズが決まっている場合に、そのサイズの領域で特徴マップを差し替える。これにより、例えば、一方の特徴マップの背景の中に他方の特徴マップの認識対象が嵌め込まれたような合成特徴マップを生成できる。
 また本実施形態では、第1画像IM1と第2画像IM2は、超音波画像である。なお、超音波画像に基づいて学習を行うシステムは図13等で後述する。
 超音波画像は通常はモノクロ画像であり、画像認識においてテクスチャが重要な要素となる。本実施形態では、テクスチャの微妙な差に基づく高精度な画像認識が可能となるので、超音波画像診断に適した画像認識システムを生成できる。なお、本実施形態の適用対象は超音波画像に限定されず、様々な医療画像に適用できる。例えば、イメージセンサを用いて撮像する内視鏡システムによって取得される医療画像にも、本実施形態の手法を適用できる。
 また本実施形態では、第1画像IM1と第2画像IM2は、異なる分類カテゴリである。
 中間層において第1特徴マップMAP1と第2特徴マップMAP2が合成されて学習が行われることで、第1画像IM1の分類カテゴリと第2画像IM2の分類カテゴリの境界が学習される。本実施形態によれば、特徴マップが有する微妙なテクスチャの違いが失われることなく合成されるので、分類カテゴリの境界が適切に学習される。例えば、第1画像IM1の分類カテゴリと第2画像IM2の分類カテゴリは、画像認識処理において判別が難しい組み合わせである。このような分類カテゴリの境界が本実施形態の手法で学習されることで、判別が難しい分類カテゴリの認識精度が向上する。また、第1画像IM1と第2画像IM2は同一の分類カテゴリであってもよい。分類カテゴリは同一であるが特徴が異なる認識対象を合成することで、同一カテゴリ内でより多様性に富んだ画像データが作成できる。
 また本実施形態では、出力誤差算出部140は、出力情報NNQと第1正解情報TD1に基づいて第1出力誤差ERR1を算出し、出力情報NNQと第2正解情報TD2に基づいて第2出力誤差ERR2を算出し、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を出力誤差ERQとして算出する。
 中間層において第1特徴マップMAP1と第2特徴マップMAP2が合成されるので、出力情報NNQは、第1画像IM1の分類カテゴリに対する推定値と、第2画像IM2の分類カテゴリに対する推定値とが重み付け加算された情報になっている。本実施形態によれば、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出することで、出力情報NNQに対応した出力誤差ERQが求められる。
 また本実施形態では、特徴マップ合成部130は、第1割合で、第1特徴マップMAP1の一部を第2特徴マップのMAP2一部で差し替える。第1割合は、図5で説明した差し替え率=0.7に相当する。出力誤差算出部140は、第1割合に基づく重み付けによって、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出し、その重み付け和を出力誤差ERQとする。
 上述した出力情報NNQにおける推定値の重み付けは、第1割合に応じた重み付けになっている。本実施形態によれば、第1割合に基づく重み付けによって、第1出力誤差ERR1と第2出力誤差ERR2の重み付け和が算出されることで、出力情報NNQに対応した出力誤差ERQが求められる。
 具体的には、出力誤差算出部140は、第1割合と同じ割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出する。
 上述した出力情報NNQにおける推定値の重み付けは、第1割合と同じ割合となることが期待される。本実施形態によれば、第1割合と同じ割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和が算出されることで、出力情報NNQにおける推定値の重み付けが、期待値である第1割合となるようにフィードバックされる。
 或いは、出力誤差算出部140は、第1割合と異なる割合で第1出力誤差ERR1と第2出力誤差ERR2の重み付け和を算出してもよい。
 具体的には、希少病変等の少量カテゴリの推定値が正方向にオフセットされるように重み付けが行われてもよい。例えば、第1画像IM1が希少病変の画像であり、第2画像IM2が非希少病変の画像である場合、第1出力誤差ERR1の重み付けを第1割合より大きくする。本実施形態によれば、認識精度を上げにくい少量カテゴリが検出されやすくなるように、フィードバックされる。
 なお、出力誤差算出部140は、第1正解情報TD1と第2正解情報TD2から正解確率分布を作成し、出力情報NNQと正解確率分布から算出したKLダイバージェンスを出力誤差ERQとしてもよい。
 2.第2構成例
 図7は、学習データ作成システム10の第2構成例である。図7では、画像取得部111は画像拡張部160を含む。図8は、第2構成例において処理部100が行う処理のフローチャートであり、図9は、その処理を模式的に示した図である。なお、第1構成例で説明した構成要素及びステップには同一の符号を付し、その構成要素及びステップについての説明を適宜に省略する。
 記憶部200は、第1入力画像IM1’と第2入力画像IM2’を記憶する。画像取得部111は、記憶部200から第1入力画像IM1’と第2入力画像IM2’を読み出す。画像拡張部160は、第1入力画像IM1’を画像拡張することで第1画像IM1を生成する第1拡張処理と、第2入力画像IM2’を画像拡張することで第2画像IM2を生成する第2拡張処理との少なくとも一方を行う。
 画像拡張とは、ニューラルネットワーク120の入力画像に対する画像処理であり、例えば入力画像を学習に適した画像に変換する処理、或いは認識対象の見え方が異なる画像を生成することで学習の精度を上げるための画像処理等である。本実施形態によれば、第1入力画像IM1’と第2入力画像IM2’の少なくとも一方に画像拡張が施されることで、効果的な学習が可能となる。
 図8のフローでは、画像拡張部160は、ステップS106において第1入力画像IM1’を画像拡張し、ステップS107において第2入力画像IM2’を画像拡張する。但し、ステップS106とS107の両方が実行されてもよいし、いずれか一方のみが実行されてもよい。
 図9には、第2入力画像IM2’を画像拡張する第2拡張処理のみが実行される例を示している。第2拡張処理は、第1入力画像IM1’に写る第1認識対象TG1と第2入力画像IM2’に写る第2認識対象TG2との間の位置関係に基づいて、第2認識対象TG2の位置補正を第2入力画像IM2’に対して行う処理を含む。
 位置補正は、平行移動を含むアフィン変換である。画像拡張部160は、第1正解情報TD1から第1認識対象TG1の位置を把握し、第2正解情報TD2から第2認識対象TG2の位置を把握し、それらの位置が一致するように補正を行う。例えば、画像拡張部160は、第1認識対象TG1の重心位置と第2認識対象TG2の重心位置が一致するように、位置補正を行う。
 なお同様に、第1拡張処理は、第1入力画像IM1’に写る第1認識対象TG1と第2入力画像IM2’に写る第2認識対象TG2との間の位置関係に基づいて、第1認識対象TG1の位置補正を第1入力画像IM1’に対して行う処理を含む。
 本実施形態によれば、第1画像IM1における第1認識対象TG1の位置と、第2画像IM2における第2認識対象TG2の位置とが一致する。これにより、特徴マップを差し替えた後の合成特徴マップSMAPにおいても、第1認識対象TG1の位置と第2認識対象TG2の位置とが一致するので、分類カテゴリの境界を適切に学習できる。
 第1拡張処理と第2拡張処理は、上記の位置補正に限定されない。例えば、画像拡張部160は、色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも1つの処理によって第1拡張処理及び第2拡張処理の少なくとも一方を行ってもよい。
 3.CNN
 上述したように、ニューラルネットワーク120はCNNである。以下、CNNの基本構成を説明する。
 図10には、CNNの全体構成例を示す。CNNの入力層は畳み込み層であり、正規化層、活性化層と続く。次に、プーリング層、畳み込み層、正規化層及び活性化層を1セットとして、同様なセットが繰り返される。CNNの出力層は畳み込み層である。畳み込み層は、入力に対して畳み込み処理を行うことで特徴マップを出力する。後段の畳み込み層になるほど、特徴マップのチャンネル数が増えると共に、1チャンネルの画像サイズが小さくなる傾向にある。
 CNNの各層はノードを含み、ノードと次の層のノードとの間が重み係数によって結合される。このノード間の重み係数が出力誤差に基づいて更新されることで、ニューラルネットワーク120の学習が行われる。
 図11には、畳み込み処理の例を示す。ここでは3チャンネルの入力マップから2チャンネルの出力マップが生成され、重み係数のフィルタサイズが3×3である例を説明する。入力層では入力マップは入力画像であり、出力層では出力マップはスコアマップである。中間層では入力マップと出力マップは共に特徴マップである。
 3チャンネルの入力マップに対して、3チャンネルの重み係数フィルタが畳み込み演算されることで、出力マップの1チャンネルが生成される。3チャンネルの重み係数フィルタが2セットあり、出力マップは2チャンネルとなる。畳み込み演算では、入力マップの3×3のウィンドウと重み係数の積和をとり、ウィンドウを1画素ずつ順次にスライドしていくことで、入力マップ全体について積和を演算する。具体的には、下式(1)が演算される。
Figure JPOXMLDOC01-appb-M000001
 yoc n,mは、出力マップにおいてチャンネルocのn行m列に配置される値である。woc,ic j,iは、重み係数フィルタにおいてセットocのチャンネルicのj行i列に配置される値である。xic n+j,m+iは、入力マップにおいてチャンネルicのn+j行m+i列に配置される値である。
 図12には、CNNが出力する認識結果の例を示す。出力情報は、CNNから出力された認識結果を示しており、位置(u,v)の各々に推定値が割り当てられたスコアマップである。推定値は、その位置に認識対象が検出された確からしさを示す。正解情報は、理想的な認識結果を示しており、認識対象が存在する位置(u,v)に1が割り当てられたマスク情報である。ニューラルネットワーク120の更新処理において、正解情報と出力情報の誤差が小さくなるように、上述の重み係数が更新される。
 4.超音波診断システム
 図13は、超音波画像を学習データ作成システム10に入力する場合のシステム構成例である。図13のシステムは、超音波診断システム20と教師データ作成システム30と学習データ作成システム10と超音波診断システム40とを含む。なお、これらは常時接続されている必要はなく、作業の各段階において適宜に接続されればよい。
 超音波診断システム20は、学習用画像としての超音波画像を撮影し、その超音波画像を教師データ作成システム30に転送する。教師データ作成システム30は、超音波画像をディスプレイに表示し、ユーザから正解情報の入力を受け付け、超音波画像と正解情報を対応づけて教師データを作成し、その教師データを学習データ作成システム10に転送する。学習データ作成システム10は、教師データに基づいてニューラルネットワーク120の学習を行い、学習済みモデルを超音波診断システム40に転送する。
 超音波診断システム40は、超音波診断システム20と同じシステムであってもよいし、異なるシステムであってもよい。超音波診断システム40は、プローブ41と処理部42とを含む。プローブ41は、被検体からの超音波エコーを検出する。処理部42は、超音波エコーに基づいて超音波画像を生成する。処理部42は、学習済みモデルに基づく画像認識処理を超音波画像に対して行うニューラルネットワーク50を含む。処理部42は、画像認識処理の結果をディスプレイに表示する。
 図14は、ニューラルネットワーク50の構成例である。ニューラルネットワーク50は、学習データ作成システム10のニューラルネットワーク120と同じアルゴリズムを有し、学習済みモデルに含まれる重み付け係数等のパラメータを用いることで、学習データ作成システム10における学習結果が反映された画像認識処理を行う。第1ニューラルネットワーク51と第2ニューラルネットワーク52は、学習データ作成システム10の第1ニューラルネットワーク121と第2ニューラルネットワーク122に相当する。第1ニューラルネットワーク51には1枚の画像IMが入力され、その画像IMに対応した特徴マップMAPが第1ニューラルネットワーク51から出力される。超音波診断システム40では特徴マップの合成は行わないので、第1ニューラルネットワーク51が出力する特徴マップMAPが第2ニューラルネットワーク52の入力となる。なお、図14では学習データ作成システム10との比較のために第1ニューラルネットワーク51と第2ニューラルネットワーク52を図示したが、実際の処理ではニューラルネットワーク50は分割されない。
 以上、本実施形態及びその変形例について説明したが、本開示は、各実施形態やその変形例そのままに限定されるものではなく、実施段階では、要旨を逸脱しない範囲内で構成要素を変形して具体化することができる。また、上記した各実施形態や変形例に開示されている複数の構成要素を適宜組み合わせることができる。例えば、各実施形態や変形例に記載した全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態や変形例で説明した構成要素を適宜組み合わせてもよい。このように、本開示の主旨を逸脱しない範囲内において種々の変形や応用が可能である。また、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。
5 ニューラルネットワーク、6 チャンネル数、10 学習データ作成システム、20 超音波診断システム、30 教師データ作成システム、40 超音波診断システム、41 プローブ、42 処理部、50 ニューラルネットワーク、51 第1ニューラルネットワーク、52 第2ニューラルネットワーク、100 処理部、110 取得部、111 画像取得部、112 正解情報取得部、120 ニューラルネットワーク、121 第1ニューラルネットワーク、122 第2ニューラルネットワーク、130 特徴マップ合成部、140 出力誤差算出部、150 ニューラルネットワーク更新部、160 画像拡張部、200 記憶部、ERQ 出力誤差、ERR1 第1出力誤差、ERR2 第2出力誤差、IM1 第1画像、IM1’ 第1入力画像、IM2 第2画像、IM2’ 第2入力画像、MAP1 第1特徴マップ、MAP2 第2特徴マップ、NNQ 出力情報、SMAP 合成特徴マップ、TD1 第1正解情報、TD2 第2正解情報、TG1 第1認識対象、TG2 第2認識対象、ch1~ch6 チャンネル

Claims (17)

  1.  第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得する取得部と、
     前記第1画像が入力されることで第1特徴マップを生成し、前記第2画像が入力されることで第2特徴マップを生成する第1ニューラルネットワークと、
     前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成する特徴マップ合成部と、
     前記合成特徴マップに基づいて出力情報を生成する第2ニューラルネットワークと、
     前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出する出力誤差算出部と、
     前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新するニューラルネットワーク更新部と、
     を含むことを特徴とする学習データ作成システム。
  2.  請求項1において、
     前記第1特徴マップは、第1の複数のチャンネルを含み、
     前記第2特徴マップは、第2の複数のチャンネルを含み、
     前記特徴マップ合成部は、
     前記第1の複数のチャンネルのうち一部のチャンネル全体を、前記第2の複数のチャンネルのうち一部のチャンネル全体で差し替えることを特徴とする学習データ作成システム。
  3.  請求項2において、
     前記第1画像と前記第2画像は、超音波画像であることを特徴とする学習データ作成システム。
  4.  請求項1において、
     前記出力誤差算出部は、
     前記出力情報と前記第1正解情報に基づいて第1出力誤差を算出し、前記出力情報と前記第2正解情報に基づいて第2出力誤差を算出し、前記第1出力誤差と前記第2出力誤差の重み付け和を前記出力誤差として算出することを特徴とする学習データ作成システム。
  5.  請求項1において、
     前記取得部は、
     第1入力画像を画像拡張することで前記第1画像を生成する第1拡張処理と、第2入力画像を画像拡張することで前記第2画像を生成する第2拡張処理との少なくとも一方を行う画像拡張部を含むことを特徴とする学習データ作成システム。
  6.  請求項5において、
     前記第1拡張処理は、
     前記第1入力画像に写る第1認識対象と前記第2入力画像に写る第2認識対象との間の位置関係に基づいて、前記第1認識対象の位置補正を前記第1入力画像に対して行う処理を含み、
     前記第2拡張処理は、
     前記位置関係に基づいて、前記第2認識対象の位置補正を前記第2入力画像に対して行う処理を含むことを特徴とする学習データ作成システム。
  7.  請求項5において、
     前記画像拡張部は、
     色補正、明るさ補正、平滑化処理、鮮鋭化処理、ノイズ付加及びアフィン変換の少なくとも1つの処理によって前記第1拡張処理及び前記第2拡張処理の少なくとも一方を行うことを特徴とする学習データ作成システム。
  8.  請求項1において、
     前記第1特徴マップは、第1の複数のチャンネルを含み、
     前記第2特徴マップは、第2の複数のチャンネルを含み、
     前記特徴マップ合成部は、
     前記第1の複数のチャンネルに含まれるチャンネルの一部の領域を、前記第2の複数のチャンネルに含まれるチャンネルの一部の領域で差し替えることを特徴とする学習データ作成システム。
  9.  請求項8において、
     前記特徴マップ合成部は、
     前記第1の複数のチャンネルに含まれるチャンネルの帯状領域を、前記第2の複数のチャンネルに含まれるチャンネルの帯状領域で差し替えることを特徴とする学習データ作成システム。
  10.  請求項8において、
     前記特徴マップ合成部は、
     前記第1の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域を、前記第2の複数のチャンネルに含まれるチャンネルにおいて周期的に設定された領域で差し替えることを特徴とする学習データ作成システム。
  11.  請求項8において、
     前記特徴マップ合成部は、
     前記第1の複数のチャンネルに含まれるチャンネルにおいて差し替えの対象となる前記一部の領域のサイズを、前記第1画像と前記第2画像の分類カテゴリに基づいて決定することを特徴とする学習データ作成システム。
  12.  請求項1において、
     前記特徴マップ合成部は、
     第1割合で、前記第1特徴マップの一部を前記第2特徴マップの一部で差し替え、
     前記出力誤差算出部は、
     前記出力情報と前記第1正解情報に基づいて第1出力誤差を算出し、前記出力情報と前記第2正解情報に基づいて第2出力誤差を算出し、前記第1割合に基づく重み付けによって前記第1出力誤差と前記第2出力誤差の重み付け和を算出し、前記重み付け和を前記出力誤差とすることを特徴とする学習データ作成システム。
  13.  請求項12において、
     前記出力誤差算出部は、
     前記第1割合と同じ割合で前記第1出力誤差と前記第2出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
  14.  請求項12において、
     前記出力誤差算出部は、
     前記第1割合と異なる割合で前記第1出力誤差と前記第2出力誤差の前記重み付け和を算出することを特徴とする学習データ作成システム。
  15.  請求項1において、
     前記第1画像と前記第2画像は、超音波画像であることを特徴とする学習データ作成システム。
  16.  請求項1において、
     前記第1画像と前記第2画像は、異なる分類カテゴリであることを特徴とする学習データ作成システム。
  17.  第1画像、第2画像、前記第1画像に対応する第1正解情報、及び前記第2画像に対応する第2正解情報を取得することと、
     前記第1画像が第1ニューラルネットワークに入力されることで第1特徴マップを生成し、前記第2画像が前記第1ニューラルネットワークに入力されることで第2特徴マップを生成することと、
     前記第1特徴マップの一部を前記第2特徴マップの一部で差し替えることで合成特徴マップを生成することと、
     第2ニューラルネットワークが前記合成特徴マップに基づいて出力情報を生成することと、
     前記出力情報、前記第1正解情報、及び前記第2正解情報に基づいて出力誤差を算出することと、
     前記出力誤差に基づいて前記第1ニューラルネットワーク及び前記第2ニューラルネットワークを更新することと、
     を含むことを特徴とする学習データ作成方法。
PCT/JP2020/009215 2020-03-04 2020-03-04 学習データ作成システム及び学習データ作成方法 WO2021176605A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2020/009215 WO2021176605A1 (ja) 2020-03-04 2020-03-04 学習データ作成システム及び学習データ作成方法
CN202080097998.5A CN115210751A (zh) 2020-03-04 2020-03-04 学习数据生成系统以及学习数据生成方法
JP2022504849A JP7298010B2 (ja) 2020-03-04 2020-03-04 学習データ作成システム及び学習データ作成方法
US17/902,009 US20230011053A1 (en) 2020-03-04 2022-09-02 Learning data generating system and learning data generating method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/009215 WO2021176605A1 (ja) 2020-03-04 2020-03-04 学習データ作成システム及び学習データ作成方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/902,009 Continuation US20230011053A1 (en) 2020-03-04 2022-09-02 Learning data generating system and learning data generating method

Publications (1)

Publication Number Publication Date
WO2021176605A1 true WO2021176605A1 (ja) 2021-09-10

Family

ID=77613164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/009215 WO2021176605A1 (ja) 2020-03-04 2020-03-04 学習データ作成システム及び学習データ作成方法

Country Status (4)

Country Link
US (1) US20230011053A1 (ja)
JP (1) JP7298010B2 (ja)
CN (1) CN115210751A (ja)
WO (1) WO2021176605A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022250071A1 (ja) * 2021-05-27 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、学習装置及びプログラム
WO2023243397A1 (ja) * 2022-06-13 2023-12-21 コニカミノルタ株式会社 認識装置、認識システム及びコンピュータープログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7446903B2 (ja) * 2020-04-23 2024-03-11 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
US11687780B2 (en) * 2020-07-02 2023-06-27 Samsung Electronics Co., Ltd Method and apparatus for data efficient semantic segmentation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019213623A (ja) * 2018-06-11 2019-12-19 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理方法、およびプログラム
JP2020017229A (ja) * 2018-07-27 2020-01-30 国立大学法人 東京大学 画像処理装置、画像処理方法及び画像処理プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019213623A (ja) * 2018-06-11 2019-12-19 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理方法、およびプログラム
JP2020017229A (ja) * 2018-07-27 2020-01-30 国立大学法人 東京大学 画像処理装置、画像処理方法及び画像処理プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022250071A1 (ja) * 2021-05-27 2022-12-01 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 学習方法、学習装置及びプログラム
WO2023243397A1 (ja) * 2022-06-13 2023-12-21 コニカミノルタ株式会社 認識装置、認識システム及びコンピュータープログラム

Also Published As

Publication number Publication date
JPWO2021176605A1 (ja) 2021-09-10
US20230011053A1 (en) 2023-01-12
JP7298010B2 (ja) 2023-06-26
CN115210751A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
WO2021176605A1 (ja) 学習データ作成システム及び学習データ作成方法
US11806189B2 (en) Three-dimensional segmentation from two-dimensional intracardiac echocardiography imaging
CN110337669B (zh) 一种用于多标签分割医学图像中的解剖结构的管线方法
JP7135504B2 (ja) 画像識別装置、画像識別方法及びプログラム
CN111160085A (zh) 一种人体图像关键点姿态估计方法
US11302094B2 (en) System and method for segmenting normal organ and/or tumor structure based on artificial intelligence for radiation treatment planning
CN111091616B (zh) 一种三维超声图像的重建方法及装置
CN112734887B (zh) 基于深度学习的人脸混合-变形生成方法和装置
CN113272869A (zh) 医学成像中从定位片进行三维形状重构
CN112750137A (zh) 基于深度学习的肝脏肿瘤分割方法及系统
CN114461977A (zh) 重构电子轨道空间分布和电子束函数的方法及装置
CN114119474A (zh) 深度学习自动分割超声图像中人体组织的方法
CN113837179A (zh) 一种处理图像的多判别gan网络构建方法、装置、系统和存储介质
CN111626379B (zh) 肺炎x光图像检测方法
CN108596900B (zh) 甲状腺相关性眼病医学影像数据处理装置、方法、计算机可读存储介质及终端设备
Orts-Escolano et al. 3d colour object reconstruction based on growing neural gas
GB2613240A (en) Transformer-based shape models
CN111611997B (zh) 一种基于人体动作迁移的卡通定制形象运动视频生成方法
Chen et al. Uncertainty-based adaptive data augmentation for ultrasound imaging anatomical variations
Nguyen et al. Class Label Conditioning Diffusion Model for Robust Brain Tumor MRI Synthesis
WO2022044425A1 (ja) 学習装置、学習方法、プログラム、学習済みモデル、及び内視鏡システム
Demin et al. Semantic segmentation of lung radiographs using U-net type neural network
US20240029419A1 (en) Learning data generating apparatus, learning data generating method, and non-transitory recording medium having learning data generating program recorded thereon
EP3901903A1 (en) Classifying a lesion based on longitudinal studies
CN114627068A (zh) 一种基于弱监督相似评估网络的肺部ct图像相似检索方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20923638

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022504849

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20923638

Country of ref document: EP

Kind code of ref document: A1