WO2022220221A1 - 学習装置、方法およびプログラム - Google Patents

学習装置、方法およびプログラム Download PDF

Info

Publication number
WO2022220221A1
WO2022220221A1 PCT/JP2022/017507 JP2022017507W WO2022220221A1 WO 2022220221 A1 WO2022220221 A1 WO 2022220221A1 JP 2022017507 W JP2022017507 W JP 2022017507W WO 2022220221 A1 WO2022220221 A1 WO 2022220221A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
classes
neural network
types
probabilities
Prior art date
Application number
PCT/JP2022/017507
Other languages
English (en)
French (fr)
Inventor
聡志 井原
Original Assignee
富士フイルム株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士フイルム株式会社 filed Critical 富士フイルム株式会社
Priority to JP2023514641A priority Critical patent/JPWO2022220221A1/ja
Publication of WO2022220221A1 publication Critical patent/WO2022220221A1/ja
Priority to US18/483,532 priority patent/US20240037927A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/031Recognition of patterns in medical or anatomical images of internal organs

Definitions

  • the present disclosure relates to a learning device, method and program.
  • CNN Convolutional Neural Network
  • JP 2019-067299 A Japanese Patent Publication No. 2019-505063
  • a trained neural network for each type of region it is sufficient to prepare a trained neural network for each type of region, but it is also possible to classify an image into multiple types of regions using one trained neural network. It is possible. For example, when classifying an image of the chest and abdomen of a human body into a liver region and a lung region at once, a neural network for classifying the liver region and a neural network for classifying the lung region are combined to obtain the liver region and the lung region. All you have to do is build a trained neural network that classifies all at once. In order to construct such a trained neural network, it is necessary to prepare correct labels that specify the liver region and the lung region in the training image.
  • the correct label that identifies only the liver region and the correct label that identifies only the lung region can be prepared in large numbers.
  • correct labels that specify both the liver region and the lung region impose a heavy burden on the creator who creates teacher data. For this reason, the current situation is that it is not possible to prepare a large amount of training data for learning the classification of the liver and lung at once, which is large enough to accurately learn the neural network.
  • correct labels specifying each of the five lobes of the lung also imposes a heavy burden on the creator who creates training data.
  • the current situation is that it is not possible to prepare a large amount of training data for learning the classification of the five lobes of the lung all at once so that the neural network can be trained with high accuracy.
  • This is a similar problem when building a trained neural network that classifies not only medical images but also expression media such as photographic images, moving images, voices, and texts into a plurality of types of classes.
  • the present disclosure has been made in view of the above circumstances, and even if it is not possible to prepare a large amount of teacher data for learning the classification of multiple types of classes at once, it is possible to classify expression media into multiple types of classes.
  • the purpose is to be able to construct neural networks.
  • a learning device is a learning device that machine-learns a neural network that classifies expression media into three or more types of classes, comprising at least one processor;
  • the processor Acquiring teacher data consisting of correct labels for at least one of the learning expression medium and a plurality of types of classes included in the learning expression medium; inputting the expression medium for learning to a neural network and outputting the probability that the class included in the expression medium for learning is each of a plurality of types of classes; Integrate the probabilities of being in each of multiple types of classes based on the class classified by the correct label of the teacher data, A neural network is trained based on the integrated probabilities and losses derived from the correct labels of the training data.
  • “Expression medium” is a medium that can be expressed using a computer, and examples of expression media include still images, moving images, voice, and text.
  • the expression medium is an image
  • the multiple classes are multiple regions, including the background, in the image
  • the processor adds the probabilities of the classes other than the class classified by the correct label for the learning expression medium and the probabilities of the background among the probabilities of being in the plural types of classes, It may be one that integrates the probabilities of being each of
  • the classes classified by the correct label include two or more classes out of a plurality of types of classes
  • the processor integrates the probabilities of being each of the plurality of types of classes by adding the probabilities of two or more classes classified by the correct label among the probabilities of being of the plurality of types of classes.
  • the processor may learn a neural network using a plurality of teacher data with different correct labels.
  • a learning method is a learning method for machine learning a neural network that classifies expression media into three or more types of classes, Acquiring teacher data consisting of correct labels for at least one of the learning expression medium and a plurality of types of classes included in the learning expression medium; inputting the expression medium for learning to a neural network and outputting the probability that the class included in the expression medium for learning is each of a plurality of types of classes; Integrate the probabilities of being in each of multiple types of classes based on the class classified by the correct label of the teacher data, A neural network is trained based on the integrated probabilities and losses derived from the correct labels of the training data.
  • Another learning device is a learning device that machine-learns a neural network that classifies regions in an image into three or more types of classes, comprising at least one processor;
  • the processor acquires training images and teacher data consisting of correct labels for at least one of a plurality of types of regions included in the learning images, inputting a training image to a neural network and outputting the probability that the region in the training image is each of a plurality of types of classes; Integrate the probabilities of being in each of multiple types of classes based on the class classified by the correct label of the teacher data, A neural network is trained based on the integrated probabilities and losses derived from the correct labels of the training data.
  • Another learning method is a learning method for machine learning a neural network that classifies regions in an image into three or more types of classes, Acquiring teacher data consisting of a correct label for at least one of a learning image and a plurality of types of regions included in the learning image; inputting a training image to a neural network and outputting the probability that the region in the training image is each of a plurality of types of classes; Integrate the probabilities of being in each of multiple types of classes based on the class classified by the correct label of the teacher data, A neural network is trained based on the integrated probabilities and losses derived from the correct labels of the training data.
  • the learning method according to the present disclosure and other learning methods may be provided as a program for causing a computer to execute.
  • FIG. 1 is a diagram showing a schematic configuration of a learning device according to a first embodiment;
  • FIG. Functional configuration diagram of the learning device according to the first embodiment Diagram showing teacher data for learning to classify liver regions
  • FIG. 4 is a diagram schematically showing learning of a neural network in the first embodiment;
  • FIG. 4 is a diagram schematically showing learning of a neural network in the first embodiment;
  • FIG. 4 is a diagram schematically showing learning of a neural network in the first embodiment;
  • FIG. 10 is a diagram showing teacher data used for learning in the second embodiment;
  • FIG. 4 is a diagram schematically showing learning of a neural network in the second embodiment;
  • FIG. 4 is a diagram schematically showing learning of a neural network in the second embodiment;
  • FIG. 1 is a diagram showing a schematic configuration of a medical information system.
  • a computer 1 including a learning device according to this embodiment, an imaging device 2, and an image storage server 3 are connected via a network 4 in a communicable state.
  • the computer 1 includes the learning device according to this embodiment, and the learning program according to the first embodiment is installed.
  • the computer 1 may be a workstation or personal computer directly operated by a doctor who diagnoses, or a server computer connected to them via a network.
  • the learning program is stored in a storage device of a server computer connected to a network or in a network storage in an externally accessible state, and is downloaded and installed on the computer 1 used by a doctor upon request. Alternatively, it is recorded on a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory), distributed, and installed in the computer 1 from the recording medium.
  • a recording medium such as a DVD (Digital Versatile Disc) or a CD-ROM (Compact Disc Read Only Memory), distributed, and installed in the computer 1 from the recording medium.
  • the imaging device 2 is a device that generates a three-dimensional image representing the site by imaging the site to be diagnosed of the subject. ) apparatus, and PET (Positron Emission Tomography) apparatus.
  • a three-dimensional image composed of a plurality of slice images generated by the photographing device 2 is transmitted to the image storage server 3 and stored.
  • the imaging device 2 is a CT device and generates, for example, a CT image of the patient's chest and abdomen.
  • the image storage server 3 is a computer that stores and manages various data, and is equipped with a large-capacity external storage device and database management software.
  • the image storage server 3 communicates with other devices via a wired or wireless network 4 to transmit and receive image data and the like.
  • various data including image data of a three-dimensional image generated by the photographing device 2 are acquired via a network, stored in a recording medium such as a large-capacity external storage device, and managed.
  • the image data storage format and communication between devices via the network 4 are based on protocols such as DICOM (Digital Imaging and Communication in Medicine).
  • the image storage server 3 also stores teacher data, which will be described later.
  • FIG. 2 explains the hardware configuration of the learning device according to the first embodiment.
  • the learning device 20 includes a CPU (Central Processing Unit) 11, a nonvolatile storage 13, and a memory 16 as a temporary storage area.
  • the learning device 20 also includes a display 14 such as a liquid crystal display, an input device 15 such as a keyboard and a mouse, and a network I/F (InterFace) 17 connected to the network 4 .
  • CPU 11 , storage 13 , display 14 , input device 15 , memory 16 and network I/F 17 are connected to bus 18 .
  • the CPU 11 is an example of a processor in the present disclosure.
  • the storage 13 is realized by HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, and the like.
  • a learning program 12 is stored in the storage 13 as a storage medium.
  • the CPU 11 reads the learning program 12 from the storage 13 , expands it in the memory 16 , and executes the expanded learning program 12 .
  • FIG. 3 is a diagram showing the functional configuration of the learning device according to the first embodiment.
  • the learning device 20 includes an information acquisition section 21 and a learning section 22 .
  • the CPU 11 By executing the learning program 12 by the CPU 11 , the CPU 11 functions as the information acquiring section 21 and the learning section 22 .
  • the learning device 20 builds a learned network that classifies lung regions and liver regions included in CT images.
  • the learning unit 22 uses the teacher data to learn the neural network.
  • a CT image is an example of an expression medium, and a lung region, a liver region, and a background are examples of multiple types of classes of the present disclosure.
  • the information acquisition unit 21 acquires teacher data from the image storage server 3 according to instructions from the input device 15 by the operator. Note that when a plurality of pieces of teacher data are acquired from the image storage server 3 and stored in the storage 13 , the information acquisition unit 21 acquires the teacher data from the storage 13 .
  • FIG. 4 is a diagram showing teacher data for learning to classify liver regions.
  • teacher data 30 includes learning images 30A and correct labels 30B.
  • the learning image 30A is one slice image among a plurality of slice images forming a CT image.
  • the learning image 30A includes regions such as the liver and lungs.
  • a label 30C is given to the liver region included in the learning image 30A.
  • the oblique lines indicate that the label is given.
  • a learning image is an example of a learning expression medium.
  • FIG. 5 is a diagram showing teacher data for learning to classify lung regions.
  • the teacher data 31 includes learning images 31A and correct labels 31B.
  • the learning image 31A is the same tomographic image as the learning image 30A, and includes regions such as the liver and lungs.
  • the correct label 31B a label is given to the lung region included in the learning image 31A. Specifically, the right lung region is labeled 31C, and the left lung region is labeled 31D.
  • FIG. 6 is a diagram schematically showing learning of the neural network in the first embodiment.
  • the neural network 40 to be trained is, for example, a convolutional neural network, and consists of an input layer 41 , multiple intermediate layers 42 and an output layer 43 .
  • the intermediate layer 42 is composed of alternating convolutional layers and pooling layers (both not shown).
  • a learning image is input to the neural network 40, and Logits, which are values representing the likelihood that each pixel included in the learning image is the background, liver, right lung, and left lung, is sent from the neural network 40. output.
  • Logits is the output of the neural network 40 itself, and the larger the value, the higher the possibility of the target area. For example, for background, liver, right lung and left lung, Logits with values like (1.0, 5.0, 2.0, 1.5) are output.
  • Soft Max softmax activation function
  • the correct label 30B of the training data 30 only has the label 30C attached to the liver region.
  • the learning unit 22 derives a cross entropy error (Cross Entropy) as a loss L0 using the integrated probability distribution and correct label.
  • the cross-entropy error corresponds to the distance between the probability distribution and the vector represented by the correct label.
  • the vector of the correct label for deriving the loss L0 with the integration probability (pt0, p1) is (0, 1) becomes.
  • the learning unit 22 integrates the probabilities other than the lung, that is, the probabilities of the background and the liver among the derived probabilities, and derives an integrated probability pt1.
  • the vector of the correct label for deriving the loss L0 with the integrated probability distribution is the right lung. (0,1,0) for the left lung and (0,0,1) for the left lung.
  • the learning unit 22 learns the neural network 40 until the loss L0 satisfies the termination condition. Specifically, the learning unit 22 derives parameters such as the number of convolution layers, the number of pooling layers, kernel coefficients, and kernel sizes that constitute the intermediate layer 42 included in the neural network 40. Machine learning of the network 40 is performed.
  • the termination condition may be that the loss L0 becomes equal to or less than a predetermined threshold, or that learning is performed a predetermined number of times.
  • the learning unit 22 sets the probability (p0, p1, p2 , p3), the neural network 40 learns by deriving the loss L0 with the correct label.
  • the vector of correct labels is (1,0,0,0) for the background, (0,1,0,0) for the liver, (0,0,1,0) for the right lung, and (0,0,1,0) for the left lung. (0,0,0,1) for the lung.
  • the trained neural network constructed by such machine learning When a CT image is input, the trained neural network constructed by such machine learning outputs the probability that each pixel of the CT image is the liver region, the right lung region, the left lung region, and the background. become. Therefore, by using the trained neural network constructed by the learning device according to the first embodiment, it is possible to classify the CT image into the region with the maximum probability for each pixel.
  • FIG. 9 is a flowchart showing processing performed in the first embodiment. It is assumed that a plurality of teaching data are acquired from the image storage server 3 and stored in the storage 13 . It is also assumed that the learning end condition is that the loss L0 becomes equal to or less than the threshold value.
  • the information acquisition unit 21 acquires teacher data stored in the storage 13 (step ST1). Then, the learning unit 22 inputs the learning image included in the teacher data to the neural network 40 (step ST2), and outputs the probability that the region in the learning image belongs to each of a plurality of types of classes (step ST2). ST3). Furthermore, the learning unit 22 integrates the probabilities of being in each of the plurality of types of classes based on the classes classified by the correct labels of the teacher data (step ST4). Then, the learning unit 22 determines whether or not the loss L0 is equal to or less than the threshold value (step ST5). A neural network is learned based on L0 (step ST6).
  • the information acquisition unit 21 acquires new teacher data (step ST7), returns to the process of step ST2, and repeats the processes of steps ST2 to ST5. If step ST5 is affirmative, the process is terminated.
  • the probability that a region in a learning image output from a neural network belongs to each of a plurality of types of classes is assigned to a class classified by the correct label of the teacher data. Then, the neural network is learned based on the integrated probability and the loss derived from the correct label of the teacher data. Therefore, even if the correct label of the training image is not classified into each of multiple types of classes, such training data is used to build a trained neural network that classifies regions in the image into multiple types of classes. It becomes possible to
  • the regions in the image are divided into three or more groups of liver, lung, and background. It is possible to build a trained neural network that classifies into classes of kind. Therefore, it is no longer necessary to create a large number of correct labels that include all labels of multiple types of classes, and as a result, the burden on the creator when creating teacher data can be reduced.
  • training data containing correct labels assigned to regions of one class out of a plurality of types of classes there may be training data containing correct labels assigned to regions of different classes. For example, it is possible to construct a trained neural network that classifies regions in an image into multiple types of classes.
  • the second embodiment differs from the first embodiment in the probability integration process.
  • the trained neural network constructed in the second embodiment for example, divides the lung region included in the region in the input image into the right upper lobe, the right middle lung lobe, the right lower lung lobe, the left upper lobe, and the It is classified into the five lobe regions of the left lower lobe. Therefore, in the second embodiment, teacher data shown in FIG. 10 are prepared. As shown in FIG. 10, teacher data 32 used in the second embodiment includes learning images 32A and correct labels 32B.
  • teacher data 31 including correct labels 31B labeled with the right lung and the left lung are also prepared as shown in FIG.
  • the correct labels in which labels are assigned only to the right lung and left lung shown in FIG. 5 can be easily created, a large amount of teacher data 31 can be prepared.
  • the teacher data shown in FIG. 10 imposes a heavy burden on the creator who creates the correct labels, so a large amount of teacher data 32 cannot be prepared.
  • the second embodiment builds a trained neural network by learning a neural network so that the lungs can be classified into five lobe regions even in such a situation.
  • FIG. 11 is a diagram schematically showing learning of the neural network in the second embodiment.
  • a neural network 50 shown in FIG. 11 is a convolutional neural network similar to the neural network 40 in the first embodiment, and consists of an input layer 51 , a plurality of intermediate layers 52 and an output layer 53 .
  • the neural network 50 When the learning image 31A is input to the neural network 50, the background, the right upper lobe, the right middle lung, the right lower lobe, the left upper lobe, and the left lower lobe are obtained for each pixel included in the learning image 31A.
  • the neural network 50 outputs Logits, which is a value representing the likelihood of being. For example, for background, right upper lobe, right middle lobe, right lower lobe, left upper lobe and left lower lobe, (1.0, 3.0, 2.0, 1.5, 3.1, 5.0) will be output.
  • the learning unit 22 applies a softmax activation function (Soft Max) to the Logits output from the neural network 50 to convert the Logits into probabilities p10 to p15.
  • Soft Max softmax activation function
  • the probabilities (p10, p11, p12, p13, p14, p15) (0.1, 0 . 1, 0.1, 0.1, 0.1, 0.5).
  • p10+p11+p21+p31+p14+p15 1.
  • the learning unit 22 integrates the derived probabilities based on the classes classified by the correct labels of the teacher data. For example, when the learning image 31A is input to the neural network 50, among the derived probabilities, the probabilities p11, p12, and p13 for the right upper lobe, the right middle lobe, and the right lower lobe are used as the right lung probability pt11. Integrate the left lung upper lobe and left lung lower lobe probabilities p14 and p15 into the left lung probability pt12.
  • the learning unit 22 derives the cross-entropy error as the loss L0 using the integrated probability distribution and correct label.
  • the cross-entropy error corresponds to the distance between the probability distribution and the vector represented by the correct label.
  • the correct label 31B of the input learning image 31A has labels assigned to the regions of the left lung and the right lung, the vector of the correct label for deriving the integration probability and the loss is the right lung. (0,1,0) for the left lung and (0,0,1) for the left lung.
  • the learning unit 22 learns the neural network 50 until the loss L0 satisfies the termination condition.
  • the termination conditions are the same as in the first embodiment.
  • the correct label 32B of the learning image 32A includes right upper lobe, right middle lung, right lower lung, left upper lobe, and Each left lower lobe of the lung is labeled.
  • the learning unit 22 derives the loss L0 between the probability and the correct label without integrating the probability distributions (p10, p11, p12, p13, p14, p15) as shown in FIG. study.
  • the correct label vector is (1, 0, 0, 0, 0, 0) for the background, (0, 1, 0, 0, 0, 0) for the upper lobe of the right lung, and case (0,0,1,0,0,0), for right lower lobe (0,0,0,1,0,0), for left upper lobe (0,0,0,0, 1,0) and (0,0,0,0,0,1) for the left lower lobe.
  • the trained neural network constructed by such machine learning When a CT image is input to the trained neural network constructed by such machine learning, for each pixel of the CT image, the right lung upper lobe, the right lung middle lobe, the right lung lower lobe, the left lung upper lobe, the left lung It will output the probabilities of lower lung lobe and background. Therefore, by using the trained neural network constructed by the learning device according to the second embodiment, it is possible to classify the CT image into the region with the maximum probability for each pixel.
  • the classification target is not limited to this.
  • the learning device according to the second embodiment can also be applied to construct a trained neural network that classifies the liver into eight liver segments S1 to S8. In this case, by integrating the segments S1 to S3 into the left liver lobe and the segments S4 to S8 into the right liver lobe, neural network learning can be performed in the same manner as in the second embodiment.
  • neural network learning can be performed in the same manner as in the second embodiment.
  • the liver and lung regions included in the image are classified, but the classification is not limited to this.
  • the technique of the first embodiment can also be applied to classify arbitrary parts of the human body such as the heart, brain, kidneys, bones and limbs included in the image.
  • CT images are used as images for class classification, but the present invention is not limited to this.
  • 3D images such as MRI images
  • arbitrary images such as radiation images acquired by simple imaging as learning images
  • a trained neural network that classifies regions in arbitrary images into multiple types of classes. can be constructed.
  • a trained neural network that classifies regions in a medical image into multiple types of classes is constructed, but the present invention is not limited to this.
  • the technology of the present embodiment can also be applied to classification of expression media such as photographic images, moving images, voices, and texts other than medical images into a plurality of types of classes.
  • the various processors include, in addition to the CPU, which is a general-purpose processor that executes software (programs) and functions as various processing units, circuits such as FPGAs (Field Programmable Gate Arrays), etc.
  • Programmable Logic Device PLD which is a processor whose configuration can be changed, ASIC (Application Specific Integrated Circuit) etc. Circuits, etc. are included.
  • One processing unit may be configured with one of these various processors, or a combination of two or more processors of the same or different type (for example, a combination of multiple FPGAs or a combination of a CPU and an FPGA). ). Also, a plurality of processing units may be configured by one processor.
  • one processor is configured by combining one or more CPUs and software, There is a form in which this processor functions as a plurality of processing units.
  • SoC System On Chip
  • the various processing units are configured using one or more of the above various processors as a hardware structure.
  • an electric circuit in which circuit elements such as semiconductor elements are combined can be used.

Abstract

学習装置、方法およびプログラムにおいて、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できるようにする。プロセッサは、学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得し、学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。

Description

学習装置、方法およびプログラム
 本開示は、学習装置、方法およびプログラムに関するものである。
 近年、ディープラーニング(深層学習)を用いた機械学習の技術が注目を集めている。とくに、複数の処理層が階層的に接続された多層ニューラルネットワークの1つである、畳み込みニューラルネットワーク(以下CNN(Convolutional Neural Network)とする)をディープラーニングによって学習し、学習により構築された学習済みニューラルネットワークを用いて、画像を所望の領域に分類するための各種手法が提案されている(例えば特許文献1,2参照)。
特開2019-067299号公報 特表2019-505063号公報
 一方、画像を複数種類の領域に分類するに際しては、領域の種類毎に学習済みニューラルネットワークを用意すればよいが、1つの学習済みニューラルネットワークを用いて画像を複数種類の領域に分類することも可能である。例えば、人体の胸腹部の画像を肝臓領域と肺領域とに一度に分類する場合、肝臓領域を分類するニューラルネットワークと、肺領域を分類するニューラルネットワークとを合成して、肝臓領域と肺領域とを一度に分類する学習済みニューラルネットワークを構築すればよい。このような学習済みニューラルネットワークを構築するためには、学習用画像において肝臓領域と肺領域とが特定されている正解ラベルを用意する必要がある。
 また、肺を含む画像において、肺を右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉の五葉それぞれの領域に分類する学習済みニューラルネットワークを構築したい場合もある。この場合、ニューラルネットワークを学習するためには、学習用画像において五葉のそれぞれが特定されている正解ラベルを用意する必要がある。
 ここで、肝臓領域のみを分類する学習済みニューラルネットワーク、および肺領域のみを分類する学習済みニューラルネットワークは既知であるため、肝臓領域のみが特定された正解ラベルおよび肺領域のみが特定された正解ラベルは、多数用意することが可能である。しかしながら、肝臓領域および肺領域の双方が特定された正解ラベルは、教師データを作成する作成者の負担が大きい。このため、肝臓および肺の分類を一度に学習するための教師データは、ニューラルネットワークを精度よく学習できるほど多く用意できないのが現状である。また、肺領域が特定された正解ラベルは多数用意できるが、肺の五葉のそれぞれが特定された正解ラベルも、教師データを作成する作成者の負担が大きい。このため、肺の五葉の分類を一度に学習するための教師データは、ニューラルネットワークを精度よく学習できるほど多く用意できないのが現状である。これは医用画像のみならず、写真画像、動画像、音声およびテキスト等の表現媒体を複数種類のクラスに分類する学習済みニューラルネットワークを構築する場合についても同様に生じる問題である。
 本開示は上記事情に鑑みなされたものであり、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できるようにすることを目的とする。
 本開示による学習装置は、表現媒体を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
 少なくとも1つのプロセッサを備え、
 プロセッサは、
 学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得し、
 学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、
 複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
 統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。
 「表現媒体」とは、コンピュータを使用して表現することが可能な媒体であり、静止画像、動画像、音声およびテキスト等が表現媒体の例として挙げられる。
 なお、本開示による学習装置においては、表現媒体は画像であり、
 複数種類のクラスは、画像内の背景を含む複数の領域であり、
 プロセッサは、複数種類のクラスであることの確率のうち、学習用表現媒体についての正解ラベルにより分類されるクラス以外の他のクラスの確率と背景の確率とを加算することにより、複数種類のクラスのそれぞれであることの確率を統合するものであってもよい。
 また、本開示による学習装置においては、正解ラベルにより分類されるクラスが、複数種類のクラスのうちの2以上のクラスを含み、
 プロセッサは、複数種類のクラスであることの確率のうち、正解ラベルにより分類される2以上のクラスの確率を加算することにより、複数種類のクラスのそれぞれであることの確率を統合するものであってもよい。
 また、本開示による学習装置においては、プロセッサは、正解ラベルが異なる複数の教師データを用いてニューラルネットワークを学習するものであってもよい。
 本開示による学習方法は、表現媒体を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
 学習用表現媒体および学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得し、
 学習用表現媒体をニューラルネットワークに入力して学習用表現媒体に含まれるクラスについての複数種類のクラスのそれぞれであることの確率を出力させ、
 複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
 統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。
 本開示による他の学習装置は、画像内の領域を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
 少なくとも1つのプロセッサを備え、
 プロセッサは、学習用画像および学習用画像に含まれる複数種類の領域のうちの少なくとも1つの領域についての正解ラベルからなる教師データを取得し、
 学習用画像をニューラルネットワークに入力して学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させ、
 複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
 統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。
 本開示による他の学習方法は、画像内の領域を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
 学習用画像および学習用画像に含まれる複数種類の領域のうちの少なくとも1つの領域についての正解ラベルからなる教師データを取得し、
 学習用画像をニューラルネットワークに入力して学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させ、
 複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、
 統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習する。
 なお、本開示による学習方法および他の学習方法をコンピュータに実行させるためのプログラムとして提供してもよい。
 本開示によれば、複数種類のクラスの分類を一度に学習するための多くの教師データを用意できなくても、表現媒体を複数種類のクラスに分類可能な学習済みニューラルネットワークを構築できる。
本開示の第1の実施形態による学習装置を適用した診断支援システムの概略構成を示す図 第1の実施形態による学習装置の概略構成を示す図 第1の実施形態による学習装置の機能構成図 肝臓領域の分類を学習するための教師データを示す図 肺領域の分類を学習するための教師データを示す図 第1の実施形態におけるニューラルネットワークの学習を模式的に示す図 第1の実施形態におけるニューラルネットワークの学習を模式的に示す図 第1の実施形態におけるニューラルネットワークの学習を模式的に示す図 第1の実施形態において行われる学習処理を示すフローチャート 第2の実施形態において学習に使用される教師データを示す図 第2の実施形態におけるニューラルネットワークの学習を模式的に示す図 第2の実施形態におけるニューラルネットワークの学習を模式的に示す図
 以下、図面を参照して本開示の実施形態について説明する。まず、第1の実施形態による学習装置を適用した医療情報システムの構成について説明する。図1は、医療情報システムの概略構成を示す図である。図1に示す医療情報システムは、本実施形態による学習装置を内包するコンピュータ1、撮影装置2、および画像保管サーバ3が、ネットワーク4を経由して通信可能な状態で接続されている。
 コンピュータ1は、本実施形態による学習装置を内包するものであり、第1の実施形態による学習プログラムがインストールされている。コンピュータ1は、診断を行う医師が直接操作するワークステーションあるいはパーソナルコンピュータでもよいし、それらとネットワークを介して接続されたサーバコンピュータでもよい。学習プログラムは、ネットワークに接続されたサーバコンピュータの記憶装置、あるいはネットワークストレージに、外部からアクセス可能な状態で記憶され、要求に応じて医師が使用するコンピュータ1にダウンロードされ、インストールされる。または、DVD(Digital Versatile Disc)あるいはCD-ROM(Compact Disc Read Only Memory)等の記録媒体に記録されて配布され、その記録媒体からコンピュータ1にインストールされる。
 撮影装置2は、被検体の診断対象となる部位を撮影することにより、その部位を表す3次元画像を生成する装置であり、具体的には、CT(Computed Tomography)装置、MRI(Magnetic Resonance Imaging)装置、およびPET(Positron Emission Tomography)装置等である。この撮影装置2により生成された、複数のスライス画像からなる3次元画像は画像保管サーバ3に送信され、保存される。なお、本実施形態においては、撮影装置2はCT装置であり、例えば患者の胸腹部のCT画像を生成する。
 画像保管サーバ3は、各種データを保存して管理するコンピュータであり、大容量外部記憶装置およびデータベース管理用ソフトウェアを備えている。画像保管サーバ3は、有線あるいは無線のネットワーク4を介して他の装置と通信を行い、画像データ等を送受信する。具体的には撮影装置2で生成された3次元画像の画像データを含む各種データをネットワーク経由で取得し、大容量外部記憶装置等の記録媒体に保存して管理する。なお、画像データの格納形式およびネットワーク4経由での各装置間の通信は、DICOM(Digital Imaging and Communication in Medicine)等のプロトコルに基づいている。また、画像保管サーバ3には、後述する教師データも記憶されている。
 次いで、第1の実施形態による学習装置について説明する。図2は、第1の実施形態による学習装置のハードウェア構成を説明する。図2に示すように、学習装置20は、CPU(Central Processing Unit)11、不揮発性のストレージ13、および一時記憶領域としてのメモリ16を含む。また、学習装置20は、液晶ディスプレイ等のディスプレイ14、キーボードとマウス等の入力デバイス15、およびネットワーク4に接続されるネットワークI/F(InterFace)17を含む。CPU11、ストレージ13、ディスプレイ14、入力デバイス15、メモリ16およびネットワークI/F17は、バス18に接続される。CPU11は、本開示におけるプロセッサの一例である。
 ストレージ13は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、およびフラッシュメモリ等によって実現される。記憶媒体としてのストレージ13には、学習プログラム12が記憶される。CPU11は、ストレージ13から学習プログラム12を読み出してメモリ16に展開し、展開した学習プログラム12を実行する。
 次いで、第1の実施形態による学習装置の機能的な構成を説明する。図3は、第1の実施形態による学習装置の機能的な構成を示す図である。図3に示すように学習装置20は、情報取得部21および学習部22を備える。そして、CPU11が学習プログラム12を実行することにより、CPU11は情報取得部21および学習部22として機能する。
 ここで、第1の実施形態による学習装置20は、CT画像に含まれる肺領域および肝臓領域を分類する学習済みネットワークを構築するものとする。このために、学習部22が教師データを用いてニューラルネットワークの学習を行う。なお、CT画像が表現媒体の一例であり、肺領域、肝臓領域および背景が本開示の複数種類のクラスの一例である。
 情報取得部21は、操作者による入力デバイス15からの指示により、画像保管サーバ3から教師データを取得する。なお、複数の教師データが画像保管サーバ3から取得されてストレージ13に保存されている場合、情報取得部21はストレージ13から教師データを取得する。
 図4は肝臓領域の分類を学習するための教師データを示す図である。図4に示すように、教師データ30は、学習用画像30Aおよび正解ラベル30Bを含む。学習用画像30AはCT画像を構成する複数のスライス画像のうちの1つのスライス画像である。学習用画像30Aには肝臓および肺等の領域が含まれる。正解ラベル30Bにおいては、学習用画像30Aに含まれる肝臓領域にラベル30Cが付与されている。なお、図4においてはラベルが付与されていることを斜線を付与することにより示している。学習用画像が学習用表現媒体の一例である。
 図5は肺領域の分類を学習するための教師データを示す図である。図5に示すように、教師データ31は、学習用画像31Aおよび正解ラベル31Bを含む。学習用画像31Aは学習用画像30Aと同一の断層画像であり、肝臓および肺等の領域が含まれる。正解ラベル31Bにおいては、学習用画像31Aに含まれる肺領域にラベルが付与されている。具体的には、右肺領域にラベル31Cが、左肺領域にラベル31Dがそれぞれ付与されている。
 学習部22は、教師データを用いてニューラルネットワークを学習する。図6は第1の実施形態におけるニューラルネットワークの学習を模式的に示す図である。図6に示すように、学習されるニューラルネットワーク40は例えば畳み込みニューラルネットワークであり、入力層41、複数の中間層42および出力層43からなる。中間層42は畳み込み層およびプーリング層(いずれも不図示)が交互に配置されている。ニューラルネットワーク40には学習用画像が入力され、学習用画像に含まれる各画素について、背景、肝臓、右肺および左肺のそれぞれであることの確からしさを表す値であるLogitsがニューラルネットワーク40から出力される。Logitsはニューラルネットワーク40の出力そのものであり、値が大きいほど対象の領域である可能性が高いことを表す。例えば、背景、肝臓、右肺および左肺について、(1.0,5.0,2.0,1.5)のような値のLogitsが出力される。
 学習部22は、ニューラルネットワーク40から出力されたLogitsに対してソフトマックス活性化関数(Soft Max)を適用して、Logitsを確率p0~p3に変換する。例えば、背景、肝臓、右肺および左肺について確率(p0,p1,p2,p3)=(0.1,0.8,0,0.1)のような値が得られる。(p0,p1,p2,p3)は確率であるため、p0+p1+p2+p3=1である。
 ここで、教師データ30の正解ラベル30Bには肝臓領域にラベル30Cが付与されているのみである。また、教師データ31の正解ラベル31Bには左肺および右肺のそれぞれにラベル31C,31Dが付与されているのみである。このため、学習部22は、導出された確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する。例えば、ニューラルネットワーク40に図4に示す学習用画像30Aが入力された場合、学習用画像30Aは肝臓領域の分類を学習するための教師データ30に含まれる。このため、学習部22は、導出された確率のうち、肝臓以外の背景、右肺および左肺の確率を統合して統合確率pt0を導出する。この場合、pt0=p0+p2+p3となる。したがって、確率(p0,p1,p2,p3)=(0.1,0.8,0,0.1)の場合、統合確率(pt0,p1)=(0.2,0.8)となる。
 学習部22は、統合された確率分布および正解ラベルを用いて交差エントロピー誤差(Cross Entropy)を損失L0として導出する。交差エントロピー誤差は、確率分布と正解ラベルにより表されるベクトルとの距離に相当する。ここで、入力された学習用画像の正解ラベルにおいて肝臓領域にラベルが付与されている場合、統合確率(pt0,p1)との損失L0を導出するための正解ラベルのベクトルは(0,1)となる。
 一方、図7に示すように、ニューラルネットワーク40に図4に示す学習用画像31Aが入力された場合、学習用画像31Aは右肺領域および左肺領域の分類を学習するための教師データ31に含まれる。このため、学習部22は、導出された確率のうち、肺以外すなわち背景および肝臓の確率を統合して、統合された確率pt1を導出する。この場合、pt1=p0+p1となる。したがって、確率(p0,p1,p2,p3)=(0.1,0.8,0,0.1)の場合、統合確率(pt1,p2,p3)=(0.9,0,0.1)となる。
 また、入力された学習用画像の正解ラベルが左肺および右肺の領域にラベルが付与されている場合、統合された確率分布との損失L0を導出するための正解ラベルのベクトルは右肺の場合(0,1,0)であり、左肺の場合(0,0,1)となる。
 学習部22は、損失L0が終了条件を満たすまで、ニューラルネットワーク40の学習を行う。具体的には、学習部22は、ニューラルネットワーク40に含まれる中間層42を構成する畳み込み層の数、プーリング層の数、カーネルの係数およびカーネルの大きさ等のパラメータを導出することにより、ニューラルネットワーク40の機械学習を行う。終了条件は、損失L0があらかじめ定められたしきい値以下となることであってもよく、あらかじめ定められた回数の学習を行うことであってもよい。
 なお、ニューラルネットワーク40に入力される学習用画像の正解ラベルにおいて肝臓、右肺および左肺にラベルが付与されている場合、学習部22は、図8に示すように確率(p0,p1,p2,p3)を統合することなく、正解ラベルとの損失L0を導出してニューラルネットワーク40の学習を行う。この場合、正解ラベルのベクトルは、背景の場合(1,0,0,0)、肝臓の場合(0,1,0,0)、右肺の場合(0,0,1,0)、左肺の場合(0,0,0,1)となる。
 このような機械学習により構築された学習済みニューラルネットワークは、CT画像が入力されると、CT画像の各画素について、肝臓領域、右肺領域、左肺領域および背景であることの確率を出力するようになる。したがって、第1の実施形態による学習装置によって構築された学習済みニューラルネットワークを用いることにより、各画素について最大の確率となる領域に、CT画像を分類することが可能となる。
 次いで、第1の実施形態において行われる処理について説明する。図9は第1の実施形態において行われる処理を示すフローチャートある。なお、複数の教師データは画像保管サーバ3から取得されてストレージ13に保存されているものとする。また、学習の終了条件は損失L0がしきい値以下となることであるものとする。
 まず情報取得部21がストレージ13に保存された教師データを取得する(ステップST1)。そして、学習部22が教師データに含まれる学習用画像をニューラルネットワーク40に入力し(ステップST2)、学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を出力させる(ステップST3)。さらに学習部22は、複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する(ステップST4)。そして、学習部22は、損失L0がしきい値以下であるか否かを判定し(ステップST5)、ステップST5が否定されると、統合された確率および教師データの正解ラベルから導出される損失L0に基づいて、ニューラルネットワークを学習する(ステップST6)。
 さらに、情報取得部21が新たな教師データを取得し(ステップST7)、ステップST2の処理に戻り、ステップST2~ステップST5の処理を繰り返す。ステップST5が肯定されると処理を終了する。
 このように、第1の実施形態においては、ニューラルネットワークから出力された学習用画像内の領域についての複数種類のクラスのそれぞれであることの確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合し、統合された確率および教師データの正解ラベルから導出される損失に基づいて、ニューラルネットワークを学習するようにした。このため、学習用画像の正解ラベルが複数種類のクラスのそれぞれに分類されていなくても、そのような教師データを用いて画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築することが可能となる。
 例えば、肝臓領域にのみラベルが付与された正解ラベル、あるいは肺領域にのみラベルが付与された正解ラベルを含む教師データを用いて、画像内の領域を、肝臓、肺および背景という3以上の複数種類のクラスに分類する学習済みニューラルネットワークを構築することが可能となる。このため、複数種類のクラスのラベルをすべて含む正解ラベルを多数作成する必要がなくなり、その結果、教師データを作成する際の作成者の負担を軽減できる。また、複数種類のクラスのうちの1つのクラスの領域にのみラベルが付与された正解ラベルを含む教師データしかなくても、異なるクラスの領域にラベルが付与された正解ラベルを含む教師データがあれば、画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築できる。
 次いで、本開示の第2の実施形態について説明する。なお、第2の実施形態による学習装置の構成は第1の実施形態による学習装置の構成と同一であるため、ここでは装置についての詳細な説明は省略する。第2の実施形態においては、確率の統合の処理が第1の実施形態と異なる。
 第2の実施形態において構築される学習済みニューラルネットワークは、例えば、入力された画像内の領域に含まれる肺領域を、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉の五葉の領域に分類するものである。このために、第2の実施形態においては、図10に示す教師データが用意される。図10に示すように第2の実施形態において使用される教師データ32は、学習用画像32Aおよび正解ラベル32Bを含む。正解ラベル32Bには、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉のそれぞれに、異なるラベル32C,32D,32E,32F,32Gが付与されている。また、第2の実施形態においては、図5に示すように右肺および左肺がラベルされた正解ラベル31Bを含む教師データ31も用意される。
 ここで、図5に示す右肺および左肺にのみラベルが付与された正解ラベルは容易に作成することができるため、多数の教師データ31を用意することができる。一方、図10に示す教師データは正解ラベルを作成する作成者の負担が大きいため、教師データ32はそれほど多く用意することができない。第2の実施形態は、このような状況においても、肺を五葉の領域に分類できるようにニューラルネットワークを学習して学習済みニューラルネットワークを構築するものである。
 図11は第2の実施形態におけるニューラルネットワークの学習を模式的に示す図である。なお、図11に示すニューラルネットワーク50は、第1の実施形態におけるニューラルネットワーク40と同様の畳み込みニューラルネットワークであり、入力層51、複数の中間層52および出力層53からなる。
 ニューラルネットワーク50に学習用画像31Aが入力されると、学習用画像31Aに含まれる各画素について、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉であることの確からしさを表す値であるLogitsがニューラルネットワーク50から出力される。例えば、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉について、(1.0,3.0,2.0,1.5、3.1,5.0)のような値のLogitsが出力される。
 学習部22は、ニューラルネットワーク50から出力されたLogitsに対してソフトマックス活性化関数(Soft Max)を適用して、Logitsを確率p10~p15に変換する。例えば、背景、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉について確率(p10,p11,p12,p13,p14,p15)=(0.1,0.1,0.1,0.1,0.1,0.5)のような値が得られる。なお、p10+p11+p21+p31+p14+p15=1である。
 ここで、学習用画像31Aに対応する正解ラベル31Bにおいては、左肺および右肺にのみラベルが付与されている。このため、第2の実施形態においては、学習部22は、導出された確率を、教師データの正解ラベルにより分類されるクラスに基づいて統合する。例えば、ニューラルネットワーク50に学習用画像31Aが入力された場合、導出された確率のうち、右肺上葉、右肺中葉および右肺下葉の確率p11,p12,p13を右肺の確率pt11に統合し、左肺上葉および左肺下葉の確率p14,p15を左肺の確率pt12に統合する。この場合、pt11=p11+p12+p13、pt12=p14+p15となる。したがって、確率(p10,p11,p12,p13,p14,p15)=(0.1,0.1,0.1,0.1,0.1,0.5)の場合、統合確率(p10,pt11,pt12)=(0.1,0.3,0.6)となる。
 学習部22は、統合された確率分布および正解ラベルを用いて交差エントロピー誤差を損失L0として導出する。交差エントロピー誤差は、確率分布と正解ラベルにより表されるベクトルとの距離に相当する。ここで、入力された学習用画像31Aの正解ラベル31Bには左肺および右肺の領域にラベルが付与されているため、統合確率との損失を導出するための正解ラベルのベクトルは右肺の場合(0,1,0)であり、左肺の場合(0,0,1)となる。
 学習部22は、損失L0が終了条件を満たすまで、ニューラルネットワーク50の学習を行う。終了条件は第1の実施形態と同様である。
 なお、図10に示す学習用画像32Aがニューラルネットワーク50に入力された場合、学習用画像32Aの正解ラベル32Bには、右肺上葉、右肺中葉、右肺下葉、左肺上葉および左肺下葉のそれぞれにラベルが付与されている。この場合、学習部22は、図12に示すように確率分布(p10,p11,p12,p13,p14,p15)を統合することなく、確率と正解ラベルとの損失L0を導出してニューラルネットワーク50の学習を行う。この場合、正解ラベルのベクトルは、背景の場合(1,0,0,0,0,0)、右肺上葉の場合(0,1,0,0,0,0)、右肺中葉の場合(0,0,1,0,0,0)、右肺下葉の場合(0,0,0,1,0,0)、左肺上葉の場合(0,0,0,0,1,0)、左肺下葉の場合(0,0,0,0,0,1)となる。
 このような機械学習により構築された学習済みニューラルネットワークは、CT画像が入力されると、CT画像の各画素について、右肺上葉、右肺中葉、右肺下葉、左肺上葉、左肺下葉および背景であることの確率を出力するようになる。したがって、第2の実施形態による学習装置によって構築された学習済みニューラルネットワークを用いることにより、各画素について最大の確率となる領域に、CT画像を分類することが可能となる。
 なお、上記第2の実施形態においては、肺を五葉の領域に分類しているが、分類の対象はこれに限定されるものではない。例えば、肝臓を8つの肝臓区域S1~S8に分類する学習済みニューラルネットワークを構築する場合にも第2の実施形態による学習装置を適用できる。この場合、区域S1~S3を肝左葉に統合し、区域S4~S8を肝右葉に統合することにより、上記第2の実施形態と同様にニューラルネットワークの学習を行うことができる。また、骨を、頭骨、背骨、肋骨、肩甲骨、骨盤、腕および脚のそれぞれに分類するニューラルネットワークを学習する際に、頭骨、背骨、肋骨、肩甲骨および腕を上半身骨格に統合し、骨盤および脚を下半身骨格に統合することにより、上記第2の実施形態と同様にニューラルネットワークの学習を行うことができる。
 また、上記各実施形態においては、画像に含まれる肝臓および肺の領域を分類しているが、これに限定されるものではない。肝臓および肺の他に、画像に含まれる心臓、脳、腎臓、骨および四肢等の人体の任意の部位を分類する場合にも第1の実施形態の技術を適用できる。
 また、上記実施形態においては、クラス分類をする画像としてCT画像を用いているが、これに限定されるものではない。MRI画像等の3次元画像の他、単純撮影により取得された放射線画像等、任意の画像を学習用画像として用いることにより、任意の画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築することができる。
 また、上記実施形態においては、医用画像内の領域を複数種類のクラスに分類する学習済みニューラルネットワークを構築しているが、これに限定されるものではない。医用画像以外の写真画像、動画像、音声およびテキスト等の表現媒体を複数種類のクラスに分類する場合にも,本実施形態の技術を適用することができる。
 また、上記実施形態において、例えば、情報取得部21および学習部22といった各種の処理を実行する処理部(Processing Unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(Processor)を用いることができる。上記各種のプロセッサには、上述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device :PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
 1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種または異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせまたはCPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
 複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアントおよびサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアとの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
 さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(Circuitry)を用いることができる。
   1  コンピュータ
   2  モダリティ
   3  画像保管サーバ
   4  ネットワーク
   11  CPU
   12  メモリ
   13  ストレージ
   14  ディスプレイ
   15  入力デバイス
   20  学習装置
   21  情報取得部
   30~32  教師データ
   30A~32A  学習用画像
   30B~32B  正解ラベル
   30C,31C,31D,32C,32D,32E,32F,32G  ラベル
   40,50  ニューラルネットワーク
   41,51  入力層
   42,52  中間層
   43,53  出力層
   L0  損失

Claims (6)

  1.  表現媒体を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習装置であって、
     少なくとも1つのプロセッサを備え、
     前記プロセッサは、
     学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得し、
     前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させ、
     前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合し、
     前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する学習装置。
  2.  前記表現媒体は画像であり、
     前記複数種類のクラスは、前記画像内の背景を含む複数の領域であり、
     前記プロセッサは、前記複数種類のクラスであることの確率のうち、前記学習用表現媒体についての前記正解ラベルにより分類されるクラス以外の他のクラスの確率と前記背景の確率とを加算することにより、前記複数種類のクラスのそれぞれであることの確率を統合する請求項1に記載の学習装置。
  3.  前記正解ラベルにより分類されるクラスが、前記複数種類のクラスのうちの2以上のクラスを含み、
     前記プロセッサは、前記複数種類のクラスであることの確率のうち、前記正解ラベルにより分類される前記2以上のクラスの確率を加算することにより、前記複数種類のクラスのそれぞれであることの確率を統合する請求項1に記載の学習装置。
  4.  前記プロセッサは、前記正解ラベルが異なる複数の教師データを用いて前記ニューラルネットワークを学習する請求項1から3のいずれか1項に記載の学習装置。
  5.  表現媒体を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法であって、
     学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得し、
     前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させ、
     前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合し、
     前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する学習方法。
  6.  表現媒体を3以上の複数種類のクラスに分類するニューラルネットワークを機械学習する学習方法をコンピュータに実行させる学習プログラムであって、
     学習用表現媒体および前記学習用表現媒体に含まれる複数種類のクラスのうちの少なくとも1つのクラスについての正解ラベルからなる教師データを取得する手順と、
     前記学習用表現媒体を前記ニューラルネットワークに入力して前記学習用表現媒体に含まれるクラスについての前記複数種類のクラスのそれぞれであることの確率を出力させる手順と、
     前記複数種類のクラスのそれぞれであることの確率を、前記教師データの正解ラベルにより分類されるクラスに基づいて統合する手順と、
     前記統合された確率および前記教師データの正解ラベルから導出される損失に基づいて、前記ニューラルネットワークを学習する手順とをコンピュータに実行させる学習プログラム。
PCT/JP2022/017507 2021-04-16 2022-04-11 学習装置、方法およびプログラム WO2022220221A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023514641A JPWO2022220221A1 (ja) 2021-04-16 2022-04-11
US18/483,532 US20240037927A1 (en) 2021-04-16 2023-10-10 Learning device, learning method, and learning program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021-069869 2021-04-16
JP2021069869 2021-04-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/483,532 Continuation US20240037927A1 (en) 2021-04-16 2023-10-10 Learning device, learning method, and learning program

Publications (1)

Publication Number Publication Date
WO2022220221A1 true WO2022220221A1 (ja) 2022-10-20

Family

ID=83640105

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017507 WO2022220221A1 (ja) 2021-04-16 2022-04-11 学習装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20240037927A1 (ja)
JP (1) JPWO2022220221A1 (ja)
WO (1) WO2022220221A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018503161A (ja) * 2014-11-13 2018-02-01 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. きめの細かい画像分類のためのハイパークラス拡張化および正則化深層学習
JP2019152543A (ja) * 2018-03-02 2019-09-12 株式会社東芝 目標認識装置、目標認識方法及びプログラム
JP2020525127A (ja) * 2017-06-26 2020-08-27 ザ・リサーチ・ファウンデーション・フォー・ザ・ステイト・ユニヴァーシティ・オブ・ニューヨーク 仮想膵臓撮影法のためのシステム、方法、およびコンピュータ・アクセス可能媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018503161A (ja) * 2014-11-13 2018-02-01 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. きめの細かい画像分類のためのハイパークラス拡張化および正則化深層学習
JP2020525127A (ja) * 2017-06-26 2020-08-27 ザ・リサーチ・ファウンデーション・フォー・ザ・ステイト・ユニヴァーシティ・オブ・ニューヨーク 仮想膵臓撮影法のためのシステム、方法、およびコンピュータ・アクセス可能媒体
JP2019152543A (ja) * 2018-03-02 2019-09-12 株式会社東芝 目標認識装置、目標認識方法及びプログラム

Also Published As

Publication number Publication date
US20240037927A1 (en) 2024-02-01
JPWO2022220221A1 (ja) 2022-10-20

Similar Documents

Publication Publication Date Title
US11069056B2 (en) Multi-modal computer-aided diagnosis systems and methods for prostate cancer
JP2022025095A (ja) 機械学習を用いた医用イメージングの変換のためのシステムおよび方法
Vatandoost et al. The future of healthcare facilities: how technology and medical advances may shape hospitals of the future
US11893729B2 (en) Multi-modal computer-aided diagnosis systems and methods for prostate cancer
Mazzanti et al. Imaging, health record, and artificial intelligence: hype or hope?
EP3903320A1 (en) Automated image quality control apparatus and methods
JP7203978B2 (ja) 学習装置、方法およびプログラム、関心領域抽出装置、方法およびプログラム、並びに学習済み抽出モデル
US20230206447A1 (en) Image encoding device, image encoding method, image encoding program, image decoding device, image decoding method, image decoding program, image processing device, learning device, learning method, learning program, similar image search device, similar image search method, and similar image search program
Qiu et al. Robust and accurate mandible segmentation on dental CBCT scans affected by metal artifacts using a prior shape model
JP2021140769A (ja) 医用情報処理装置、医用情報処理方法及び医用情報処理プログラム
CN112150569A (zh) 将cbct图像生成为ct图像的方法、装置及终端设备
Mamdouh et al. Converting 2D-medical image files “DICOM” into 3D-models, based on image processing, and analysing their results with python programming
Galić et al. Machine learning empowering personalized medicine: A comprehensive review of medical image analysis methods
Hong et al. Lumbar spine computed tomography to magnetic resonance imaging synthesis using generative adversarial network: visual turing test
WO2022220221A1 (ja) 学習装置、方法およびプログラム
Öztürk Convolutional neural networks for medical image processing applications
JP7321271B2 (ja) 学習用画像生成装置、方法及びプログラム、並びに学習方法、装置及びプログラム
Gasmi Deep learning and health informatics for smart monitoring and diagnosis
Hemanth Handbook of decision support systems for neurological disorders
Aggarwal et al. Privacy preserved collaborative transfer learning model with heterogeneous distributed data for brain tumor classification
JP7342120B2 (ja) 学習装置、方法およびプログラム、クラス分類装置、方法およびプログラム、並びに学習済みモデル
JP7170868B2 (ja) 学習装置、方法およびプログラム、医用画像処理装置、方法およびプログラム、並びに判別器
US20230306608A1 (en) Image processing apparatus, method and program, and learning apparatus, method and program
Sajjanar et al. Advancements in hybrid approaches for brain tumor segmentation in MRI: a comprehensive review of machine learning and deep learning techniques
WO2023276432A1 (ja) 画像検索装置、方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22788146

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514641

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22788146

Country of ref document: EP

Kind code of ref document: A1