WO2023058468A1 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- WO2023058468A1 WO2023058468A1 PCT/JP2022/035408 JP2022035408W WO2023058468A1 WO 2023058468 A1 WO2023058468 A1 WO 2023058468A1 JP 2022035408 W JP2022035408 W JP 2022035408W WO 2023058468 A1 WO2023058468 A1 WO 2023058468A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- information processing
- image
- clusters
- prognosis
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 96
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000004393 prognosis Methods 0.000 claims abstract description 148
- 230000001575 pathological effect Effects 0.000 claims abstract description 125
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 21
- 238000010801 machine learning Methods 0.000 claims description 20
- 239000003814 drug Substances 0.000 claims description 17
- 229940079593 drug Drugs 0.000 claims description 17
- 238000010186 staining Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 8
- 238000003384 imaging method Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 239000003086 colorant Substances 0.000 claims description 4
- 210000004027 cell Anatomy 0.000 description 140
- 238000012545 processing Methods 0.000 description 23
- 238000010586 diagram Methods 0.000 description 19
- 239000000975 dye Substances 0.000 description 19
- 241000282412 Homo Species 0.000 description 15
- 238000013527 convolutional neural network Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007447 staining method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007490 hematoxylin and eosin (H&E) staining Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000004083 survival effect Effects 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011532 immunohistochemical staining Methods 0.000 description 2
- 238000010827 pathological analysis Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 210000001339 epidermal cell Anatomy 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 210000002540 macrophage Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Definitions
- the present invention relates to an information processing device and an information processing method for outputting information about pathological images.
- Patent Document 1 an image of the skin of an organism is input to a model generated by applying supervised learning to a set of cell images and their types, and the input image contains A system for classifying cells into types such as dermal cells, epidermal cells, and immune cells is disclosed.
- Patent Document 1 uses supervised learning to classify cells included in images into one of a plurality of types defined by humans as teacher data (training data). Therefore, the system disclosed in Patent Document 1 has a problem that it cannot classify biological cells into types that are difficult for humans to recognize.
- Features related to cell classification, which are difficult for humans to recognize, may affect the accuracy of prognosis prediction of organisms.
- the present invention has been made in view of these points, and it is an object of the present invention to be able to divide cells into types that are difficult for humans to recognize in pathological images of living organisms.
- An information processing apparatus includes, in a pathological image of a living organism, a feature amount extracting unit that extracts a feature amount of each of a plurality of cells that constitute the organism; A cluster generating unit that generates a plurality of clusters by clustering the plurality of cells by applying learning, and an output unit that outputs information corresponding to the clusters.
- the cluster generating unit includes a first clustering unit that generates a plurality of small clusters by clustering the plurality of cells by applying the unsupervised learning, and a hierarchical clustering that clusters the plurality of small clusters. and a second clustering unit that generates a plurality of the clusters.
- the output unit may output, as the information corresponding to the cluster, information indicating the position of each of the plurality of cells and the cluster to which the cell belongs on the pathological image.
- the output unit may output, as the information corresponding to the clusters, information about the cells belonging to the clusters in association with each of the plurality of clusters.
- the feature quantity extraction unit may extract the feature quantity by applying machine learning to the pathological image.
- the information processing apparatus includes an image acquisition unit that acquires the pathological image with high resolution output by inputting the pathological image into a resolution enhancement model that outputs an input image with high resolution. and the feature quantity extraction unit may extract the feature quantity from the pathological image having a high resolution.
- the high-resolution model may be generated by applying machine learning to a low-resolution image of the area containing the cells of the organism and a high-resolution image of the area.
- the information processing apparatus further includes an image acquiring unit that acquires the color-corrected pathological image generated by performing a process of adjusting the color of the pathological image to a reference value, and extracting the feature amount.
- the unit may extract the feature amount from the pathological image whose color has been corrected.
- the reference value may be a statistic value of colors of a plurality of images captured under a plurality of imaging conditions.
- the reference value is a color obtained by staining a predetermined cell with a predetermined dye, and the image acquisition unit may match the color of the region corresponding to the predetermined cell in the pathological image with the reference value.
- the feature quantity extraction unit extracts the feature quantity of the learning cell, which is a cell shown in each of a plurality of learning target images, from each of the images, and the cluster generation unit extracts the feature quantity of the plurality of learning cells.
- a plurality of learning clusters are generated by clustering the plurality of learning cells based on the quantity, and the cluster generating unit classifies the generated plurality of learning clusters by supervised learning using pseudo-correct labels.
- a model is generated, and the cluster generation unit stores the classification model as a clustering model in a storage unit, and the cluster generation unit uses the clustering model stored in the storage unit to create a model that is reflected in the pathological image.
- a plurality of the clusters may be generated by clustering the plurality of the cells.
- the information processing device may further include a prognosis prediction unit that predicts the prognosis of the organism based on the information corresponding to the cluster.
- the prognosis prediction unit may predict the prognosis using a prognosis prediction model generated by applying machine learning to the relationship between the information corresponding to the cluster and the prognosis.
- the prognosis prediction unit may predict the prognosis when the drug is administered to the organism using the prognosis prediction model generated using the prognosis of the organism to which the drug is administered. .
- the prognosis prediction unit may predict the prognosis based on the feature amount of the cells belonging to each of the plurality of clusters.
- the prognosis prediction unit may predict the prognosis based on the feature amount of the cells belonging to each of the plurality of clusters in a predetermined tissue.
- the prognosis prediction unit may predict the prognosis based on the positions of the cells belonging to each of the plurality of clusters.
- the prognosis prediction unit predicts the prognosis based on data generated by combining a second pathological image and a mask image indicating positions of the cells belonging to each of a plurality of clusters generated from the first pathological image. can be predicted.
- the first pathological image is an image of the biological specimen stained with a first dye
- the second pathological image is an image of the specimen stained with a second dye different from the first dye
- An information processing method includes, in a pathological image of a living organism, extracting feature amounts of each of a plurality of cells that make up the living organism; generating a plurality of clusters by clustering the plurality of cells by applying unsupervised learning; and outputting information corresponding to the clusters.
- FIG. 1 is a block diagram of an information processing system according to an embodiment
- FIG. FIG. 4 is a schematic diagram for explaining processing performed on a pathological image by an image acquiring unit
- FIG. 10 is a schematic diagram for explaining how the first clustering unit generates a clustering model by unsupervised learning
- FIG. 10 is a schematic diagram for explaining a method for a second clustering unit to generate clusters by hierarchical clustering
- FIG. 3 is a schematic diagram for explaining how a prognosis prediction unit generates a prognosis prediction model.
- FIG. 3 is a schematic diagram for explaining a method of generating a prognosis prediction model for predicting prognosis using a plurality of pathological images stained with different dyes.
- 4 is a schematic diagram of information output by an output unit;
- FIG. 4 is a schematic diagram of information output by an output unit;
- FIG. 4 is a diagram showing a flowchart of an exemplary information processing method executed by the information processing apparatus according to the embodiment;
- FIG. 1 is a diagram showing an overview of an information processing system according to this embodiment.
- the information processing system includes an information processing device 1 and an information terminal 2 .
- the information processing system may include devices such as other servers and terminals.
- the information processing device 1 is a computer that clusters biological cells shown in pathological images by unsupervised learning and outputs information about the generated clusters.
- a pathological image is a captured image for the purpose of pathological diagnosis, and is generated, for example, by imaging a specimen taken from the body of a living organism with a camera.
- the information processing device 1 transmits information to the information terminal 2 and receives information from the information terminal 2 by wired communication or wireless communication.
- the information terminal 2 is a computer used by the user, such as a smartphone, tablet terminal, or personal computer.
- the user is, for example, a medical professional who uses the information processing system to analyze pathological images of patients.
- the information terminal 2 has a display unit such as a liquid crystal display and an operation unit such as a keyboard and touch panel.
- the information terminal 2 displays information received from the information processing device 1 on the display unit, and transmits information input using the operation unit to the information processing device 1 .
- the information terminal 2 transmits to the information processing apparatus 1 a pathological image of an organism such as a patient subject to pathological diagnosis according to an operation by a user (1).
- the information processing device 1 acquires the pathological image transmitted by the information terminal 2 .
- the information processing device 1 extracts feature amounts of each of the plurality of cells that make up the living organism in the acquired pathological image (2).
- the feature amount is, for example, a feature amount extracted from the pathological image by a convolutional neural network (CNN).
- CNN convolutional neural network
- the information processing device 1 generates a plurality of clusters by clustering the plurality of cells by applying unsupervised learning to the feature amounts of the plurality of cells shown in the pathological image.
- unsupervised learning is a machine learning method that is performed without humans manually giving correct data (correct labels). That is, the information processing apparatus 1 clusters the plurality of cells based on the feature amounts of the plurality of cells themselves captured in the pathological image.
- the information processing device 1 outputs information corresponding to the generated clusters.
- the information processing apparatus 1 outputs, as information corresponding to the cluster, information relating the cluster and the cell, information indicating the prognosis of the organism predicted based on the cluster, and the like to the information terminal 2, for example.
- the information processing apparatus 1 uses unsupervised learning to divide a plurality of cells appearing in a pathological image into a plurality of cells without using a learning model generated by applying supervised learning to teacher data in advance. Cluster into clusters.
- supervised learning since cells are clustered into a plurality of human-defined types, feature amounts that do not contribute to clustering into the type tend to be lost.
- the information processing apparatus 1 uses unsupervised learning to cluster cells based on the feature amounts of the plurality of cells themselves shown in the pathological image. It is possible to generate clusters that reflect features that would be lost in supervised learning.
- FIG. 2 is a block diagram of the information processing system according to this embodiment.
- arrows indicate main data flows, and there may be data flows other than those shown in FIG.
- each block does not show the configuration in units of hardware (apparatus), but the configuration in units of functions.
- the blocks shown in FIG. 2 may be implemented within a single device, or may be implemented separately within multiple devices. Data exchange between blocks may be performed via any means such as a data bus, network, or portable storage medium.
- the information processing device 1 has a storage unit 11 and a control unit 12 .
- the information processing device 1 may be configured by connecting two or more physically separated devices by wire or wirelessly. Further, the information processing device 1 may be configured by a cloud that is a collection of computer resources.
- the storage unit 11 is a storage medium including ROM (Read Only Memory), RAM (Random Access Memory), hard disk drive, and the like.
- the storage unit 11 stores programs executed by the control unit 12 in advance.
- the storage unit 11 may be provided outside the information processing device 1, and in that case, data may be exchanged with the control unit 12 via a network.
- the storage unit 11 has an image storage unit 111, a cell information storage unit 112, and a cluster information storage unit 113.
- the image storage unit 111 stores pathological images acquired by the image acquisition unit 121, which will be described later.
- the cell information storage unit 112 stores cell information related to cells extracted from pathological images.
- the cluster information storage unit 113 stores cluster information regarding clusters generated by clustering cells.
- the image storage unit 111 , the cell information storage unit 112 and the cluster information storage unit 113 may each be a storage area on the storage unit 11 or may be a database configured on the storage unit 11 .
- the control unit 12 has an image acquisition unit 121 , a feature quantity extraction unit 122 , a cluster generation unit 123 , a prognosis prediction unit 124 and an output unit 125 .
- the control unit 12 is a processor such as a CPU (Central Processing Unit), for example, and by executing a program stored in the storage unit 11, an image acquisition unit 121, a feature amount extraction unit 122, a cluster generation unit 123, a prognosis prediction It functions as a unit 124 and an output unit 125 .
- At least part of the functions of the controller 12 may be performed by an electrical circuit.
- at least part of the functions of the control unit 12 may be realized by the control unit 12 executing a program executed via a network.
- a user designates a pathological image to be pathologically diagnosed on the information terminal 2 .
- a pathological image is an image generated by staining a biological specimen such as a patient by a predetermined method (eg, hematoxylin and eosin staining) and imaging the stained specimen with a camera.
- the information terminal 2 transmits the designated pathological image to the information processing device 1 .
- the image acquisition unit 121 acquires the pathological image transmitted by the information terminal 2.
- the image acquisition unit 121 may acquire pathological images pre-stored in the storage unit 11, or may acquire pathological images pre-stored in a storage device on a network such as the Internet.
- the image acquisition unit 121 causes the image storage unit 111 to store the acquired pathological image.
- the image acquisition unit 121 acquires an image of each of a plurality of cells that constitute an organism and appear in the pathological image by performing predetermined processing on the pathological image.
- FIG. 3 is a schematic diagram for explaining the processing that the image acquiring unit 121 performs on the pathological image.
- the image acquisition unit 121 performs resolution enhancement processing on pathological images.
- the storage unit 11 stores, for example, a high-resolution model for outputting an input image with high resolution.
- the high-resolution model is, for example, a known generation such as a Generative Adversarial Network (GAN) for a low-resolution image of an area containing biological cells and a high-resolution image of the area. Generated by applying the model.
- GAN Generative Adversarial Network
- the image acquisition unit 121 acquires a high-resolution pathological image output by inputting the pathological image into the high-resolution model stored in the storage unit 11 as the high-resolution processing.
- the image acquisition unit 121 causes the image storage unit 111 to store the high-resolution pathological image, and uses it in subsequent processing.
- the information processing apparatus 1 can, in the unsupervised learning described later, identify a plurality of cells in the pathological image in a number that far exceeds the number of types that can be recognized by humans. can be divided into clusters of
- the image acquisition unit 121 also performs color correction processing on the pathological image.
- the image acquisition unit 121 acquires a color-corrected pathological image generated by, for example, performing color correction processing for matching the color of the pathological image with a reference value.
- a color reference value is, for example, a statistic value of colors of a plurality of images captured under a plurality of imaging conditions.
- the image acquisition unit 121 for example, from a plurality of images captured at a plurality of different facilities, or from a plurality of images captured using a plurality of different equipment in one facility, the average value of the color, variance Calculate statistical values such as The image acquisition unit 121 corrects the color of the pathological image so that the color of the entire pathological image matches the calculated statistical value.
- the color reference value may be, for example, a color obtained by staining a predetermined cell with a predetermined dye.
- the storage unit 11 stores, in advance, colors obtained by staining predetermined cells such as macrophages by a predetermined method such as hematoxylin-eosin staining.
- the image acquisition unit 121 corrects the color of the pathological image so that the color of the area corresponding to the predetermined cell in the pathological image matches the color of the predetermined cell stored in the storage unit 11 .
- the image acquisition unit 121 causes the image storage unit 111 to store the color-corrected pathological image, and uses it in subsequent processing.
- the information processing apparatus 1 can suppress the blurring of the clustering result due to the influence of the imaging conditions and the like by correcting the color difference between the pathological images.
- the image acquisition unit 121 may perform only one of the resolution enhancement process and the color correction process on the pathological image.
- the image acquisition unit 121 does not have to perform the resolution enhancement process and the color correction process on the pathological image.
- the image acquisition unit 121 acquires images of each of a plurality of cells appearing in the pathological image as cell images by performing segmentation processing on the pathological image.
- the storage unit 11 stores in advance an instance segmentation model for extracting cells appearing in an input image.
- the instance segmentation model is to apply known machine learning such as Mask Region-Convolutional Neural Network (Mask R-CNN) to an image showing biological cells and the position of the cells in the image.
- Mask R-CNN Mask Region-Convolutional Neural Network
- the image acquisition unit 121 extracts a plurality of cells appearing in the pathological image by inputting the pathological image into the instance segmentation model stored in the storage unit 11 .
- the image acquisition unit 121 causes the image storage unit 111 to store each of the extracted images of the plurality of cells as a cell image, and uses it in subsequent processing.
- a cell image of each of the plurality of cells is associated with the position of the cell in the pathological image.
- the image acquisition unit 121 is not limited to the specific method shown here, and may generate a cell image of each of a plurality of cells appearing in the pathological image using another method.
- the cluster generating unit 123 applies unsupervised learning to a plurality of feature quantities corresponding to the plurality of cells extracted by the feature quantity extracting unit 122 to generate a plurality of clusters by clustering a plurality of cells.
- the cluster generation unit 123 includes a first clustering unit 123a and a second clustering unit 123b.
- the first clustering unit 123a applies unsupervised learning to the feature quantity extracted by the feature quantity extraction unit 122 to generate in advance a clustering model that generates a plurality of small clusters by clustering a plurality of cells.
- FIG. 4 is a schematic diagram for explaining how the first clustering unit 123a generates a clustering model by unsupervised learning.
- the feature amount extraction unit 122 and the first clustering unit 123a extract feature amounts and Generate a clustering model that performs clustering.
- the first clustering unit 123a first initializes the parameters of a convolutional neural network that outputs feature quantities from an input image with random values or predetermined values.
- the feature amount extraction unit 122 inputs each of a plurality of learning target cell images to the convolutional neural network, thereby extracting feature amounts of cells (learning cells) appearing in the cell images.
- the first clustering unit 123a calculates the degree of similarity of feature amounts extracted by the feature amount extraction unit 122 between a plurality of cells. Similarity is, for example, Euclidean distance, Manhattan distance, cosine distance, or some other value representing the degree to which two features are similar.
- the first clustering unit 123a clusters a plurality of cells into a plurality of small clusters (learning clusters) based on the calculated similarity using, for example, the k-means method.
- the first clustering unit 123a generates a predetermined number of small clusters (for example, a number on the order of 100 to 1000 specified by the user).
- the first clustering unit 123a may cluster a plurality of cells into a plurality of small clusters using another clustering method capable of clustering based on similarity.
- the first clustering unit 123a determines whether the current clustering result of small clusters has changed significantly from the previous clustering result of small clusters (for example, the centroids of all small clusters (whether or not the amount of change is equal to or greater than a predetermined value).
- the first clustering unit 123a When it is determined that the clustering result of the current small cluster has changed significantly from the clustering result of the previous small cluster, or when the generation of the small cluster is the first time, the first clustering unit 123a generates a plurality of small clusters An ID (Identification) is assigned to each, and a classification model (neural network) is generated by known machine learning using the ID (Identification) as a pseudo-correct label.
- the classification model is configured to include a convolutional neural network for extracting features from the images described above, and machine learning updates the parameters of the convolutional neural network.
- the first clustering unit 123a inputs each of the plurality of cell images again to the convolutional neural network whose parameters have been updated, and repeats extraction of feature amounts and clustering into small clusters.
- the first clustering unit 123a ends the machine learning and uses the final classification model as the clustering model.
- the information processing apparatus 1 can obtain parameters of a convolutional neural network capable of extracting feature amounts of cells appearing in pathological images and performing stable clustering without human beings defining the feature amounts. can.
- the feature amount extraction unit 122 also extracts features that are predetermined values that represent cell characteristics such as the cell circumference length, area, unevenness degree (unevenness degree), and density. amount may be calculated.
- the first clustering unit 123a calculates a value obtained by combining a predetermined feature amount such as the cell perimeter length, area, unevenness degree (unevenness degree), density, etc., and the feature amount extracted by machine learning. is used to cluster cells into multiple small clusters.
- the information processing apparatus 1 can reflect not only feature amounts that are difficult for humans to recognize and are extracted by machine learning, but also specific feature amounts defined by humans, in clustering results.
- the feature amount extraction unit 122 inputs each of the plurality of cell images to a clustering model stored in advance in the storage unit 11, thereby obtaining a plurality of cell images.
- the feature amount of each cell is extracted, and the cell information in which the cell and the feature amount are associated is stored in the cell information storage unit 112 .
- the first clustering unit 123a generates a plurality of small clusters by clustering a plurality of cells based on the feature amount using the clustering model.
- the information processing apparatus 1 can perform feature quantity extraction and clustering on a plurality of cell images without receiving correct data from a human.
- the second clustering unit 123b generates a plurality of clusters by clustering a plurality of small clusters by performing hierarchical clustering.
- FIG. 5 is a schematic diagram for explaining how the second clustering unit 123b generates clusters by hierarchical clustering.
- the second clustering unit 123b calculates, for each of the plurality of small clusters generated by the first clustering unit 123a, a representative value (for example, the centroid) that represents the feature amounts of the plurality of cells belonging to the small cluster.
- the second clustering unit 123b extracts a set of two small clusters having the smallest distance between representative values from among the plurality of small clusters.
- the second clustering unit 123b extracts a set of two small clusters with the smallest distance between the representative values, excluding the set extracted from the plurality of small clusters.
- the second clustering unit 123b repeats extraction of small cluster sets until there are no more sets of small clusters that can be extracted.
- the second clustering unit 123b regards the extracted set of small clusters as one small cluster, calculates the representative value again, and repeats the extraction of the set of small clusters up to a predetermined number of layers.
- the second clustering unit 123b generates a plurality of groups of finally extracted small clusters as a plurality of clusters.
- the second clustering unit 123b causes the cluster information storage unit 113 to store cluster information indicating the cells belonging to each of the small clusters and the clusters and the relationship between the small clusters and the clusters (for example, a tree diagram).
- the second clustering unit 123b generates clusters 1 to k by performing two-level hierarchical clustering on small clusters 1 to j.
- the second clustering unit 123b may perform hierarchical clustering of any other number of hierarchies, not limited to two hierarchies.
- the second clustering unit 123b can hierarchically cluster the plurality of small clusters generated by the first clustering unit 123a based on the similarity of the feature amount, and group them into a small number of clusters.
- the information processing apparatus 1 generates small clusters by clustering cells using unsupervised learning, and then generates clusters by clustering the small clusters using hierarchical clustering.
- methods using supervised learning since it is necessary to provide correct data from humans, feature quantity extraction and clustering are affected by human recognition.
- the information processing apparatus 1 uses unsupervised learning that does not require correct data to be given from humans, so that it is possible to divide cells into types that are difficult for humans to recognize. It is possible to generate clusters with more features that can affect the accuracy of prognostic prediction by 124.
- the information processing apparatus 1 can reduce the prognosis prediction processing time and suppress the deterioration of prognosis prediction accuracy by reducing the number of clusters by hierarchical clustering.
- the prognosis prediction unit 124 predicts the prognosis of the organism shown in the pathological image based on the information corresponding to the clusters generated by the cluster generation unit 123. Prognosis is represented by values such as 5-year survival rate and 10-year survival rate.
- the prognosis prediction unit 124 generates in advance a prognosis prediction model that outputs a prognosis predicted from the input cluster feature amount.
- FIG. 6 is a schematic diagram for explaining how the prognosis prediction unit 124 generates a prognosis prediction model.
- the prognosis prediction unit 124 for example, acquires a plurality of images generated by imaging a plurality of organisms, and applies the clustering model stored in the storage unit 11 to each of the plurality of images. A plurality of clusters and prognosis data indicating the prognosis of the organism in the image are acquired.
- the prognosis prediction unit 124 uses a known machine such as random forest, support vector machine (SVM), deep learning, etc. for the feature amount of each of the plurality of clusters and the prognosis indicated by the prognosis data. By applying learning, a regression model that predicts prognosis is generated for the input features.
- a known machine such as random forest, support vector machine (SVM), deep learning, etc.
- the feature quantity used for prognosis prediction is, for example, the number of cells belonging to each of a plurality of clusters generated by applying the clustering model stored in the storage unit 11 to the images of each of the plurality of organisms. Includes feature quantities (eg, cell number, average cell area, density, etc.).
- the prognosis prediction unit 124 stores the generated regression model in the storage unit 11 as a prognosis prediction model.
- the prognosis prediction unit 124 may generate a prognosis prediction model that predicts prognosis based on the feature values of cells belonging to each of a plurality of clusters in a predetermined tissue (eg, tumor tissue), for example.
- the prognosis prediction unit 124 acquires, for example, information designating a region corresponding to a predetermined tissue in the image.
- the information specifying the region corresponding to the predetermined tissue is, for example, a mask image (binary image or the like) indicating the region corresponding to the predetermined tissue in the image.
- the prognosis prediction unit 124 extracts feature quantities used for prognosis prediction for cells located within a region corresponding to a specified tissue among cells belonging to each of a plurality of clusters.
- the prognosis prediction unit 124 generates a prognosis prediction model by applying known machine learning to the extracted feature amount.
- the feature amount used for prognosis prediction may include, for example, the feature amount of a predetermined tissue itself (eg, area of tumor tissue, degree of unevenness, density, etc.). Prognostic trends based on cell features may differ depending on the tissue in which the cells are located in the body of an organism.
- the information processing apparatus 1 can generate a prognosis prediction model that reflects the relationship between a cluster generated using unsupervised learning and a predetermined tissue by extracting feature amounts in a specific tissue and performing machine learning.
- the prognosis prediction unit 124 extracts, for example, feature amounts used for prognosis prediction described above for each of the plurality of clusters, and stores them in the storage unit 11. Input into a stored prognostic model.
- the prognosis prediction unit 124 uses information about a predetermined tissue as a feature amount used for prognosis prediction, for example, the information terminal 2 may receive designation of a region corresponding to the predetermined tissue in the pathological image from the user. .
- the prognosis prediction unit 124 determines the prognosis output by the prognosis prediction model as the prognosis predicted from the pathological image. In this way, the information processing apparatus 1 predicts prognosis based on clusters generated from pathological images using unsupervised learning that does not need to be given correct data from humans. It is possible to predict the prognosis reflecting the feature amount.
- the prognosis prediction unit 124 applies machine learning to the feature amount of the cluster generated from the image of the organism to which the predetermined drug is administered and the prognosis of the organism, thereby predicting the prognosis. model may be generated.
- the prognosis prediction unit 124 generates a prognosis prediction model using a plurality of clusters generated for an image of an organism to which each of a plurality of drugs is administered and the prognosis data of the organism, The prognostic prediction model is stored in the storage unit 11 in association with the drug.
- the prognosis prediction unit 124 associates the feature amounts extracted from each of the plurality of clusters with the plurality of drugs stored in the storage unit 11. Input to each of multiple prognostic prediction models.
- the prognosis prediction unit 124 determines the prognosis output by the prognosis prediction model corresponding to each of the plurality of drugs as the prognosis when the drug is administered to the organism. Prognostic trends based on cell features may vary depending on the drug administered to the organism.
- the information processing apparatus 1 extracts a feature amount for each drug administered to the living organism and performs machine learning, thereby generating an unsupervised learning from the pathological image for each drug administered to the living organism. prognosis can be predicted based on clusters.
- the prognosis prediction unit 124 may generate a prognosis prediction model that predicts prognosis using a feature amount that combines information obtained from a plurality of images stained with a plurality of different staining methods.
- FIG. 7 is a schematic diagram for explaining a method of generating a prognosis prediction model for predicting prognosis using a plurality of images stained with different dyes.
- the prognosis prediction unit 124 generates a first stained image that is an image of a living specimen stained with a first dye, and a second stained image that is an image of the specimen stained with a second dye different from the first dye. , are associated with each other. If the specimen of the organism is sliced into sufficiently thin slices, and the slice appearing in the first staining image and the slice appearing in the second staining image are close to each other, the number of cells in the first staining image is The distribution and the distribution of cells in the second stained image can be regarded as substantially the same.
- the first dye is, for example, a dye for hematoxylin and eosin staining (HE staining) that can stain the structure of cells.
- the second dye is, for example, a dye for immunohistochemical staining (IHC staining) capable of staining a specific protein.
- the second dye may comprise multiple dyes that stain multiple different proteins.
- the prognosis prediction unit 124 calculates a plurality of clusters generated by applying the clustering model stored in the storage unit 11 to each of the plurality of first stained images, and the organisms appearing in the first stained images. and prognostic data indicating the prognosis of the disease.
- the prognosis prediction unit 124 generates, for example, a mask image (binary image or the like) indicating the positions of cells belonging to each of a plurality of clusters generated from the first stained image.
- the prognosis prediction unit 124 generates tensor data by combining the mask image generated from the first stained image and the second stained image associated with the first stained image. That is, tensor data is information indicating the relationship between the positions of cells belonging to each of a plurality of clusters obtained by staining with the first dye and the protein distribution obtained by staining with the second dye. be.
- the prognosis prediction unit 124 applies known machine learning to a plurality of tensor data and the prognosis indicated by the prognosis data corresponding to the tensor data, thereby predicting the prognosis for the input tensor data. Generate a regression model to predict.
- the prognosis prediction unit 124 stores the generated regression model in the storage unit 11 as a prognosis prediction model.
- the prognosis prediction unit 124 After the cluster generation unit 123 generates a plurality of clusters based on the first pathological image, which is the first stained image to be pathologically diagnosed, the prognosis prediction unit 124 generates the first pathological image and the first pathological image. and a second pathological image, which is a second stained image of the organism captured in , is used to generate the tensor data described above.
- the prognosis prediction unit 124 predicts the prognosis by inputting the generated tensor data as a feature quantity into the prognosis prediction model stored in the storage unit 11 .
- a pathological image contains information in which different cell structures are visualized depending on the dye that stains the cells. By using a plurality of images stained with a plurality of different staining methods, the information processing apparatus 1 can predict a prognosis that reflects feature amounts generated by combining different staining methods.
- the prognosis prediction unit 124 is configured to combine the feature amount generated from one pathological image described with reference to FIG. 6 and the feature amount generated from a plurality of pathological images stained with a plurality of different staining methods described with reference to FIG.
- the prognosis may be predicted by inputting both into the prognostic model.
- the prognosis prediction unit 124 may also predict the prognosis based on other feature amounts that can be extracted from clusters generated from pathological images using unsupervised learning.
- the output unit 125 outputs information corresponding to the clusters generated by the cluster generation unit 123.
- the output unit 125 transmits information corresponding to the cluster to the information terminal 2, for example.
- the information terminal 2 displays the information corresponding to the cluster transmitted by the information processing device 1 on the display unit.
- FIG. 8A and 8B are schematic diagrams of information output by the output unit 125.
- the output unit 125 outputs, for example, information indicating the position of each of the plurality of cells and the cluster to which the cell belongs on the pathological image as information corresponding to the cluster.
- the output unit 125 outputs information indicating cell positions and clusters by labeling the positions of cells on the pathological image with cluster names.
- the output unit 125 may output information indicating cell positions and clusters, for example, by attaching a frame with a different color for each cluster to the cell positions on the pathological image. Thereby, the information processing apparatus 1 can notify the user of the relationship between the cell position and the cluster on the pathological image in an easy-to-understand manner.
- the output unit 125 outputs, for example, as information corresponding to clusters, information about cells belonging to the clusters in association with each of the plurality of clusters.
- the output unit 125 outputs the distribution of the areas of the plurality of cells belonging to each of the plurality of clusters as a box plot.
- the output unit 125 may output not only the cell area but also the perimeter length of the cell, the degree of unevenness, the density, etc. for each cluster.
- the output unit 125 may output information about cells belonging to clusters by other methods such as bar graphs and pie charts. Thereby, the information processing apparatus 1 can notify the user of the characteristics of the cells for each cluster in an easy-to-understand manner.
- the output unit 125 also outputs, for example, information indicating the prognosis predicted by the prognosis prediction unit 124 based on the cluster as information corresponding to the cluster.
- the output unit 125 outputs, for example, information representing prognosis such as 5-year survival rate.
- the output unit 125 may output information representing, for example, the name of the drug and the prognosis when the drug is administered to the organism.
- the output unit 125 may output the prognosis of a plurality of drugs in a comparable manner, for example, by causing the information terminal 2 to display the names and prognoses of the plurality of drugs simultaneously or sequentially. Thereby, the information processing apparatus 1 can notify the user of the prognosis predicted using unsupervised learning from the pathological image specified by the user.
- FIG. 9 is a diagram showing a flowchart of an exemplary information processing method executed by the information processing apparatus 1 according to this embodiment.
- a user designates a pathological image to be pathologically diagnosed on the information terminal 2 .
- the information terminal 2 transmits the designated pathological image to the information processing device 1 .
- the image acquisition unit 121 acquires the pathological image transmitted by the information terminal 2 (S11).
- the image acquisition unit 121 executes at least one of resolution enhancement processing and color correction processing on the pathological image (S12). For example, the image acquisition unit 121 acquires a high-resolution pathological image output by inputting the pathological image into the high-resolution model stored in the storage unit 11 as the high-resolution processing. The image acquisition unit 121 acquires a color-corrected pathological image generated by, for example, performing color correction processing for matching the color of the pathological image with a reference value.
- the image acquisition unit 121 acquires images of each of the plurality of cells appearing in the pathological image as cell images by performing segmentation processing on the pathological image (S13). For example, as segmentation processing, the image acquisition unit 121 extracts a plurality of cells appearing in the pathological image by inputting the pathological image into the instance segmentation model stored in the storage unit 11 .
- the first clustering unit 123a generates a plurality of small clusters by clustering a plurality of cells by inputting the plurality of cell images into a clustering model generated in advance by unsupervised learning (S14).
- the feature amount extraction unit 122 inputs each of a plurality of cell images to a convolutional neural network, thereby extracting feature amounts of cells appearing in the cell images.
- the first clustering unit 123a generates a plurality of small clusters by clustering a plurality of cells using, for example, the k-means method.
- the first clustering unit 123a updates the parameters of the convolutional neural network for extracting feature amounts by applying machine learning to the classification model with the generated small cluster as the correct label.
- the first clustering unit 123a stores the final classification model in the storage unit 11 as a clustering model.
- the second clustering unit 123b generates a plurality of clusters by clustering a plurality of small clusters by performing hierarchical clustering (S15).
- the second clustering unit 123b extracts a set of two small clusters having the smallest distance between the representative values of the feature amounts, and hierarchically repeats this to generate a plurality of clusters.
- the second clustering unit 123b causes the cluster information storage unit 113 to store cluster information indicating small clusters, cells belonging to the clusters, and relationships between the small clusters and the clusters.
- the prognosis prediction unit 124 predicts the prognosis of the organism shown in the pathological image based on the information corresponding to the clusters generated by the cluster generation unit 123 (S16).
- the prognosis prediction unit 124 extracts feature quantities used for prognosis prediction from a plurality of clusters generated by the cluster generation unit 123 and inputs them to the prognosis prediction model stored in the storage unit 11 .
- the prognosis prediction unit 124 determines the prognosis output by the prognosis prediction model as the prognosis predicted from the pathological image.
- the output unit 125 outputs information corresponding to the clusters generated by the cluster generation unit 123 (S17).
- the output unit 125 outputs to the information terminal 2, for example, information that associates the cluster with the cell or information that indicates the prognosis predicted by the prognosis prediction unit 124 based on the cluster, as information corresponding to the cluster.
- the information processing device 1 clusters a plurality of cells appearing in a pathological image into a plurality of clusters by unsupervised learning.
- supervised learning since cells are classified into a plurality of types defined by humans, feature amounts that do not contribute to the classification into the corresponding types tend to be lost.
- the information processing apparatus 1 uses unsupervised learning that does not require correct data to be given from a human, and clusters cells based on the feature amounts of the plurality of cells themselves shown in the pathological image. It is possible to divide cells into types that are difficult to do, and to generate clusters that reflect features that would be lost in supervised learning.
- the information processing apparatus 1 predicts prognosis based on clusters generated from pathological images using unsupervised learning, it is possible to predict prognosis that reflects feature amounts that are difficult for humans to recognize.
- the processor of the information processing device 1 is the subject of each step (process) included in the information processing method shown in FIG. That is, the processor of the information processing apparatus 1 reads a program for executing the information processing method shown in FIG. 9 from the storage unit 11 and executes the information processing method shown in FIG. 9 by executing the program. Some steps included in the information processing method shown in FIG. 9 may be omitted, the order between steps may be changed, and a plurality of steps may be performed in parallel.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本発明の一実施形態に係る情報処理装置1は、生物の病理画像において、生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部122と、複数の特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部123と、クラスタに対応する情報を出力する出力部125と、を有する。情報処理装置1は、クラスタに対応する情報に基づいて、生物の予後を予測する予後予測部124をさらに有してもよい。
Description
本発明は、病理画像に関する情報を出力するための情報処理装置及び情報処理方法に関する。
特許文献1には、細胞の画像とその種別とのセットに対して教師あり学習を適用することによって生成されたモデルに、生物の皮膚の画像を入力し、入力された画像に含まれている細胞を真皮細胞、表皮細胞、免疫細胞等の種別に分類するシステムが開示されている。
特許文献1に開示されたシステムは、教師あり学習により、画像に含まれている細胞を、教師データ(訓練データ)として人間が定義した複数の種別のいずれかに分類する。そのため、特許文献1に開示されたシステムは、人間が認識することの難しい種別に生物の細胞を分類することができないという問題があった。人間が認識することの難しい細胞の分類に関連する特徴量は、生物の予後予測の精度に影響を与える可能性がある。
そこで、本発明はこれらの点に鑑みてなされたものであり、生物の病理画像において、人間が認識することの難しい種別に細胞を分けられるようにすることを目的とする。
本発明の第1の態様の情報処理装置は、生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部と、複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部と、前記クラスタに対応する情報を出力する出力部と、を有する。
前記クラスタ生成部は、前記教師なし学習を適用することによって複数の前記細胞をクラスタリングした複数の小クラスタを生成する第1クラスタリング部と、階層型クラスタリングを行うことによって複数の前記小クラスタをクラスタリングした複数の前記クラスタを生成する第2クラスタリング部と、を含んでもよい。
前記出力部は、前記クラスタに対応する情報として、前記病理画像上に、複数の前記細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力してもよい。
前記出力部は、前記クラスタに対応する情報として、複数の前記クラスタそれぞれに関連付けて、当該クラスタに属する前記細胞に関する情報を出力してもよい。
前記特徴量抽出部は、前記病理画像に対して機械学習を適用することによって、前記特徴量を抽出してもよい。
前記情報処理装置は、入力された画像を高解像度化して出力する高解像度化用モデルに、前記病理画像を入力することによって出力された、高解像度化された前記病理画像を取得する画像取得部をさらに有し、前記特徴量抽出部は、高解像度化された前記病理画像において前記特徴量を抽出してもよい。
前記高解像度化用モデルは、前記生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して機械学習を適用することによって生成されてもよい。
前記情報処理装置は、前記病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された前記病理画像を取得する画像取得部をさらに有し、前記特徴量抽出部は、色彩が補正された前記病理画像において前記特徴量を抽出してもよい。
前記基準値は、複数の撮像条件において撮像された複数の画像の色彩の統計値であってもよい。
前記基準値は、所定の細胞を所定の色素で染色した色であり、前記画像取得部は、前記病理画像における当該所定の細胞に対応する領域の色彩を、前記基準値に合わせてもよい。
前記特徴量抽出部は、学習対象の複数の画像それぞれから当該画像に写っている細胞である学習用細胞の前記特徴量を抽出し、前記クラスタ生成部は、複数の前記学習用細胞の前記特徴量に基づいて複数の前記学習用細胞をクラスタリングすることによって、複数の学習用クラスタを生成し、前記クラスタ生成部は、生成した複数の前記学習用クラスタを疑似正解ラベルとした教師あり学習によって分類モデルを生成し、前記クラスタ生成部は、前記分類モデルを、クラスタリングモデルとして記憶部に記憶させ、前記クラスタ生成部は、前記記憶部に記憶された前記クラスタリングモデルを用いて、前記病理画像に写っている複数の前記細胞をクラスタリングした複数の前記クラスタを生成してもよい。
前記情報処理装置は、前記クラスタに対応する情報に基づいて、前記生物の予後を予測する予後予測部をさらに有してもよい。
前記予後予測部は、前記クラスタに対応する情報と、前記予後と、の関係に対して機械学習を適用することによって生成された予後予測用モデルを用いて、前記予後を予測してもよい。
前記予後予測部は、薬剤が投与された前記生物の前記予後を用いて生成された前記予後予測用モデルを用いて、前記生物に前記薬剤が投与された場合の前記予後を予測してもよい。
前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測してもよい。
前記予後予測部は、所定の組織における複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測してもよい。
前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の位置に基づいて、前記予後を予測してもよい。
前記予後予測部は、第2病理画像と、第1病理画像から生成した複数のクラスタそれぞれに属する前記細胞の位置を示すマスク画像と、を結合することによって生成されるデータに基づいて、前記予後を予測してもよい。
前記第1病理画像は第1色素で染色された前記生物の検体の画像であり、前記第2病理画像は前記第1色素とは異なる第2色素で染色された当該検体の画像であってもよい。
本発明の第2の態様の情報処理方法は、プロセッサが実行する、生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出するステップと、複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するステップと、前記クラスタに対応する情報を出力するステップと、を有する。
本発明によれば、生物の病理画像において、人間が認識することの難しい種別に細胞を分けられるという効果を奏する。
[情報処理システムの概要]
図1は、本実施形態に係る情報処理システムの概要を示す図である。情報処理システムは、情報処理装置1と、情報端末2と、を備える。情報処理システムは、その他のサーバ、端末等の機器を含んでもよい。
図1は、本実施形態に係る情報処理システムの概要を示す図である。情報処理システムは、情報処理装置1と、情報端末2と、を備える。情報処理システムは、その他のサーバ、端末等の機器を含んでもよい。
情報処理装置1は、病理画像に写っている生物の細胞を教師なし学習によってクラスタリングし、生成されたクラスタに関する情報を出力するコンピュータである。病理画像は、病理診断を目的とした撮像画像であり、例えば生物の体から採取した検体をカメラによって撮像することによって生成される。情報処理装置1は、有線通信又は無線通信によって、情報端末2に情報を送信し、情報端末2から情報を受信する。
情報端末2は、ユーザが利用するコンピュータであり、例えばスマートフォン、タブレット端末又はパーソナルコンピュータである。ユーザは、例えば、情報処理システムを利用して患者の病理画像を分析する医療従事者である。情報端末2は、液晶ディスプレイ等の表示部と、キーボードやタッチパネル等の操作部とを有する。情報端末2は、情報処理装置1から受信した情報を表示部に表示させ、操作部を用いて入力された情報を情報処理装置1に送信する。
本実施形態に係る情報処理システムが実行する処理の概要を以下に説明する。情報端末2は、ユーザによる操作に応じて、病理診断の対象とする患者等の生物の病理画像を情報処理装置1に送信する(1)。情報処理装置1は、情報端末2が送信した病理画像を取得する。
情報処理装置1は、取得した病理画像において、生物を構成する複数の細胞それぞれの特徴量を抽出する(2)。特徴量は、例えば、病理画像から畳み込みニューラルネットワーク(CNN)によって抽出された特徴量である。
情報処理装置1は、病理画像に写っている複数の細胞の特徴量に対して教師なし学習を適用することによって、当該複数の細胞をクラスタリングした複数のクラスタを生成する。本願において、教師なし学習とは、人間が手動で正解データ(正解ラベル)を与えることなく行われる機械学習方法である。すなわち、情報処理装置1は、病理画像に写っている複数の細胞自体の特徴量に基づいて当該複数の細胞をクラスタリングする。
情報処理装置1は、生成した複数のクラスタに対応する情報を出力する。情報処理装置1は、例えば、クラスタに対応する情報として、クラスタと細胞とを関連付けた情報、クラスタに基づいて予測した生物の予後を示す情報等を、情報端末2に出力する。
このように、情報処理装置1は、予め教師データに対して教師あり学習を適用することによって生成された学習モデルを用いることなく、教師なし学習により病理画像に写っている複数の細胞を複数のクラスタにクラスタリングする。教師あり学習では、人間が定義した複数の種別に細胞をクラスタリングするため、当該種別へのクラスタリングに寄与しない特徴量が失われてしまう傾向がある。一方、情報処理装置1は、教師なし学習を用いて、病理画像に写っている複数の細胞自体の特徴量に基づいて細胞をクラスタリングするため、人間が認識することの難しい種別にも細胞を分けることができ、教師あり学習では失われてしまうような特徴量を反映したクラスタを生成できる。
[情報処理システムの構成]
図2は、本実施形態に係る情報処理システムのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示したもの以外のデータの流れがあってもよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
図2は、本実施形態に係る情報処理システムのブロック図である。図2において、矢印は主なデータの流れを示しており、図2に示したもの以外のデータの流れがあってもよい。図2において、各ブロックはハードウェア(装置)単位の構成ではなく、機能単位の構成を示している。そのため、図2に示すブロックは単一の装置内に実装されてもよく、あるいは複数の装置内に分かれて実装されてもよい。ブロック間のデータの授受は、データバス、ネットワーク、可搬記憶媒体等、任意の手段を介して行われてよい。
情報処理装置1は、記憶部11と、制御部12とを有する。情報処理装置1は、2つ以上の物理的に分離した装置が有線又は無線で接続されることにより構成されてもよい。また、情報処理装置1は、コンピュータ資源の集合であるクラウドによって構成されてもよい。
記憶部11は、ROM(Read Only Memory)、RAM(Random Access Memory)、ハードディスクドライブ等を含む記憶媒体である。記憶部11は、制御部12が実行するプログラムを予め記憶している。記憶部11は、情報処理装置1の外部に設けられてもよく、その場合にネットワークを介して制御部12との間でデータの授受を行ってもよい。
記憶部11は、画像記憶部111と、細胞情報記憶部112と、クラスタ情報記憶部113と、を有する。画像記憶部111は、後述の画像取得部121が取得した病理画像を記憶する。細胞情報記憶部112は、病理画像から抽出した細胞に関する細胞情報を記憶する。クラスタ情報記憶部113は、細胞をクラスタリングすることによって生成されたクラスタに関するクラスタ情報を記憶する。画像記憶部111、細胞情報記憶部112及びクラスタ情報記憶部113は、それぞれ記憶部11上の記憶領域であってもよく、あるいは記憶部11上で構成されたデータベースであってもよい。
制御部12は、画像取得部121と、特徴量抽出部122と、クラスタ生成部123と、予後予測部124と、出力部125と、を有する。制御部12は、例えばCPU(Central Processing Unit)等のプロセッサであり、記憶部11に記憶されたプログラムを実行することにより、画像取得部121、特徴量抽出部122、クラスタ生成部123、予後予測部124及び出力部125として機能する。制御部12の機能の少なくとも一部は電気回路によって実行されてもよい。また、制御部12の機能の少なくとも一部は、制御部12がネットワーク経由で実行されるプログラムを実行することによって実現されてもよい。
以下、情報処理装置1が実行する処理について詳細に説明する。ユーザは、情報端末2において、病理診断の対象とする病理画像を指定する。病理画像は、患者等の生物の検体を所定の方法(例えば、ヘマトキシリン・エオジン染色)で染色し、染色された検体をカメラで撮像することによって生成された画像である。情報端末2は、指定された病理画像を、情報処理装置1に送信する。
情報処理装置1において、画像取得部121は、情報端末2が送信した病理画像を取得する。また、画像取得部121は、記憶部11に予め記憶された病理画像を取得し、又はインターネット等のネットワーク上の記憶装置に予め記憶された病理画像を取得してもよい。画像取得部121は、取得した病理画像を、画像記憶部111に記憶させる。
画像取得部121は、病理画像に対して所定の処理を行うことによって、病理画像に写っている、生物を構成する複数の細胞それぞれの画像を取得する。図3は、画像取得部121が病理画像に対して行う処理を説明するための模式図である。
画像取得部121は、病理画像に対して、高解像度化処理を行う。記憶部11には、例えば、入力された画像を高解像度化して出力する高解像度化用モデルが予め記憶されている。高解像度化用モデルは、例えば、生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して敵対的生成ネットワーク(Generative Adversarial Network; GAN)等の既知の生成モデルを適用することによって生成される。
画像取得部121は、例えば、高解像度化処理として、記憶部11に記憶されている高解像度化用モデルに病理画像を入力することによって出力された、高解像度化された病理画像を取得する。画像取得部121は、高解像度化された病理画像を画像記憶部111に記憶させ、以降の処理で用いる。これにより、情報処理装置1は、低解像度の病理画像であっても、後述の教師なし学習において、病理画像に写っている複数の細胞を、人間が認識することのできる種別をはるかに上回る数のクラスタに分けることを可能にできる。
また、画像取得部121は、病理画像に対して、色彩補正処理を行う。画像取得部121は、例えば、色彩補正処理として、病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された病理画像を取得する。
色彩の基準値は、例えば、複数の撮像条件において撮像された複数の画像の色彩の統計値である。この場合に、画像取得部121は、例えば、異なる複数の施設において撮像された複数の画像、又は1つの施設において異なる複数の機材を用いて撮像された複数の画像から、色彩の平均値、分散等の統計値を算出する。画像取得部121は、病理画像全体の色彩を、算出した統計値に合わせるように、病理画像の色彩を補正する。
また、色彩の基準値は、例えば、所定の細胞を所定の色素で染色した色であってもよい。この場合に、記憶部11は、例えば、マクロファージ等の所定の細胞を、ヘマトキシリン・エオジン染色等の所定の方法で染色した場合の色彩を予め記憶している。画像取得部121は、病理画像における当該所定の細胞に対応する領域の色彩を、記憶部11に記憶された当該所定の細胞の色彩に合わせるように、病理画像の色彩を補正する。
画像取得部121は、色彩が補正された病理画像を画像記憶部111に記憶させ、以降の処理で用いる。従来、病理画像の撮像条件によって色彩の傾向が異なることにより、病理画像を正しく分析できない場合があった。それに対して、情報処理装置1は、病理画像間の色彩の差異を補正することにより、撮像条件等の影響によるクラスタリング結果のぶれを抑制できる。
画像取得部121は、病理画像に対して、高解像度化処理及び色彩補正処理のうち一方のみを行ってもよい。画像取得部121は、病理画像に対して、高解像度化処理及び色彩補正処理を行わなくてもよい。
画像取得部121は、病理画像に対してセグメンテーション処理を行うことによって、病理画像に写っている複数の細胞それぞれの画像を、細胞画像として取得する。記憶部11には、例えば、入力された画像に写っている細胞を抽出するインスタンスセグメンテーションモデルが予め記憶されている。インスタンスセグメンテーションモデルは、例えば、生物の細胞が写っている画像と、当該画像における細胞の位置と、に対してMask Region-Convolutional Neural Network(Mask R-CNN)等の既知の機械学習を適用することによって生成される。
画像取得部121は、例えば、セグメンテーション処理として、記憶部11に記憶されているインスタンスセグメンテーションモデルに病理画像を入力することによって、病理画像に写っている複数の細胞を抽出する。画像取得部121は、抽出した複数の細胞それぞれの画像を、細胞画像として画像記憶部111に記憶させ、以降の処理で用いる。複数の細胞それぞれの細胞画像は、病理画像中の当該細胞の位置に関連付けられている。画像取得部121は、ここに示した具体的な方法に限られず、その他の方法で病理画像に写っている複数の細胞それぞれの細胞画像を生成してもよい。
クラスタ生成部123は、特徴量抽出部122が抽出する複数の細胞に対応する複数の特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数のクラスタを生成する。
クラスタ生成部123が複数のクラスタを生成する方法を以下に説明する。クラスタ生成部123は、第1クラスタリング部123aと、第2クラスタリング部123bと、を含む。まず第1クラスタリング部123aは、特徴量抽出部122が抽出する特徴量に対して教師なし学習を適用することによって、複数の細胞をクラスタリングした複数の小クラスタを生成するクラスタリングモデルを予め生成する。
図4は、第1クラスタリング部123aが教師なし学習によってクラスタリングモデルを生成する方法を説明するための模式図である。特徴量抽出部122及び第1クラスタリング部123aは、例えば、以下に説明する方法で、複数の細胞画像に対して、既知の機械学習である畳み込みニューラルネットワークを適用することによって、特徴量の抽出及びクラスタリングを行うクラスタリングモデルを生成する。
第1クラスタリング部123aは、まず入力された画像から特徴量を出力する畳み込みニューラルネットワークのパラメータを、無作為な値又は所定の値で初期化する。特徴量抽出部122は、畳み込みニューラルネットワークに学習対象の複数の細胞画像それぞれを入力することによって、当該細胞画像に写っている細胞(学習用細胞)の特徴量を抽出する。
第1クラスタリング部123aは、複数の細胞間の、特徴量抽出部122が抽出した特徴量の類似度を算出する。類似度は、例えば、ユークリッド距離、マンハッタン距離、コサイン距離、又は2つの特徴量が類似する程度を表すその他の値である。第1クラスタリング部123aは、例えば、k-means法を用いて、算出した類似度に基づいて複数の細胞を複数の小クラスタ(学習用クラスタ)にクラスタリングする。ここで第1クラスタリング部123aは、所定の数(例えば、ユーザによって指定された100~1000のオーダーの数)の小クラスタを生成する。第1クラスタリング部123aは、類似度に基づいてクラスタリング可能なその他のクラスタリング方法を用いて、複数の細胞を複数の小クラスタにクラスタリングしてもよい。
小クラスタの生成が2回目以降の場合、第1クラスタリング部123aは、今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化したか否か(例えば、全ての小クラスタの重心の変化量が所定値以上であるか否か)を判定する。
今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化したと判定した場合、又は小クラスタの生成が1回目の場合に、第1クラスタリング部123aは、生成された複数の小クラスタそれぞれにID(Identification)を割り振り、それを疑似正解ラベルとした既知の機械学習によって分類モデル(ニューラルネットワーク)を生成する。分類モデルは、上述の画像から特徴量を抽出するための畳み込みニューラルネットワークを含むように構成されており、機械学習によって当該畳み込みニューラルネットワークのパラメータが更新される。第1クラスタリング部123aは、パラメータが更新された畳み込みニューラルネットワークに再び複数の細胞画像それぞれを入力し、特徴量の抽出及び小クラスタへのクラスタリングを繰り返す。
今回の小クラスタのクラスタリング結果が前回の小クラスタのクラスタリング結果から大きく変化していないと判定した場合に、第1クラスタリング部123aは、機械学習を終了し、最終的な分類モデルを、クラスタリングモデルとして記憶部11に記憶させる。これにより、情報処理装置1は、人間が特徴量を定義しなくとも、病理画像に写っている細胞の特徴量を抽出し、安定したクラスタリングを行うことができる畳み込みニューラルネットワークのパラメータを得ることができる。
また、特徴量抽出部122は、機械学習によって抽出した特徴量に加えて、細胞の外周長さ、面積、凹凸の程度(凹凸度)、密度等、細胞の特性を表す所定の値である特徴量を算出してもよい。この場合に、第1クラスタリング部123aは、細胞の外周長さ、面積、凹凸の程度(凹凸度)、密度等の所定の特徴量と、機械学習によって抽出した特徴量と、を組み合わせた値を用いて、複数の細胞を複数の小クラスタにクラスタリングする。これにより、情報処理装置1は、機械学習によって抽出される人間が認識することの難しい特徴量だけでなく、人間が定義した特定の特徴量を、クラスタリング結果に反映できる。
画像取得部121が病理画像から複数の細胞画像を生成した後に、特徴量抽出部122は、記憶部11に予め記憶されたクラスタリングモデルに、当該複数の細胞画像それぞれを入力することによって、複数の細胞それぞれの特徴量を抽出し、細胞と特徴量とを関連付けた細胞情報を、細胞情報記憶部112に記憶させる。さらに第1クラスタリング部123aは、当該クラスタリングモデルにより、当該特徴量に基づいて複数の細胞をクラスタリングした複数の小クラスタを生成する。これにより、情報処理装置1は、人間から正解データが与えられることなく、複数の細胞画像に対して特徴量抽出及びクラスタリングをすることができる。
次に第2クラスタリング部123bは、階層型クラスタリングを行うことによって複数の小クラスタをクラスタリングした複数のクラスタを生成する。図5は、第2クラスタリング部123bが階層型クラスタリングによってクラスタを生成する方法を説明するための模式図である。
第2クラスタリング部123bは、第1クラスタリング部123aが生成した複数の小クラスタそれぞれに対して、当該小クラスタに属する複数の細胞の特徴量を代表する代表値(例えば重心)を算出する。第2クラスタリング部123bは、複数の小クラスタのうち、代表値間の距離が最も小さい2つの小クラスタの組を抽出する。次に第2クラスタリング部123bは、複数の小クラスタから抽出した組を除いて、代表値間の距離が最も小さい2つの小クラスタの組を抽出する。第2クラスタリング部123bは、抽出できる小クラスタの組がなくなるまで、小クラスタの組の抽出を繰り返す。
さらに第2クラスタリング部123bは、抽出した小クラスタの組を1つの小クラスタとみなして、再び代表値を算出し、小クラスタの組を抽出することを所定の階層数まで繰り返す。第2クラスタリング部123bは、最終的に抽出した小クラスタの複数の組を、複数のクラスタとして生成する。第2クラスタリング部123bは、小クラスタ及びクラスタそれぞれに属する細胞と、小クラスタとクラスタとの関係(例えば、樹形図)と、を示すクラスタ情報を、クラスタ情報記憶部113に記憶させる。
図5の例では、第2クラスタリング部123bは、小クラスタ1~jに対して、2階層の階層型クラスタリングを行うことによって、クラスタ1~kを生成している。第2クラスタリング部123bは、2階層に限らず、その他の階層数の階層型クラスタリングを行ってもよい。
これにより、第2クラスタリング部123bは、第1クラスタリング部123aが生成した複数の小クラスタを、特徴量の類似性に基づいて階層的にクラスタリングし、少ない数のクラスタにまとめることができる。
このように、情報処理装置1は、教師なし学習を用いて細胞をクラスタリングすることにより小クラスタを生成した後、階層型クラスタリングを用いて小クラスタをクラスタリングすることによりクラスタを生成する。教師あり学習を用いる手法では、人間から正解データが与えられる必要があるため、特徴量抽出及びクラスタリングが人間の認識に影響されていた。それに対して、情報処理装置1は、人間から正解データが与えられる必要のない教師なし学習を用いることにより、人間が認識することの難しい種別にも細胞を分けることができ、後述の予後予測部124による予後予測の精度に影響し得るより多くの特徴量を残したクラスタを生成できる。
一方、教師なし学習によって生成された多数(100~1000のオーダー)のクラスタをそのまま用いて予後予測を行うと、予後予測の処理時間が増加するとともに、過学習が発生して予後予測の精度が低下する場合がある。これに対して情報処理装置1は、階層型クラスタリングによってクラスタの数を減らすことによって、予後予測の処理時間を低減するとともに、予後予測の精度の低下を抑制できる。
予後予測部124は、クラスタ生成部123が生成したクラスタに対応する情報に基づいて、病理画像に写っている生物の予後を予測する。予後は、例えば、5年生存率、10年生存率等の値によって表される。
予後予測部124が生物の予後を予測する方法を以下に説明する。予後予測部124は、入力されたクラスタの特徴量から予測される予後を出力する予後予測用モデルを予め生成する。
図6は、予後予測部124が予後予測用モデルを生成する方法を説明するための模式図である。予後予測部124は、例えば、複数の生物を撮像することによって生成された複数の画像を取得し、当該複数の画像それぞれに対して記憶部11に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタと、当該画像に写っている生物の予後を示す予後データと、を取得する。
予後予測部124は、例えば、当該複数のクラスタそれぞれの特徴量と、当該予後データが示す予後と、に対してランダムフォレスト、サポートベクターマシン(Support Vector Machine; SVM)、ディープラーニング等の既知の機械学習を適用することによって、入力された特徴量に対して予後を予測する回帰モデルを生成する。
予後予測に用いる特徴量は、例えば、複数の生物それぞれの画像に対して記憶部11に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタそれぞれにおける、当該クラスタに属する複数の細胞の特徴量(例えば、細胞数、平均細胞面積、密度等)を含む。予後予測部124は、生成した回帰モデルを、予後予測用モデルとして記憶部11に記憶させる。
また、予後予測部124は、例えば、所定の組織(例えば、腫瘍組織)における複数のクラスタそれぞれに属する細胞の特徴量に基づいて予後を予測する予後予測用モデルを生成してもよい。この場合に、予後予測部124は、例えば、画像中の所定の組織に対応する領域を指定する情報を取得する。所定の組織に対応する領域を指定する情報は、例えば、画像中の所定の組織に対応する領域を示すマスク画像(2値画像等)である。
予後予測部124は、複数のクラスタそれぞれに属する細胞のうち、指定された組織に対応する領域内に位置する細胞に対して予後予測に用いる特徴量を抽出する。予後予測部124は、抽出した特徴量に対して既知の機械学習を適用することによって、予後予測用モデルを生成する。また、予後予測に用いる特徴量は、例えば、所定の組織自体の特徴量(例えば、腫瘍組織の面積、凹凸の程度、密度等)を含んでもよい。細胞の特徴量に基づく予後予測の傾向は、生物の体において細胞が位置する組織によって異なる場合がある。情報処理装置1は、特定の組織における特徴量を抽出して機械学習をすることにより、教師なし学習を用いて生成されたクラスタと所定の組織との関係を反映した予後予測モデルを生成できる。
クラスタ生成部123が病理画像に基づいて複数のクラスタを生成した後に、予後予測部124は、例えば、当該複数のクラスタそれぞれに対して上述の予後予測に用いる特徴量を抽出し、記憶部11に記憶されている予後予測用モデルに入力する。予後予測部124は、予後予測に用いる特徴量として所定の組織に関する情報を用いる場合に、例えば、情報端末2において、ユーザから病理画像中の所定の組織に対応する領域の指定を受け付けてもよい。
予後予測部124は、予後予測用モデルが出力した予後を、病理画像から予測された予後として決定する。このように、情報処理装置1は、病理画像から、人間から正解データが与えられる必要のない教師なし学習を用いて生成されたクラスタに基づいて予後を予測するため、人間が認識することの難しい特徴量を反映した予後を予測できる。
また、予後予測部124は、例えば、所定の薬剤が投与された生物の画像から生成されたクラスタの特徴量と、当該生物の予後と、に対して機械学習を適用することによって、予後予測用モデルを生成してもよい。この場合に、予後予測部124は、複数の薬剤それぞれが投与された生物の画像に対して生成された複数のクラスタと、当該生物の予後データと、を用いて予後予測用モデルを生成し、当該薬剤と関連付けて予後予測用モデルを記憶部11に記憶させる。
クラスタ生成部123が病理画像に基づいて複数のクラスタを生成した後に、予後予測部124は、当該複数のクラスタそれぞれから抽出した特徴量を、記憶部11に記憶されている複数の薬剤に対応する複数の予後予測用モデルそれぞれに入力する。予後予測部124は、複数の薬剤それぞれに対応する予後予測用モデルが出力した予後を、生物に当該薬剤が投与された場合の予後として決定する。細胞の特徴量に基づく予後予測の傾向は、生物に投与された薬剤によって異なる場合がある。これにより、情報処理装置1は、生物に投与された薬剤ごとに特徴量を抽出して機械学習をすることにより、生物に投与される薬剤ごとに、病理画像から教師なし学習を用いて生成されたクラスタに基づいた予後を予測できる。
また、予後予測部124は、異なる複数の染色方法で染色された複数の画像から得られた情報を組み合わせた特徴量を用いて予後を予測する予後予測用モデルを生成してもよい。図7は、異なる色素で染色された複数の画像を用いて予後を予測する予後予測用モデルを生成する方法を説明するための模式図である。
予後予測部124は、第1色素で染色された生物の検体の画像である第1染色画像と、第1色素とは異なる第2色素で染色された当該検体の画像である第2染色画像と、を関連付けて取得する。生物の検体が十分に薄い薄片にスライスされており、第1染色画像に写っている薄片と、第2染色画像に写っている薄片と、が近接していれば、第1染色画像における細胞の分布と第2染色画像における細胞の分布とはほぼ同一とみなせる。
第1色素は、例えば、細胞の構造を染色可能なヘマトキシリン・エオジン染色(HE染色)用の色素である。第2色素は、例えば、特定のタンパク質を染色可能な免疫組織染色(IHC染色)用の色素である。第2色素は、複数の異なるタンパク質を染色する複数の色素を含んでもよい。
予後予測部124は、例えば、複数の第1染色画像それぞれに対して記憶部11に記憶されたクラスタリングモデルを適用することによって生成された複数のクラスタと、当該第1染色画像に写っている生物の予後を示す予後データと、を取得する。予後予測部124は、例えば、第1染色画像から生成した複数のクラスタそれぞれに属する細胞の位置を示すマスク画像(2値画像等)を生成する。
予後予測部124は、第1染色画像から生成したマスク画像と、当該第1染色画像に関連付けられた第2染色画像と、を結合することによって、テンソルデータを生成する。すなわち、テンソルデータは、第1色素を用いた染色によって得られた複数のクラスタそれぞれに属する細胞の位置と、第2色素を用いた染色によって得られたタンパク質の分布と、の関係を示す情報である。
予後予測部124は、例えば、複数のテンソルデータと、当該テンソルデータに対応する予後データが示す予後と、に対して既知の機械学習を適用することによって、入力されたテンソルデータに対して予後を予測する回帰モデルを生成する。予後予測部124は、生成した回帰モデルを、予後予測用モデルとして記憶部11に記憶させる。
クラスタ生成部123が病理診断の対象とする第1染色画像である第1病理画像に基づいて複数のクラスタを生成した後に、予後予測部124は、当該第1病理画像と、当該第1病理画像に写っている生物の第2染色画像である第2病理画像と、を用いて、上述のテンソルデータを生成する。予後予測部124は、生成したテンソルデータを特徴量として記憶部11に記憶された予後予測用モデルに入力することにより、予後を予測する。病理画像は、細胞を染色した色素に応じて、異なる細胞の構造が可視化された情報を含む。情報処理装置1は、異なる複数の染色方法で染色された複数の画像を用いることにより、異なる染色方法を組み合わせることによって生成された特徴量を反映した予後を予測できる。
また、予後予測部124は、図6において説明した1つの病理画像から生成した特徴量と、図7において説明した異なる複数の染色方法で染色された複数の病理画像から生成した特徴量と、の両方を予後予測用モデルに入力することにより、予後を予測してもよい。また、予後予測部124は、病理画像から教師なし学習を用いて生成されたクラスタから抽出可能なその他の特徴量に基づいて、予後を予測してもよい。
出力部125は、クラスタ生成部123が生成したクラスタに対応する情報を出力する。出力部125は、例えば、クラスタに対応する情報を、情報端末2に送信する。情報端末2は、情報処理装置1が送信したクラスタに対応する情報を、表示部上に表示する。
図8A、図8Bは、出力部125が出力する情報の模式図である。出力部125は、例えば、クラスタに対応する情報として、病理画像上に、複数の細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力する。図8Aの例では、出力部125は、病理画像上の細胞の位置に、クラスタ名のラベルを付すことによって、細胞の位置及びクラスタを示す情報を出力している。また、出力部125は、例えば、病理画像上の細胞の位置にクラスタごとに異なる色の枠を付すことによって、細胞の位置及びクラスタを示す情報を出力してもよい。これにより、情報処理装置1は、病理画像上の細胞の位置とクラスタとの関係を、ユーザに分かりやすく通知できる。
また、出力部125は、例えば、クラスタに対応する情報として、複数のクラスタそれぞれに関連付けて、当該クラスタに属する細胞に関する情報を出力する。図8Bの例では、出力部125は、複数のクラスタそれぞれに属する複数の細胞の面積の分布を箱ひげ図で出力している。出力部125は、細胞の面積に限らず、細胞の外周長さ、凹凸の程度、密度等をクラスタごとに出力してもよい。また、出力部125は、棒グラフ、円グラフ等、その他の方法でクラスタに属する細胞に関する情報を出力してもよい。これにより、情報処理装置1は、クラスタごとの細胞の特性を、ユーザに分かりやすく通知できる。
また、出力部125は、例えば、クラスタに対応する情報として、予後予測部124がクラスタに基づいて予測した予後を示す情報を出力する。出力部125は、例えば、5年生存率等の予後を表す情報を出力する。また、出力部125は、例えば、薬剤の名称と、生物に当該薬剤が投与された場合の予後と、を表す情報を出力してもよい。また、出力部125は、例えば、複数の薬剤の名称及び予後を同時に又は順に情報端末2に表示させることにより、複数の薬剤の予後を比較可能な態様で出力してもよい。これにより、情報処理装置1は、ユーザが指定した病理画像から教師なし学習を用いて予測された予後をユーザに通知できる。
[情報処理方法のフローチャート]
図9は、本実施形態に係る情報処理装置1が実行する例示的な情報処理方法のフローチャートを示す図である。ユーザは、情報端末2において、病理診断の対象とする病理画像を指定する。情報端末2は、指定された病理画像を、情報処理装置1に送信する。情報処理装置1において、画像取得部121は、情報端末2が送信した病理画像を取得する(S11)。
図9は、本実施形態に係る情報処理装置1が実行する例示的な情報処理方法のフローチャートを示す図である。ユーザは、情報端末2において、病理診断の対象とする病理画像を指定する。情報端末2は、指定された病理画像を、情報処理装置1に送信する。情報処理装置1において、画像取得部121は、情報端末2が送信した病理画像を取得する(S11)。
画像取得部121は、病理画像に対して、高解像度化処理又は色彩補正処理の少なくとも一方を実行する(S12)。画像取得部121は、例えば、高解像度化処理として、記憶部11に記憶されている高解像度化用モデルに病理画像を入力することによって出力された、高解像度化された病理画像を取得する。画像取得部121は、例えば、色彩補正処理として、病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された病理画像を取得する。
画像取得部121は、病理画像に対してセグメンテーション処理を行うことによって、病理画像に写っている複数の細胞それぞれの画像を、細胞画像として取得する(S13)。画像取得部121は、例えば、セグメンテーション処理として、記憶部11に記憶されているインスタンスセグメンテーションモデルに病理画像を入力することによって、病理画像に写っている複数の細胞を抽出する。
第1クラスタリング部123aは、複数の細胞画像を、教師なし学習により予め生成されたクラスタリングモデルに入力することによって、複数の細胞をクラスタリングした複数の小クラスタを生成する(S14)。クラスタリングモデルを生成するために、特徴量抽出部122は、例えば、畳み込みニューラルネットワークに複数の細胞画像それぞれを入力することによって、当該細胞画像に写っている細胞の特徴量を抽出する。第1クラスタリング部123aは、例えば、k-means法を用いて複数の細胞をクラスタリングした複数の小クラスタを生成する。第1クラスタリング部123aは、生成した小クラスタを正解ラベルとした分類モデルに対して機械学習を適用することにより、特徴量を抽出するための畳み込みニューラルネットワークのパラメータを更新する。第1クラスタリング部123aは、最終的な分類モデルを、クラスタリングモデルとして記憶部11に記憶させる。
第2クラスタリング部123bは、階層型クラスタリングを行うことによって複数の小クラスタをクラスタリングした複数のクラスタを生成する(S15)。第2クラスタリング部123bは、例えば、特徴量の代表値間の距離が最も小さい2つの小クラスタの組を抽出し、これを階層的に繰り返すことによって、複数のクラスタを生成する。第2クラスタリング部123bは、小クラスタ及びクラスタそれぞれに属する細胞と、小クラスタとクラスタとの関係と、を示すクラスタ情報を、クラスタ情報記憶部113に記憶させる。
予後予測部124は、クラスタ生成部123が生成したクラスタに対応する情報に基づいて、病理画像に写っている生物の予後を予測する(S16)。予後予測部124は、例えば、クラスタ生成部123が生成した複数のクラスタに対して予後予測に用いる特徴量を抽出し、記憶部11に記憶されている予後予測用モデルに入力する。予後予測部124は、予後予測用モデルが出力した予後を、病理画像から予測された予後として決定する。
出力部125は、クラスタ生成部123が生成したクラスタに対応する情報を出力する(S17)。出力部125は、例えば、クラスタに対応する情報として、クラスタと細胞とを関連付けた情報、又は予後予測部124がクラスタに基づいて予測した予後を示す情報を、情報端末2に出力する。
[実施形態の効果]
本実施形態に係る情報処理システムによれば、情報処理装置1は、教師なし学習により病理画像に写っている複数の細胞を複数のクラスタにクラスタリングする。教師あり学習では、人間が定義した複数の種別に細胞を分類するため、当該種別への分類に寄与しない特徴量が失われてしまう傾向がある。一方、情報処理装置1は、人間から正解データが与えられる必要のない教師なし学習を用いて、病理画像に写っている複数の細胞自体の特徴量に基づいて細胞をクラスタリングするため、人間が認識することの難しい種別にも細胞を分けることができ、教師あり学習では失われてしまうような特徴量を反映したクラスタを生成できる。
本実施形態に係る情報処理システムによれば、情報処理装置1は、教師なし学習により病理画像に写っている複数の細胞を複数のクラスタにクラスタリングする。教師あり学習では、人間が定義した複数の種別に細胞を分類するため、当該種別への分類に寄与しない特徴量が失われてしまう傾向がある。一方、情報処理装置1は、人間から正解データが与えられる必要のない教師なし学習を用いて、病理画像に写っている複数の細胞自体の特徴量に基づいて細胞をクラスタリングするため、人間が認識することの難しい種別にも細胞を分けることができ、教師あり学習では失われてしまうような特徴量を反映したクラスタを生成できる。
また、情報処理装置1は、病理画像から教師なし学習を用いて生成されたクラスタに基づいて予後を予測するため、人間が認識することの難しい特徴量を反映した予後を予測できる。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されず、その要旨の範囲内で種々の変形及び変更が可能である。例えば、装置の全部又は一部は、任意の単位で機能的又は物理的に分散・統合して構成することができる。また、複数の実施の形態の任意の組み合わせによって生じる新たな実施の形態も、本発明の実施の形態に含まれる。組み合わせによって生じる新たな実施の形態の効果は、もとの実施の形態の効果を併せ持つ。
情報処理装置1のプロセッサは、図9に示す情報処理方法に含まれる各ステップ(工程)の主体となる。すなわち、情報処理装置1のプロセッサは、図9に示す情報処理方法を実行するためのプログラムを記憶部11から読み出し、該プログラムを実行することによって、図9に示す情報処理方法を実行する。図9に示す情報処理方法に含まれるステップは一部省略されてもよく、ステップ間の順番が変更されてもよく、複数のステップが並行して行われてもよい。
1 情報処理装置
11 記憶部
111 画像記憶部
112 細胞情報記憶部
113 クラスタ情報記憶部
12 制御部
121 画像取得部
122 特徴量抽出部
123 クラスタ生成部
123a 第1クラスタリング部
123b 第2クラスタリング部
124 予後予測部
125 出力部
11 記憶部
111 画像記憶部
112 細胞情報記憶部
113 クラスタ情報記憶部
12 制御部
121 画像取得部
122 特徴量抽出部
123 クラスタ生成部
123a 第1クラスタリング部
123b 第2クラスタリング部
124 予後予測部
125 出力部
Claims (20)
- 生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出する特徴量抽出部と、
複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するクラスタ生成部と、
前記クラスタに対応する情報を出力する出力部と、
を有する、情報処理装置。 - 前記クラスタ生成部は、前記教師なし学習を適用することによって複数の前記細胞をクラスタリングした複数の小クラスタを生成する第1クラスタリング部と、階層型クラスタリングを行うことによって複数の前記小クラスタをクラスタリングした複数の前記クラスタを生成する第2クラスタリング部と、を含む、
請求項1に記載の情報処理装置。 - 前記出力部は、前記クラスタに対応する情報として、前記病理画像上に、複数の前記細胞それぞれの位置と、当該細胞が属するクラスタと、を示す情報を出力する、
請求項1又は2に記載の情報処理装置。 - 前記出力部は、前記クラスタに対応する情報として、複数の前記クラスタそれぞれに関連付けて、当該クラスタに属する前記細胞に関する情報を出力する、
請求項1又は2に記載の情報処理装置。 - 前記特徴量抽出部は、前記病理画像に対して機械学習を適用することによって、前記特徴量を抽出する、
請求項1又は2に記載の情報処理装置。 - 入力された画像を高解像度化して出力する高解像度化用モデルに、前記病理画像を入力することによって出力された、高解像度化された前記病理画像を取得する画像取得部をさらに有し、
前記特徴量抽出部は、高解像度化された前記病理画像において前記特徴量を抽出する、
請求項1又は2に記載の情報処理装置。 - 前記高解像度化用モデルは、前記生物の細胞を含む領域の低解像度の画像と、当該領域の高解像度の画像と、に対して機械学習を適用することによって生成される、
請求項6の記載の情報処理装置。 - 前記病理画像に対して色彩を基準値に合わせる処理を行うことによって生成された、色彩が補正された前記病理画像を取得する画像取得部をさらに有し、
前記特徴量抽出部は、色彩が補正された前記病理画像において前記特徴量を抽出する、
請求項1又は2に記載の情報処理装置。 - 前記基準値は、複数の撮像条件において撮像された複数の画像の色彩の統計値である、
請求項8に記載の情報処理装置。 - 前記基準値は、所定の細胞を所定の色素で染色した色であり、
前記画像取得部は、前記病理画像における当該所定の細胞に対応する領域の色彩を、前記基準値に合わせる、
請求項8に記載の情報処理装置。 - 前記特徴量抽出部は、学習対象の複数の画像それぞれから当該画像に写っている細胞である学習用細胞の前記特徴量を抽出し、
前記クラスタ生成部は、複数の前記学習用細胞の前記特徴量に基づいて複数の前記学習用細胞をクラスタリングすることによって、複数の学習用クラスタを生成し、
前記クラスタ生成部は、生成した複数の前記学習用クラスタを疑似正解ラベルとした教師あり学習によって分類モデルを生成し、
前記クラスタ生成部は、前記分類モデルを、クラスタリングモデルとして記憶部に記憶させ、
前記クラスタ生成部は、前記記憶部に記憶された前記クラスタリングモデルを用いて、前記病理画像に写っている複数の前記細胞をクラスタリングした複数の前記クラスタを生成する、
請求項1又は2に記載の情報処理装置。 - 前記クラスタに対応する情報に基づいて、前記生物の予後を予測する予後予測部をさらに有する、
請求項1に記載の情報処理装置。 - 前記予後予測部は、前記クラスタに対応する情報と、前記予後と、の関係に対して機械学習を適用することによって生成された予後予測用モデルを用いて、前記予後を予測する、
請求項12に記載の情報処理装置。 - 前記予後予測部は、薬剤が投与された前記生物の前記予後を用いて生成された前記予後予測用モデルを用いて、前記生物に前記薬剤が投与された場合の前記予後を予測する、
請求項13に記載の情報処理装置。 - 前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測する、
請求項12から14のいずれか一項に記載の情報処理装置。 - 前記予後予測部は、所定の組織における複数の前記クラスタそれぞれに属する前記細胞の前記特徴量に基づいて、前記予後を予測する、
請求項15に記載の情報処理装置。 - 前記予後予測部は、複数の前記クラスタそれぞれに属する前記細胞の位置に基づいて、前記予後を予測する、
請求項12から14のいずれか一項に記載の情報処理装置。 - 前記予後予測部は、第2病理画像と、第1病理画像から生成した複数のクラスタそれぞれに属する前記細胞の位置を示すマスク画像と、を結合することによって生成されるデータに基づいて、前記予後を予測する、
請求項17に記載の情報処理装置。 - 前記第1病理画像は第1色素で染色された前記生物の検体の画像であり、前記第2病理画像は前記第1色素とは異なる第2色素で染色された当該検体の画像である、
請求項18に記載の情報処理装置。 - プロセッサが実行する、
生物の病理画像において、前記生物を構成する複数の細胞それぞれの特徴量を抽出するステップと、
複数の前記特徴量に対して教師なし学習を適用することによって、複数の前記細胞をクラスタリングした複数のクラスタを生成するステップと、
前記クラスタに対応する情報を出力するステップと、
を有する、情報処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021-163374 | 2021-10-04 | ||
JP2021163374 | 2021-10-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023058468A1 true WO2023058468A1 (ja) | 2023-04-13 |
Family
ID=85804195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/035408 WO2023058468A1 (ja) | 2021-10-04 | 2022-09-22 | 情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2023058468A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010520487A (ja) * | 2007-03-02 | 2010-06-10 | ベクトン・ディキンソン・アンド・カンパニー | 生物材料の自動染色法および装置 |
JP2011229413A (ja) * | 2010-04-23 | 2011-11-17 | Nagoya Univ | 細胞評価装置、インキュベータ、プログラム、および、培養方法 |
JP2014115755A (ja) * | 2012-12-07 | 2014-06-26 | Fuji Xerox Co Ltd | 画像処理装置、画像処理システム及びプログラム |
JP2019212050A (ja) * | 2018-06-05 | 2019-12-12 | 株式会社島津製作所 | 画像処理方法、画像処理装置および学習モデル作成方法 |
JP2020174861A (ja) * | 2019-04-17 | 2020-10-29 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
-
2022
- 2022-09-22 WO PCT/JP2022/035408 patent/WO2023058468A1/ja unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010520487A (ja) * | 2007-03-02 | 2010-06-10 | ベクトン・ディキンソン・アンド・カンパニー | 生物材料の自動染色法および装置 |
JP2011229413A (ja) * | 2010-04-23 | 2011-11-17 | Nagoya Univ | 細胞評価装置、インキュベータ、プログラム、および、培養方法 |
JP2014115755A (ja) * | 2012-12-07 | 2014-06-26 | Fuji Xerox Co Ltd | 画像処理装置、画像処理システム及びプログラム |
JP2019212050A (ja) * | 2018-06-05 | 2019-12-12 | 株式会社島津製作所 | 画像処理方法、画像処理装置および学習モデル作成方法 |
JP2020174861A (ja) * | 2019-04-17 | 2020-10-29 | キヤノン株式会社 | 情報処理装置、情報処理方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468564B2 (en) | Systems and methods for automatic detection and quantification of pathology using dynamic feature classification | |
JP6947759B2 (ja) | 解剖学的対象物を自動的に検出、位置特定、及びセマンティックセグメンテーションするシステム及び方法 | |
CN111369576B (zh) | 图像分割模型的训练方法、图像分割方法、装置及设备 | |
EP3252671A1 (en) | Method of training a deep neural network | |
US20190147594A1 (en) | Detection of outlier lesions based on extracted features from skin images | |
JP2024019441A (ja) | 人工知能モデルを使用機関に特化させる学習方法、これを行う装置 | |
US20210342570A1 (en) | Automated clustering of anomalous histopathology tissue samples | |
KR102160390B1 (ko) | 인공지능 기반의 사용자 의료정보 분석 방법 및 시스템 | |
Feng et al. | Supervoxel based weakly-supervised multi-level 3D CNNs for lung nodule detection and segmentation | |
CN116547721A (zh) | 用于分析用户的头部的头发区域的图像的像素数据以生成一个或多个用户特定推荐的数字成像和学习系统及方法 | |
US11923091B2 (en) | Methods for remote visual identification of congestive heart failures | |
CN111681247A (zh) | 肺叶肺段分割模型训练方法和装置 | |
EP3239897A1 (en) | Method and apparatus for determining the similarity between multivariate data sets | |
CN111341408A (zh) | 影像报告模板的生成方法、计算机设备和存储介质 | |
CN115661142A (zh) | 一种基于关键点检测的舌诊图像处理方法、设备及介质 | |
CN107590806B (zh) | 一种基于大脑医学成像的检测方法和系统 | |
CN114359296A (zh) | 基于深度学习的图像元素及下牙槽神经分割方法与装置 | |
Thirion et al. | Feature characterization in fMRI data: the Information Bottleneck approach | |
WO2023058468A1 (ja) | 情報処理装置及び情報処理方法 | |
CN113222996A (zh) | 心脏分割质量评估方法、装置、设备及存储介质 | |
JP2018125019A (ja) | 画像処理装置及び画像処理方法 | |
Zhang et al. | Consecutive knowledge meta-adaptation learning for unsupervised medical diagnosis | |
CN110674872B (zh) | 一种高维磁共振影像的分类方法及装置 | |
JP6329651B1 (ja) | 画像処理装置及び画像処理方法 | |
Longo et al. | Explainable Artificial Intelligence: Second World Conference, XAI 2024, Valletta, Malta, July 17-19, 2024, Proceedings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22878339 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |