WO2021193673A1 - ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置 - Google Patents

ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置 Download PDF

Info

Publication number
WO2021193673A1
WO2021193673A1 PCT/JP2021/012094 JP2021012094W WO2021193673A1 WO 2021193673 A1 WO2021193673 A1 WO 2021193673A1 JP 2021012094 W JP2021012094 W JP 2021012094W WO 2021193673 A1 WO2021193673 A1 WO 2021193673A1
Authority
WO
WIPO (PCT)
Prior art keywords
gate
gate area
output
estimated
scatter plot
Prior art date
Application number
PCT/JP2021/012094
Other languages
English (en)
French (fr)
Inventor
圭伍 河野
晴彦 二田
Original Assignee
合同会社H.U.グループ中央研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 合同会社H.U.グループ中央研究所 filed Critical 合同会社H.U.グループ中央研究所
Priority to JP2022510573A priority Critical patent/JPWO2021193673A1/ja
Priority to CN202180023111.2A priority patent/CN115335681A/zh
Publication of WO2021193673A1 publication Critical patent/WO2021193673A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N15/00Investigating characteristics of particles; Investigating permeability, pore-volume or surface-area of porous materials
    • G01N15/10Investigating individual particles
    • G01N15/14Optical investigation techniques, e.g. flow cytometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Definitions

  • the present invention relates to a gate area estimation program or the like that estimates a gate area in flow cytometry.
  • Flow Cytometry is a technology that can measure multiple features for each single cell.
  • FCM Flow Cytometry
  • cells suspended in a flowing liquid are flowed in a row.
  • Light is applied to each flowing cell, and indicators such as cell size, internal complexity, and constituent substances can be obtained from the scattering and fluorescence of the light.
  • Flow cytometry is used in medicine, for example, for cell-mediated immunity testing.
  • Gating is one of the analysis techniques. Gating is a technique for selecting and analyzing only a specific population from the obtained data. Conventionally, the group to be analyzed has been specified by an inspector by drawing an ellipse or a polygon (called a "gate") in a two-dimensional scatter plot. The setting of such a gate depends largely on the experience and knowledge of the inspector. Therefore, it is difficult for an inspector with little experience and knowledge to set an appropriate gate.
  • Patent Documents 1, 2, etc. a technique for automating gate setting has been proposed.
  • the prior art is a setting method using cell density information or a rule-based method, and the experience and knowledge accumulated by the inspector is not fully utilized.
  • the present invention has been made in view of such a situation.
  • the purpose is to provide a gate area estimation program or the like that outputs a more accurate estimation result when the gate area is estimated by a learning model.
  • the gate area estimation program acquires a scatter plot group including a plurality of scatter plots obtained from the measurement of flow cytometry having different measurement items, and learns based on the training data including the scatter plot group and the gate area. It is characterized in that a computer is made to perform a process of inputting a scatter plot group acquired into each of the plurality of training models performed and outputting an estimated gate area obtained from each of the plurality of training models.
  • the present invention it is possible to estimate the gate region with high accuracy by ensemble learning using a plurality of learning models.
  • LLA leukemia / lymphoma analysis
  • the dispensing process is a process of separating one sample (hereinafter referred to as "ID").
  • ID a process of separating one sample
  • SEQ a sample
  • SEQ2 a maximum of 10 pieces for inspection.
  • SEQ1 a negative control.
  • Negative control is a term that means to perform a test on a subject whose effect is already known to be negative under the same conditions as the subject whose effect is to be verified, or to mean that subject. Also called a negative control.
  • the test result is analyzed from the relative difference by comparing the target to be verified with the result in the negative control.
  • FSC Forward Scattered Light
  • SSC Side Scattered Light
  • the laterally scattered light is light detected at an angle of 90 ° with respect to the optical axis of the laser beam.
  • FL indicates fluorescence, but here, a plurality of fluorescence detectors included in the flow cytometer are shown. The numbers indicate the sequence numbers of the fluorescence detectors.
  • FL1 indicates the first fluorescence detector, and here, it is the name of an item in which the marker information of each SEQ is set as a marker.
  • FL2 indicates the second fluorescence detector, and here, it is the name of an item in which the marker information of each SEQ is set as a marker.
  • FL3 indicates the third fluorescence detector, and here, it is the name of the item in which the marker information of the CD45 is set.
  • the flow cytometer creates two scatter plots for each SEQ and displays the scatter plots on a display or the like.
  • one axis is SSC and the other axis is FL3.
  • one axis is SSC and the other axis is FSC.
  • the inspector estimates the disease from the aspect of the scatter plot and creates a gate useful for identifying the disease on each scatter plot. Then, a scatter plot of FL1-FL2 consisting of only cells existing in the gate range is created at each SEQ and observed as a marker reaction. In the reporting process, two particularly useful gates are determined for reporting and a report is prepared.
  • FIG. 1 is an explanatory diagram showing a configuration example of an inspection system.
  • the inspection system includes a flow cytometer (gate area estimation device) 10 and a learning server 3.
  • the flow cytometer 10 and the learning server 3 are communicably connected to each other via the network N.
  • the flow cytometer 10 includes a processing unit 1 that performs various processes related to the operation of the entire device, and a measuring unit 2 that accepts a sample and performs measurement by flow cytometry.
  • the learning server 3 is composed of a server computer, a workstation, and the like.
  • the learning server 3 is not an indispensable configuration in the inspection system.
  • the learning server 3 mainly plays a role of complementing the flow cytometer 10, and stores measurement data and a learning model as a backup. Further, instead of the flow cytometer 10, a learning model may be generated and the learning model may be relearned. In this case, the learning server 3 transmits parameters and the like that characterize the learning model to the flow cytometer 10.
  • the function of the learning server 3 may be provided by a cloud service.
  • FIG. 2 is a block diagram showing a hardware configuration example of the processing unit.
  • the processing unit 1 includes a control unit 11, a main storage unit 12, an auxiliary storage unit 13, an input unit 14, a display unit 15, a communication unit 16, and a reading unit 17.
  • the control unit 11, the main storage unit 12, the auxiliary storage unit 13, the input unit 14, the display unit 15, the communication unit 16, and the reading unit 17 are connected by a bus B.
  • the processing unit 1 may be separate from the flow cytometer 10.
  • the processing unit 1 is constructed of a PC (Personal Computer), a notebook computer, a tablet computer, or the like.
  • the processing unit 1 may be composed of a multi-computer composed of a plurality of computers, a virtual machine virtually constructed by software, or a quantum computer.
  • the control unit 11 has one or more CPUs (Central Processing Units), MPUs (Micro-Processing Units), GPUs (Graphics Processing Units), and other arithmetic processing devices.
  • the control unit 11 reads and executes an OS (Operating System) and a control program 1P (gate area estimation program) stored in the auxiliary storage unit 13 to perform various information processing and control related to the flow cytometer 10. Perform processing, etc. Further, the control unit 11 includes functional units such as an acquisition unit and an output unit.
  • the main storage unit 12 is a SRAM (Static Random Access Memory), a DRAM (Dynamic Random Access Memory), a flash memory, or the like.
  • the main storage unit 12 temporarily stores data necessary for the control unit 11 to execute arithmetic processing.
  • the auxiliary storage unit 13 is a hard disk, SSD (Solid State Drive), or the like, and stores the control program 1P and various DBs (Databases) required for the control unit 11 to execute processing.
  • the auxiliary storage unit 13 stores the measured value DB 131, the feature information DB 132, the gate DB 133, the first regression model 1341 to the fifth regression model 1345, the threshold value DB 135, and the confidence level DB 136.
  • the auxiliary storage unit 13 may be an external storage device connected to the flow cytometer 10.
  • Various DBs and the like stored in the auxiliary storage unit 13 may be stored in a database server or cloud storage connected by the network N.
  • ensemble learning using a plurality of learning models is performed. Using the output results of multiple learning models, the confidence level is calculated for the estimation result of the gate area.
  • five learning models of the first regression model 1341 to the fifth regression model 1345 are used for performing ensemble learning, but the present invention is not limited to this.
  • the number of training models may be 2 to 4, or 6 or more.
  • the input unit 14 is a keyboard or a mouse.
  • the display unit 15 includes a liquid crystal display panel and the like.
  • the display unit 15 displays various information such as information for performing measurement, measurement results, and gate information.
  • the display unit 15 may be a touch panel display integrated with the input unit 14.
  • the information to be displayed on the display unit 15 may be displayed on the external display device of the flow cytometer 10.
  • the communication unit 16 communicates with the learning server 3 via the network N. Further, the control unit 11 may use the communication unit 16 to download the control program 1P from another computer via the network N or the like and store it in the auxiliary storage unit 13.
  • the reading unit 17 reads a portable storage medium 1a including a CD (Compact Disc) -ROM and a DVD (Digital Versatile Disc) -ROM.
  • the control unit 11 may read the control program 1P from the portable storage medium 1a via the reading unit 17 and store it in the auxiliary storage unit 13. Further, the control unit 11 may download the control program 1P from another computer via the network N or the like and store it in the auxiliary storage unit 13. Furthermore, the control unit 11 may read the control program 1P from the semiconductor memory 1b.
  • FIG. 3 is an explanatory diagram showing an example of the measured value DB.
  • the measured value DB 131 stores the measured value measured by the flow cytometer 10.
  • FIG. 3 shows an example of one record stored in the measured value DB 131.
  • Each record of the measured value DB 131 includes a basic unit 1311 and a data unit 1312.
  • the basic part 1311 includes a reception number column, a reception date column, an inspection number column, an inspection date column, a medical record number column, a name column, a gender column, an age column, and a collection date column.
  • the reception number column stores the reception number (identification information) that is issued when an inspection request is received.
  • the reception date column stores the date when the inspection request is received.
  • the inspection number string stores the inspection number that is issued when the inspection is performed.
  • the inspection date column stores the date when the inspection was performed.
  • the medical record number string stores the medical record number corresponding to the inspection request.
  • the name column stores the name of the subject who provided the sample.
  • the gender column remembers the gender of the subject. For example, if the subject is male, the gender column stores M. If the subject is female, the gender column remembers F.
  • the age column remembers the age of the subject.
  • the collection date column stores the date when the sample was collected from the subject. In the data unit 1312, each column stores the measured value for each cell for the measurement item. Each row stores the measured value for each measurement item for one cell.
  • FIG. 4 is an explanatory diagram showing an example of the feature information DB.
  • the feature information DB 132 stores information indicating features obtained from measured values (hereinafter, also referred to as “feature information”).
  • the feature information is, for example, a scatter plot or a histogram.
  • the feature information DB 132 includes a reception number string, an inspection number string, a sequence number string, a type column, a horizontal axis column, a vertical axis column, and an image string.
  • the reception number column stores the reception number.
  • the inspection number string stores the inspection number.
  • the sequence number string stores the sequence number of the feature information in the same inspection.
  • the type column stores the type of feature information. For example, the types are scatter plots and histograms as described above.
  • the horizontal axis column stores the items adopted as the horizontal axis in the scatter plot and the histogram.
  • the vertical axis column stores the items adopted as the vertical axis in the scatter plot.
  • the vertical axis represents the number of cells, so the vertical column stores the number of cells.
  • the image sequence stores scatter plots and histograms as images.
  • FIG. 5 is an explanatory diagram showing an example of a gate DB.
  • the gate DB 133 stores the set gate information (gate information) for the scatter plot.
  • the gate information is information for determining the gate area.
  • the gate information includes information on a figure showing the outline of the gate area, a value range of measured values included in the gate area, a set of measured values included in the gate area, and the like. It may be the pixel coordinate value of the point included in the gate area on the scatter plot image.
  • the gate information is a figure showing the outline of the gate area, and the shape is an elliptical shape, but the shape is not limited thereto.
  • the figure may be a polygon composed of a plurality of sides or a figure connecting a plurality of curves.
  • the gate DB 133 includes a reception number string, an inspection number string, a horizontal axis column, a vertical axis column, a gate number column, a CX column, a CY column, a DX column, a DY column, and a ⁇ column.
  • the reception number column stores the reception number.
  • the inspection number string stores the inspection number.
  • the horizontal axis column stores the items adopted as the horizontal axis in the scatter plot.
  • the vertical axis column stores the items adopted as the vertical axis in the scatter plot.
  • the gate number sequence stores the sequence number of the gate.
  • the CX column stores the center x coordinate value of the ellipse.
  • the CY column stores the y coordinate value of the center of the ellipse.
  • the DX column stores the value of the major axis of the ellipse.
  • the DY column stores the value of the minor axis of the ellipse.
  • the ⁇ column stores the tilt angle of the ellipse.
  • the tilt angle is the angle formed by the horizontal axis and the major axis of the ellipse.
  • FIG. 6 is an explanatory diagram showing an example of the threshold value DB.
  • the threshold value DB 135 stores a threshold value related to an index (spreading degree) indicating the degree of variation of each item value indicating the gate area.
  • the threshold is used to determine the confidence level of the regression model.
  • the example shown in FIG. 6 is a case where the gate area is an ellipse.
  • the threshold value DB 135 includes an ID column, a horizontal axis column, a vertical axis column, a CX column, a CY column, a DX column, and a DY column.
  • the ID string stores the ID that identifies the threshold group.
  • the horizontal axis column stores the items on the horizontal axis in the scatter plot.
  • the vertical axis column stores the items to be the vertical axis in the scatter plot.
  • the CX column stores the threshold value for the center x coordinate value of the ellipse.
  • the CY column stores the threshold value for the y coordinate value of the center of the ellipse.
  • the DX column stores the threshold value for the major axis value of the ellipse.
  • the DY column stores the threshold value for the minor axis value of the ellipse.
  • the CX, CY, DX, and DY columns include columns A and B, respectively. Column A stores the threshold value A. Column B stores the threshold value B. The "-" in column B indicates that no value has been set. If only the threshold A is set, the confidence of the regression model will be either high or low.
  • the self-confidence level is indicated numerically. For example, if it is smaller than the threshold value A, the self-confidence level is 50, and if it is smaller than the threshold value B, the self-confidence level is 70.
  • the threshold value may be 3 or more.
  • FIG. 7 is an explanatory diagram showing an example of the self-confidence DB.
  • the self-confidence DB 136 stores the self-confidence of the estimation result of the gate region by the regression model.
  • the confidence level DB 136 includes a reception number string, an inspection number string, a gate number string, a CX column, a CY column, a DX column, a DY column, a gate whole column, and a whole column.
  • the reception number column stores the reception number.
  • the inspection number string stores the inspection number.
  • the gate number sequence stores the sequence number of the gate.
  • the reception number string, the inspection number string, and the gate number string make it possible to associate with the gate DB 133.
  • the CX column stores the confidence level of the center x coordinate value of the ellipse.
  • the CY column stores the confidence level of the center y coordinate value of the ellipse.
  • the DX column memorizes the confidence level of the major axis length of the ellipse.
  • the DY column memorizes the confidence level of the minor axis length of the ellipse.
  • the entire gate row stores the confidence level for each gate.
  • the whole column memorizes the self-confidence level for each test. In the example shown in FIG. 7, the self-confidence value is high or low.
  • FIG. 8 is an explanatory diagram relating to the generation process of the regression model. Five learning models of the first regression model 1341 to the fifth regression model 1345 are generated. FIG. 8 shows a process of performing machine learning to generate a fifth regression model 1345 from the first regression model 1341.
  • the basic processing content is the same for all learning models. The basic processing will be described with the first regression model 1341 as a representative.
  • the processing unit 1 performs deep learning to learn an appropriate gate feature amount for the scatter plot image created based on the measurement result obtained by the measurement unit 2, thereby performing a plurality of deep learning.
  • a first regression model 1341 is generated in which a scatter plot image (scatter plot group) is input and gate information is output.
  • the plurality of scatter plot images are a plurality of scatter plot images in which items on at least one axis are different. For example, there are two scatter plot images consisting of a scatter plot image in which the horizontal axis is SSC and the vertical axis is FL3, and the horizontal axis is SSC and the vertical axis is FSC. You may enter three or more scatter plot images.
  • the neural network is, for example, CNN (Convolution Neural Network).
  • the first regression model 1341 has a plurality of feature extractors that learn the features of each scatter plot image, a coupler that combines the features output by each feature extractor, and gate information based on the combined features. It has a plurality of estimators that estimate and output each item (center X coordinate, center Y coordinate, major axis, minor axis, inclination angle). It should be noted that the first regression model 1341 may be input with a set of measured values on which the scatter plot is based, instead of the scatter plot image.
  • Each feature extractor includes an input layer and an intermediate layer.
  • the input layer has a plurality of neurons that receive input of pixel values of each pixel included in the scatter plot image, and passes the input pixel values to the intermediate layer.
  • the middle layer has multiple neurons, and features are extracted from the scatter plot image and passed to the output layer.
  • the feature extractor is a CNN
  • the intermediate layer alternates between a convolutional layer that convolves the pixel values of each pixel input from the input layer and a pooling layer that maps the pixel values convoluted by the convolutional layer. It has a connected configuration, and finally extracts the image feature amount while compressing the pixel information.
  • a configuration in which a plurality of scatter plot images are input to one feature extractor may be used.
  • the first regression model 1341 is described as being a CNN, but the first regression model 1341 is not limited to the CNN, and other learning such as a neural network other than the CNN, a Bayesian network, a decision tree, etc. It may be a trained model constructed by an algorithm.
  • the processing unit 1 performs learning using training data in which a plurality of scatter plot images and correct answer values of gate information corresponding to the scatter plot are associated with each other.
  • the training data is data in which gate information is labeled for a plurality of scatter plot images.
  • two types of scatter plots are referred to as a set of scatter plots.
  • the gate information includes a value indicating usefulness.
  • the processing unit 1 inputs two scatter plot images, which are training data, into different feature extractors.
  • the features output by each feature extractor are combined by the combiner.
  • Bonding by a combiner includes a method of simply combining feature quantities (Concatenate), a method of adding values indicating feature quantities (Add), and a method of selecting the maximum feature quantity (Maxpool).
  • each estimator Based on the combined features, each estimator outputs gate information as an estimation result.
  • the combination of values output by each estimator is a set of gate information.
  • the output gate information may be a plurality of sets. In this case, a number of estimators corresponding to a plurality of sets are provided. For example, when the gate information having the first priority and the gate information having the second priority are output, the number of estimators in FIG. 8 is 5 to 10.
  • the processing unit 1 compares the gate information obtained from the estimator with the information labeled for the scatter plot image in the training data, that is, the correct answer value, and extracts features so that the output value from the estimator approaches the correct answer value.
  • the parameters include, for example, the weight between neurons (coupling coefficient), the coefficient of the activation function used in each neuron, and the like.
  • the method of optimizing the parameters is not particularly limited, but for example, the processing unit 1 optimizes various parameters by using the backpropagation method.
  • the processing unit 1 performs the above processing on the data for each inspection included in the training data, and generates the first regression model 1341.
  • FIG. 9 is a flowchart showing a procedure example of the regression model generation process.
  • the control unit 11 acquires the inspection history (step S1).
  • the inspection history is an accumulation of past inspection results, and is a past measurement value stored in the measurement value DB 131.
  • the control unit 11 selects one history to be processed (step S2).
  • the control unit 11 acquires the feature information corresponding to the selected history (step S3).
  • the feature information is, for example, a scatter plot.
  • the feature information is acquired from the feature information DB 132. If the feature information is not stored, it may be generated from the measured value.
  • the control unit 11 acquires the gate information corresponding to the selected history (step S4).
  • the gate information is acquired from the gate DB 133.
  • the control unit 11 learns the first regression model 1341 using the acquired feature information and gate information as training data (step S5).
  • the control unit 11 determines whether or not there is an unprocessed inspection history (step S6).
  • the control unit 11 determines that there is an unprocessed inspection history (YES in step S6)
  • the control unit 11 returns the process to step S2 and performs a process related to the unprocessed inspection history.
  • the control unit 11 determines that there is no unprocessed inspection history (NO in step S6)
  • the control unit 11 stores the first regression model 1341 (step S7), and ends the process.
  • the second regression model 1342, the third regression model 1343, the fourth regression model 1344, and the fifth regression model 1345 are generated by the same process as the process described with reference to FIGS. 8 and 9.
  • each of the first regression model 1341 to the fifth regression model 1345 is a regression model with different generation conditions by changing, for example, training data, network structure, and hyperparameters.
  • the training data the training data of the five learning models are made different by increasing the number of data by the restoration extraction method used in the data expansion and the bootstrap method.
  • the network structure the number of input layers and output layers is changed.
  • Fine-tuning generates a different learning model from a certain learning model.
  • hyperparameters the settings such as the number of layers in the intermediate layer, the number of nodes in each layer (layer), the weight, the loss function, the optimization function, the learning rate, and the batch size shall be different.
  • FIG. 10 is a flowchart showing a procedure example of the threshold value determination process.
  • the control unit 11 acquires test data (step S11).
  • the control unit 11 inputs the acquired test data into each regression model (step S12).
  • the control unit 11 acquires an estimated output from each regression model (step S13).
  • the estimated output is the value of a parameter indicating the gate region estimated by each regression model.
  • the parameters are the center coordinates (Cx, Cy), the length between the semi-major axis and the semi-minor axis (Dx, Dy), and the angle between the semi-major axis and the x-axis ( ⁇ ).
  • the gate area is a polygon, it is the coordinate value of each vertex.
  • the control unit 11 calculates the degree of dispersion for each parameter from the values output from each regression model (step S14). An example of the degree of spraying is the standard deviation.
  • the control unit 11 determines whether or not there is unprocessed test data (step S15).
  • control unit 11 determines a threshold value for each parameter (step S16).
  • the threshold means the limit of allowable output value variation.
  • the threshold is determined by a statistical method. Alternatively, for example, a veteran inspector judges and decides from the value of the degree of spraying for each test data.
  • the control unit 11 stores the determined threshold value (step S17), and ends the threshold value determination process.
  • the threshold value may be adjusted for each environment in which the flow cytometer 10 operates, for example, for each inspection institution.
  • the degree of dispersion may be dispersion, unbiased dispersion, or mean deviation.
  • FIG. 11A and 11B are explanatory views showing an example of estimated output of the gate region.
  • FIG. 11 is an example of a scatter plot in CD45 gating.
  • FIG. 11A shows an example of a scatter plot to be input.
  • the horizontal axis is SSC (Side Scattered Light)
  • FIG. 11B shows the results of each of the five regression models estimating the gate region in the input scatter plot.
  • the vertical axis and the horizontal axis of FIG. 11B are the same as those of FIG. 11A.
  • an example of estimating one elliptical gate region is shown.
  • FIG. 11A is an example of estimating one elliptical gate region.
  • AI-1 shows the estimation result of the first regression model 1341
  • AI-2 shows the estimation result of the second regression model 1342
  • AI-5 shows the estimation result of the fifth regression model 1345.
  • the parameters of the oval shape, which is the gate area are shown. From the top, the center X coordinate (Cx), the center Y coordinate (Cy), the major axis length (Dx), the minor axis length (Dy), and the inclination angle ( ⁇ ).
  • FIG. 12 is an explanatory diagram showing an example of the degree of spraying.
  • the degree of dispersion shall be the standard deviation (SD).
  • the left table of FIG. 12 reprints the values shown in FIG. 11B.
  • the inclination angle is excluded from the SD calculation items because it does not affect the confidence level of the estimation result even if the SD becomes large, such as when the shape of the gate region is a perfect circle.
  • the SD threshold is calculated for the results for a plurality of test data and determined based on the calculated results.
  • FIGS. 13A and 13B are explanatory views showing an example of the degree of spraying. It is the estimation result when the test data different from FIG. 13A and FIG. 13B is input.
  • the horizontal axis is SSC and the vertical axis is FL3.
  • the gate regions output by the five regression models are superimposed on the scatter plot of the input.
  • the numerical values on the right side of the scatter plot show the center coordinates that identify the ellipse and the SD of the major and minor diameters.
  • FIG. 13A is an example in which the variation in the estimation result is small
  • FIG. 13B is an example in which the variation in the estimation result is large. From FIG. 13A and FIG.
  • the threshold value should be determined at Cx: 5.6 or higher, Cy: 10.9 to 36.8, Dx: 12.3 or higher, and Dy: 6.4 or higher. It is desirable to determine the final threshold for each parameter, taking into account SD for other data as well as the two test data.
  • the preparation step is completed.
  • each regression model has been described on the premise that one gate is output as the estimation result of the gate region, but there may be a plurality of each regression model. In the case of a plurality, the threshold value is determined for each gate. When the first gate, the second gate, and the third gate are output as the gate region, the degree of dispersion is obtained for the first gate of each regression model, and the threshold value is determined.
  • the degree of dispersion is defined as the standard deviation (SD).
  • SD standard deviation
  • the self-confidence level is high. If SD exceeds the threshold, the self-confidence level is lowered.
  • each regression model shall output the estimation results of a plurality of gate regions.
  • FIG. 14 is a flowchart showing a procedure example of the gate area estimation process.
  • the control unit 11 acquires a scatter plot (step S31).
  • the scatter plot here is a coordinate sequence of points showing measurement results, a measurement item on the horizontal axis, and a measurement item on the vertical axis.
  • the control unit 11 inputs the acquired scatter plot for each regression model (step S32).
  • the control unit 11 acquires the estimated output of the gate region for each regression model (step S33).
  • the control unit 11 calculates the degree of dispersion for each regression model, each gate, and each parameter, here the standard deviation (step S34).
  • the control unit 11 determines the degree of self-confidence (step S35).
  • the control unit 11 stores the result (step S36).
  • the control unit 11 stores the estimation result of the gate region in the gate DB 133, and stores the self-confidence in the self-confidence DB 136.
  • the control unit 11 ends the gate area determination process.
  • FIG. 15 is a flowchart showing an example of the procedure for the self-confidence determination process.
  • the self-confidence determination process is a process corresponding to step S35 in FIG.
  • the control unit 11 selects a target gate area (step S51).
  • the control unit 11 selects parameters (variables such as Cx, Cy, Dx, and Dy) to be processed (step S52).
  • the control unit 11 determines whether or not the standard deviation of the parameters is equal to or less than the threshold value (step S53). When the control unit 11 determines that the standard deviation of the parameters is equal to or less than the threshold value (YES in step S53), the control unit 11 determines whether or not all the parameters have been processed (step S54).
  • control unit 11 determines that all the parameters have not been processed (NO in step S54)
  • the control unit 11 returns the process to step S52 and performs the process for the unprocessed parameters.
  • the control unit 11 determines that all the parameters have been processed (YES in step S54)
  • the control unit 11 stores in the temporary storage area that the gate to be processed has a high degree of confidence (step S55).
  • the temporary storage area is provided in the main storage unit 12 or the auxiliary storage unit 13.
  • the control unit 11 determines that the standard deviation of the parameters exceeds the threshold value (NO in step S53)
  • the control unit 11 stores in the temporary storage area that the confidence level of the gate to be processed is low (step S56). ..
  • the control unit 11 determines whether or not all the gates have been processed (step S57).
  • control unit 11 determines that all the gates have not been processed (NO in step S57)
  • the processing is returned to step S51, and the processing for the unprocessed gates is performed.
  • control unit 11 determines that all the gates have been processed (YES in step S57)
  • the control unit 11 refers to the temporary storage area and determines whether or not the self-confidence of all the gates is high (step S58).
  • the control unit 11 determines that the confidence level of all the gates is high (YES in step S58)
  • the control unit 11 has a high confidence level (overall confidence level) in the estimation result of the gate area in the scatter plot to be processed. Is stored in the temporary storage area (step S59).
  • control unit 11 determines that the confidence level of all the gates is not high and the confidence level of some gates is low (NO in step S58), the confidence level of the entire estimation result for the scatter plot to be processed is high. Is stored in the temporary storage area (step S60). The control unit 11 returns the process to the caller.
  • FIGS. 16A and 16B are explanatory views showing an example of estimation results of the gate region.
  • FIG. 16 is an example of a scatter plot in CD45 gating, similar to FIG.
  • FIG. 16A is an example of an input scatter plot
  • FIG. 16B shows the results of each of the five regression models estimating the gate region in the input scatter plot.
  • the horizontal axis is SSC and the vertical axis is FL3.
  • one of the gate areas obtained as the estimation result is displayed.
  • FIG. 16B the gate area is overwritten on the input scatter plot.
  • AI-1 shows the estimation result of the first regression model 1341
  • AI-2 shows the estimation result of the second regression model 1342
  • AI-5 shows the estimation result of the fifth regression model 1345.
  • the parameters of the oval shape which is the gate area, are shown. From the top, the center X coordinate (Cx), the center Y coordinate (Cy), the major axis length (Dx), the minor axis length (Dy), and the inclination angle ( ⁇ ).
  • FIG. 17A and 17B are explanatory views showing an example of the degree of spraying. It is an estimation result when the scatter plot different from FIG. 17A and FIG. 17B is input.
  • the horizontal axis is SSC and the vertical axis is FL3.
  • FIG. 17A is a drawing of the five figures shown in FIG. 16B as one figure. That is, FIG. 17A depicts the input scatter plot overlaid with the gate regions output by the five regression models.
  • FIG. 17B is the same as that of FIG. 17A.
  • the numerical values on the right side of the scatter plot show the center coordinates that identify the ellipse and the SD of the major and minor diameters.
  • FIG. 17A is an example in which the variation in the estimation result is small, and FIG.
  • 17B is an example in which the variation in the estimation result is large.
  • the self-confidence is high, and when there is at least one item exceeding 20, the self-confidence is low. Since all SDs are 20 or less, it is judged that the degree of self-confidence is high. On the other hand, the result shown in FIG. 17B is determined to have low self-confidence because the SD of Cx and Dx exceeds 20.
  • FIG. 18 is an explanatory diagram showing an example of estimation results of the gate region.
  • FIG. 18 shows the estimation results of the three gate regions of gates G1 to G3.
  • Each gate area is drawn on a scatter plot by superimposing the gate areas output by the five regression models.
  • the table below the scatter plot shows the SD for each parameter.
  • Gates G1 and G2 are judged to have a high degree of self-confidence because all SDs are 20 or less.
  • Gate G3 is judged to have low self-confidence because the SD of Cx exceeds 20.
  • the estimation result shown in FIG. 18 is judged to have low self-confidence as a whole.
  • FIG. 19A and 19B are explanatory views showing an example of an estimation result display screen.
  • FIG. 19A is an example of a screen when the degree of self-confidence is high.
  • FIG. 19B is an example of a screen when the degree of self-confidence is low.
  • the estimation result display screen includes a scatter plot 191 and a confidence level 192, and a confidence level icon 193.
  • Scatter plot 191 shows the estimation result of the gate area on the scatter plot.
  • the gate region to be displayed is one region selected by a predetermined algorithm among the five estimation regions output by the five regression models.
  • the self-confidence level 192 displays the self-confidence level for the entire determination result. In FIG.
  • the self-confidence icon 193 expresses the self-confidence with a face icon. If the self-confidence level is high, the smile icon is displayed, and if the self-confidence level is low, the troubled face icon is displayed.
  • the gate area to be displayed in the scatter diagram 191 may be all five estimation areas output by the five regression models as in FIG. 13 and the like.
  • FIG. 20 is an explanatory diagram showing an example of an ID list screen.
  • the ID list screen displays a list in which the ID assigned to each inspection and the confidence level of the estimation result of the gate area are associated with each other.
  • the ID list screen includes an ID display 201 and a self-confidence display 202.
  • the ID display 201 displays, for example, a reception number.
  • the self-confidence display 202 displays, for example, A when the self-confidence is high and a when the self-confidence is low.
  • the estimation result display screen shown in FIG. 19 is displayed.
  • the estimation result of the gate area is output with confidence.
  • "A” is prioritized and carefully checked by a highly skilled inspector, and "a”, which is likely to be incorrect, is analyzed over time. It has the effect of enabling operation that matches the operating environment of the site.
  • the number of scatter plots to be input to each regression model is one, but the number is not limited to one, and two or more may be used. Further, the scatter plot is not limited to two dimensions, and may be three or more dimensions.
  • the degree of dispersion is the standard deviation of the parameters of the figure representing the gate area, and in the case of an ellipse, the standard deviation of the center coordinates and the length of the semimajor axis, but it is not limited to this.
  • the area of the gate region estimated by the five regression models may be used as the degree of dispersion. For example, when five estimated gate areas are superimposed and displayed on a scatter plot, the area of the area including the five areas and the area of the area where the five overlap are calculated, and the area of the latter occupying the area of the former is calculated.
  • the ratio is the degree of spraying. In this case, it is determined that the smaller the value, the larger the variation. 1 is the maximum value, and all five regions match.
  • the present embodiment relates to a method of selecting one gate region to be presented to the user from the five gate regions estimated by the five regression models.
  • the final result is obtained by combining the output results of a plurality of learning models. Since multiple learning models are used in ensemble learning, it has the effect of reducing output fluctuations. It is known to be particularly effective in neural networks in which accuracy fluctuates easily with each learning.
  • Ensemble learning is a technology used in various competitions, which is said to be particularly effective in neural networks where accuracy tends to fluctuate with each learning.
  • the output of the regression model that estimates the gate region is multi-output, and it is necessary to evaluate it in a complex manner. It is difficult to improve the accuracy even if each output is simply combined by averaging between multiple models.
  • the estimation result differs due to the difference in learning. Therefore, when the average value of each parameter is calculated from the estimation result output by each regression model and the final gate area to be displayed is determined, which part of the scatter plot is the target gate to enclose from the inspector's point of view. It is likely to be unclear.
  • one of the five gate regions estimated by the five regression models is selected as the optimum gate region to be presented to the user.
  • the hardware configuration, the generation processing of the first regression model 1341 to the fifth regression model 1345, and the like are the same as those in the first embodiment. In the following description, the points different from those of the first embodiment will be mainly described.
  • FIG. 21 is a flowchart showing another procedure example of the gate area estimation process.
  • a process for selecting a gate area is added to the process shown in FIG.
  • the control unit 11 acquires a scatter plot (step S71).
  • the control unit 11 inputs the acquired scatter plot to each regression model (step S72).
  • the control unit 11 acquires the estimated output of the gate region for each regression model (step S73).
  • the control unit 11 excludes the gate area including the outliers from the selection target (step S74).
  • the median value is calculated for each parameter of the gate region output by the five regression models. Gate areas that deviate from the median even for one item are excluded from the selection.
  • step S74 is not an essential process and may be omitted.
  • the control unit 11 calculates the feature amount for each gate region (step S75).
  • the feature amounts are the number of cells in the gate, the area of the gate region, the cell density in the gate, the cell purity in the gate, and the like. The features will be supplemented later.
  • the control unit 11 selects the optimum gate based on the feature amount (step S76).
  • the control unit 11 calculates the degree of spraying (step S77).
  • the control unit 11 determines the degree of self-confidence (step S78). Since the contents of steps S77 and S78 are the same as those in the first embodiment, the description thereof will be omitted.
  • the control unit 11 stores the selected gate area and confidence level (step S79), and ends the gate area estimation process.
  • FIG. 22A and 22B are explanatory views showing an example of exclusion of the outlier gate region.
  • FIG. 22A shows the gate regions output by the five regression models superimposed on the scatter plot.
  • the gate region Gj has a size different from that of other gate regions, and therefore is excluded from the selection target as a gate region including outliers.
  • FIG. 22B is a scatter plot showing only the gate area Gj that is out of the selection target.
  • FIG. 23 is an explanatory diagram showing an example of 10 small groups.
  • the pentagonal mark indicates the center of each subpopulation used for k-means.
  • the horizontal axis is SSC and the vertical axis is FL3 in a two-dimensional display, but in reality, the axis in the paper normal direction is FSC, which is a three-dimensional clustering.
  • FSC the axis in the paper normal direction
  • the cell purity of the gate region G is the ratio contained in the gate region G in the class Cb. That is, the cell purity is a value obtained by determining the cell of the class most contained in the target gate region and dividing the number of cells of the class contained in the target gate region by the total number of cells of the class.
  • FIG. 24 is a flowchart showing an example of the procedure of the gate selection process.
  • the gate selection process corresponds to step S76 in FIG.
  • the control unit 11 clusters cells (step S91). For example, in the distribution of FSC, SSC, and FL3 as described above, three-dimensional automatic clustering by k-means is performed, and cells are divided into 10 classes.
  • the control unit 11 selects the gate area to be processed from the five gate areas output by each of the five regression models (step S92).
  • the control unit 11 obtains the number of cells for each class contained in the selected gate region, and identifies the class having the largest number of cells (step S93).
  • the control unit 11 calculates the cell purity (step S94).
  • the control unit 11 determines whether or not there is an unprocessed gate area (step S95). When the control unit 11 determines that there is an unprocessed gate area (YES in step S95), the control unit 11 returns the process to step S92 and performs the process for the unprocessed gate area. When the control unit 11 determines that there is no unprocessed gate area (NO in step S95), the control unit 11 selects an output gate area (step S96). The control unit 11 selects the gate region having the highest cell purity from the five gate regions. The control unit 11 ends the gate selection process.
  • FIG. 25A and 25B are explanatory views showing an example of selecting a gate region.
  • FIG. 25A shows the gate regions output by the five regression models superimposed on the scatter plot.
  • the numbers on the right side of FIG. 25A indicate the cell purity of each gate region.
  • the cell purity of the gate region output by AI-3, that is, the third regression model 1343 is 0.66, which is the largest value, the gate region is selected.
  • FIG. 25B is an example of a scatter plot in which only the selected gate area is superimposed and displayed. Similar processing is possible when outputting a plurality of gate areas. Details will be described later.
  • the number of cells is the number of cells contained in the gate region.
  • the area is the area of the figure showing the gate area in the two-dimensional scatter plot.
  • the cell density is the number of cells divided by the area.
  • a measured value other than the analysis axis may be used.
  • the analysis axis is the horizontal axis and the vertical axis of the scatter plot displayed in two dimensions.
  • the measured values of other dimensions can be an index for determining the optimum gate for narrowing down the cell tumor.
  • the analysis axes are SSC and FL3 (CD45).
  • examples of measured values other than the analysis axis are FSC and FL1 (CD34).
  • the CD34 is measured by FL1 and the optimum gate is selected based on the average value thereof.
  • the average value of AI-1 is 0.21
  • the average value of AI-2 is 0.16
  • the average value of AI-3 is 0.18
  • the average value of AI-4 is 0.20.
  • the gate area output by AI-5 is excluded as an outlier gate area. At this time, the gate area output by AI-1 is selected.
  • Image information may be used as the feature amount.
  • the distribution situation is converted into an image and the feature amount is acquired.
  • a processing example will be described below.
  • FIG. 26 is an explanatory diagram showing an example of selecting a gate region based on luminance information.
  • the upper left of FIG. 26 is a scatter diagram in which the gate area output by AI-1 is superimposed and displayed.
  • the lower left of FIG. 26 shows the feature amount of the gate region output by AI-1.
  • the upper right of FIG. 26 is a scatter diagram in which the gate area output by AI-2 is superimposed and displayed.
  • the lower right of FIG. 26 shows the feature amount of the gate area output by AI-2.
  • the gate area output from AI-3 to AI-5 has a feature amount smaller than that of the gate area output by AI-1 and AI-2, and neither of them may be selected. ..
  • the gate area to be selected is the area output by AI-1.
  • Method 1 is a method of selecting one optimum output from a plurality of AIs that output all gates. For example, it is a method of selecting the estimation result output by AI-1 for all the gate areas.
  • FIG. 27 is a flowchart showing another procedure example of the gate area selection process.
  • FIG. 27 is a selection process when a plurality of gate areas are set in one scatter diagram, and is a process according to the above-mentioned method 1.
  • the control unit 11 selects a regression model to be processed (step S111).
  • the control unit 11 selects the gate area to be processed from the plurality of gate areas output by the selected regression model (step S112).
  • the control unit 11 determines the confidence level of the selected gate region (step S113). The determination of the degree of self-confidence is as described above.
  • the control unit 11 stores the self-confidence level in the temporary storage area (step S114).
  • the control unit 11 determines whether or not there is an unprocessed gate area (step S115).
  • control unit 11 determines that there is an unprocessed gate area (YES in step S115).
  • the control unit 11 returns the process to step S112 and performs the process for the unprocessed gate area.
  • the control unit 11 determines that there is no unprocessed gate area (NO in step S115)
  • the control unit 11 determines the confidence level of the entire gate area output by the selected regression model (step S116). For example, when there are three gate areas to be set and the self-confidence of each gate area is high, high, and low, the number of highs 2 is set as the total self-confidence.
  • the control unit 11 stores the self-confidence level in the temporary storage area (step S117).
  • the control unit 11 determines whether or not there is a regression model to be processed (step S118).
  • control unit 11 determines that there is an unprocessed regression model (YES in step S118).
  • the control unit 11 returns the process to step S111 and performs the process for the unprocessed regression model.
  • control unit 11 determines that there is no unprocessed regression model (NO in step S118)
  • the control unit 11 selects a regression model based on the confidence level of each regression model (step S119).
  • the control unit 11 outputs the gate area output by the selected regression model (step S120), and ends the process.
  • Method 2 is a method of selecting the optimum output for each gate from a plurality of AIs that output all gates.
  • the first gate selects the estimation result output by AI-1
  • the second gate selects the estimation result output by AI-4
  • the third gate selects the estimation result output by AI-5.
  • Method 1 has the advantage that one AI outputs each gate, so there is little overlap between the gates, but there is a disadvantage that if one gate is misaligned, there is a high possibility that the other gates are also misaligned.
  • Method 2 has an advantage that the influence of deviation of other gates is small because it is selected for each gate, but there is a disadvantage that gates tend to overlap each other if it is selected under the condition that there is no information on other gates. However, the influence of the disadvantage can be reduced by devising and adding information on other gates.
  • condition 1 The feature amount "cell purity” is used as a criterion for determining the optimum gate.
  • Condition 2 Select the gate according to the usefulness (because the analysis gate generally has the usefulness). At that time, cells contained in other gates are excluded from the calculation of the feature amount. The gate is selected depending on whether only condition 1 is applied or conditions 1 and 2 are applied. If there is no overlap of gates on either side, the selection result is adopted.
  • the feature amount under condition 1 may be a feature amount other than cell purity as long as it is related to the gate region.
  • FIG. 28 is a flowchart showing another procedure example of the gate area selection process.
  • FIG. 28 is a selection process when a plurality of gate areas are set in one scatter diagram, and is a process according to the above-mentioned method 2.
  • the control unit 11 selects a gate area to be processed from the plurality of gate areas (step S131). For example, when three gate areas are set, they are designated as the first gate, the second gate, and the third gate, respectively.
  • the order number is determined by the usefulness such as the order of importance in reporting the test results.
  • the control unit 11 performs processing in the order of the first gate, the second gate, and the third gate.
  • the control unit 11 selects the regression model to be processed (step S132).
  • the control unit 11 calculates the feature amount for the gate region output by the selected regression model, for example, the cell purity (step S133).
  • the control unit 11 determines whether or not there is an unprocessed regression model (step S134). When the control unit 11 determines that there is an unprocessed regression model (YES in step S134), the control unit 11 returns the process to step S132 and performs the process for the unprocessed regression model.
  • the control unit 11 determines that there is no unprocessed regression model (NO in step S134)
  • the control unit 11 selects the gate area to be finally output from the gate areas output by any of the regression models based on the feature amount. (Step S135).
  • the control unit 11 stores the information of the selected gate area in the temporary storage area (step S136).
  • the control unit 11 determines whether or not there is an unprocessed gate area (step S137). When the control unit 11 determines that there is an unprocessed gate area (YES in step S137), the control unit 11 returns the process to step S131 and performs the process for the unprocessed gate area. When the control unit 11 determines that there is no unprocessed gate area (NO in step S137), the control unit 11 outputs all the gate areas based on the selection information stored in the temporary storage area (step S138), and ends the process.
  • CD45 gating in LLA is taken as an example, but CD45 gating in Malignant Lymphoma Analysis (MLA) examination can also be performed by the same procedure.
  • MLA Malignant Lymphoma Analysis
  • Control unit 12 Main storage unit 13 Auxiliary storage unit 131 Measured value DB 132 Feature information DB 133 Gate DB 1341 1st regression model 1342 2nd regression model 1343 3rd regression model 1344 4th regression model 1345 5th regression model 135 Threshold DB 136 Confidence DB 14 Input unit 15 Display unit 16 Communication unit 17 Reading unit 1P control program 1a Portable storage medium 1b Semiconductor memory 2 Measuring unit 3 Learning server

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Dispersion Chemistry (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Image Analysis (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

学習モデルにより、ゲート領域を推定する場合において、より精度の良い推定結果を出力するゲート領域推定プログラム等を提供すること。 ゲート領域推定プログラムは、測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、散布図群とゲート領域とを含む訓練データに基づき学習を行った複数の学習モデルそれぞれに、取得した散布図群を入力し、前記複数の学習モデルそれぞれから得た推定ゲート領域を出力する処理をコンピュータに行わせる。

Description

ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置
 本発明は、フローサイトメトリーにおけるゲート領域を推定するゲート領域推定プログラム等に関する。
 フローサイトメトリー(Flow Cytometry:FCM)は、単一の細胞毎に複数の特徴量を測定できる技術である。FCMでは、流動する液体に懸濁した細胞が一列になるように流す。一個一個流れる細胞に光を当て、その光の散乱や蛍光具合により、細胞の大きさ、内部の複雑さ、構成物質などの指標が得られる。フローサイトメトリーは医療においては、例えば、細胞性免疫検査に利用されている。
 細胞性免疫検査では、フローサイトメトリーで得られた複数の指標値の解析を行い、検査結果として返却する。解析技術の1つにゲーティングがある。ゲーティングは得られたデータの中から特定の集団のみを選んで解析する技術である。従来、解析対象とする集団の特定は、検査士が2次元の散布図において、楕円形や多角形(「ゲート」という)を描くことにより指定していた。このようなゲートの設定は、検査士の経験や知識による所が大きい。そのため、経験や知識が少ない検査士が適切なゲート設定を行うことは困難である。
 それに対して、ゲート設定を自動化する技術が提案されている(特許文献1、2等)。しかしながら、従来技術は細胞の密度情報を用いた設定方法や、ルールベースによる手法での設定であり、検査士が蓄積してきた経験や知識が十分、活用されていない。
特許第6480918号公報 特許第5047803号公報
 そこで、検査士が蓄積した経験や知識に基づくゲート設定データを訓練データとして深層学習を行った学習モデルにより、ゲート領域を推定することが考えられる。しかし、学習モデルによるゲート領域の推定は精度が十分でない。
 本発明はこのような状況に鑑みてなされたものである。その目的は、学習モデルにより、ゲート領域を推定する場合において、より精度の良い推定結果を出力するゲート領域推定プログラム等の提供である。
 本発明に係るゲート領域推定プログラムは、測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、散布図群とゲート領域とを含む訓練データに基づき学習を行った複数の学習モデルそれぞれに、取得した散布図群を入力し、前記複数の学習モデルそれぞれから得た推定ゲート領域を出力する処理をコンピュータに行わせることを特徴とする。
 本発明にあっては、複数の学習モデルを用いるアンサンブル学習により、精度の良いゲート領域の推定を行うことが可能となる。
検査システムの構成例を示す説明図である。 処理部のハードウェア構成例を示すブロック図である。 測定値DBの例を示す説明図である。 特徴情報DBの例を示す説明図である。 ゲートDBの例を示す説明図である。 閾値DBの例を示す説明図である。 自信度DBの例を示す説明図である。 回帰モデルの生成処理に関する説明図である。 回帰モデル生成処理の手順例を示すフローチャートである。 閾値決定処理の手順例を示すフローチャートである。 ゲート領域の推定結果例を示す説明図である。 ゲート領域の推定結果例を示す説明図である。 散布度の例を示す説明図である。 散布度の例を示す説明図である。 散布度の例を示す説明図である。 ゲート領域推定処理の手順例を示すフローチャートである。 自信度判定処理の手順例を示すフローチャートである。 ゲート領域の推定結果例を示す説明図である。 ゲート領域の推定結果例を示す説明図である。 散布度の例を示す説明図である。 散布度の例を示す説明図である。 ゲート領域の推定結果例を示す説明図である。 推定結果表示画面の例を示す説明図である。 推定結果表示画面の例を示す説明図である。 ID一覧画面の例を示す説明図である。 ゲート領域推定処理の他の手順例を示すフローチャートである。 外れ値ゲート領域の除外例を示す説明図である。 外れ値ゲート領域の除外例を示す説明図である。 10個の小集団の例を示す説明図である。 ゲート選択処理の手順例を示すフローチャートである。 ゲート領域の選択例を示す説明図である。 ゲート領域の選択例を示す説明図である。 輝度情報によるゲート領域の選択例を示す説明図である。 ゲート領域選択処理の他の手順例を示すフローチャートである。 ゲート領域選択処理の他の手順例を示すフローチャートである。
 以下実施の形態を、図面を参照して説明する。以下の説明においては、白血病・リンパ腫解析(LLA:Leukemia, Lymphoma Analysis)検査におけるCD45ゲーティングを例として説明する。最初に、LLA検査の工程について説明する。LLA検査は大まかに5つの工程を含む。1.分注、2.前処理、3.測定・描写、4.解析、5.報告である。
 分注工程では、一つの検体(以下、「ID」と記す。)を分ける工程である。LLA検査では一つのIDを最大10個に分注して検査を行う。分注した各検体をSEQと記す。また、分注した10の検体をSEQ1、SEQ2、…、SEQ10と記す。前処理工程では、各SEQに共通な処理(細胞濃度の調整など)を行い、個別に表面マーカを付ける。SEQ1はネガティブコントロールとする。ネガティブコントロールは、効果を検証したい対象と同一の条件で、既に陰性の結果が出ることが分かっている対象に検査を行うこと、あるいはその対象を意味する語である。陰性対照とも言う。検査においては、検証したい対象と、ネガティブコントロールにおける結果を比較することで、その相対的な差異から検査結果が解析される。
 測定・描写工程では、10SEQをフローサイトメータで測定を行い、蛍光値を得る。各SEQ内の個々の細胞について、測定値を含めた5つの項目からなる情報が得られる。項目の内訳は、FSC、SSC、FL1、FL2、FL3である。FSCは前方散乱光(FSC:Forward Scattered Light)の測定値を示す。FSCはレーザービームの光軸に対して前方で検出される散乱光の値を示す。FSCは細胞の表面積または大きさにほぼ比例するため、細胞の大きさを示す指標値となる。SSCは側方散乱光(SSC:Side Scattered Light)の測定値を示す。側方散乱光は、レーザービームの光軸に対して90°の角度で検出される光である。SSCは、その大部分が細胞内の物質に光が当たって散乱したものである。SSCは、細胞の顆粒性状、内部構造にほぼ比例するため、細胞の顆粒性状、内部構造を示す指標値となる。FLは蛍光(Fluorescence)を示すが、ここではフローサイトメータが備える複数の蛍光用検出器を示す。数字は蛍光用検出器の順番号を示す。FL1は1番目の蛍光検出器を示すが、ここでは、マーカとして各SEQのマーカ情報が設定される項目の名称である。FL2は2番目の蛍光検出器を示すが、ここでは、マーカとして各SEQのマーカ情報が設定される項目の名称である。FL3は3番目の蛍光用検出器を示すが、ここでは、CD45のマーカ情報が設定される項目の名称である。
 フローサイトメータは、各SEQで2つの散布図を作成し、散布図をディスプレイ等に表示する。例えば、一つの散布図は、一方の軸をSSCとし、他方の軸をFL3とする。もう一つの散布図は、一方の軸をSSCとし、他方の軸をFSCとする。
 解析工程では、散布図の様相より、検査士が疾患を推定し、各散布図上に疾患特定に有用なゲートを作成する。そして、ゲート範囲に存在する細胞のみからなるFL1―FL2の散布図を各SEQで作成し、マーカ反応として観察する。報告工程では、特に有用なゲートを2つ報告用に決定し、報告書を作成する。
(実施の形態1)
 図1は検査システムの構成例を示す説明図である。検査システムはフローサイトメータ(ゲート領域推定装置)10と学習サーバ3とを含む。フローサイトメータ10と学習サーバ3とはネットワークNを介して、通信可能に接続されている。フローサイトメータ10は、装置全体の動作に関する種々の処理を行う処理部1と、検体を受け入れ、フローサイトメトリーによる測定を行う測定部2とを含む。
 学習サーバ3は、サーバコンピュータ、ワークステーション等で構成する。学習サーバ3は検査システムにおいて、必須の構成ではない。学習サーバ3は、主としてフローサイトメータ10を補完する役目を担い、測定データや学習モデルをバックアップとして記憶する。また、フローサイトメータ10に代わって、学習モデルの生成、学習モデルの再学習を行ってもよい。この場合、学習サーバ3は、学習モデルを特徴付けるパラメータ等をフローサイトメータ10に送信する。なお、学習サーバ3の機能を、クラウドサービスで提供してもよい。
 図2は、処理部のハードウェア構成例を示すブロック図である。処理部1は制御部11、主記憶部12、補助記憶部13、入力部14、表示部15、通信部16、及び読み取り部17を含む。制御部11、主記憶部12、補助記憶部13、入力部14、表示部15、通信部16、及び読み取り部17はバスBにより接続されている。処理部1はフローサイトメータ10と別体としても良い。処理部1は、PC(Personal Computer)、ノートパソコン、タブレットコンピュータ等で構築する。処理部1を複数のコンピュータからなるマルチコンピュータ、ソフトウェアによって仮想的に構築された仮想マシン又は量子コンピュータで構成してもよい。
 制御部11は、一又は複数のCPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の演算処理装置を有する。制御部11は、補助記憶部13に記憶された図示しないOS(Operating System)や制御プログラム1P(ゲート領域推定プログラム)を読み出して実行することにより、フローサイトメータ10に係る種々の情報処理、制御処理等を行う。また、制御部11は取得部、出力部等の機能部を含む。
 主記憶部12は、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)、フラッシュメモリ等である。主記憶部12は主として制御部11が演算処理を実行するために必要なデータを一時的に記憶する。
 補助記憶部13はハードディスク又はSSD(Solid State Drive)等であり、制御部11が処理を実行するために必要な制御プログラム1Pや各種DB(Database)を記憶する。補助記憶部13は、測定値DB131、特徴情報DB132、ゲートDB133、第1回帰モデル1341から第5回帰モデル1345、閾値DB135、及び自信度DB136を記憶する。補助記憶部13はフローサイトメータ10に接続された外部記憶装置であってもよい。補助記憶部13に記憶する各種DB等を、ネットワークNで接続されたデータベースサーバやクラウドストレージに記憶してもよい。
 本実施の形態においては、複数の学習モデルを用いるアンサンブル学習を行う。複数の学習モデルの出力結果を用いて、ゲート領域の推定結果について、自信度を求める。本実施の形態においては、アンサンブル学習を行うために第1回帰モデル1341から第5回帰モデル1345の5つの学習モデルを使用するが、それに限らない。学習モデルの数は2つから4つでもよいし、6つ以上としてもよい。
 入力部14はキーボードやマウスである。表示部15は液晶表示パネル等を含む。表示部15は測定を行うための情報や測定結果、ゲート情報などを種々の情報を表示する。表示部15は入力部14と一体化したタッチパネルディスプレイでもよい。なお、表示部15に表示する情報をフローサイトメータ10の外部表示装置に表示を行ってもよい。
 通信部16はネットワークNを介して、学習サーバ3と通信を行う。また、制御部11が通信部16を用い、ネットワークN等を介して他のコンピュータから制御プログラム1Pをダウンロードし、補助記憶部13に記憶してもよい。
 読み取り部17はCD(Compact Disc)-ROM及びDVD(Digital Versatile Disc)-ROMを含む可搬型記憶媒体1aを読み取る。制御部11が読み取り部17を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、補助記憶部13に記憶してもよい。また、ネットワークN等を介して他のコンピュータから制御部11が制御プログラム1Pをダウンロードし、補助記憶部13に記憶してもよい。さらにまた、半導体メモリ1bから、制御部11が制御プログラム1Pを読み込んでもよい。
 補助記憶部13が記憶するデータベースについて説明する。図3は測定値DBの例を示す説明図である。測定値DB131はフローサイトメータ10による測定の測定値を記憶する。図3に示すのは測定値DB131に記憶される1レコードの例である。測定値DB131の各レコードは、基本部1311とデータ部1312とを含む。基本部1311は受付番号列、受付日列、検査番号列、検査日列、カルテ番号列、氏名列、性別列、年齢列、及び採取日列を含む。受付番号列は検査依頼を受け付けた際に発番する受付番号(識別情報)を記憶する。受付日列は、検査依頼を受け付けた日付を記憶する。検査番号列は検査を行う際に発番する検査番号を記憶する。検査日列は検査を実施した日付を記憶する。カルテ番号列は検査依頼に対応するカルテの番号を記憶する。氏名列は検体を提供した被検査者の氏名を記憶する。性別列は被検査者の性別を記憶する。例えば、被検査者が男性であれば、性別列はMを記憶する。被検査者が女性であれば、性別列はFを記憶する。年齢列は被検査者の年齢を記憶する。採取日列は被検査者から検体を採取した日付を記憶する。データ部1312において、各列は測定項目について、細胞毎の測定値を記憶する。各行は一つの細胞について、測定項目毎の測定値を記憶する。
 図4は特徴情報DBの例を示す説明図である。特徴情報DB132は測定値から得られる特徴を示す情報(以下、「特徴情報」とも言う。)を記憶する。特徴情報は例えば、散布図やヒストグラムである。特徴情報DB132は、受付番号列、検査番号列、順番号列、種別列、横軸列、縦軸列、及び画像列を含む。受付番号列は、受付番号を記憶する。検査番号列は、検査番号を記憶する。順番号列は同一検査内での特徴情報の順番号を記憶する。種別列は特徴情報の種別を記憶する。例えば、種別は上述したように散布図やヒストグラムである。横軸列は散布図やヒストグラムにおいて横軸として採用した項目を記憶する。縦軸列は散布図において縦軸として採用した項目を記憶する。ヒストグラムの場合、縦軸は細胞数であるので、縦軸列は細胞数を記憶する。画像列は散布図やヒストグラムを画像として記憶する。
 図5はゲートDBの例を示す説明図である。ゲートDB133は散布図に対して、設定されたゲートの情報(ゲート情報)を記憶する。ゲート情報はゲート領域を確定するための情報である。ゲート情報はゲート領域の外形線を示す図形の情報、ゲート領域に含まれる測定値の値範囲、ゲート領域に含まれる測定値の集合などである。散布図画像上において、ゲート領域に含まれる点のピクセル座標値でもよい。ここでは、ゲート情報はゲート領域の外形線を示す図形とし、その形状は楕円形状とするが、それに限られない。図形は複数の辺から構成される多角形や、複数の曲線を結んだ図形でもよい。ゲートDB133は、受付番号列、検査番号列、横軸列、縦軸列、ゲート番号列、CX列、CY列、DX列、DY列、及びθ列を含む。受付番号列は受付番号を記憶する。検査番号列は検査番号を記憶する。横軸列は散布図において横軸として採用した項目を記憶する。縦軸列は散布図において縦軸として採用した項目を記憶する。ゲート番号列はゲートの順番号を記憶する。CX列は楕円の中心x座標値を記憶する。CY列は楕円の中心y座標値を記憶する。DX列は楕円の長径の値を記憶する。DY列は楕円の短径の値を記憶する。θ列は楕円の傾き角度を記憶する。例えば、傾き角度は横軸と楕円の長径とがなす角度である。ゲート形状として、多角形を設定可能とする場合、ゲートDB133は多角形を形づくる複数点の座標列を記憶する。
 図6は閾値DBの例を示す説明図である。閾値DB135はゲート領域を示す各項目値のバラつきの度合いを示す指標(散布度)に関する閾値を記憶する。当該閾値は、回帰モデルの自信度を判定する際に用いる。図6に示す例はゲート領域が楕円の場合である。閾値DB135はID列、横軸列、縦軸列、CX列、CY列、DX列、及びDY列を含む。ID列は閾値群を特定するIDを記憶する。横軸列は散布図において横軸とする項目を記憶する。縦軸列は散布図において縦軸とする項目を記憶する。CX列は楕円の中心x座標値に関する閾値を記憶する。CY列は楕円の中心y座標値に関する閾値を記憶する。DX列は楕円の長径の値に関する閾値を記憶する。DY列は楕円の短径の値に関する閾値を記憶する。CX列、CY列、DX列、及びDY列はそれぞれ、A列及びB列を含む。A列は閾値Aを記憶する。B列は閾値Bを記憶する。B列の「-」は値が設定されていないことを示す。閾値Aのみが設定されている場合、回帰モデルの自信度は、高又は低のいずれかとなる。閾値Bが設定されている場合は、自信度を数値で示す。例えば、閾値Aより小さいならば自信度50、更に閾値Bよりも小さいならば自信度70とする。なお、閾値は3つ以上であってもよい。
 図7は自信度DBの例を示す説明図である。自信度DB136は回帰モデルによるゲート領域の推定結果の自信度を記憶する。自信度DB136は受付番号列、検査番号列、ゲート番号列、CX列、CY列、DX列、DY列、ゲート全体列、及び全体列を含む。受付番号列は受付番号を記憶する。検査番号列は検査番号を記憶する。ゲート番号列はゲートの順番号を記憶する。受付番号列、検査番号列及びゲート番号列により、ゲートDB133との対応付けが可能となる。CX列は楕円の中心x座標値の自信度を記憶する。CY列は楕円の中心y座標値の自信度を記憶する。DX列は楕円の長径長の自信度を記憶する。DY列は楕円の短径長の自信度を記憶する。ゲート全体列はゲート毎の自信度を記憶する。全体列は検査毎の自信度を記憶する。図7に示す例では、自信度の値は高又は低である。
 次に、準備工程について説明する。準備工程は実運用に入る前に行う工程である。図8は回帰モデルの生成処理に関する説明図である。第1回帰モデル1341から第5回帰モデル1345の5つの学習モデルを生成する。図8は、機械学習を行って第1回帰モデル1341から第5回帰モデル1345を生成する処理を示している。基本的な処理の内容は全ての学習モデルで同様である。基本的な処理について、第1回帰モデル1341を代表として説明する。
 本実施の形態にフローサイトメータ10において、処理部1は、測定部2で得た測定結果に基づき作成した散布図画像に対する適切なゲートの特徴量を学習するディープラーニングを行うことで、複数の散布図画像(散布図群)を入力とし、ゲート情報を出力とする第1回帰モデル1341を生成する。複数の散布図画像とは、少なくとも1軸の項目が異なる複数の散布図画像である。例えば、横軸がSSCで縦軸がFL3の散布図画像、及び、横軸がSSCで縦軸がFSCの散布図画像からなる2つの散布図画像である。3つ以上の散布図画像を入力してもよい。ニューラルネットワークは例えばCNN(Convolution Neural Network)である。第1回帰モデル1341は、各散布図画像の特徴量をそれぞれ学習する複数の特徴抽出器と、各特徴抽出器が出力した特徴量を結合する結合器と、結合した特徴量に基づき、ゲート情報の各項目(中心X座標、中心Y座標、長径、短径、傾斜角度)を推定し出力する複数の推定器とを有する。なお、第1回帰モデル1341に散布図画像ではなく、散布図の基になる測定値の集合を入力してもよい。
 各特徴抽出器は、入力層、中間層を含む。入力層は、散布図画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値を中間層に受け渡す。中間層は複数のニューロンを有し、散布図画像内からの特徴量を抽出して出力層に受け渡す。例えば特徴抽出器がCNNである場合、中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピングするプーリング層とが交互に連結された構成を有し、画素情報を圧縮しながら最終的に画像特徴量を抽出する。散布図画像を入力する特徴抽出器を画像毎に設けるのではなく、1つの特徴抽出器に複数の散布図画像を入力する構成でもよい。
 なお、本実施の形態では第1回帰モデル1341がCNNであるものとして説明するが、第1回帰モデル1341はCNNに限定されず、CNN以外のニューラルネットワーク、ベイジアンネットワーク、決定木など、他の学習アルゴリズムで構築された学習済みモデルであってもよい。
 処理部1は、複数の散布図画像と、散布図に対応したゲート情報の正解値とが対応付けられた訓練データを用いて学習を行う。例えば図8に示すように、訓練データは、複数の散布図画像に対し、ゲート情報がラベル付けされたデータである。なお、ここでは簡略のため、2種類の散布図を1組の散布図とする。また、1組の散布図に対して、1つのゲートを設けるものとして説明するが、複数のゲートを設けてもよい。この場合、ゲート情報には有用度を示す値を含める。
 処理部1は、訓練データである2つの散布図画像をそれぞれ異なる特徴抽出器に入力する。各特徴抽出器が出力した特徴量が結合器により結合される。結合器による結合は、単純に特徴量を結合する方法(Concatenate)、特徴量を示す値を加算する方法(Add)、特徴量の最大のものを選択する(Maxpool)方法などがある。
 結合された特徴量に基づき、各推定器は推定結果として、ゲート情報を出力する。各推定器が出力する値の組み合わせで、1組のゲート情報となる。出力するゲート情報は複数組であってもよい。この場合、複数組に応じた数の推定器を設ける。例えば、優先順位1位のゲート情報と、優先順位2位のゲート情報とを出力する場合、図8における推定器の数が5から10個となる。
 処理部1は推定器から得たゲート情報を、訓練データにおいて散布図画像に対しラベル付けされた情報、すなわち正解値と比較し、推定器からの出力値が正解値に近づくように、特徴抽出器や推定器での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み(結合係数)、各ニューロンで用いられる活性化関数の係数などである。パラメータの最適化の方法は特に限定されないが、例えば処理部1は誤差逆伝播法を用いて各種パラメータの最適化を行う。処理部1は、訓練データに含まれる検査毎のデータについて上記の処理を行い、第1回帰モデル1341を生成する。
 次に、処理部1の制御部11が行う処理について説明する。図9は回帰モデル生成処理の手順例を示すフローチャートである。制御部11は検査履歴を取得する(ステップS1)。検査履歴は過去の検査結果の蓄積であり、測定値DB131に記憶された過去の測定値である。制御部11は処理対象とする1つの履歴を選択する(ステップS2)。制御部11は選択した履歴に対応する特徴情報を取得する(ステップS3)。特徴情報は例えば散布図である。特徴情報は特徴情報DB132から取得する。特徴情報が記憶されていない場合、測定値から生成してもよい。制御部11は選択した履歴に対応するゲート情報を取得する(ステップS4)。ゲート情報はゲートDB133より取得する。制御部11は取得した特徴情報とゲート情報とを訓練データとして、第1回帰モデル1341の学習を行う(ステップS5)。制御部11は未処理の検査履歴があるか否かを判定する(ステップS6)。制御部11は未処理の検査履歴があると判定した場合(ステップS6でYES)、処理をステップS2に戻し、未処理の検査履歴に関する処理を行う。制御部11は未処理の検査履歴がないと判定した場合(ステップS6でNO)、第1回帰モデル1341を記憶し(ステップS7)、処理を終了する。
 図8及び図9を用いて説明した処理と同様な処理により、第2回帰モデル1342、第3回帰モデル1343、第4回帰モデル1344、第5回帰モデル1345を生成する。ただし、第1回帰モデル1341から第5回帰モデル1345のそれぞれは、例えば、訓練データ、ネットワーク構造、ハイパーパラメータを変えることにより、生成条件が異なる回帰モデルとする。訓練データについては、データ拡張やブートストラップ法で用いる復元抽出法によりデータ数を増やすことにより、5つの学習モデルの訓練データを異なるものとする。ネットワーク構造については、入力層、出力層の数を変える。また、Fine-tuningにより、ある学習モデルから、それと異なる学習モデルを生成する。ハイパーパラメータについては、中間層の層数、各層(レイヤ)のノード数、重み、損失関数、最適化関数、学習率、バッチサイズ等の設定を異なるものとする。
 第1回帰モデル1341から第5回帰モデル1345を生成した後、自信度を判定するための閾値を決定する。図10は閾値決定処理の手順例を示すフローチャートである。制御部11はテストデータを取得する(ステップS11)。制御部11は取得したテストデータを各回帰モデルに入力する(ステップS12)。制御部11は各回帰モデルから推定出力を取得する(ステップS13)。推定出力は、各回帰モデルが推定したゲート領域を示すパラメータの値である。ゲート領域が楕円の場合、パラメータは中心座標(Cx,Cy)、長半径と短半径との長さ(Dx,Dy)、及び長半径とx軸とがなす角の角度(θ)である。ゲート領域が多角形の場合は、各頂点の座標値である。制御部11は各回帰モデルから出力された値から、パラメータ毎に散布度を算出する(ステップS14)。散布度の一例は標準偏差である。制御部11は未処理のテストデータがあるか否かを判定する(ステップS15)。制御部11は未処理のテストデータがあると判定した場合(ステップS15でYES)、処理をステップS11へ戻し、未処理のテストデータについての処理を行う。制御部11は未処理のテストデータがないと判定した場合(ステップS15でNO)、パラメータ毎の閾値を決定する(ステップS16)。閾値は許容できる出力値のバラつきの限度を意味する。閾値は統計手法により決定する。または、テストデータ毎の散布度の値から、例えばベテランの検査士が判断して、決定する。制御部11は決定した閾値を記憶し(ステップS17)、閾値決定処理を終了する。なお、閾値はフローサイトメータ10が稼働する環境毎、例えば、検査機関毎に調整してもよい。散布度は標準偏差以外に、分散、不偏分散又は平均偏差でもよい。
 閾値決定処理の具体例を説明する。図11A及び図11Bはゲート領域の推定出力例を示す説明図である。図11はCD45ゲーティングにおける散布図の例である。図11Aは入力とする散布図の例を示す。図11Aは横軸がSSC(Side Scattered Light:側方散乱光)であり、縦軸がFL3(FL=Fluorescence:蛍光用検出器、3は3番目の意。)である。図11Bは、入力された散布図におけるゲート領域を、5つの回帰モデルが推定したそれぞれの結果を示す。図11Bの縦軸、横軸は図11Aと同様である。ここでは、楕円形のゲート領域を1つ推定する例を示す。図11Bでは、入力された散布図にゲート領域が重ね書きされている。AI-1が第1回帰モデル1341の推定結果を示し、AI-2が第2回帰モデル1342の推定結果を示し、以下同様であり、AI-5が第5回帰モデル1345の推定結果を示す。散布図の下にゲート領域である楕円形のパラメータを記載している。上から順に中心X座標(Cx)、中心Y座標(Cy)、長径の長さ(Dx)、短径の長さ(Dy)、傾斜角度(θ)である。
 図12は散布度の例を示す説明図である。散布度は標準偏差(SD:standard deviation)とする。図12の左表は、図11Bに示した値を再掲載している。なお、傾斜角度は、ゲート領域の形状が正円形とした場合など、SDが大きくなったとしても、推定結果の自信度に影響しないので、SDの算出項目から除外している。SDの閾値は、複数のテストデータに対する結果について算出し、算出結果に基づいて決定する。
 図13A及び図13Bは散布度の例を示す説明図である。図13Aと図13Bとは異なるテストデータを入力した場合の推定結果である。図13A及び13Bともに、横軸はSSC、縦軸はFL3である。図13A及び図13Bでは、入力の散布図に5つの回帰モデルが出力したゲート領域を重ねて描いている。散布図右側の数値は楕円形を特定する中心座標、長短径のSDを示している。図13Aは推定結果のバラつきが小さい例であり、図13Bは推定結果のバラつきが大きい例である。図13Aと図13Bとからすると、Cx:5.6以上、Cy:10.9~36.8の間、Dx:12.3以上、Dy:6.4以上で閾値を決めるとよいと考えられる。2つのテストデータのみでなく、他のデータについてのSDを考慮して、パラメータ毎の最終的な閾値を決定することが望ましい。各パラメータの閾値が決定すれば、準備工程は終了である。なお、上述の閾値決定処理においては、各回帰モデルはゲート領域の推定結果として、1つのゲートを出力する前提で説明したが、複数であってもよい。複数の場合は、ゲート毎に閾値を決定する。ゲート領域として、第1ゲート、第2ゲート、第3ゲートが出力される場合、各回帰モデルの第1ゲートについて、散布度を求め、閾値を決定する。
 次に、運用工程について説明する。以下の説明では、散布度を標準偏差(SD)とする。また、SDが閾値以下の場合、自信度を高とする。SDが閾値を超えた場合、自信度を低とする。また、各回帰モデルは複数のゲート領域の推定結果を出力するものとする。
 図14はゲート領域推定処理の手順例を示すフローチャートである。制御部11は散布図を取得する(ステップS31)。ここでの散布図は測定結果を示す点の座標列並びに、横軸の測定項目及び縦軸の測定項目である。制御部11は取得した散布図を各回帰モデル入力する(ステップS32)。制御部11は各回帰モデルがゲート領域の推定出力を取得する(ステップS33)。制御部11は回帰モデル毎、ゲート毎、パラメータ毎に散布度、ここでは標準偏差を算出する(ステップS34)。制御部11は自信度の判定を行う(ステップS35)。制御部11は結果を記憶する(ステップS36)。制御部11はゲート領域の推定結果をゲートDB133に記憶し、自信度を自信度DB136に記憶する。制御部11はゲート領域判定処理を終了する。
 図15は自信度判定処理の手順例を示すフローチャートである。自信度判定処理は図14のステップS35に対応する処理である。制御部11は対象とするゲート領域を選択する(ステップS51)。制御部11は処理対象とするパラメータ(Cx、Cy、Dx、Dy等の変数)を選択する(ステップS52)。制御部11はパラメータの標準偏差が閾値以下であるか否かを判定する(ステップS53)。制御部11はパラメータの標準偏差が閾値以下であると判定した場合(ステップS53でYES)、全パラメータについて処理済みか否かを判定する(ステップS54)。制御部11は全パラメータについて処理済みでないと判定した場合(ステップS54でNO)、処理をステップS52に戻し、未処理のパラメータについての処理を行う。制御部11は全パラメータについて処理済みと判定した場合(ステップS54でYES)、処理対象としているゲートの自信度が高であることを、一時記憶領域に記憶する(ステップS55)。一時記憶領域は主記憶部12又は補助記憶部13に設ける。制御部11はパラメータの標準偏差が閾値を超えていると判定した場合(ステップS53でNO)、処理対象としているゲートの自信度が低であることを、一時記憶領域に記憶する(ステップS56)。制御部11は全ゲートについて処理済みか否かを判定する(ステップS57)。制御部11は全ゲートについて処理済みでないと判定した場合(ステップS57でNO)、処理をステップS51に戻し、未処理のゲートについての処理を行う。制御部11は全ゲートについて処理済みと判定した場合(ステップS57でYES)、一時記憶領域を参照し、全ゲートの自信度が高であるか否かを判定する(ステップS58)。制御部11は全ゲートの自信度が高であると判定した場合(ステップS58でYES)、処理対象としている散布図におけるゲート領域の推定結果に対する自信度(全体の自信度)が高であることを一時記憶領域に記憶する(ステップS59)。制御部11は全ゲートの自信度が高ではなく、一部のゲートの自信度が低であると判定した場合(ステップS58でNO)、処理対象としている散布図についての推定結果全体の自信度が低であることを一時記憶領域に記憶する(ステップS60)。制御部11は処理を呼び出し元に戻す。
 ゲート領域推定処理の具体例を説明する。図16A及び図16Bは、ゲート領域の推定結果例を示す説明図である。図16は図11と同様に、CD45ゲーティングにおける散布図の例である。図16Aは入力とする散布図の例であり、図16Bは入力された散布図におけるゲート領域を、5つの回帰モデルが推定したそれぞれの結果を示す。図16A及び図16Bにおいて、横軸はSSCであり、縦軸はFL3である。ここでは、推定結果として得たゲート領域の1つを表示している。図16Bでは、入力された散布図にゲート領域が重ね書きされている。AI-1が第1回帰モデル1341の推定結果を示し、AI-2が第2回帰モデル1342の推定結果を示し、以下同様であり、AI-5が第5回帰モデル1345の推定結果を示す。散布図の下にゲート領域である楕円形のパラメータを記載している。上から順に中心X座標(Cx)、中心Y座標(Cy)、長径の長さ(Dx)、短径の長さ(Dy)、傾斜角度(θ)である。
 図17A及び図17Bは散布度の例を示す説明図である。図17Aと図17Bとは異なる散布図を入力した場合の推定結果である。図17A及び17Bともに、横軸はSSC、縦軸はFL3である。図17Aは、図16Bに示した5つの図を一つの図として描いたものである。すなわち、図17Aは入力の散布図に5つの回帰モデルが出力したゲート領域を重ねて描いている。図17Bも図17Aと同様である。散布図右側の数値は楕円形を特定する中心座標、長短径のSDを示している。図17Aは推定結果のバラつきが小さい例であり、図17Bは推定結果のバラつきが大きい例である。ここで、Cx、Cy、Dx、Dyの各SDが20以下ならば自信度を高、20を超える項目が1つでも有るならば、自信度を低とする場合、図17Aに示す結果は、全てSDが20以下であるので、自信度が高と判定される。一方、図17Bに示す結果は、Cx及びDxのSDが20を超えているため、自信度が低と判定される。
 続いて、複数のゲート領域を推定した場合の自信度の判定例を示す。図18はゲート領域の推定結果例を示す説明図である。図18はゲートG1からG3の3つのゲート領域の推定結果が描かれている。各ゲート領域は5つの回帰モデルが出力したゲート領域を重ねて散布図上に描いている。散布図の下の表は各パラメータのSDを示している。ゲートG1及びG2は、全てのSDが20以下であるので、自信度は高と判定される。ゲートG3はCxのSDが20を超えているため、自信度が低と判定される。複数のゲート領域を推定する場合、全てのゲート領域の推定結果の自信度が高である場合、全体の自信度を高とし、ゲート領域の推定結果の自信度に1つでも低がある場合、全体の自信度を低とする。この定義で判定するならば、図18に示す推定結果は全体としては、自信度が低と判定される。
 次に、ゲート領域の推定結果の画面表示について説明する。図19A及び図19Bは推定結果表示画面の例を示す説明図である。図19Aは自信度が高であるときの画面例である。図19Bは自信度が低であるときの画面例である。推定結果表示画面は散布図191、自信度192、自信度アイコン193を含む。散布図191は散布図にゲート領域の推定結果を表示したものである。ここで、表示するゲート領域は、5つの回帰モデルが出力した5つの推定領域のうち、所定のアルゴリズムで選択された1つの領域である。自信度192は判定結果全体についての自信度を表示する。図19では、自信度:高をHighで、自信度:低をLowで表示している。自信度アイコン193は自信度を顔アイコンで表現している。自信度が高であれば、笑顔のアイコンを表示し、自信度が低であれば、困った顔のアイコンを表示する。なお、散布図191において、表示するゲート領域を、図13等と同様に5つの回帰モデルが出力した5つの推定領域全てとしてもよい。
 図20はID一覧画面の例を示す説明図である。ID一覧画面は、検査毎に付されるIDとゲート領域の推定結果の自信度とを対応付けて一覧表示する。ID一覧画面は、ID表示201と自信度表示202とを含む。ID表示201は例えば受付番号を表示する。自信度表示202は例えば自信度が高い場合にAを、自信度が低い場合にaを表示する。ID表示201の1つのIDを選択すると、図19に示した推定結果表示画面を表示する。
 本実施の形態では、ゲート領域の推定結果に自信度を付して出力する。それにより、自信度表示202を参照して、「A」は熟練度の高い検査士が優先して念入りにチェックする、間違っている可能性の高い「a」は時間を掛けて解析するなど、現場の運用環境に合わせた運用が可能となるという効果を奏する。
 本実施の形態において、各回帰モデルへ入力する散布図は1つとしたが、それに限らず2つ以上であってもよい。また、散布図は2次元に限らず、3次元以上であってもよい。
 散布度はゲート領域を表す図形のパラメータの標準偏差、楕円の場合は中心座標、長半径の長さの標準偏差としたが、それに限らない。5つの回帰モデルが推定したゲート領域の面積を散布度としても良い。例えば、散布図に5つの推定ゲート領域を重畳表示した場合に、5つの領域を包含する領域の面積と、5つが重なっている領域の面積とを算出し、前者の面積に占める後者の面積の割合を散布度とする。この場合、値が小さいほど、バラつきが大きいと判断する。1が最大値であり、5つの領域が全て一致するときである。
(実施の形態2)
 本実施の形態は、5つの回帰モデルが推定した5つのゲート領域のうち、ユーザに提示する1つのゲート領域を選択する手法に関する形態である。アンサンブル学習においては、複数の学習モデルの出力結果を組み合わせて最終的な結果を得る。アンサンブル学習では複数の学習モデルを用いるため、出力のぶれを低減させる効果がある。学習毎に精度のぶれが起きやすいニューラルネットワークにおいて、特に効果的であることが知られている。
 アンサンブル学習では、学習毎に精度のぶれが起きやすいニューラルネットワークにおいて特に効果的とされ、各種コンペで用いられる技術である。しかし、ゲート領域の推定を行う回帰モデルの出力は多出力であり、複合的に評価する必要がある。単純に複数のモデル間の平均などで各出力を組み合わせても精度は向上しにくい。異なる条件で学習した複数の回帰モデルそれぞれにより、ゲート領域を推定させた場合、学習の違いにより推定結果が異なる。そのため、各回帰モデルが出力した推定結果から各パラメータの平均値を求め、表示する最終的なゲート領域を決定した場合、検査士から見ると、散布図のどの部分を囲う目的のゲートであるのか不明瞭となる可能性が高い。そこで、本実施の形態では、5つの回帰モデルが推定した5つのゲート領域のうち、ユーザに提示する最適なゲート領域を1つ選択する。本実施の形態において、ハードウェア構成や第1回帰モデル1341から第5回帰モデル1345の生成処理等は、実施の形態1と同様である。以下の説明においては、主として実施の形態1と異なる点を説明する。
 準備工程は実施の形態1と同様であるので説明を省略する。以下、運用工程について説明する。図21はゲート領域推定処理の他の手順例を示すフローチャートである。図14に示した処理に、ゲート領域を選択するための処理が追加されている。制御部11は散布図を取得する(ステップS71)。制御部11は取得した散布図を各回帰モデルへ入力する(ステップS72)。制御部11は各回帰モデルがゲート領域の推定出力を取得する(ステップS73)。制御部11は外れ値を含むゲート領域を選択対象から外す(ステップS74)。5つの回帰モデルが出力したゲート領域の各パラメータについて、中央値を求める。1項目でも中央値から外れるゲート領域は選択対象から外す。なお、ステップS74は必須の処理ではなく省略してもよい。制御部11は、各ゲート領域について特徴量を算出する(ステップS75)。特徴量はゲート内の細胞数、ゲート領域の面積、ゲート内の細胞密度、ゲート内の細胞純度等である。特徴量については、後に補足する。制御部11は特徴量に基づき、最適ゲートを選択する(ステップS76)。制御部11は散布度を算出する(ステップS77)。制御部11は自信度の判定を行う(ステップS78)。ステップS77及びステップS78の内容は、実施の形態1と同様であるから説明を省略する。制御部11は選択したゲート領域及び自信度を記憶し(ステップS79)、ゲート領域推定処理を終了する。
 次に、外れ値を含むゲート領域を選択対象から外す例を示す。図22A及び図22Bは外れ値ゲート領域の除外例を示す説明図である。図22Aは5つの回帰モデルが出力したゲート領域を散布図に重畳したものである。ゲート領域のうち、ゲート領域Gjは他のゲート領域とは大きさが異なるため、外れ値を含むゲート領域として選択対象から外れる。図22Bは選択対象から外れたゲート領域Gjのみを表示した散布図である。
 続いて、特徴量の1つである細胞純度について説明する。検査において、各ゲート内に含まれる細胞種は基本的には一種であることが望ましい。凡その細胞種はFSC、SSC、CD45の情報から推測できる。そこで、細胞集団をFSC、SSC、FL3の情報から大まかにクラス分類し、対象ゲート内にどのクラスが最も多いか、またそのクラスの細胞の何割がゲート内に含まれるかを細胞純度と定義する。具体例には、FSC、SSC、FL3の分布において、3次元の自動クラスタリング手法、k-meansを適用し、n個の小集団を作る。nは自然数である。ここではn=10である。図23は10個の小集団の例を示す説明図である。五角形のマークはk-meansに用いられる各小集団の中心を示す。図23では横軸がSSC、縦軸がFL3の2次元表示となっているが、実際は紙面法線方向の軸がFSCである3次元のクラスタリングである。図23において、ゲート領域G内には、クラスCbの細胞が多い。そこで、ゲート領域Gの細胞純度は、クラスCbのうち、ゲート領域Gに含まれる割合とする。すなわち、対象ゲート領域に最も多く含まれるクラスの細胞を求め、対象ゲート領域に含まれる当該クラスの細胞数を当該クラスの細胞全体の数で除した値が、細胞純度である。
 図24はゲート選択処理の手順例を示すフローチャートである。ゲート選択処理は図21のステップS76に対応するものである。制御部11は細胞のクラスタリングを行う(ステップS91)。例えば上述のようにFSC、SSC、FL3の分布において、k-meansによる3次元の自動クラスタリングを行い、細胞を10個のクラスに分ける。制御部11は5つの回帰モデルそれぞれが出力した5つのゲート領域の中で処理対象とするゲート領域を選択する(ステップS92)。制御部11は選択したゲート領域内に含まれるクラス毎の細胞数を求め、細胞数が最多のクラスを特定する(ステップS93)。制御部11は細胞純度を算出する(ステップS94)。制御部11は未処理のゲート領域が有るか否かを判定する(ステップS95)。制御部11は未処理のゲート領域が有ると判定した場合(ステップS95でYES)、処理をステップS92に戻し、未処理のゲート領域についての処理を行う。制御部11は未処理のゲート領域がないと判定した場合(ステップS95でNO)、出力するゲート領域を選択する(ステップS96)。制御部11は、5つのゲート領域の中から、細胞純度が最大のゲート領域を選択する。制御部11はゲート選択処理を終了する。
 図25A及び図25Bはゲート領域の選択例を示す説明図である。図25Aは5つの回帰モデルが出力したゲート領域を散布図に重畳したものである。図25Aの右側の数値は、各ゲート領域の細胞純度を示す。ここでは、AI-3すなわち第3回帰モデル1343が出力したゲート領域の細胞純度が0.66で最も大きい値であるので、当該ゲート領域が選択される。図25Bは選択したゲート領域のみを重畳表示した散布図の例である。複数個のゲート領域を出力する場合も同様な処理で可能である。詳細については後述する。
 次に、細胞純度以外の特徴量について補足する。細胞数は、ゲート領域に含まれる細胞の数である。面積は、2次元の散布図におけるゲート領域を示す図形の面積である。細胞密度は細胞数を面積で除した値である。
 特徴量として、解析軸以外の測定値を用いてもよい。解析軸とは2次元表示する散布図の横軸、縦軸である。フローサイトメトリー検査では、全次元の測定値から細胞腫の判別を行う。よってゲート内においても他次元(解析軸以外)の測定値は、細胞腫を絞った最適なゲートを決めるための指標となりうる。
 上述の例では、解析軸はSSCとFL3(CD45)である。この場合、解析軸以外の測定値の例としては、FSC、FL1(CD34)である。このとき、FL1でCD34を測定し、その平均値を基準として、最適ゲートを選択する。例えば、AI-1の平均値が0.21、AI-2の平均値が0.16、AI-3の平均値が0.18、AI-4の平均値が0.20とする。AI-5が出力したゲート領域は外れ値ゲート領域として除外されている。このとき、AI-1が出力したゲート領域が選択される。
 特徴量として、画像情報を用いてもよい。ゲート内の細胞密度で最適ゲートを選択する場合、細胞分布の偏りに影響を受け適切なゲートを選択できない場合がある。これを避けるために分布状況を画像へ変換して特徴量を取得する。以下、処理例を説明する。散布図の内容を画像情報、ここでは輝度Lとして扱うために、細胞の存在する部分を黒ピクセル(L<255)、それ以外を白ピクセル(L=255)で表現する。
 図26は輝度情報によるゲート領域の選択例を示す説明図である。図26の上段左は、AI-1が出力したゲート領域を重畳表示した散布図である。図26の下段左はAI-1が出力したゲート領域の特徴量を示す。図26の上段右は、AI-2が出力したゲート領域を重畳表示した散布図である。図26の下段右は、AI-2が出力したゲート領域の特徴量を示す。なお、AI-3からAI-5が出力したゲート領域は、その特徴量がAI-1及びAI-2が出力したゲート領域のものよりも小さく、何れも選択される可能性はないものとする。図26の例において、選択すべきゲート領域は、AI-1が出力した領域である。
 図26の例において、ゲート領域を選択するための特徴量として細胞密度を採用した場合、AI-1は1.0、AI-2は1.1であるから、AI-2が出力したゲート領域が選択されてしまう。しかし、ゲート領域を選択するための特徴量として黒白比(=白ピクセル数/黒ピクセル数)を採用すると、AI-1は0.7、AI-2は0.5となり、AI-1が出力したゲート領域が選択される。図26の例では、細胞分布に偏りがあるため、特徴量として細胞密度を用いると、不適切な選択がされてしまう。黒白比は細胞密度をある程度反映しつつ、細胞数による影響を低減できるので、適切な選択結果となる。
 本実施の形態について、上述では、1つのゲート領域を得る場合を説明した。複数個のゲート領域を得るためには、処理の拡張が必要となるが、その拡張方法には2つの方法が考えられる。方法1は、全ゲートを出力する複数個のAIからひとつ最適な出力を選ぶ方法である。例えば、全てのゲート領域について、AI-1の出力した推定結果を選択する方法である。
 図27はゲート領域選択処理の他の手順例を示すフローチャートである。図27は1つの散布図に複数個のゲート領域を設定する場合の選択処理であり、上述の方法1による処理である。制御部11は処理対象とする回帰モデルを選択する(ステップS111)。制御部11は選択した回帰モデルが出力した複数ゲート領域のうち、処理対象とするゲート領域を選択する(ステップS112)。制御部11は選択したゲート領域の自信度を判定する(ステップS113)。自信度の判定は上述したとおりである。制御部11は自信度を一時記憶領域に記憶する(ステップS114)。制御部11は未処理のゲート領域があるか否かを判定する(ステップS115)。制御部11は未処理のゲート領域があると判定した場合(ステップS115でYES)、処理をステップS112に戻し、未処理のゲート領域についての処理を行う。制御部11は未処理のゲート領域がないと判定した場合(ステップS115でNO)、選択している回帰モデルが出力したゲート領域全体の自信度を判定する(ステップS116)。例えば、設定するゲート領域が3つであり、各ゲート領域の自信度が高、高、低の場合、高の個数2を全体の自信度とする。制御部11は自信度を一時記憶領域に記憶する(ステップS117)。制御部11は未処理対象の回帰モデルがあるか否かを判定する(ステップS118)。制御部11は未処理の回帰モデルがあると判定した場合(ステップS118でYES)、処理をステップS111に戻し、未処理の回帰モデルについての処理を行う。制御部11は未処理の回帰モデルがないと判定した場合(ステップS118でNO)、回帰モデル毎の自信度に基づき、回帰モデルを選択する(ステップS119)。制御部11は選択した回帰モデルが出力したゲート領域を出力し(ステップS120)、処理を終了する。
 方法2は、全ゲートを出力する複数個のAIから各ゲートにひとつ最適な出力を選ぶ方法である。例えば、第1ゲートはAI-1の出力した推定結果を選択し、第2ゲートはAI-4の出力した推定結果を選択し、第3ゲートはAI-5の出力した推定結果を選択する。方法1は、ひとつのAIが各ゲートを出力するため、ゲート間で重なることが少ないという長所が有る一方、ひとつのゲートがずれていると他ゲートもずれている可能性が高いという短所がある。方法2は、ゲート毎に選ぶため他ゲートのずれの影響は少ないという長所が有る一方、他ゲートの情報がない条件で選ぶとゲート同士が重なりやすいという短所がある。ただし、他ゲートの情報を工夫して加えることで当該短所の影響を軽減可能である。
 方法2における短所の影響を軽減する処理について説明する。ゲート選択において下記の条件を用いて、他ゲート情報を加えた場合とない場合での選択ゲートの比較を行う。条件1:最適ゲートを決める基準として特徴量「細胞純度」を用いる。条件2:有用度に従って、ゲートを選択する(一般的に解析ゲートには有用度があるため)。その際に他ゲートに含まれる細胞は特徴量の計算から除く。条件1のみを適用した場合と、条件1及び2を適用した場合とで、ゲートの選択を行う。何れか一方でゲートの重なりがなければ、当該選択結果を採用する。なお条件1における特徴量は、ゲート領域に関わるならば細胞純度以外の他の特徴量でも良い。
 図28はゲート領域選択処理の他の手順例を示すフローチャートである。図28は1つの散布図に複数個のゲート領域を設定する場合の選択処理であり、上述の方法2による処理である。制御部11は複数個のゲート領域の中で、処理対象とするゲート領域を選択する(ステップS131)。例えば、3個のゲート領域を設定する場合、それぞれを第1ゲート、第2ゲート、第3ゲートとする。順番号は検査結果の報告において重要性が大きい順などの有用度で定める。このとき、制御部11は第1ゲート、第2ゲート、第3ゲートの順に処理を行う。制御部11は処理対象とする回帰モデルを選択する(ステップS132)。制御部11は選択した回帰モデルが出力したゲート領域についての特徴量、例えば細胞純度を算出する(ステップS133)。制御部11は未処理の回帰モデルがあるか否かを判定する(ステップS134)。制御部11は未処理の回帰モデルがあると判定した場合(ステップS134でYES)、処理をステップS132に戻し、未処理の回帰モデルについての処理を行う。制御部11は未処理の回帰モデルがないと判定した場合(ステップS134でNO)、特徴量に基づき、いずれかの回帰モデルが出力したゲート領域の中から、最終的に出力するゲート領域を選択する(ステップS135)。制御部11は選択したゲート領域の情報を一時記憶領域に記憶する(ステップS136)。制御部11は未処理のゲート領域があるか否かを判定する(ステップS137)。制御部11は未処理のゲート領域があると判定した場合(ステップS137でYES)、処理をステップS131に戻し、未処理のゲート領域についての処理を行う。制御部11は未処理のゲート領域がないと判定した場合(ステップS137でNO)、一時記憶領域に記憶した選択情報に基づき、すべてのゲート領域を出力し(ステップS138)、処理を終了する。
 本実施の形態においては、複数の回帰モデルが出力したゲート領域の推定結果から、最適なゲート領域を選択することが可能となる。なお、上述の実施の形態では、LLAにおけるCD45ゲーティングを例としたが、悪性リンパ腫解析(MLA:Malignant Lymphoma Analysis)検査におけるCD45ゲーティングでも、同様な手順で実行可能である。
 各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
 今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、請求の範囲によって示され、請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
 10   フローサイトメータ
 1    処理部
 11   制御部
 12   主記憶部
 13   補助記憶部
 131  測定値DB
 132  特徴情報DB
 133  ゲートDB
 1341 第1回帰モデル
 1342 第2回帰モデル
 1343 第3回帰モデル
 1344 第4回帰モデル
 1345 第5回帰モデル
 135  閾値DB
 136  自信度DB
 14   入力部
 15   表示部
 16   通信部
 17   読み取り部
 1P   制御プログラム
 1a   可搬型記憶媒体
 1b   半導体メモリ
 2    測定部
 3    学習サーバ

Claims (13)

  1.  測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、
     散布図群とゲート領域とを含む訓練データに基づき学習を行った複数の学習モデルそれぞれに、取得した散布図群を入力し、
     前記複数の学習モデルそれぞれから得た推定ゲート領域を出力する
     処理をコンピュータに行わせることを特徴とするゲート領域推定プログラム。
  2.  複数の前記推定ゲート領域に基づき、自信度を判定する
     ことを特徴とする請求項1に記載のゲート領域推定プログラム。
  3.  複数の前記推定ゲート領域それぞれを示す各複数の変数の散布度に基づき自信度を判定する
     ことを特徴とする請求項2に記載のゲート領域推定プログラム。
  4.  前記変数毎の散布度と所定の複数の閾値とを対照し、変数毎の自信度を複数段階で判定し、変数毎の自信度より、前記推定ゲート領域の前記自信度を判定する
     ことを特徴とする請求項3に記載のゲート領域推定プログラム。
  5.  複数の検体それぞれの測定に対する推定ゲート領域の自信度を判定し、前記検体を特定する識別情報と判定した自信度とを対応付けて出力する
     ことを特徴とする請求項2から請求項4の何れか1項に記載のゲート領域推定プログラム。
  6.  前記複数の学習モデルそれぞれから得た推定ゲート領域に基づき、1つの学習モデルを選択し、
     選択した前記学習モデルが出力した推定ゲート領域を出力する
     ことを特徴とする請求項1に記載のゲート領域推定プログラム。
  7.  複数の前記学習モデルが出力した前記推定ゲート領域それぞれに含まれる細胞の数に基づき、学習モデルを選択する
     ことを特徴とする請求項6に記載のゲート領域推定プログラム。
  8.  複数の前記学習モデルが出力した前記推定ゲート領域それぞれの面積に基づき、学習モデルを選択する
     ことを特徴とする請求項6に記載のゲート領域推定プログラム。
  9.  複数の前記測定項目より得た散布図に基づき、測定された細胞のクラスタリングを行い、
     複数の前記学習モデルが出力した前記推定ゲート領域それぞれについて、当該クラスタリングの結果を用いて求めた細胞純度に基づき、学習モデルを選択する
     ことを特徴とする請求項6に記載のゲート領域推定プログラム。
  10.  前記複数の学習モデルそれぞれから複数の推定ゲート領域を取得し、
     互いに関連する複数の前記推定ゲート領域を含むグループ毎に、1つの学習モデルを選択し、
     選択した学習モデルそれぞれの出力した推定ゲート領域を出力する
     ことを特徴とする請求項1から請求項9の何れか1項に記載のゲート領域推定プログラム。
  11.  複数の前記推定ゲート領域に基づき、自信度を判定し、
     前記複数の学習モデルそれぞれから得た推定ゲート領域に基づき、1つの学習モデルを選択し、
     選択した前記学習モデルが出力した推定ゲート領域と、前記自信度とを出力する
     ことを特徴とする請求項1に記載のゲート領域推定プログラム。
  12.  コンピュータが、
     測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得し、
     散布図群とゲート領域とを含む訓練データに基づき学習を行った複数の学習モデルそれぞれに、取得した散布図群を入力し、
     前記複数の学習モデルそれぞれから得た推定ゲート領域を出力する
     ことを特徴とするゲート領域推定方法。
  13.  測定項目が異なるフローサイトメトリーの測定より得た複数の散布図を含む散布図群を取得する取得部と、
     散布図群とゲート領域とを含む訓練データに基づき学習を行った複数の学習モデルそれぞれに、取得した散布図群を入力し、前記複数の学習モデルそれぞれから得た推定ゲート領域を出力する出力部と
     を備えることを特徴とするゲート領域推定装置。
PCT/JP2021/012094 2020-03-25 2021-03-24 ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置 WO2021193673A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022510573A JPWO2021193673A1 (ja) 2020-03-25 2021-03-24
CN202180023111.2A CN115335681A (zh) 2020-03-25 2021-03-24 门区推定程序、门区推定方法和门区推定装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-055025 2020-03-25
JP2020055025 2020-03-25

Publications (1)

Publication Number Publication Date
WO2021193673A1 true WO2021193673A1 (ja) 2021-09-30

Family

ID=77890659

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012094 WO2021193673A1 (ja) 2020-03-25 2021-03-24 ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置

Country Status (3)

Country Link
JP (1) JPWO2021193673A1 (ja)
CN (1) CN115335681A (ja)
WO (1) WO2021193673A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024120662A1 (en) * 2022-12-07 2024-06-13 Melio Healthcare Limited Systems and methods for comprehensive and standardized immune system phenotyping and automated cell classification

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010122137A (ja) * 2008-11-21 2010-06-03 Kochi Univ 血球分析装置、血球分析方法及びコンピュータプログラム
JP2011515655A (ja) * 2008-02-08 2011-05-19 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
EP3054279A1 (en) * 2015-02-06 2016-08-10 St. Anna Kinderkrebsforschung e.V. Methods for classification and visualization of cellular populations on a single cell level based on microscopy images
JP2018505392A (ja) * 2014-12-10 2018-02-22 ネオゲノミクス ラボラトリーズ, インコーポレイテッド 自動化されたフローサイトメトリ分析方法及びシステム
WO2018181458A1 (ja) * 2017-03-29 2018-10-04 シンクサイト株式会社 学習結果出力装置及び学習結果出力プログラム
WO2020004101A1 (ja) * 2018-06-27 2020-01-02 株式会社Cybo 表示制御装置、表示制御方法及び表示制御プログラム
WO2021045024A1 (ja) * 2019-09-02 2021-03-11 合同会社H.U.グループ中央研究所 ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011515655A (ja) * 2008-02-08 2011-05-19 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
JP2010122137A (ja) * 2008-11-21 2010-06-03 Kochi Univ 血球分析装置、血球分析方法及びコンピュータプログラム
JP2018505392A (ja) * 2014-12-10 2018-02-22 ネオゲノミクス ラボラトリーズ, インコーポレイテッド 自動化されたフローサイトメトリ分析方法及びシステム
EP3054279A1 (en) * 2015-02-06 2016-08-10 St. Anna Kinderkrebsforschung e.V. Methods for classification and visualization of cellular populations on a single cell level based on microscopy images
WO2018181458A1 (ja) * 2017-03-29 2018-10-04 シンクサイト株式会社 学習結果出力装置及び学習結果出力プログラム
WO2020004101A1 (ja) * 2018-06-27 2020-01-02 株式会社Cybo 表示制御装置、表示制御方法及び表示制御プログラム
WO2021045024A1 (ja) * 2019-09-02 2021-03-11 合同会社H.U.グループ中央研究所 ゲート領域推定プログラム、ゲート領域推定装置、学習モデルの生成方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024120662A1 (en) * 2022-12-07 2024-06-13 Melio Healthcare Limited Systems and methods for comprehensive and standardized immune system phenotyping and automated cell classification

Also Published As

Publication number Publication date
CN115335681A (zh) 2022-11-11
JPWO2021193673A1 (ja) 2021-09-30

Similar Documents

Publication Publication Date Title
CN110287932B (zh) 基于深度学习图像语义分割的道路阻断信息提取方法
US7602962B2 (en) Method of classifying defects using multiple inspection machines
CN105612249B (zh) 图像处理装置、程序、信息存储介质和图像处理方法
US10007834B2 (en) Detection control device, detection system, non-transitory storage medium, and detection control method
EP4128272A1 (en) Method for artificial intelligence (ai) model selection
US11756199B2 (en) Image analysis in pathology
JP2003085194A (ja) プロセス分析方法及び情報システム
CN115393351B (zh) 一种基于朗格汉斯细胞判断角膜免疫状态的方法及装置
WO2021193673A1 (ja) ゲート領域推定プログラム、ゲート領域推定方法、及びゲート領域推定装置
JP7361395B2 (ja) 表示制御装置、表示制御方法及び表示制御プログラム
CN110751172A (zh) 一种弱监督学习的病理全片图像类别推断方法及其系统
CN108198172A (zh) 图像显著性检测方法和装置
CN114997956B (zh) 基于大数据的母婴产品智能推荐系统
CN110727817B (zh) 基于t-CNN的三维模型检索方法、终端设备及存储介质
US20220334043A1 (en) Non-transitory computer-readable storage medium, gate region estimation device, and method of generating learning model
US20230169638A1 (en) Automatic quality categorization method and system for pharmaceutical glass containers
US7877238B2 (en) Data classification supporting method, computer readable storage medium, and data classification supporting apparatus
Ferreira et al. Glaucoma Grading Using Multimodal Imaging and Multilevel CNN
CN113781239A (zh) 一种策略确定方法、装置、电子设备以及存储介质
CN113887455A (zh) 一种基于改进fcos的人脸口罩检测系统及方法
Chintawar et al. Improving feature selection capabilities in skin disease detection system
CN117332133B (zh) 一种基于专家评分的数据分级方法
CN111523009B (zh) 一种数据可视化处理方法
AU2021245268A1 (en) Method for artificial intelligence (AI) model selection
CN113657382A (zh) 一种目标检测任务中最佳检测模型的选取方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21777181

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022510573

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21777181

Country of ref document: EP

Kind code of ref document: A1