WO2021245850A1 - 診断支援プログラム、装置、及び方法 - Google Patents

診断支援プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2021245850A1
WO2021245850A1 PCT/JP2020/021994 JP2020021994W WO2021245850A1 WO 2021245850 A1 WO2021245850 A1 WO 2021245850A1 JP 2020021994 W JP2020021994 W JP 2020021994W WO 2021245850 A1 WO2021245850 A1 WO 2021245850A1
Authority
WO
WIPO (PCT)
Prior art keywords
weight
pattern
sample
gene
diagnosis
Prior art date
Application number
PCT/JP2020/021994
Other languages
English (en)
French (fr)
Inventor
隆史 ▲柳▼▲瀬▼
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to CN202080101090.7A priority Critical patent/CN115668393A/zh
Priority to JP2022529227A priority patent/JP7444252B2/ja
Priority to EP20938632.5A priority patent/EP4163385A4/en
Priority to PCT/JP2020/021994 priority patent/WO2021245850A1/ja
Publication of WO2021245850A1 publication Critical patent/WO2021245850A1/ja
Priority to US17/980,126 priority patent/US20230057455A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Definitions

  • the disclosed technology relates to diagnostic support programs, diagnostic support devices, and diagnostic support methods.
  • the presence or absence of a disease is diagnosed based on the characteristics of a sample collected from a patient and predetermined diagnostic criteria.
  • a diagnostic criterion for example, there is a method of determining by creating a model for predicting the presence or absence of a disease to be diagnosed.
  • the model uses SVM (Support Vector Machine) using training data that associates the characteristics of the samples taken from each of the patients with and without the disease to be diagnosed with the classification label indicating the presence or absence of the disease. ) And decision trees created by machine learning.
  • a method of stratifying a subject according to an event occurring in the body of the subject has been proposed.
  • this method for a population of biomarkers derived from a subject, whether or not each biomarker fluctuates in relation to an event occurring in the body of the subject based on the measured value of each biomarker is a statistical method. Is determined by. Then, the biomarker group determined to fluctuate is extracted as the first subpopulation. In addition, each biomarker belonging to the first subpopulation is examined, and a group of biomarkers statistically predicted to be more strongly associated with events occurring in the body is extracted as the second subpopulation. Then, the weight of each biomarker belonging to the second subpopulation is calculated by the deep learning method, and a discriminator is generated. The discriminator uses the score obtained from the measured value of each biomarker belonging to the second subpopulation and the calculated weight of each biomarker, and the weighted sum of the scores of the biomarkers belonging to the second subpopulation. Is calculated.
  • the number of types of features used as explanatory variables for machine learning is enormous, it is difficult to create a model by conventional machine learning.
  • the characteristic is the expression level of a gene
  • the number of gene types may be 10,000 or more.
  • many kinds of features are excluded from the explanatory variables, and the excluded features may include features that are originally effective for diagnosis. For example, a feature alone may be less effective in predicting a disease, but may be more effective in combination with other features, but such features may be excluded from the explanatory variables. As a result, it becomes impossible to determine the diagnostic criteria for making an effective diagnosis.
  • the disclosed technology aims to support the determination of effective diagnostic criteria when using machine learning to determine diagnostic criteria.
  • the disclosed technique is a combination of one or more features generated by machine learning using a training dataset that includes the features exhibited by the sample to be diagnosed and the features exhibited by the non-diagnosed sample. Gets the set of represented rules. Each of the rules is associated with a first weight for the diagnosis target. Further, the disclosed technique determines a second weight based on the first weight associated with the rule including the feature included in the pattern for each pattern including a predetermined number of features, and the determination is made. The pattern whose second weight is equal to or greater than a predetermined value is output.
  • machine learning when used to determine diagnostic criteria, it has the effect of being able to support the determination of effective diagnostic criteria.
  • Genetic diagnosis is a method of diagnosing the presence or absence of a disease by examining whether or not a specific gene is expressed from a tissue sample collected from a patient. Therefore, as a diagnostic criterion, the type of gene that is highly expressed in the presence of a disease is determined.
  • a sample data set 22 is input to the diagnosis support device 10.
  • the diagnostic support device 10 extracts and outputs the candidates for the diagnostic criteria as described above by machine learning the training data set generated from the sample data set 22.
  • the sample data set 22 is a set of sample data which is the expression level data for each of a plurality of types of genes extracted from tissue samples collected from each of a patient with a disease to be diagnosed and a patient without a disease.
  • FIG. 2 shows an example of the sample data set 22.
  • each row corresponds to one sample data.
  • each sample data is given a "sample ID" which is identification information of the sample data.
  • each sample data is associated with a "disease (classification label)" indicating whether the patient corresponding to the sample data is a patient with a disease to be diagnosed or a patient without a disease.
  • each sample data includes information on the expression level of the gene (“gene expression level” in FIG. 2) extracted from the sample data for each type of gene.
  • FIG. 3 shows a case where machine learning is performed by narrowing down the features used as explanatory variables for machine learning.
  • the example of FIG. 3 shows a case where the types of genes containing 10,000 or more included in the sample data are narrowed down to about 100 and used as training data.
  • the narrowing down of the gene type is determined based on, for example, the correlation of the expression level between the genes.
  • the diagnostic criteria are determined by a model created by machine learning a training data set in which genes HAS1, CALB2, WT1, etc. are excluded from the sample data. In this case, even if the excluded genes HAS1, CALB2, WT1 and the like are effective for diagnosis, these excluded genes are not included in the diagnostic criteria.
  • the diagnosis support device 10 includes a generation unit 12, an acquisition unit 14, a determination unit 16, and an output unit 18.
  • the generation unit 12 generates a training data set used for machine learning for extracting diagnostic standard candidates from the sample data set 22 input to the diagnostic support device 10. Specifically, the generation unit 12 converts the gene expression level of the sample data contained in the sample data set 22 into a binary value indicating whether the expression is high or low.
  • the generation unit 12 determines the threshold value for each gene type by the existing binarization method.
  • existing binarization methods there are a dynamic threshold method used for binarization of images and the like, a step minor method used in the genetic field, and the like. Then, as shown in FIG. 4, when the gene expression level is larger than the threshold value, the generation unit 12 converts the gene expression level into a value indicating high expression (for example, “1”). On the other hand, when the gene expression level is equal to or less than the threshold value, the generation unit 12 converts the gene expression level into a value indicating low expression (for example, “0”).
  • the generation unit 12 generates training data by binarizing the gene expression level of the sample data as described above. That is, the training data set is a set of training data in which each of the gene expression levels is binarized and the classification label is associated with the value.
  • the binarized gene expression level is referred to as "gene expression information”.
  • the lower figure of FIG. 4 represents a training data set, and each row (each record) corresponds to one training data.
  • the generation unit 12 passes the generated training data set to the acquisition unit 14.
  • the acquisition unit 14 is a rule represented by a combination of one or more features generated by machine learning using the training data set passed from the generation unit 12, and a weight for the diagnosis target is associated with each. Gets the set of rules given.
  • the acquisition unit 14 applies AI having the above-mentioned characteristics to machine-learn training data using gene expression information as an explanatory variable and a classification label as an objective variable.
  • the acquisition unit 14 acquires, as a rule, a hypothesis that leads to the diagnosis that there is a disease to be diagnosed.
  • the AI applied in this embodiment comprehensively lists the combinations of a plurality of gene types. Then, for each combination, AI determines the degree of contribution (importance) to the diagnosis result that the gene contained in the combination is highly expressed and that there is a disease to be diagnosed, as well as the gene expression information of the training data and the classification label.
  • Machine learning is performed from the correspondence with. That is, the reason for diagnosing the presence of the disease to be diagnosed is explained by the combination of highly expressed genes.
  • efficient machine learning can be performed for each of the comprehensive combinations of gene types.
  • the acquisition unit 14 acquires a combination of highly expressed genes as a rule and the importance given to the rule as a rule weight, and stores it in a predetermined storage area as a rule set 24 as shown in FIG.
  • Rule weights are an example of the "first weight" of the disclosed technique.
  • the acquisition unit 14 may include only rules having a rule weight of a predetermined value or more in the rule set 24.
  • the determination unit 16 determines the pattern weight based on the rule weight associated with the rule including the gene type included in the pattern for each pattern including a predetermined gene type. When there are multiple predetermined genes, that is, when there are multiple types of genes included in the pattern, and when multiple genes are co-expressed, a combination of genes that is related to the disease to be diagnosed is used as a candidate for diagnostic criteria. Can be extracted.
  • the determination unit 16 receives from the user the designation of the number of types of genes to be included in the pattern, and as shown in FIG. 6, the determination unit 16 has the specified number of types (three types in the example of FIG. 6) of genes. Generate a combination as a pattern.
  • the determination unit 16 searches the rule set 24 for a rule including all the types of genes contained in the generated pattern for each generated pattern. Then, the determination unit 16 calculates the total value of the rule weights associated with the searched rules as the pattern weights. As a result, the higher the goodness of fit to the hypothesis leading to the diagnosis of the disease to be diagnosed, the larger the rule weight can be calculated.
  • the method for calculating the rule weight is not limited to the above example, and may be a product of rule weights associated with the searched rule, a weighted sum, an average, or the like.
  • the determination unit 16 corrects the calculated pattern weight. Specifically, the determination unit 16 corrects so that the pattern weight increases as the number or ratio of genes whose functions included in the pattern are unknown increases. It is intended to assist in the discovery of new diagnostic criteria containing genes of unknown function.
  • the pattern weight is greatly corrected only by the gene whose function is unknown. This is because there is no basis for the relationship.
  • FIG. 7 shows an example of pattern weight correction.
  • the determination unit 16 determines, for example, once for each gene whose function is unknown, for a pattern including a gene whose function is unknown and a gene whose function is known and which is related to the disease to be diagnosed.
  • the calculated pattern weight is multiplied by 1.5.
  • the method for correcting the pattern weight is not limited to this, and other methods such as adding a value according to the number or ratio of genes whose function is unknown may be used.
  • the determination unit 16 determines the corrected pattern weight as the final pattern weight, and passes the pattern and the pattern weight to the output unit 18.
  • the pattern weight is an example of the "second weight" of the disclosed technique.
  • the output unit 18 outputs genes whose pattern weight determined by the determination unit 16 is included in a pattern having a predetermined value or more as a gene group as a candidate for diagnostic criteria.
  • the output information is displayed on an output screen as shown in FIG. 8 on the display of an information processing terminal used by a doctor or the like, for example.
  • a pattern having a pattern weight of 2.5 or more is output as a gene group that is a candidate for a diagnostic criterion.
  • the information on the gene cluster that is a candidate for the diagnostic criteria is not limited to the case where it is displayed on the display, and may be output by another method such as printing on paper.
  • the diagnosis support device 10 can be realized by, for example, the computer 40 shown in FIG.
  • the computer 40 includes a CPU (Central Processing Unit) 41, a memory 42 as a temporary storage area, and a non-volatile storage unit 43. Further, the computer 40 includes an input / output device 44 such as an input unit and a display unit, and an R / W (Read / Write) unit 45 that controls reading and writing of data to the storage medium 49. Further, the computer 40 includes a communication I / F (Interface) 46 connected to a network such as the Internet.
  • the CPU 41, the memory 42, the storage unit 43, the input / output device 44, the R / W unit 45, and the communication I / F 46 are connected to each other via the bus 47.
  • the storage unit 43 can be realized by an HDD (Hard Disk Drive), an SSD (Solid State Drive), a flash memory, or the like.
  • the storage unit 43 as a storage medium stores a diagnosis support program 50 for causing the computer 40 to function as the diagnosis support device 10.
  • the diagnostic support program 50 has a generation process 52, an acquisition process 54, a decision process 56, and an output process 58.
  • the CPU 41 reads the diagnosis support program 50 from the storage unit 43, expands it into the memory 42, and sequentially executes the processes included in the diagnosis support program 50.
  • the CPU 41 operates as the generation unit 12 shown in FIG. 1 by executing the generation process 52. Further, the CPU 41 operates as the acquisition unit 14 shown in FIG. 1 by executing the acquisition process 54. Further, the CPU 41 operates as the determination unit 16 shown in FIG. 1 by executing the determination process 56. Further, the CPU 41 operates as the output unit 18 shown in FIG. 1 by executing the output process 58. Further, the CPU 41 expands the rule set 24 into the memory 42 when the acquisition process 54 is executed. As a result, the computer 40 that has executed the diagnosis support program 50 functions as the diagnosis support device 10.
  • the CPU 41 that executes the program is hardware.
  • diagnosis support program 50 can also be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit) or the like.
  • ASIC Application Specific Integrated Circuit
  • the diagnostic support process is an example of the diagnostic support method of the disclosed technology.
  • a flowchart showing an example of the diagnosis support process of FIG. 10 will be described with reference to the schematic diagram of the diagnosis support process shown in FIG.
  • step S10 the generation unit 12 executes the training data generation process.
  • the training data generation process will be described with reference to FIG.
  • step S11 the generation unit 12 acquires the sample data set 22 input to the diagnosis support device 10.
  • step S12 the generation unit 12 selects one type of gene that has not been processed as follows from the types of genes contained in the sample data set 22.
  • step S14 the generation unit 12 determines the binarization threshold value for the selected gene type by the existing binarization method.
  • step S16 the generation unit 12 selects one sample data that has not been processed as follows from the sample data set 22.
  • step S18 the generation unit 12 determines whether or not the gene expression level of the selected gene type is larger than the determined threshold value in the selected sample data. If the gene expression level> threshold value, the process proceeds to step S19, and if the gene expression level ⁇ threshold value, the process proceeds to step S20.
  • step S19 the generation unit 12 converts the gene expression level into a value indicating high expression (for example, "1”).
  • the generation unit 12 converts the gene expression level into a value indicating low expression (for example, “0”).
  • step S21 the generation unit 12 determines whether or not the processing of steps S18 to S20 has been completed for all the sample data included in the sample data set 22. If there is unfinished sample data, the process returns to step S16, and if all the sample data has been processed, the process proceeds to step S22.
  • step S22 the generation unit 12 determines whether or not the processing of steps S14 to S21 has been completed for all gene types. If there are unfinished gene types, the process returns to step S12, and if all gene types are complete, the training data generation process ends and the process is diagnostic support processing ( Figure). Return to 10). As a result, as shown in FIG. 15A, a training data set in which the gene expression level of the sample data is binarized is generated.
  • step S30 the acquisition unit 14 executes the rule acquisition process.
  • the rule acquisition process will be described with reference to FIG.
  • step S31 the acquisition unit 14 acquires the training data set generated by the generation unit 12.
  • Each of the training data contained in the training data set includes gene expression information and a classification label indicating the presence or absence of a disease.
  • step S32 the acquisition unit 14 machine-learns the training data by applying the AI having the above-mentioned characteristics with the gene expression information as the explanatory variable and the classification label as the objective variable. Specifically, the acquisition unit 14 causes AI to comprehensively list combinations of a plurality of gene types. Then, the acquisition unit 14 informs the AI of the contribution (importance) of the gene contained in the combination to the diagnosis result of having a disease to be diagnosed for each combination, and the gene of the training data. Machine learning is performed from the correspondence between the expression information and the classification label.
  • step S33 the acquisition unit 14 acquires the combination of highly expressed genes as a rule, the importance given to the rule as a rule weight, and stores it in a predetermined storage area as a rule set 24. Then, the rule acquisition process ends, and the process returns to the diagnosis support process (FIG. 10). As a result, as shown in (B) of FIG. 15, the acquisition unit 14 sets rules and rule weights indicating a hypothesis leading to the diagnosis of the disease to be diagnosed (“lung cancer” in the example of FIG. 15). Get as.
  • step S40 the determination unit 16 executes the pattern generation process.
  • the pattern generation process will be described with reference to FIG.
  • step S41 the determination unit 16 receives the designation of the number of types of genes to be included in the pattern from the user, and generates a combination of genes of the specified number of types as a pattern.
  • step S42 the determination unit 16 selects one unprocessed pattern from the generated patterns.
  • step S43 the determination unit 16 searches the rule set 24 for a rule including all the gene types included in the selected pattern.
  • step S44 the determination unit 16 determines whether or not one or more rules have been searched in step S43. If one or more rules are searched, the process proceeds to step S45, and if no rule is searched, the process proceeds to step S46.
  • step S45 the determination unit 16 calculates the total value of the rule weights associated with the searched rules as the pattern weights of the selected pattern.
  • step S46 the determination unit 16 determines whether or not the processing of steps S43 to S45 has been completed for all the generated patterns. If there are unfinished patterns, the process returns to step S42, and if all patterns are complete, the pattern generation process ends and the process returns to the diagnostic support process (FIG. 10).
  • step S50 the determination unit 16 executes the weight correction process.
  • the weight correction process will be described with reference to FIG.
  • step S51 the determination unit 16 selects one pattern generated by the pattern generation process.
  • step S52 the determination unit 16 determines the variable ⁇ for counting the number of gene types whose function is unknown in the pattern, and the number of gene types whose function is known and is related to the disease to be diagnosed. Set each of the variables ⁇ for counting to 0.
  • step S53 the determination unit 16 selects one of the gene types that have not been processed as follows among the gene types included in the selected pattern.
  • step S54 the determination unit 16 determines whether or not the gene of the selected type is a gene having a known function. If the gene has a known function, the process proceeds to step S56. On the other hand, in the case of a gene whose function is unknown, the process proceeds to step S55, the determination unit 16 increments ⁇ by 1, and the process proceeds to step S58.
  • step S56 the determination unit 16 determines whether or not the selected type of gene is a gene related to the disease to be diagnosed. In the case of a gene associated with a disease, the process proceeds to step S57, and in the case of a gene unrelated to a disease, the process proceeds to step S58. In step S57, the determination unit 16 increments ⁇ by 1, and the process proceeds to step S58.
  • step S58 the determination unit 16 determines whether or not the processing of steps S53 to S57 has been completed for all types of genes contained in the selected pattern. If there are unfinished gene types, the process returns to step S53, and if all gene types have been processed, the process proceeds to step S59.
  • step S59 the determination unit 16 corrects the pattern weight of the selected pattern based on ⁇ and ⁇ . Specifically, when ⁇ > 0 and ⁇ > 0, the determination unit 16 corrects so that the pattern weight increases as the number or ratio of ⁇ increases. For example, the determination unit 16 corrects the pattern weight, such as “pattern weight before correction ⁇ ⁇ ⁇ ( ⁇ is a constant, for example, 1.5)”.
  • step S60 it is determined whether or not the processes of steps S52 to S59 have been completed for all the patterns. If there are unfinished patterns, the process returns to step S51, and if all patterns are complete, the process proceeds to step S61.
  • step S61 the determination unit 16 determines the corrected pattern weight as the final pattern weight, and sorts each pattern in descending order of the pattern weight. Then, the weight correction process ends, and the process returns to the diagnosis support process (FIG. 10).
  • step S70 the output unit 18 outputs a gene whose pattern weight determined by the determination unit 16 is included in the pattern having a predetermined value or more as a gene group as a candidate for diagnostic criteria.
  • the predetermined value may be a predetermined value or may be a value of the upper Nth pattern weight. In the latter case, the patterns whose pattern weights are up to the top N are output as diagnostic reference candidates.
  • a doctor or the like refers to the output gene group that is a candidate for the diagnostic criteria, and determines the diagnostic criteria that are the genes to be tested based on the medical knowledge. .. Then, in the scene of genetic diagnosis, as shown in FIG. 15 (E), for example, blood is collected from a patient, the expression level of the gene to be tested indicated by the diagnostic criteria is measured, and the presence or absence of a disease is present based on the measurement result. Is diagnosed.
  • the diagnostic support device is a rule represented by a combination of one or more gene types generated by machine learning, and each has a rule weight for a disease to be diagnosed. Gets the set of associated rules.
  • the rule is to apply AI for each comprehensive combination of genes, which gives importance according to the degree of contribution to the diagnostic result when the gene contained in the combination is highly expressed, and there is a disease and the disease. It is created by machine learning the gene expression information without.
  • the diagnostic support device determines a pattern weight based on the rule weight associated with the rule including the gene type included in the pattern for each pattern including a predetermined gene type, and the determined pattern weight is a predetermined value.
  • the above pattern is output as a diagnostic criterion candidate. This makes it possible to support the determination of effective diagnostic criteria when machine learning is used to determine the diagnostic criteria.
  • a predetermined feature included in the pattern includes a gene having an unknown function and a gene having a known function and related to a disease
  • the number of genes whose function is unknown or the function included in the pattern is unknown.
  • the larger the ratio the larger the pattern weight is corrected.
  • the application of the disclosed technique is not limited to this.
  • the disclosed technique can be applied if the diagnostic outcome is predicted based on a combination of features and diagnostic criteria.
  • it can be applied to medical diagnosis other than genes and when diagnosing the presence or absence of abnormalities based on sensing data such as image data.
  • the pattern weight calculated based on the rule weight is corrected based on the number or ratio of genes whose functions included in the pattern are unknown has been described, but the correction of the pattern weight is not possible. Not required. However, when it is desired to add a gene having an unknown function to the diagnostic criteria, it is effective to correct the pattern weight as in the above embodiment.
  • the mode in which the diagnostic support program is stored (installed) in the storage unit in advance has been described, but the present invention is not limited to this.
  • the program according to the disclosed technology can also be provided in a form stored in a storage medium such as a CD-ROM, a DVD-ROM, or a USB memory.
  • Diagnosis support device 10 Diagnosis support device 12 Generation unit 14 Acquisition unit 16 Decision unit 18 Output unit 22 Sample data set 24 Rule set 40 Computer 41 CPU 42 Memory 43 Storage unit 49 Storage medium 50 Diagnostic support program

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

診断支援装置は、サンプルデータの遺伝子発現量を二値化した訓練データセットを生成し、全ての特徴の組合せで構成される仮説を網羅的に列挙し、それらの仮説に重要度を付与できるAIを適用して訓練データを機械学習し、複数の遺伝子の網羅的な組合せの各々で表されるルールであって、それぞれに疾患ありとの仮説に導くルール重みが対応付けられたルール集合を取得し、所定個の遺伝子の種類を含むパターン毎に、ルール重みに基づいてパターン重みを決定し、パターン重みが所定値以上のパターンを、診断基準の候補として出力することにより、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援する。

Description

診断支援プログラム、装置、及び方法
 開示の技術は、診断支援プログラム、診断支援装置、及び診断支援方法に関する。
 医療現場等において、患者から採取されたサンプルが示す特徴と、予め定めた診断基準とに基づいて、疾患の有無を診断することが行われている。診断基準の決定方法として、例えば、診断対象の疾患の有無を予測するモデルを作成することにより決定する方法がある。モデルは、診断対象の疾患がある患者及び疾患がない患者の各々から採取されたサンプルが示す特徴と、疾患の有無を示す分類ラベルとを対応付けた訓練データを用いて、SVM(Support Vector Machine)や決定木等の機械学習により作成される。
 例えば、被検体を、被検体の体に生じるイベントに応じて層別化する方法が提案されている。この方法では、被検体に由来するバイオマーカーの母集団について、各バイオマーカーの測定値に基づいて各バイオマーカーが被検体の体に生じるイベントと関連して変動するか否かが統計学的手法により判定される。そして、変動すると判定されたバイオマーカー群が第1の亜集団として抽出される。また、第1の亜集団に属する各バイオマーカーを検証し、体に生じるイベントとの関連性がより強いと統計学的に予測されるバイオマーカー群が第2の亜集団として抽出される。そして、第2の亜集団に属する各バイオマーカーの重みが深層学習法により算出され、判別器が生成される。判別器は、第2の亜集団に属する各バイオマーカーの測定値から得られるスコアと、算出された各バイオマーカーの重みとを用いて、第2の亜集団に属するバイオマーカーのスコアの重み付け和を算出する。
特開2020-28278号公報
 機械学習の説明変数として用いる特徴の種類数が膨大な場合には、従来の機械学習によりモデルを作成することが困難である。例えば、特徴が遺伝子の発現量である場合、遺伝子の種類数は1万以上となることもある。従来技術のように、疾患の予測に有効そうな遺伝子のみに絞り込むなど、説明変数として用いる特徴を選択してから機械学習を行うことが考えられる。しかし、この場合、多くの種類の特徴が説明変数から除外されることになり、除外される特徴の中には、本来診断に有効な特徴が含まれている可能性がある。例えば、特徴単体では、疾患の予測に対する有効性が低い場合でも、他の特徴との組合せにより有効性が高くなる場合もあるが、このような特徴が説明変数から除外される可能性がある。その結果、有効な診断を行うための診断基準を決定することができなくなってしまう。
 一つの側面として、開示の技術は、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することを目的とする。
 一つの態様として、開示の技術は、診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールの集合を取得する。ルールのそれぞれには、前記診断対象に対する第1の重みが対応付けられている。また、開示の技術は、所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定し、決定された前記第2の重みが所定値以上の前記パターンを出力する。
 一つの側面として、診断基準の決定に機械学習を利用する場合において、効果的な診断基準の決定を支援することができる、という効果を有する。
診断支援装置の機能ブロック図である。 サンプルデータ集合の一例を示す図である。 機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を説明するための図である。 訓練データセットの生成を説明するため図である。 ルール集合の一例を示す図である。 パターンの生成を説明するための図である。 パターン重みの補正の一例を説明するための図である。 診断基準候補の出力画面の一例を示す図である。 診断支援装置として機能するコンピュータの概略構成を示すブロック図である。 診断支援処理の一例を示すフローチャートである。 訓練データ生成処理の一例を示すフローチャートである。 ルール取得処理の一例を示すフローチャートである。 パターン生成処理の一例を示すフローチャートである。 重み補正処理の一例を示すフローチャートである。 診断支援処理を説明するための概略図である。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。以下の実施形態では、遺伝子診断に用いる診断基準の決定を支援する場合について説明する。遺伝子診断とは、患者から採取した組織サンプルから、特定の遺伝子が発現するかどうかを検査することで、疾患の有無を診断する方法である。したがって、診断基準としては、疾患ありの場合に高発現する遺伝子の種類が決定される。
 図1に示すように、診断支援装置10には、サンプルデータ集合22が入力される。診断支援装置10は、サンプルデータ集合22から生成した訓練データセットを機械学習することにより、上記のような診断基準の候補を抽出し、出力する。
 サンプルデータ集合22は、診断対象の疾患のある患者、及び疾患のない患者の各々から採取された組織サンプルから抽出された、複数種類の遺伝子の各々についての発現量のデータであるサンプルデータの集合である。図2に、サンプルデータ集合22の一例を示す。図2の例では、各行(各レコード)が、1つのサンプルデータに相当する。図2の例では、各サンプルデータには、サンプルデータの識別情報である「サンプルID」が付与されている。また、各サンプルデータには、そのサンプルデータに対応する患者が、診断対象の疾患のある患者か、又は疾患のない患者かを示す「疾患(分類ラベル)」が対応付けられている。また、各サンプルデータは、遺伝子の種類毎に、サンプルデータから抽出された、その遺伝子の発現量(図2中の「遺伝子発現量」)の情報を含む。
 ここで、図3に示すように、機械学習の説明変数として用いる特徴を絞り込んで機械学習を行う場合を考える。図3の例では、サンプルデータに含まれる1万以上ある遺伝子の種類を100程度に絞り込んで、訓練データとする場合を示している。遺伝子の種類の絞り込みは、例えば、遺伝子間の発現量の相関等に基づいて判断される。図3の例では、サンプルデータから、遺伝子HAS1、CALB2、WT1等が除外された訓練データセットを機械学習することにより作成されるモデルにより、診断基準が決定される。この場合、除外された遺伝子HAS1、CALB2、WT1等が診断に有効であっても、これらの除外された遺伝子は、診断基準には含まれない。
 そこで、本実施形態では、機械学習において、「評価理由を説明可能であり」、「全ての変数(特徴)の組合せで構成される仮説を網羅的に列挙し」、「それらの仮説に重要度を付与できる」という特性を有するAI(Artificial Intelligence)を適用する。
 診断支援装置10は、機能的には、図1に示すように、生成部12と、取得部14と、決定部16と、出力部18とを含む。
 生成部12は、診断支援装置10に入力されたサンプルデータ集合22から、診断基準候補を抽出するための機械学習に用いる訓練データセットを生成する。具体的には、生成部12は、サンプルデータ集合22に含まれるサンプルデータの遺伝子発現量を、高発現か低発現かを示す二値に変換する。
 例えば、生成部12は、既存の二値化手法により、遺伝子の種類毎に閾値を決定する。既存の二値化手法としては、画像の二値化等で使用される動的閾値法、遺伝子分野で使用されるステップマイナー法等がある。そして、生成部12は、図4に示すように、遺伝子発現量が閾値より大きい場合には、遺伝子発現量を、高発現を示す値(例えば「1」)に変換する。一方、生成部12は、遺伝子発現量が閾値以下の場合には、遺伝子発現量を、低発現を示す値(例えば「0」)に変換する。
 生成部12は、上記のように、サンプルデータの遺伝子発現量を二値化することにより、訓練データを生成する。すなわち、訓練データセットは、遺伝子発現量の各々を二値化した値と、分類ラベルとを対応付けた訓練データの集合である。以下では、二値化された遺伝子発現量を「遺伝子発現情報」という。図4の下段の図は、訓練データセットを表し、各行(各レコード)が1つの訓練データに相当する。生成部12は、生成した訓練データセットを取得部14へ受け渡す。
 取得部14は、生成部12から受け渡された訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに診断対象に対する重みが対応付けられたルールの集合を取得する。
 具体的には、取得部14は、上述した特性を有するAIを適用して、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として訓練データを機械学習する。これにより、取得部14は、診断対象の疾患ありとの診断へ導く仮説を、ルールとして取得する。より具体的には、本実施形態において適用するAIは、複数の遺伝子の種類の組合せを網羅的に列挙する。そして、AIは、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度(重要度)を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習する。すなわち、なぜ診断対象の疾患ありと診断するのかが、高発現の遺伝子の組合せにより説明される。また、遺伝子発現量を二値化した訓練データを用いることにより、遺伝子の種類の網羅的な組合せの各々について、効率的な機械学習を行うことができる。
 取得部14は、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、図5に示すようなルール集合24として、所定の記憶領域に記憶する。ルール重みは、開示の技術の「第1の重み」の一例である。なお、取得部14は、ルール重みが所定値以上のルールのみをルール集合24に含めるようにしてもよい。
 決定部16は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定する。所定個を複数とした場合、すなわち、パターンに含まれる遺伝子が複数種類の場合、複数の遺伝子が共発現した場合に、診断対象の疾患に関係するような遺伝子の組合せを、診断基準の候補として抽出することができる。
 具体的には、決定部16は、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、図6に示すように、指定された種類数(図6の例では、3種類)の遺伝子の組合せをパターンとして生成する。決定部16は、生成したパターン毎に、そのパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合24から検索する。そして、決定部16は、検索されたルールに対応付けられたルール重みの合計値を、パターン重みとして算出する。これにより、診断対象の疾患ありとの診断へ導く仮説への適合度が高いほど大きなルール重みを算出することができる。なお、ルール重みの算出方法は上記の例に限定されず、検索されたルールに対応付けられたルール重みの積、重み付き和、平均等であってもよい。
 また、決定部16は、パターンに、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれる場合、算出したパターン重みを補正する。具体的には、決定部16は、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これは、機能が未知の遺伝子を含む新しい診断基準の発見を支援することを意図したものである。また、機能が未知の遺伝子が、機能が既知で診断対象の疾患との関係がある遺伝子と共にパターンに含まれる場合に、パターン重みを大きく補正するのは、機能が未知の遺伝子だけでは、疾患と関係付ける根拠がないためである。
 図7に、パターン重みの補正の一例を示す。決定部16は、例えば、機能が未知の遺伝子と、機能が既知で診断対象の疾患との関係がある遺伝子とが含まれるパターンについて、パターンに含まれる機能が未知の遺伝子1つにつき1回、算出済みのパターン重みを1.5倍している。なお、パターン重みの補正方法はこれに限定されず、機能が未知の遺伝子の数又は比率に応じた値を加算する等、他の方法で補正してもよい。
 決定部16は、補正後のパターン重みを最終的なパターン重みとして決定し、パターン及びパターン重みを出力部18へ受け渡す。なお、パターン重みは、開示の技術の「第2の重み」の一例である。
 出力部18は、決定部16により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。出力された情報は、例えば、医師等が利用する情報処理端末のディスプレイに、図8に示すような出力画面で表示される。図7及び図8の例では、パターン重みが2.5以上のパターンが、診断基準の候補となる遺伝子群として出力される例を示している。なお、診断基準の候補となる遺伝子群の情報は、ディスプレイに表示される場合に限定されず、用紙にプリント出力される等、他の方法で出力されてもよい。
 診断支援装置10は、例えば図9に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
 記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、診断支援装置10として機能させるための診断支援プログラム50が記憶される。診断支援プログラム50は、生成プロセス52と、取得プロセス54と、決定プロセス56と、出力プロセス58とを有する。
 CPU41は、診断支援プログラム50を記憶部43から読み出してメモリ42に展開し、診断支援プログラム50が有するプロセスを順次実行する。CPU41は、生成プロセス52を実行することで、図1に示す生成部12として動作する。また、CPU41は、取得プロセス54を実行することで、図1に示す取得部14として動作する。また、CPU41は、決定プロセス56を実行することで、図1に示す決定部16として動作する。また、CPU41は、出力プロセス58を実行することで、図1に示す出力部18として動作する。また、CPU41は、取得プロセス54の実行時に、ルール集合24をメモリ42に展開する。これにより、診断支援プログラム50を実行したコンピュータ40が、診断支援装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
 なお、診断支援プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、本実施形態に係る診断支援装置10の作用について説明する。診断支援装置10にサンプルデータ集合22が入力されると、診断支援装置10において、図10に示す診断支援処理が実行される。なお、診断支援処理は、開示の技術の診断支援方法の一例である。以下、図15に示す診断支援処理の概略図もあわせて参照して、図10の診断支援処理の一例を示すフローチャートについて説明する。
 ステップS10で、生成部12が、訓練データ生成処理を実行する。ここで、図11を参照して、訓練データ生成処理について説明する。
 ステップS11で、生成部12が、診断支援装置10に入力されたサンプルデータ集合22を取得する。次に、ステップS12で、生成部12が、サンプルデータ集合22に含まれる遺伝子の種類から、以下の処理が未処理の遺伝子の種類を1つ選択する。次に、ステップS14で、生成部12が、既存の二値化手法により、選択した遺伝子の種類についての二値化の閾値を決定する。
 次に、ステップS16で、生成部12が、サンプルデータ集合22から、以下の処理が未処理のサンプルデータを1つ選択する。次に、ステップS18で、生成部12が、選択したサンプルデータにおいて、選択した遺伝子の種類の遺伝子発現量が、決定した閾値より大きいか否かを判定する。遺伝子発現量>閾値の場合には、処理はステップS19へ移行し、遺伝子発現量≦閾値の場合には、処理はステップS20へ移行する。
 ステップS19では、生成部12が、遺伝子発現量を、高発現を示す値(例えば「1」)に変換する。一方、ステップS20では、生成部12が、遺伝子発現量を、低発現を示す値(例えば「0」)に変換する。
 次に、ステップS21で、生成部12が、サンプルデータ集合22に含まれる全てのサンプルデータについて、上記ステップS18~S20の処理を完了したか否かを判定する。未完のサンプルデータが存在する場合には、処理はステップS16に戻り、全てのサンプルデータについて処理が完了している場合には、処理はステップS22へ移行する。
 ステップS22で、生成部12が、全ての遺伝子の種類について、上記ステップS14~S21の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップS12に戻り、全ての遺伝子の種類について処理が完了している場合には、訓練データ生成処理は終了し、処理は診断支援処理(図10)に戻る。これにより、図15の(A)に示すように、サンプルデータの遺伝子発現量が二値化された訓練データセットが生成される。
 次に、ステップS30で、取得部14が、ルール取得処理を実行する。ここで、図12を参照して、ルール取得処理について説明する。
 ステップS31で、取得部14が、生成部12により生成された訓練データセットを取得する。訓練データセットに含まれる訓練データの各々は、遺伝子発現情報と疾患の有無を示す分類ラベルとを含む。
 次に、ステップS32で、取得部14が、遺伝子発現情報を説明変数、及び分類ラベルを目的変数として、上述した特性を有するAIを適用して訓練データを機械学習する。具体的には、取得部14は、AIに、複数の遺伝子の種類の組合せを網羅的に列挙させる。そして、取得部14は、AIに、組合せ毎に、その組合せに含まれる遺伝子が高発現であることの、診断対象の疾患ありとの診断結果に対する寄与度(重要度)を、訓練データの遺伝子発現情報と分類ラベルとの対応付けから機械学習させる。
 次に、ステップS33で、取得部14が、高発現の遺伝子の組合せをルール、そのルールに付与された重要度をルール重みとして取得し、ルール集合24として所定の記憶領域に記憶する。そして、ルール取得処理は終了し、処理は診断支援処理(図10)に戻る。これにより、図15の(B)に示すように、取得部14は、診断対象の疾患(図15の例では「肺がん」)ありとの診断へ導く仮説を示すルール及びルール重みを、ルール集合として取得する。
 次に、ステップS40で、決定部16が、パターン生成処理を実行する。ここで、図13を参照して、パターン生成処理について説明する。
 ステップS41で、決定部16が、ユーザから、パターンに含める遺伝子の種類数の指定を受け付け、指定された種類数の遺伝子の組合せをパターンとして生成する。次に、ステップS42で、決定部16が、生成したパターンから、以下の処理が未処理のパターンを1つ選択する。
 次に、ステップS43で、決定部16が、選択したパターンに含まれる遺伝子の種類全てを含むルールを、ルール集合24から検索する。次に、ステップS44で、決定部16が、上記ステップS43で、1つ以上のルールが検索されたか否かを判定する。1つ以上のルールが検索されている場合には、処理はステップS45へ移行し、ルールが検索されなかった場合には、処理はステップS46へ移行する。
 ステップS45では、決定部16が、検索されたルールに対応付けられたルール重みの合計値を、選択したパターンのパターン重みとして算出する。次に、ステップS46で、決定部16が、生成した全てのパターンについて、上記ステップS43~S45の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップS42に戻り、全てのパターンについて処理が完了している場合には、パターン生成処理は終了し、処理は診断支援処理(図10)に戻る。
 次に、ステップS50で、決定部16が、重み補正処理を実行する。ここで、図14を参照して、重み補正処理について説明する。
 ステップS51で、決定部16が、パターン生成処理により生成されたパターンを1つ選択する。次に、ステップS52で、決定部16が、パターンに含まれる機能が未知の遺伝子の種類数をカウントするため変数α、及び機能が既知で診断対象の疾患との関係がある遺伝子の種類数をカウントするための変数βの各々を0に設定する。
 次に、ステップS53で、決定部16が、選択したパターンに含まれる遺伝子の種類のうち、以下の処理が未処理の遺伝子の種類を1つ選択する。次に、ステップS54で、決定部16が、選択した種類の遺伝子が、機能が既知の遺伝子か否かを判定する。機能が既知の遺伝子の場合には、処理はステップS56へ移行する。一方、機能が未知の遺伝子の場合には、処理はステップS55へ移行し、決定部16が、αを1インクリメントして、処理はステップS58へ移行する。
 ステップS56では、決定部16が、選択した種類の遺伝子が、診断対象の疾患との関係がある遺伝子か否かを判定する。疾患との関係がある遺伝子の場合には、処理はステップS57へ移行し、疾患との関係がない遺伝子の場合には、処理はステップS58へ移行する。ステップS57では、決定部16が、βを1インクリメントして、処理はステップS58へ移行する。
 ステップS58では、決定部16が、選択したパターンに含まれる遺伝子の全ての種類について、上記ステップS53~S57の処理が完了したか否かを判定する。未完の遺伝子の種類が存在する場合には、処理はステップS53に戻り、全ての遺伝子の種類について処理が完了している場合には、処理はステップS59へ移行する。
 ステップS59では、決定部16が、α及びβに基づいて、選択したパターンのパターン重みを補正する。具体的には、決定部16は、α>0かつβ>0の場合に、αの数又は比率が多いほど、パターン重みを大きくするように補正する。例えば、決定部16は、「補正前のパターン重み×γα(γは定数、例えば、1.5)」のように、パターン重みを補正する。
 次に、ステップS60で、全てのパターンについて、上記ステップS52~S59の処理が完了したか否かを判定する。未完のパターンが存在する場合には、処理はステップS51に戻り、全てのパターンについて処理が完了している場合には、処理はステップS61へ移行する。ステップS61では、決定部16が、補正後のパターン重みを最終的なパターン重みとして決定し、各パターンをパターン重みが大きい順にソートする。そして、重み補正処理は終了し、処理は診断支援処理(図10)に戻る。
 パターン生成処理及び重み補正処理により、図15の(C)に示すように、所定個(図15の例では、k=3個)の遺伝子の種類を含むパターン毎に、ルール重みに基づいてパターン重みが決定される。
 次に、ステップS70で、出力部18が、決定部16により決定されたパターン重みが所定値以上のパターンに含まれる遺伝子を、診断基準の候補となる遺伝子群として出力する。所定値は、予め定めた値であってもよいし、上位N番目のパターン重みの値としてもよい。後者の場合、パターン重みが上位N位までのパターンが、診断基準候補として出力される。
 これにより、図15の(D)に示すように、医師等が、出力された診断基準の候補となる遺伝子群を参照し、医学的知見を踏まえて、検査対象遺伝子である診断基準を決定する。そして、遺伝子診断の場面では、図15の(E)に示すように、例えば、患者から採血して、診断基準が示す検査対象遺伝子の発現量を測定し、測定結果に基づいて、疾患の有無が診断される。
 以上説明したように、本実施形態に係る診断支援装置は、機械学習によって生成された、1以上の遺伝子の種類の組合せで表されるルールであって、それぞれに診断対象の疾患に対するルール重みが対応付けられたルールの集合を取得する。ルールは、遺伝子の網羅的な組合せ毎に、その組合せに含まれる遺伝子が高発現である場合における、診断結果への寄与度に応じた重要度を付与するAIを適用して、疾患あり及び疾患なしの遺伝子発現情報を機械学習することにより作成される。診断支援装置は、所定個の遺伝子の種類を含むパターン毎に、パターンに含まれる遺伝子の種類を含むルールに対応付けられたルール重みに基づくパターン重みを決定し、決定されたパターン重みが所定値以上のパターンを、診断基準候補として出力する。これにより、診断基準の決定に機械学習を利用する場合において、診断に有効な診断基準の決定を支援することができる。
 また、診断支援装置は、パターンに含まれる所定個の特徴に、機能が未知の遺伝子と機能が既知で疾患に関係する遺伝子とが含まれる場合、パターンに含まれる機能が未知の遺伝子の数又は比率が多いほど、パターン重みを大きくするように補正する。これにより、これまで特徴として現れ難かった未知の遺伝子への対応も可能とする診断基準候補を抽出することができる。
 なお、上記実施形態では、遺伝子診断の例について説明したが、開示の技術の適用は、これに限定されない。複数の特徴の組合せと診断基準とに基づいて、診断結果を予測する場合であれば、開示の技術を適用することができる。例えば、遺伝子以外の医療診断や、画像データ等のセンシングデータに基づき、異常の有無等を診断する場合にも適用可能である。
 また、上記実施形態では、ルール重みに基づいて算出したパターン重みを、パターンに含まれる機能が未知の遺伝子の数又は比率に基づいて補正する場合について説明したが、パターン重みを補正することは、必須ではない。ただし、機能が未知の遺伝子を診断基準に加えたい場合には、上記実施形態のようにパターン重みを補正することが有効である。
 また、上記実施形態では、診断支援プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10   診断支援装置
12   生成部
14   取得部
16   決定部
18   出力部
22   サンプルデータ集合
24   ルール集合
40   コンピュータ
41   CPU
42   メモリ
43   記憶部
49   記憶媒体
50   診断支援プログラム

Claims (16)

  1.  診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得し、
     所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定し、
     決定された前記第2の重みが所定値以上の前記パターンを出力する
     ことを含む処理をコンピュータに実行させるための診断支援プログラム。
  2.  前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項1に記載の診断支援プログラム。
  3.  前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項1又は請求項2に記載の診断支援プログラム。
  4.  前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値を、前記第2の重みとして決定する請求項1~請求項3のいずれか1項に記載の診断支援プログラム。
  5.  前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第2の重みを大きくするように前記第2の重みを補正する請求項1~請求項4のいずれか1項に記載の診断支援プログラム。
  6.  診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得する取得部と、
     所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定する決定部と、
     決定された前記第2の重みが所定値以上の前記パターンを出力する出力部と、
     を含む診断支援装置。
  7.  前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項6に記載の診断支援装置。
  8.  前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項6又は請求項7に記載の診断支援装置。
  9.  前記決定部は、前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値を、前記第2の重みとして決定する請求項6~請求項8のいずれか1項に記載の診断支援装置。
  10.  前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、
     前記決定部は、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第2の重みを大きくするように前記第2の重みを補正する
     請求項6~請求項9のいずれか1項に記載の診断支援装置。
  11.  診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得し、
     所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定し、
     決定された前記第2の重みが所定値以上の前記パターンを出力する
     ことを含む処理をコンピュータが実行する診断支援方法。
  12.  前記ルールは、前記サンプルが示す特徴の網羅的な組合せ毎に、前記診断対象か前記診断対象以外かの診断結果への寄与度を付与する前記機械学習により生成される請求項11に記載の診断支援方法。
  13.  前記訓練データセットは、前記サンプルが示す特徴の各々の特徴量を二値化した値と、前記サンプルが前記診断対象のサンプルか、又は前記診断対象以外のサンプルかを示すラベルとを対応付けた訓練データの集合である請求項11又は請求項12に記載の診断支援方法。
  14.  前記パターンに含まれる特徴を含むルールの各々に対応付けられた前記第1の重みの合計値を、前記第2の重みとして決定する請求項11~請求項13のいずれか1項に記載の診断支援方法。
  15.  前記特徴が、遺伝子の発現量に応じた特徴の場合であって、前記パターンに含まれる前記所定個の特徴に、機能が未知の遺伝子と機能が既知の遺伝子とが含まれる場合、前記パターンに含まれる前記機能が未知の遺伝子の数又は比率が多いほど、前記第2の重みを大きくするように前記第2の重みを補正する請求項11~請求項14のいずれか1項に記載の診断支援方法。
  16.  診断対象のサンプルが示す特徴、及び前記診断対象以外のサンプルが示す特徴を含む訓練データセットを利用した機械学習によって生成された、1以上の特徴の組合せで表されるルールであって、それぞれに前記診断対象に対する第1の重みが対応付けられたルールの集合を取得し、
     所定個の特徴を含むパターン毎に、前記パターンに含まれる特徴を含むルールに対応付けられた前記第1の重みに基づく第2の重みを決定し、
     決定された前記第2の重みが所定値以上の前記パターンを出力する
     ことを含む処理をコンピュータに実行させるための診断支援プログラムを記憶した記憶媒体。
PCT/JP2020/021994 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法 WO2021245850A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202080101090.7A CN115668393A (zh) 2020-06-03 2020-06-03 诊断辅助程序、装置以及方法
JP2022529227A JP7444252B2 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法
EP20938632.5A EP4163385A4 (en) 2020-06-03 2020-06-03 DIAGNOSTIC ASSISTANCE PROGRAM, DEVICE AND METHOD
PCT/JP2020/021994 WO2021245850A1 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法
US17/980,126 US20230057455A1 (en) 2020-06-03 2022-11-03 Storage medium, diagnosis support device, and diagnosis support method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021994 WO2021245850A1 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/980,126 Continuation US20230057455A1 (en) 2020-06-03 2022-11-03 Storage medium, diagnosis support device, and diagnosis support method

Publications (1)

Publication Number Publication Date
WO2021245850A1 true WO2021245850A1 (ja) 2021-12-09

Family

ID=78830699

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/021994 WO2021245850A1 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法

Country Status (5)

Country Link
US (1) US20230057455A1 (ja)
EP (1) EP4163385A4 (ja)
JP (1) JP7444252B2 (ja)
CN (1) CN115668393A (ja)
WO (1) WO2021245850A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006072011A2 (en) * 2004-12-30 2006-07-06 Proventys, Inc. Methods, systems, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
WO2018187496A2 (en) * 2017-04-04 2018-10-11 Lung Cancer Proteomics, Llc Plasma based protein profiling for early stage lung cancer prognosis
JP2020028278A (ja) 2018-08-24 2020-02-27 国立大学法人九州大学 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006072011A2 (en) * 2004-12-30 2006-07-06 Proventys, Inc. Methods, systems, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
WO2018187496A2 (en) * 2017-04-04 2018-10-11 Lung Cancer Proteomics, Llc Plasma based protein profiling for early stage lung cancer prognosis
JP2020028278A (ja) 2018-08-24 2020-02-27 国立大学法人九州大学 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4163385A4

Also Published As

Publication number Publication date
EP4163385A4 (en) 2023-08-02
JPWO2021245850A1 (ja) 2021-12-09
US20230057455A1 (en) 2023-02-23
EP4163385A1 (en) 2023-04-12
JP7444252B2 (ja) 2024-03-06
CN115668393A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
JP5142135B2 (ja) データを分類する技術
RU2517286C2 (ru) Классификация данных выборок
US20020164070A1 (en) Automatic algorithm generation
JP2005524131A (ja) クラシファイアの性能の見積りに関する方法および装置
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
CN110969200B (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
Cao et al. ROC curves for the statistical analysis of microarray data
JP5123759B2 (ja) パターン検出器の学習装置、学習方法及びプログラム
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
KR102382707B1 (ko) 다유전자 위험점수를 이용한 시간 의존 연관성 기반의 질환 발병 정보 생성 장치 및 그 방법
JP6941309B2 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
Hupse et al. The effect of feature selection methods on computer-aided detection of masses in mammograms
CN110268072A (zh) 确定旁系同源基因的方法和系统
US20210166362A1 (en) Wafer map identification method and computer-readable recording medium
JP7197795B2 (ja) 機械学習プログラム、機械学習方法および機械学習装置
JP7238378B2 (ja) 異常検出装置、異常検出プログラム、及び、異常検出方法
TWI816078B (zh) 樣本分群探勘方法
WO2021245850A1 (ja) 診断支援プログラム、装置、及び方法
JP2021165909A (ja) 情報処理装置、情報処理装置の情報処理方法およびプログラム
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
US20220207302A1 (en) Machine learning method and machine learning apparatus
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
AU2022218581A1 (en) Sequencing data-based itd mutation ratio detecting apparatus and method
JP4461240B2 (ja) 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
JP2021043056A (ja) 分子マーカー探索方法、分子マーカー探索装置、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20938632

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022529227

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020938632

Country of ref document: EP

Effective date: 20230103