WO2010064413A1 - 薬剤の作用・副作用予測システムとそのプログラム - Google Patents

薬剤の作用・副作用予測システムとそのプログラム Download PDF

Info

Publication number
WO2010064413A1
WO2010064413A1 PCT/JP2009/006520 JP2009006520W WO2010064413A1 WO 2010064413 A1 WO2010064413 A1 WO 2010064413A1 JP 2009006520 W JP2009006520 W JP 2009006520W WO 2010064413 A1 WO2010064413 A1 WO 2010064413A1
Authority
WO
WIPO (PCT)
Prior art keywords
discriminant
gene
condition
action
side effect
Prior art date
Application number
PCT/JP2009/006520
Other languages
English (en)
French (fr)
Inventor
岡正朗
浜本義彦
硲彰一
藤田悠介
恒富亮一
Original Assignee
国立大学法人山口大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人山口大学 filed Critical 国立大学法人山口大学
Priority to JP2010541227A priority Critical patent/JP5436446B2/ja
Publication of WO2010064413A1 publication Critical patent/WO2010064413A1/ja
Priority to US13/150,834 priority patent/US20110288783A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Definitions

  • the present invention collects data on the presence or absence of an action or side effect caused by administration of a drug for each combination of genotypes in a gene that may be involved in the action or side effect of the drug, and a discriminant regarding the action or occurrence of the side effect on the drug
  • the present invention relates to a system and a program for predicting the action / side effect on a drug with high reliability and versatility by expanding the scope of application while increasing the accuracy of the discriminant formula by constructing a combination of genotypes.
  • the difficulty of cancer treatment is said to be due to its diversity, and there is a need for personalized medicine for cancer treatment.
  • an anticancer drug is administered for cancer treatment, the effects and side effects vary depending on the individual. In the worst case there is no effect, but there may be only side effects. Therefore, when a drug such as an anticancer drug is administered, accurately predicting the action and side effects of the drug is extremely important in determining a diagnostic method such as drug administration.
  • Numerous studies have been conducted on the relationship between genotypes and side effects regarding the prediction of side effects of anticancer drugs. Conventional studies on the relationship between genotypes and side effects of anticancer drugs have considered only a single or at most a combination of two genotypes, and the relationship between three or more combinations has been poorly investigated.
  • Non-Patent Document 1 a diagnostic method based on the expression level of a gene has been studied.
  • 52 effective genes are individually extracted from 384 candidate genes by Mann-Whitney U test, a predicted score is calculated from the expression levels of the extracted 52 genes, and a diagnosis is made based on the score value Is stated.
  • the diagnostic performance of a gene alone is low, a gene with high diagnostic performance when combined can not be extracted.
  • one score formula is designed, high diagnostic performance may not be obtained with only one score formula for complicated problems of genes and gene polymorphisms.
  • a support diagnosis system using a case database has also been developed.
  • the present invention has been made in response to such a conventional situation, and automatically generates a discriminant for prediction by combining genotypes considered to be related according to the prediction purpose such as the action / side effect of a drug. It is another object of the present invention to provide a drug action / side effect prediction system capable of predicting with high reliability and versatility, and a program thereof.
  • a drug action / side effect prediction system capable of predicting with high reliability and versatility, and a program thereof.
  • in addition to the genotype, gender, age, gene expression level, and the like can be used as factors.
  • the drug action / side effect prediction system provides the action or side effect for each combination of genotypes (hereinafter referred to as genetic conditions) involved in the action or side effect of the drug.
  • a case analysis table generation unit that generates an analysis table that corresponds to cases related to the presence or absence of Selecting at least one of the genetic conditions in the analysis table, calculating a occupancy ratio for the number of cases with or without the action or side effect, and a desired threshold for the occupancy ratio
  • discriminant generation that extracts a corresponding gene condition from the gene condition for which the occupancy ratio is calculated in the reliability analysis unit, and generates a discriminant by combining the extracted gene conditions alone or in combination And comparing the data on the genotype of the sample regarding the presence or absence of the action or side effect of the drug for each genetic condition included in the discriminant and matching the discriminant with the action or side effect of the drug on the sample And a prediction unit that performs prediction regarding the presence or absence of the.
  • the case analysis table generation unit has an action of generating a table (list) corresponding to each genetic condition for cases related to the action / side effect on the drug.
  • the analysis unit has an operation of selecting at least one of the gene conditions from the table and calculating an occupation ratio for the number of cases with and without action / side effects.
  • the discriminant generation unit has an operation of extracting a corresponding gene condition on the basis of a threshold value for the occupation ratio and an operation of generating a discriminant.
  • the genetic conditions included in this discriminant are information for prediction regarding the presence / absence of action / side effects on drugs.
  • the drug action / side effect prediction system is the drug action / side effect prediction system according to claim 1, wherein the discriminant-generating unit generates a desired threshold for the occupation rate. And extracting a corresponding gene condition from the gene condition in which the calculation of the occupancy rate is performed in the reliability analysis unit with reference to a desired threshold value with or without the number of cases, and the extracted gene condition Are used alone or in combination to generate a discriminant.
  • the discriminant generator generates the gene condition based not only on the desired threshold for the occupation rate but also on the threshold for the number of cases. Have.
  • the drug action / side effect prediction system according to claim 3 is the drug action / side effect prediction system according to claim 2, wherein the occupation condition among the gene conditions extracted in the discriminant generation unit Among the gene conditions corresponding to the desired threshold value for the rate and corresponding to the desired threshold value for the number of cases, the discriminant generated by the discriminant generating unit In addition, in the overall discriminant after being added, the function of selecting the gene condition that increases the occupancy rate or the number of cases and adding it to the discriminant and / or subtracting from the generated discriminant A discriminant optimizing unit having a function of selecting and deleting gene conditions that increase the occupancy rate or the number of cases in the overall discriminant after being reduced.
  • the discriminant optimization unit adds to the discriminant from the gene conditions extracted by the discriminant generator.
  • the discriminant for which the occupancy rate was calculated in step 1 the gene condition that increases the occupancy rate or the number of cases is selected and added to the discriminant.
  • the discriminant optimization unit is used as a discriminant generator. From the gene conditions extracted by the above, there is an effect of selecting and deleting gene conditions that increase the occupancy rate or the number of cases in the overall discriminant after being reduced by subtraction.
  • the drug action / side effect prediction system according to claim 4 is the drug action / side effect prediction system according to claim 2 or 3, wherein the gene condition included in the generated discriminant A determination of deleting the other gene condition from the generated discriminant when the occupancy and number of cases in one gene condition are common to the occupancy and number of cases in another gene condition It has an expression optimization unit.
  • the discriminant optimization unit uses an occupancy ratio in a gene condition in which an occupancy ratio is calculated in a different discriminant. And when the number of cases is common, it has an effect of deleting one of the discriminants from the generated discriminant.
  • the drug action / side effect prediction system according to claim 5 is the drug action / side effect prediction system according to claim 3 or 4, wherein the discriminant optimization unit is stored in a database in advance.
  • a condition based on medical knowledge about the action / side effect of the drug hereinafter referred to as medical knowledge condition
  • the extracted gene condition is searched, and the extracted gene condition is A function of subtracting the medical knowledge condition when the medical knowledge condition is included, and a function of adding the medical knowledge condition when not included in the extracted gene condition It is.
  • the discriminant optimization unit adds or deletes medical knowledge conditions in addition to the operation of the invention according to claim 3 or 4 described above. Works.
  • the drug action / side effect prediction system is the drug action / side effect prediction system according to any one of claims 2 to 5, wherein the case analysis table generation unit includes the sample The data on the genetic conditions is added to the analysis table while classifying with respect to the action or side effect of the drug, and the reliability analysis unit reads the analysis table, selects at least one of the genetic conditions and selects the occupation Calculating the rate, the discriminant generation unit extracts the gene condition based on a desired threshold for the occupation rate and a desired threshold for the presence or absence of the number of cases, and the gene condition The discriminant is generated alone or in combination, and the prediction unit determines the total occupancy in the generated discriminant by the action or side effect of the drug. It is predictive of as an estimate of the confidence that is classified for the presence.
  • the prediction unit predicts the action of the drug or the presence or absence of the side effect of the sample. Is calculated as a prediction.
  • the drug action / side effect prediction program is a program executed by a computer for predicting the action / side effect of a drug, and the computer relates to a gene related to the action or side effect of the drug.
  • a case analysis table generation step for generating an analysis table that correlates a case regarding the presence or absence of the action or side effect, and select at least one of gene conditions formed from the gene conditions in the analysis table,
  • the occupancy rate was calculated in the reliability analysis step based on a desired threshold value for the occupancy rate with respect to the occupancy rate for the number of cases with or without action or side effects.
  • the discriminant generation step for generating a discriminant and the data on the genetic condition of the sample relating to the presence or absence of drug action or side effects are compared for each gene condition included in the discriminant and matched with the discriminant.
  • a prediction step of performing prediction regarding the action of the drug or the presence or absence of side effects of the specimen is the same as that of the invention described in claim 1.
  • the drug action / side effect prediction program according to claim 8 is the drug action / side effect prediction program according to claim 7, wherein the discriminant generating step includes a desired threshold value for the occupation rate and the Based on the desired threshold value for the presence or absence of the number of cases, the corresponding gene condition is extracted from the gene condition for which the occupancy rate has been calculated in the reliability analysis step, and the extracted gene condition is used alone. Or a combination thereof to generate a discriminant.
  • the action / side effect prediction program of the drug configured as described above the action is the same as that of the invention described in claim 2.
  • the drug action / side effect prediction program according to claim 9 is the drug action / side effect prediction program according to claim 8, wherein the occupancy ratio among the gene conditions extracted in the discriminant generation step Among gene conditions corresponding to the desired threshold value for the number of cases and corresponding to the desired threshold value for the number of cases, the gene condition is added to the discriminant generated in the discriminant generating step
  • the step of selecting the gene condition that increases the occupancy rate or the number of cases and adding it to the discriminant and / or subtracting from the generated discriminant In the overall discriminant after being reduced, there is a discriminant optimization step comprising the step of selecting and deleting the gene condition that increases the occupancy rate or the number of cases. It is intended.
  • the action is the same as that of the invention described in claim 3.
  • the drug action / side effect prediction program according to claim 10 is the drug action / side effect prediction program according to claim 8 or 9, wherein, among the gene conditions included in the generated discriminant Discriminant optimal for deleting the other gene conditions from the generated discriminant when the occupancy and number of cases in one gene condition and the occupancy and number of cases in another gene condition are common It has a conversion process.
  • the action / side effect prediction program for the drug configured as described above the action is the same as that of the invention described in claim 4.
  • the drug action / side effect prediction program according to claim 11 is the drug action / side effect prediction program according to claim 9 or 10, wherein the discriminant optimization step is stored in a database in advance.
  • a condition based on medical knowledge regarding the presence / absence of the action / side effect of the drug (hereinafter referred to as “medical knowledge condition”) is retrieved, the extracted gene condition is searched, and the extracted gene condition is A step of subtracting the medical knowledge condition when the medical knowledge condition is included, and a step of adding the medical knowledge condition when not included in the extracted gene condition It is.
  • the action is the same as that of the invention described in claim 5.
  • the drug action / side effect prediction program according to claim 12 is the drug action / side effect prediction program according to any one of claims 8 to 11, wherein the case analysis table generation step includes the genetic condition of the specimen.
  • the reliability analysis step reads out the analysis table, selects at least one of the conditions, and calculates the occupation rate.
  • the discriminant generation step extracts the gene condition with reference to a desired threshold for the occupancy rate and a desired threshold for the presence or absence of the number of cases, and the gene condition alone, Alternatively, the discriminant is generated in combination, and the predicting step determines the total occupancy in the generated discriminant by the action or side effect of the drug on the specimen. It is predictive of as an estimate of the confidence that is classified for the presence.
  • the action is the same as that of the invention described in claim 6.
  • the drug action / side effect prediction system of the present invention automatically generates discriminants by combining many gene conditions and cases according to the purpose of prediction of drug action / side effects, etc., and exhibits high reliability and versatility. It is possible to predict while. Since the discriminant used for the prediction is automatically generated based on the data regarding the case, even an operator who does not have specialized knowledge about the drug and the action / side effect can easily perform the prediction. Genotypes were considered as factors used for genetic conditions.
  • the drug action / side effect prediction system according to the present invention can generate a discriminant by combining genetic conditions combining a small number of factors and gene conditions combining a larger number of factors, so that the prediction exceeds the conventional prediction performance. A system can be realized.
  • a discriminant is generated by combining a plurality of gene conditions by OR operation, a highly versatile prediction system can be designed. Further, based on the statistics of the data accumulated in the case database, the reliability can be presented individually for the prediction result. Furthermore, it is possible to design a discriminant with higher reliability by introducing medical knowledge as well as designing a discriminant simply by combining factors engineeringly.
  • FIG. 1 is a conceptual diagram of a drug action / side effect prediction system according to an embodiment of the present invention. It is a conceptual diagram which shows the relationship of the factor regarding a genotype, gene condition, and discriminant used for the effect
  • the example of the transition of the number of combinations of gene conditions and the performance by the combination optimization of gene conditions performed using the drug action / side effect prediction system according to the present embodiment is shown.
  • a conceptual diagram in which a combination of genotypes in consideration of two genotypes A and B (Homo, Hetero, Wild) and cases with or without side effects are associated with each other. is there. It is a conceptual diagram which shows the estimation method of the reliability at the time of becoming determination pending
  • FIG. 1 is a configuration diagram of a drug action / side effect prediction system according to an embodiment of the present invention.
  • the drug action / side effect prediction system 1 according to the present embodiment is roughly composed of a discriminant design unit 2, a prediction unit 4, and a database 3.
  • the discriminant design unit 2 includes a case analysis table generator 5, a reliability analyzer 6, a discriminant generator 7, and a discriminant optimizer 8.
  • the database 3 includes gender, age, and address regarding the patient (specimen) etc. from which the data was obtained, including data on the presence or absence of drug action or side effects already accumulated in medical institutions or research institutions.
  • case data 10 including attribute data such as drug administration history (including at least drug name, dose, administration time / period), analysis table 11 generated in case analysis table generation unit 5, discriminant generation unit 7
  • the generated discriminant data 12 and medical knowledge condition 16 are stored so as to be readable from the discriminant design unit 2.
  • the medical knowledge condition 16 is a condition based on medical knowledge regarding the action / side effect of a drug and whether or not the condition is clinically reliable or unreliable in the database 3 in advance. It is stored or inputted to the discriminant optimization unit 8 of the discriminant design unit 2.
  • the case data 10 may be directly input and stored in the database 3, or stored in the database 3 when the analysis table 11 is generated by inputting the case data into the case analysis table generation unit 5 of the discriminant design unit 2. You may make it do.
  • the case analysis table generation unit 5 reads the case data 10 from the database 3 and generates the analysis table 11.
  • the prediction unit 4 reads the desired discriminant data 12 from the database 3 and receives the input of genotype combination data (gene condition data) related to the patient 15 who desires prediction regarding the action or side effect of drug administration. Alternatively, it is stored in the database 3 in advance, and this is read and compared with the combination of genotypes in this discriminant to classify the consistency with the discriminant, and the result is generated as a classification result 13 Based on the classification result 13, the prediction result 14 is output. Although the output method of the prediction result 14 is not described in FIG. 1, a display device such as a liquid crystal display device or a transmission device that enables transmission to other devices is used as the drug action / side effect prediction system 1.
  • a combination ((a + 1) n ) obtained by adding a type of genotype generated for each of n types of genes and designation of no genotype. -1) Prepare as a gene condition, and generate a discriminant by combining these gene conditions. Accordingly, the case data 10 and the like are also collected according to the combinations prepared as gene conditions.
  • FIG. 2 shows the relationship among genotype factors, gene conditions, and discriminants used in the drug action / side effect prediction system according to the present embodiment.
  • factor each of the factor, gene condition, and discriminant regarding the genotype will be described.
  • FIG. 2 shows an example of a genotype.
  • genes in the present embodiment “Homo”, “Hetero”, and “Wild”, respectively, and there are four types including the case where none of these is “designated”.
  • the combinations of “gene conditions” in such a case are enumerated.
  • gene condition 1 gene A type is Homo
  • gene B type is not specified, and other factors are not specified.
  • the type of gene A is set to Hetero, the type of gene B and other factors are not specified, all combinations are examined, and each is set as a gene condition.
  • the combination as such a gene condition is (a + 1) n ⁇ 1 as described above.
  • the case data 10 is a summary of the effects on drugs and the presence / absence of side effects for each patient.
  • the analysis table 11 corresponds to such genetic conditions. Each of these substances, which are associated with the presence / absence of these actions / side effects in a genetic condition, or a combination of each element, the purpose of which is to predict the action / side effects of drugs. Some data is used as a discriminant and the data is used as discriminant data 12.
  • the “discriminant” shown in FIG. 2 is a combination of the gene condition 1 ′ and the gene condition 2 ′ to form one discriminant.
  • such a discriminant is first determined by the case analysis table generating unit 5 regarding the “gene condition” in relation to the presence / absence of an action / side effect on a drug.
  • the analysis table 11 is generated by associating the case data 10 for every fifteen, and the reliability analysis unit 6 analyzes the reliability (occupancy ratio) for at least one “gene condition” in the analysis table 11 and determines the discriminant. It is obtained by the generation unit 7 generating a “discriminant” according to the degree of reliability.
  • the discriminant generated by the discriminant generator 7 is stored in the database 3 so as to be readable as discriminant data 12.
  • the degree of confidence is that the discriminant is a bundle or complex of gene conditions, but the reliability (occupancy) of each gene condition included in the discriminant is calculated, and the number of cases corresponding to the extraction of individual gene conditions It means the relationship with the threshold value provided including. Also, those satisfying the threshold value are put together into a discriminant. Alternatively, the reliability (occupancy) of each individual gene condition is not a problem, and the reliability (occupancy) of the entire gene condition and the number of applicable cases are calculated by calculating the overall reliability (occupancy).
  • a threshold value can also be used, and a bundle of gene conditions (complex) satisfying the reliability may be used as a discriminant. Alternatively, the simplest method is to combine all gene conditions and use it as a discriminant without setting a threshold for reliability (occupancy) or number of cases.
  • FIG. 3 is a flowchart showing a flow of discriminant generation by the drug action / side effect prediction system 1 according to the present embodiment.
  • a combination of a type of genotypes generated for each of n types of genes and no designation of the genotype is used.
  • the a type of genotype generated for each of the n types of genes and the designation of no genotype are added.
  • the resulting combinations ((a + 1) n ⁇ 1) are generated as “gene conditions”.
  • the gene conditions generated by the case analysis table generation unit 5 may include “no genotype designation”, the gene conditions include gene conditions including less than n genes. Therefore, when a gene condition consisting of genes less than n is effective for classification regarding the presence / absence of action / side effects, the gene condition can be used in the discriminant. For example, when only 1st, 2nd and 3rd genes are effective for classification among n types of genes, the case where “no designation” corresponds to the 4th to nth genotypes corresponds Therefore, it is possible to generate genetic conditions for the genotypes of all genes including genes less than n by configuring with no designation.
  • the case analysis table generating unit 5 receives the input of the case data 10 or reads the case data 10 stored in advance in the database 3 as step S2, and determines whether there is an action or a side effect for each gene condition. Investigate (check) the number of cases. At this time, each case includes a case where a plurality of gene conditions are satisfied, that is, a case where they overlap. In this way, the case analysis table generation unit 5 searches the case data 10 for each gene condition while generating the “gene condition”, and generates the analysis table 11 corresponding to the corresponding one. The generated analysis table 11 is stored in the database 3. In addition, there are four combinations of drug action / side effect presence / absence. Which of these cases is to be investigated is set in advance for the case analysis table generation unit 5 according to the application, It is preferable to display which investigation is to be performed on a display device or the like, and to enable input to the case analysis table generation unit 5 from the display.
  • the occupation rate is calculated by the reliability analysis unit 6.
  • This occupancy rate means the occupancy rate for the total number of cases included in the classification label when cases are classified as no action, action, no side effect, and side effect. It has a function to show the reliability of the result. For example, in the case of a classification label of “no side effects”, if 5 cases correspond to a certain “gene condition” and 4 cases have no side effects, a classification label of “no side effects” under this gene condition The occupancy rate at 80 is 80%. Therefore, by calculating the occupancy rate, a gene condition in which the number of cases corresponding to the “gene condition” is p or more and the occupancy rate for the classification label is r% or more is selected as an effective gene condition. Judgment is possible.
  • the reliability analysis unit 6 reads the analysis table 11 generated by the case analysis table generation unit 5 from the case analysis table generation unit 5 or the analysis table 11 stored in the database 3 and calculates the occupation rate.
  • gene conditions effective for classification are extracted.
  • Gene conditions effective for this classification are extracted by the discriminant generation unit 7.
  • the discriminant generation unit 7 can extract a gene condition in which the number of cases is p or more and the occupation rate of the classification label is r or more as an effective gene condition.
  • the discriminant generation unit 7 combines the extracted gene conditions into a discriminant. Specifically, a screen that prompts the user to input “p” as the threshold value for the number of cases and “r” as the threshold value for the occupation rate is displayed on a display device or the like not shown in FIG.
  • the discriminant generation unit 7 selects “gene conditions” that match those numerical values, or selects desired “p” or “ The value “r” is stored in the database 3 and automatically read out, or a plurality of desired “p” and “r” are stored so that they can be read out as selectable parameters.
  • the “gene condition” that matches this is selected and combined to generate a “discriminant”.
  • the threshold value does not always select both the number of cases and the occupancy rate, and may be only one of them. However, it is desirable to combine these in consideration of the accuracy of gene condition extraction and the application range.
  • the threshold value affects the type of drug and the number of cases included in the case data, so it cannot be said that it is generally desirable. It may be determined as desired according to the amount of case data.
  • the selected “gene condition” may be a simple substance or a combination thereof as described above.
  • a gene condition for a certain purpose or a complex obtained by combining a plurality of gene conditions becomes a “discriminant” as described above.
  • the discriminant generation unit 7 stores the discriminant thus obtained as discriminant data 12 in the database 3 so as to be readable.
  • the number of “gene conditions” included in the “discriminant” is not constant and varies depending on the type of gene and the type of genotype, and also varies depending on the number of cases and the occupation ratio. Even if the same number of cases and occupancy are provided, the combination of “gene conditions” constituting the “discriminant” is not constant and can be organized (step S5). That is, in the case where the same number of cases and occupation ratio are provided, it is generally desirable that the genetic conditions constituting the discriminant are small.
  • genetic conditions are selected based on medical knowledge.
  • Conditions (medical knowledge condition 16) based on medical knowledge regarding the presence / absence of drug action / side effects are stored in the database 3 in advance, and are read out by the discriminant optimization unit 8 before being discriminated.
  • the medical knowledge condition 16 may be subtracted (the medical knowledge condition 16 is clinically reliable). In the case of low conditions), or when it is not included in the discriminant, it is preferable to add the medical knowledge condition 16 (when the medical knowledge condition 16 is clinically reliable condition).
  • the medical knowledge condition 16 specifically refers to, for example, conditions relating to the following knowledge, but is not limited to these, and the following knowledge is also current knowledge, and is corrected. Is not necessarily universal. 1) Side effects occur when irinotecan is administered and has a UGT1A1 * 28 (TA7 / TA7) genotype. 2) There is no side effect when having a Wild type.
  • the discriminant optimization unit 8 executes the deletion of redundant gene conditions constituting the discriminant and the deletion or addition of the medical knowledge gene condition 16 for convenience, but the discriminant generation unit 7 etc.
  • any element that optimizes the discriminant is provided in the drug action / side effect prediction system 1 and can be executed.
  • the name is not limited.
  • the deletion of redundant gene conditions constituting the discriminant and the deletion or addition of medical knowledge conditions 16 have been described in this order. However, it is not always necessary to execute in this order, and they may be performed in the reverse order. The deletion / addition of the medical knowledge condition 16 may be performed selectively (optionally).
  • this genetic condition is discriminant. Should not be used for On the other hand, the number of cases with a certain genotype combination is statistically small, but when this genotype combination is present, a genotype combination with a high probability of side effects is selected as an effective genetic condition. This gene condition may not be incorporated into the discriminant because the number of applicable cases is low. Such gene conditions can be used in discriminants without considering combinations of gene conditions. Data on such genetic conditions may be included in the medical knowledge condition 16.
  • discriminants having a specified reliability R (> r)% or more are designed by combining the selected effective gene conditions.
  • R the degree of reliability of the gene conditions
  • Combinatorial optimization may increase reliability compared to a case where optimization is not performed.
  • the number of genetic conditions used in the discriminant may decrease, the number of correct classifications (corresponding number) and the occupation ratio for cases in the case database is not reduced by combination optimization.
  • the genetic condition combination optimization is executed by the discriminant optimization unit 8. Next, a method for designing a discriminant having a reliability of R% or higher by combination optimization in step S7 will be described.
  • the discriminant is designed by combining the conditions that the occupation ratio for the classification label is R% or more by OR operation.
  • combination optimization by combining conditions with an occupation ratio of R% or higher for classification labels (hereinafter referred to as candidate conditions), the number of cases corresponding to the discriminant is large, and the occupation ratio of classification labels is increased.
  • Search for the right combination In the combination search, a combination (discriminant) of gene conditions is evaluated based on the number of cases corresponding to the first, and the occupancy ratio for the second classification label, and the combination is searched for using a feature selection algorithm SFFS (Sequential Forward Floating Search). .
  • SFFS Simple Forward Floating Search
  • FIG. 4 shows a combination optimization procedure executed by the discriminant optimization unit of the drug action / side effect prediction system according to the present embodiment.
  • This combination optimization procedure is shown as step S7 in FIG.
  • Y is a set of all candidate gene conditions
  • X k is a set of k gene conditions included in the discriminant
  • d is an initial number of gene conditions
  • J is an evaluation function of the discriminant
  • d 2 is an optimization Indicates the number of combinations at the end.
  • the discriminant (gene condition set X k )
  • the gene condition y j * that maximizes the performance is searched (step T2). Furthermore, the gene condition y j * selected in step T2 is added to the discriminant (gene condition set X k ) (step T3), and the variable k indicating the number of selected gene conditions is incremented by 1 (step T4).
  • the addition of the candidate condition is executed in the discriminant optimization unit 8, and in this discriminant optimization unit 8, the candidate condition is added to the combination of k gene conditions that have already been selected.
  • step T2 When a combination of k + 1 gene conditions generated by adding one is used as a new discriminant, among candidate conditions that maximize the number of cases (number of hits) of classification labels corresponding to the new discriminant Then, a candidate condition that maximizes the occupation rate for the classification label is searched (step T2), and this is added to a combination of k gene conditions (step T3), and a new discrimination including a combination of k + 1 conditions is performed. An expression is generated (step T4).
  • the discriminant performance referred to in the present application is shown in FIG. 5, and first refers to the number of hits (the number of regular classifications), and second refers to the occupation ratio.
  • a discriminant whose performance is improved over the previous combination by deleting the gene condition from the combination using the discriminant optimization unit 8.
  • Search for existence Selection already in the selected gene condition set X k, explore the discriminant performance is maximized gene condition y ⁇ j * by removing from the gene condition set X k (step T5), at step T5
  • By deleting the generated gene condition y ⁇ j * it is determined whether or not the performance exceeds the discriminant (gene condition set X k-1 ) consisting of the previous k-1 gene conditions (step T6). . If the performance exceeds, the process proceeds to Step T7, and if not, the process proceeds to Step T9.
  • the deletion of the gene condition is executed in the discriminant optimization unit 8, but is generated by deleting one deletion candidate condition from among the k gene condition combinations that have already been selected.
  • Search for a deletion candidate condition that maximizes the number of classification label cases corresponding to the discriminant candidate and maximizes the occupancy rate for the classification label among the k-1 combinations of gene conditions (Step T5), if the discriminant candidate when this is deleted exceeds the number of cases of the corresponding classification label from the previous discriminant consisting of a combination of k-1 gene conditions, or the corresponding classification label It is determined whether the number of cases is equal and exceeds the occupation rate for the classification label (step T6). In such a case, the deletion candidate condition is deleted from the combination, and the k-1 gene condition combination Update (step T7). In other cases, the process proceeds to step T9.
  • step T7 the gene condition y ⁇ j * selected in step T5 is deleted from the gene condition set Xk .
  • step T8 the variable k representing the number of selected gene conditions is decreased by one.
  • step T9 it determines whether the threshold is reached d 2 which is a combination k of genes conditions specified. It terminates the optimization when the combination k of genes conditions reach a specified threshold d 2. Otherwise, the process proceeds to step T2.
  • step S7 shown in FIG.
  • the discriminant optimization unit 8 repeatedly deletes gene conditions. . If the gene condition is not deleted, the discriminant optimization unit 8 adds the gene condition.
  • the introduction of the medical knowledge condition 16 in advance allows the optimization of the optimization by individually setting whether or not to include the medical knowledge condition 16 included in the combination as a candidate for deletion. It is possible to specify whether or not the medical knowledge condition 16 has a possibility of being deleted by the discriminant optimization unit 8 in the process.
  • discriminant optimization unit 8 After repeated Remove Add appropriate, and terminates the combinational optimization upon reaching a threshold d 2 combination numbers of genes conditions are specified (step T9) is the threshold
  • the value may be input from the outside when the optimization step is executed, or data relating to threshold values or a data table relating to a plurality of threshold values are stored in the database 3 in advance, and the optimization step is performed. At the time of execution, the data may be read out, or the data table may be shown on the display device so that it can be selected by the discriminant optimization unit 8.
  • the discriminant for which the number of cases for the corresponding classification label is the maximum and the number of combinations for the gene condition is the smallest among the ones with the largest occupation for the classification label Is finally determined as a discriminant.
  • Such discriminant determination requirements may be stored in the database 3 in advance or stored in the discriminant optimization unit 8.
  • the discriminant optimization unit 8 executes addition and deletion of gene conditions. However, addition and deletion are performed independently by including, for example, first and second discriminant optimization units, respectively. It goes without saying that it may be executed.
  • FIG. 5 shows an example of the number of combinations of gene conditions and the transition of performance by the combination optimization of gene conditions, which is executed using the discriminant optimization unit 8 of the drug action / side effect prediction system 1 according to the present embodiment.
  • One genetic condition is added so that the performance is the highest when the d combinations are combined.
  • the performance refers to the number of cases corresponding to the combination of genetic conditions when the number of cases corresponding to the combination of genetic conditions is large, that is, the case of excellent versatility (classification).
  • the circle 4 which is the case where the number of combinations of the gene condition in the discriminant is the same is higher than the circle 2, but the discriminant having a different number of combinations of the gene condition. (For example, circle 3 and circle 4) Therefore, the circle 4 may have a higher performance than the circle 3 and may be lower.
  • the circle 4 is shown at the upper right of the circle 3, and the difference in performance between the circle 2 and the circle 4 is indicated by an inequality sign. .
  • the performance is not improved. Therefore, one gene condition is added and the combination is changed to the circle 5.
  • the performance of the combination of circles 11 will not improve no matter which gene condition is added.
  • the gene condition to be added alone is preferentially added to the combination with a high occupation rate for the classification label.
  • the combination of circles 11 having the highest performance and the smallest number of combinations is adopted as the discriminant.
  • FIG. 6 shows the combination of genotypes and presence / absence of side effects when considering the two genotypes A and B (Homo, Hetero, Wild) in the drug action / side effect prediction system according to the present embodiment. It is the conceptual diagram which matched the case, (b) is a conceptual diagram which shows the state which produced
  • the case data 10 used for generating the discriminant expression is 20 cases, and in FIG. 6, a case having a side effect is indicated by ⁇ , and a case having no side effect is indicated by ⁇ .
  • the reliability analysis unit 6 of the drug action / side effect prediction system 1 examines the number of cases of “with side effect” and “no side effect” as the classification label for each of the 15 gene conditions. Is calculated. Table 1 shows the number of cases and occupancy for each gene condition. A symbol “-” in the column indicating the gene type (genotype) means that no genotype is designated.
  • gene condition 1 (gene A (Homo)) is selected by the discriminant optimization unit 8 from the gene conditions extracted by the discriminant generation unit 7 as the first gene condition.
  • the discriminant optimization unit 8 adds the gene condition 11 (gene A (Hetero) and gene B (Hetero)) that maximizes the number of normal classifications in combination with this gene condition to the discriminant.
  • the discriminant optimization unit 8 addition and deletion of gene conditions (by the discriminant optimization unit 8) can be repeated to calculate up to 4 combinations.
  • the discriminant by the combination of gene conditions 1 and 11 is the highest. Since it has performance, the following description is omitted. Therefore, the discriminant with side effects generated from the gene A type and the gene B type (with a reliability of 70% or higher) is ((gene A (Homo)) or (gene A (Hetero) and gene B (Hetero)). ) If a side effect (reliability 70% or higher) is predicted by the discriminant generated for the 20 cases used in this example, 10 out of 20 cases are predicted to have side effects. Of the 10 cases classified as having side effects, 9 cases actually had side effects and 1 case had no side effects.
  • the prediction unit 4 of the drug action / side effect prediction system 1 uses the discriminant data 12 constructed by the discriminant design unit 2 for the patient 15 to be the target of the action / side effect prediction. , Predict action and side effects.
  • discriminant data 12 constructed by the discriminant design unit 2 for the patient 15 to be the target of the action / side effect prediction.
  • Predict action and side effects For classification labels A and B (for example, with and without side effects), a plurality of discriminants generated by changing the reliability (hereinafter, discriminants may be used in the same meaning as discriminant data 12) Use.
  • R 1 , R 2 ,..., R m1 (R 1 > R 2 >...> R m1 ), R 1 , R 2 ,..., R m2 (R 1 > R 2 >...> R m2 ), Discriminant A (R 1 ), discriminant A (R 2 ),..., Discriminant A (R m1 ), discriminant B (R 1 ), discriminant B (R 1 ),. (R m2 ) is used.
  • a discriminant with 100% reliability with a small number of corresponding cases in the case data 10 of the database 3 has a small number of corresponding cases.
  • the classification result 13 with high reliability is obtained when this discriminant is applicable, and therefore, it is an effective discriminant for making a diagnosis with high confidence.
  • a discriminant with a reliability of 70% which has a relatively large number of cases in the case data 10 of the database 3, has a lower degree of confidence but a highly versatile diagnosis than a discriminant with a reliability of 100%. This is an effective discriminant.
  • a plurality of discriminants are used for prediction, but the result of investigating whether or not the genetic conditions of each discriminant are met is referred to as a classification result 13, and among these, the one adopted as the determination of the patient 15 is predicted. Result 14.
  • the data of the combination of gene and genotype related to the patient 15 to be predicted is examined for whether the classification A and classification B correspond to the discriminant in descending order of reliability, and when the patient meets the gene condition of the discriminant, The reliability of the discriminant is set as the reliability of the classification result 13. At this time, if it falls under only the discriminant of either class A or B, the classification result 13 is adopted, and if it falls under any of the discriminants of class A or B, the classification with high reliability is adopted. The result 13 is adopted. In addition, if both the classification A and the classification B are applicable and the reliability of the corresponding discriminant is equal, or if none of the discriminants of the classification A and the classification B is applicable, the determination is put on hold.
  • the discriminant of “with side effect” is designed with a reliability of 100%, 80% or more, 70% or more, and the discriminant of “no side effect” is set with a reliability of 100%, 80% It is assumed that the design is made with 70% or more. If patient C falls under the discriminant formula (with confidence of 80% or higher) and “no side effect” does not fall under any discriminant, the prediction for patient C is “with a confidence level of 80% or higher.
  • FIG. 7 is a conceptual diagram showing a method of estimating the reliability when determination is suspended in the drug action / side effect prediction system according to the present embodiment. This function is exhibited when the prediction unit 4 works together with the case analysis table generation unit 5, the reliability analysis unit 6, and the discriminant generation unit 7.
  • the occupancy rate in the discriminant that gives the occupancy rate is the reliability that the patient X is “having a side effect”.
  • the determination unit 4 is put on hold, the fact is displayed on a display device or the like, and at the same time, whether or not to perform estimation is determined.
  • the case analysis table generation unit is displayed according to the display of the classification label.
  • the case analysis table generation unit 5 adds the data of the patient to the analysis table 11 as case data 10 of the classification label. Further, the case analysis table generation unit 5 stores the analysis table 11 in the database 3 so as to be readable. Thereafter, the reliability analysis unit 6 reads the analysis table 11 to calculate the occupation ratio, and the discriminant generation unit 7 generates a discriminant in the same manner as the extracted gene condition described above. The prediction unit 4 estimates the reliability in one of the following two cases in the discriminant thus generated.
  • the discriminant for “no side effect” is redesigned assuming that patient X is “no side effect”
  • the occupation rate in the discriminant that gives the maximum occupation rate that patient X is classified as “no side effect” is The reliability is that patient X is “no side effects”.
  • the reliability at the time of classification is low, “determination pending” can be set without classification.
  • the threshold value about the reliability at this time may be stored in the database 3 in advance, or input when a display prompting selection of whether or not to make an estimation pending and to make an estimation is displayed. You may make it prompt, and you may memorize
  • the system invention has been described. However, considering the system shown in FIG. 1 as a general-purpose computer and executing the flowchart shown in FIG. The above description is valid as a description of an embodiment of a program that generates discriminant data 12 from the analysis table 11 and outputs a prediction result regarding the presence / absence of a drug action / side effect while the computer executes each process.
  • the actions and effects according to the embodiment of the program are the same as the actions and effects according to the embodiment of the drug action / side effect prediction system described above.
  • Example 1 prediction of action and side effects when the anticancer drug irinotecan is administered is shown as Example 1.
  • the effects and side effects were predicted by the 6 gene types of UGT1A1 * 28, UGT1A1 * 6, UGT1A9 * 22, UGT1A7-N129K, UGT1A1 * 60, UGT1A7-57T / G
  • grades 0-2 for neutropenia or leukopenia are labeled as “no side effects”
  • grades 3 and 4 are labeled as “with side effects”.
  • SD and PD were labeled as “no effect”.
  • 37 cases (52.1%) are “no side effects”
  • 34 cases (47.9%) are “side effects”
  • 23 cases (33.3%) are “effective”
  • Forty-six cases (66.7%) were “no effect” and the remaining two cases were “not evaluated”.
  • the discriminant is generated with the reliability set to 100%, 80% or more, 70% or more for both “no side effect” and “with side effect”, and the reliability is 100 for “effective” in the prediction of action.
  • Tables 2 to 8 show a list of effective gene conditions and examples of optimization results.
  • Table 9 shows the prediction results for 73 cases. Taking Table 2 as an example, how to read the table will be described.
  • Table 2 shows effective gene conditions for predicting “effective” in which irinotecan works effectively, and the result of optimization of the combination thereof.
  • the first row of the table shows “effective” occupancy ratio of 70% or more and the number of hits in 71 cases (CR / PR: effective, SD / PD: ineffective and total), and occupancy (CR / PR) : Effective and SD / PD: No effect).
  • the gene conditions are six genes UGT1A1 * 28, UGT1A1 * 6, UGT1A9 * 22, UGT1A7-N129K, UGT1A1 * 60, UGT1A7-57T / G in order from the left, Wild, Hetero, Homo or blank (not specified) ).
  • the first gene condition indicates that UGT1A1 * 6 is G / A and UGT1A9 * 22 is T10 / 10, and the number of hits of CR / PR under this gene condition is one example.
  • the number of hits of SD / PD is 0, and the occupation ratio is 100.0% (CR / PR) and 0.0% (SD / PD).
  • the 24th gene condition indicates that UGT1A7N129K is G / G, UGT1A1 * 60 is T / G, and UGT1A7-57T / G is T / G.
  • the number of hits in CR / PR is 3 and the number of hits in SD / PD is 1 and the occupancy is 75.0% (CR / PR) and 25.0% (SD / PD) Is shown.
  • the number of hits of CR / PR is 7 examples
  • the number of hits of SD / PD is 1 example
  • the occupation ratio is 87.5% (CR / PR) and 12 .5% (SD / PD).
  • Example 2 the action / side effect prediction when the anticancer drug irinotecan is administered to 6 genes in 1st line and 2nd line is shown as Example 2.
  • Case data, classification method, and the like are the same as those in the first embodiment, and the discriminant is generated for each of the 1st line and 2nd line case data separately.
  • Tables 10 to 16 show examples of gene conditions effective in the 1st line and examples of optimization results
  • Tables 17 to 23 show examples of gene conditions effective in the 2nd line and examples of optimization results.
  • Table 24 shows the prediction results for 73 cases.
  • the prediction performance is improved by separating the 1st line and the 2nd line.
  • Predictive performance is improved by giving genetic conditions other than genotypes to predict drug action and side effects.
  • it is possible to generate a discriminant with high prediction performance by, for example, dividing by sex, presence / absence of other diseases, age group, and the like.
  • the inventions described in claims 1 to 12 of the present invention can be used in the medical field and bioinformatics field, and new drug research and development in pharmaceutical manufacturers, these manufacturers or universities It can be used for testing and research on the effects and side effects of pharmaceuticals in research institutions, and for clinical and medical activities in medical institutions.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 薬剤の作用・副作用などの予測目的に応じて、関連すると考えられる遺伝子型を組合せることにより予測のための判別式を自動生成し、高い信頼性で予測することが可能な薬剤の作用・副作用予測システムとそのプログラムを提供することである。 薬剤の作用又は副作用に関与する可能性のある遺伝子について生ずる遺伝子型の組合せ毎に、作用又は副作用の有無に関する症例(10)を対応させる解析テーブル(11)を生成する症例解析テーブル生成部(5)と、解析テーブル(11)における遺伝子とそれに対する遺伝子型の組合せ(遺伝子条件)のうち少なくとも1つを選択して、作用・副作用の有・無の症例数についての占有率を演算する信頼度解析部(6)と、占有率の演算を行った遺伝子条件から該当するもの抽出して判別式を生成する判別式生成部(7)と、判別式を用いて予測を行う予測部(4)を有する。

Description

薬剤の作用・副作用予測システムとそのプログラム
 本発明は、薬剤の作用又は副作用に関与する可能性のある遺伝子における遺伝子型の組合せ毎に、薬剤投与によって生ずる作用又は副作用の有無に関するデータを集め、その薬剤に対する作用又は副作用の発生に関する判別式を遺伝子型の組合せによって構築し、その判別式の精度を高めつつ、適用範囲を広げることで薬剤に対する作用・副作用を高い信頼性と汎用性をもって予測するシステムとそのプログラムに関する。
 がん治療の困難性はその多様性にあるといわれており、がん治療のための個別化医療が求められている。がん治療のために抗がん剤を投与する際に、個人によってその効果や副作用の有無が異なる。最悪の場合には効果はないが副作用のみがある場合も起こりうる。したがって、抗がん剤などの薬剤を投与する際に、薬剤の作用や副作用を正確に予測することは、薬剤の投与などの診断方法を決定する上で極めて重要である。
 抗がん剤の副作用の予測に関して、遺伝子型と副作用の関連性についての数多くの研究がなされている。従来の遺伝子型と抗がん剤の副作用との関連性についての研究では、単独あるいは高々2つの遺伝子型の組合せまでしか考慮されておらず、3つ以上の組合せとの関連性はあまり調査されていない(非特許文献1)。
 また、遺伝子多型の代わりに、遺伝子の発現量による診断方法も研究されている。特許文献1では、384個の候補遺伝子から個別にマンホイットニーのU検定により有効な遺伝子52個を抽出し、抽出した52個の遺伝子の発現量から予測スコアを算出し、スコア値により診断する方法が述べられている。しかしながら、遺伝子単独での診断性能は低くても、組み合せたときの診断性能が高い遺伝子を抽出できない。また、スコア式を1つ設計しているが、遺伝子や遺伝子多型の複雑な問題では、1つのスコア式だけでは高い診断性能が得られない場合もある。
 また、症例データベースを利用した支援診断システムも開発されている。
 特許文献2に開示される「診療支援システム」ではオペレータが、遺伝子型、年齢、性別などから、検索キーを指定して、データベース上の該当するデータを検索し、該当する症例データの一覧を集計し、抗がん剤の作用・副作用に関する統計データや関連性の高い症例データを医師に提供することができる。しかしながら、検索キーはオペレータが指定する必要があり、検索に用いる有効な検索キーがわからない場合には、信頼性の高い予測をすることは困難である。
佐井,澤田,南:日本人がん患者のイリノテカン個別化治療実現に向けて:UGT1A1遺伝子多型(*28および*6)の意義について,YAKUGAKU ZASSHI,128(4),2008.
特開2003-61678号公報 特開2005-202547号公報
 患者1人1人は多様な背景を持っているため、薬剤の作用・副作用を正確に予測することは困難である。また、作用・副作用のメカニズムは複雑であり、従来のように単独あるいは高々2つの遺伝子型を用いるだけでは薬剤の作用・副作用の予測は困難である。より多くの因子の組合せを用いて薬剤の作用・副作用を予測することができれば、より信頼性や汎用性の高い診断が可能になる。
 また、従来の症例データベースを利用した支援診断システムではオペレータが検索キーを指定して、データベースの該当するデータを検索し、関連する症例を検索することにより抗がん剤の作用・副作用を予測する必要がある。しかしながら、検索キーはオペレータが指定する必要があり、予測に有効な検索キーが明らかでない場合には、信頼性の高い予測をすることは困難である。目的に合った判別式を自動構築できれば、オペレータが検索式を作成する必要もなくなり、効率的に信頼性や汎用性の高いデータを利用することができる。
 本発明はかかる従来の事情に対処してなされたものであり、薬剤の作用・副作用などの予測目的に応じて、関連すると考えられる遺伝子型を組合せることにより予測のための判別式を自動生成し、高い信頼性と汎用性で予測することが可能な薬剤の作用・副作用予測システムとそのプログラムを提供することを目的とする。
 また、本発明による解析は、遺伝子型のほかに、性別や年齢、遺伝子の発現量なども因子として用いることが可能である。
 上記目的を達成するため、請求項1記載の発明である薬剤の作用・副作用予測システムは、薬剤の作用又は副作用に関与する遺伝子型の組合せ(以下、遺伝子条件という)毎に、前記作用又は副作用の有無に関する症例を対応させる解析テーブルを生成する症例解析テーブル生成部と、
 前記解析テーブルにおける遺伝子条件のうち少なくとも1つを選択して、前記作用又は副作用の有又は無の症例数についての占有率を演算する信頼度解析部と、前記占有率に対する所望のしきい値を基準として、前記信頼度解析部において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成する判別式生成部と、薬剤の作用又は副作用の有無に関する検体の遺伝子型に関するデータを前記判別式に含まれる遺伝子条件毎に比較照合して、前記判別式と整合することにより前記検体の前記薬剤の作用又は副作用の有無に関する予測を行う予測部と、を有するものである。
 上記構成の薬剤の作用・副作用予測システムでは、症例解析テーブル生成部が薬剤に対する作用・副作用の有無に関する症例について遺伝子条件毎に対応させたテーブル(一覧表)を生成する作用を有し、信頼度解析部は、そのテーブルから遺伝子条件のうち少なくとも1つを選択して作用・副作用の有・無の症例数についての占有率を演算する作用を有する。判別式生成部は、この占有率に対するしきい値を基準として該当する遺伝子条件を抽出する作用と判別式を生成する作用を有する。この判別式に含まれる遺伝子条件が、薬剤に対する作用・副作用の有・無に関する予測のための情報となるものである。
 また、請求項2に記載の発明である薬剤の作用・副作用予測システムは、請求項1記載の薬剤の作用・副作用予測システムにおいて、前記判別式生成部は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記信頼度解析部において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成するものである。
 この薬剤の作用・副作用予測システムにおいては、判別式生成部が、占有率に対する所望のしきい値のみならず、症例数の有・無に対するしきい値をも基準として遺伝子条件を抽出する作用を有する。
 そして、請求項3に記載の発明である薬剤の作用・副作用予測システムは、請求項2記載の薬剤の作用・副作用予測システムにおいて、前記判別式生成部において抽出された遺伝子条件のうち,前記占有率に対する所望の前記しきい値に該当する遺伝子条件であって,かつ前記症例数に対する所望の前記しきい値に該当している遺伝子条件のうち,前記判別式生成部で生成された判別式に加えることで、加えられた後の全体の判別式における,前記占有率又は症例数が増加する前記遺伝子条件を選択して前記判別式に追加する機能及び/又は、前記生成された判別式から減ずることで、減じた後の全体の判別式における,前記占有率又は症例数が増加する遺伝子条件を選択して削除する機能を、備えた判別式最適化部と、を有するものである。
 この薬剤の作用・副作用予測システムにおいては、請求項2に記載の発明の作用に加えて、判別式最適化部が、判別式生成部によって抽出された遺伝子条件の中から、判別式に加えることで占有率が演算された判別式における占有率又は症例数が増加する遺伝子条件を選択して判別式に加える作用を有したり、また、逆に、判別式最適化部が、判別式生成部によって抽出された遺伝子条件の中から、減ずることで減じた後の全体の判別式における占有率又は症例数が増加する遺伝子条件を選択して削除する作用を有する。
 さらに、請求項4に記載の発明である薬剤の作用・副作用予測システムは、請求項2又は請求項3に記載の薬剤の作用・副作用予測システムにおいて、前記生成された判別式に含まれる遺伝子条件のうち、一の遺伝子条件における前記占有率及び症例数と、他の遺伝子条件における前記占有率及び症例数とが共通する場合に、前記他の遺伝子条件を前記生成された判別式から削除する判別式最適化部を有するものである。
 上記構成の薬剤の作用・副作用予測システムでは、請求項2又は請求項3に記載の発明の作用に加えて、判別式最適化部は異なる判別式において占有率が演算された遺伝子条件における占有率及び症例数が共通した場合に、いずれか一方の判別式を生成された判別式から削除する作用を有する。
 請求項5に記載の発明である薬剤の作用・副作用予測システムは、請求項3又は請求項4に記載の薬剤の作用・副作用予測システムにおいて、前記判別式最適化部は、予めデータベースに格納された前記薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件(以下、医学的知見条件という)を読み出して、前記抽出された遺伝子条件を探索し、前記抽出された遺伝子条件がその医学的知見条件を含む場合にその医学的知見条件を差し引くようにする機能と、前記抽出された遺伝子条件に含まれていない場合に、前記医学的知見条件を加えるようにする機能とを有するものである。
 上記構成の薬剤の作用・副作用予測システムの作用は上記の請求項3又は請求項4に記載の発明の作用に加えて、判別式最適化部が、医学的知見条件を追加あるいは削除するように作用する。
 請求項6に記載の発明である薬剤の作用・副作用予測システムは、請求項2乃至5のいずれか1項に記載の薬剤の作用・副作用予測システムにおいて、前記症例解析テーブル生成部は、前記検体の遺伝子条件に関するデータを薬剤の作用又は副作用の有無に関して分類しながら解析テーブルに追加し、前記信頼度解析部は、前記解析テーブルを読み出して前記遺伝子条件のうちすくなくとも1つを選択して前記占有率を演算し、前記判別式生成部は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記遺伝子条件を抽出して、この遺伝子条件を単独で、あるいは組合せで前記判別式を生成し、前記予測部は、生成された判別式における全体の占有率をその検体が前記薬剤の作用又は副作用の有無に関して分類される信頼度の推定値として予測するものである。
 上記構成の薬剤の作用・副作用予測システムでは、請求項2乃至請求項5のいずれか1項に記載の発明の作用に加えて、予測部が検体の,薬剤の作用又は副作用の有無に関する推定値を予測として演算する作用を有する。
 請求項7に記載の発明である薬剤の作用・副作用予測プログラムは、コンピュータによって、薬剤の作用・副作用を予測するために実行されるプログラムであって、コンピュータに、薬剤の作用又は副作用に関わる遺伝子条件毎に、前記作用又は副作用の有無に関する症例を対応させる解析テーブルを生成する症例解析テーブル生成工程と、前記解析テーブルにおける遺伝子条件から形成される遺伝子条件のうち少なくとも1つを選択して、前記作用又は副作用の有又は無の症例数についての占有率を演算する信頼度解析工程と、前記占有率に対する所望のしきい値を基準として、前記信頼度解析工程において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成する判別式生成工程と、薬剤の作用又は副作用の有無に関する検体の遺伝子条件に関するデータを前記判別式に含まれる遺伝子条件毎に比較照合して、前記判別式と整合することにより前記検体の前記薬剤の作用又は副作用の有無に関する予測を行う予測工程と、を実行させるものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項1に記載される発明と同様である。
 請求項8に記載の発明である薬剤の作用・副作用予測プログラムは、請求項7記載の薬剤の作用・副作用予測プログラムにおいて、前記判別式生成工程は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記信頼度解析工程において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件と単独で、あるいは組み合わせて判別式を生成するものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項2に記載の発明と同様である。
 請求項9に記載の発明である薬剤の作用・副作用予測プログラムは、請求項8に記載の薬剤の作用・副作用予測プログラムにおいて、前記判別式生成工程において抽出された遺伝子条件のうち,前記占有率に対する所望の前記しきい値に該当する遺伝子条件であって,かつ前記症例数に対する所望の前記しきい値に該当している遺伝子条件のうち,前記判別式生成工程で生成された判別式に加えることで、加えられた後の全体の判別式における,前記占有率又は症例数が増加する前記遺伝子条件を選択して前記判別式に追加するステップ及び/又は、前記生成された判別式から減ずることで、減じた後の全体の判別式における,前記占有率又は症例数が増加する遺伝子条件を選択して削除するステップを、備えた判別式最適化工程と、を有するものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項3に記載の発明と同様である。
 請求項10に記載の発明である薬剤の作用・副作用予測プログラムは、請求項8又は請求項9に記載の薬剤の作用・副作用予測プログラムにおいて、前記生成された判別式に含まれる遺伝子条件のうち、一の遺伝子条件における前記占有率及び症例数と、他の遺伝子条件における前記占有率及び症例数とが共通する場合に、前記他の遺伝子条件を前記生成された判別式から削除する判別式最適化工程を有するものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項4に記載の発明と同様である。
 請求項11に記載の発明である薬剤の作用・副作用予測プログラムは、請求項9又は請求項10に記載の薬剤の作用・副作用予測プログラムにおいて、前記判別式最適化工程は、予めデータベースに格納された前記薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件(以下、医学的知見条件という)を読み出して、前記抽出された遺伝子条件を探索し、前記抽出された遺伝子条件がその医学的知見条件を含む場合にその医学的知見条件を差し引くようにするステップと、前記抽出された遺伝子条件に含まれていない場合に、前記医学的知見条件を加えるようにするステップとを有するものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項5に記載の発明と同様である。
 請求項12に記載の発明である薬剤の作用・副作用予測プログラムは、請求項8乃至請求項11に記載の薬剤の作用・副作用予測プログラムにおいて、前記症例解析テーブル生成工程は、前記検体の遺伝子条件に関するデータを薬剤の作用又は副作用の有無に関して分類しながら解析テーブルに追加し、前記信頼度解析工程は、前記解析テーブルを読み出して前記条件のうち少なくとも1つを選択して前記占有率を演算し、前記判別式生成工程は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記遺伝子条件を抽出して、この遺伝子条件を単独で、あるいは組合せで前記判別式を生成し、前記予測工程は、生成された判別式における全体の占有率をその検体が前記薬剤の作用又は副作用の有無に関して分類される信頼度の推定値として予測するものである。
 このように構成される薬剤の作用・副作用予測プログラムにおいては、その作用は請求項6に記載の発明と同様である。
 本発明の薬剤の作用・副作用予測システムでは、薬剤の作用・副作用などの予測目的に応じて、多くの遺伝子条件と症例を組み合わせることにより判別式を自動生成し、高い信頼性と汎用性を発揮しながら予測することが可能である。
 予測に用いる判別式は症例に関するデータを基に自動生成されるため、薬剤と作用・副作用に関する専門的な知識を持たないオペレータであっても容易に予測を行うことができる。遺伝子条件に用いる因子としては遺伝子型を考えた。
 本発明による薬剤の作用・副作用予測システムでは、従来の少数の因子を組み合わせた遺伝子条件や、より多数の因子を組み合わせた遺伝子条件を組み合わせて判別式を生成できるため、従来の予測性能を上回る予測システムを実現できる。また、複数の遺伝子条件をOR演算により組合せることにより判別式を生成するため、汎用性の高い予測システムを設計することができる。また、症例データベースに蓄積されているデータの統計にもとづき、予測結果に対して個別に信頼度を提示することができる。さらに、単に工学的に因子を組み合わせて判別式を設計するだけでなく、医学的な知見を導入することにより、より信頼性の高い判別式を設計することができる。
 特に、請求項3及び請求項9に記載の発明では、判別式を構成する遺伝子条件の追加及び/又は削除を一定の論理で実行することで、一旦生成された判別式がカバーする症例数と占有率を向上させることができるので、より高い信頼性と汎用性を兼ね備えた判別式による薬剤に対する作用・副作用の有無に関する予測を行うことが可能となる。
 また、特に請求項4及び請求項10では、重複した遺伝子条件式を排除して効率的な判別式を生成することができる。さらに、特に請求項5及び請求項11では、医学的見地条件を反映した判別式を生成することができ、これを反映した予測が可能である。特に請求項6及び請求項12では、予測が何らかの理由によってできない場合に検体のデータを基に推定を行うことができる。
本発明の実施の形態に係る薬剤の作用・副作用予測システムの概念図である。 本実施の形態に係る薬剤の作用・副作用予測システムに用いられる遺伝子型に関する因子、遺伝子条件、判別式の関係を示す概念図である。 本実施の形態に係る薬剤の作用・副作用予測システムによる判別式生成の流れを示すフローチャートである。 本実施の形態に係る薬剤の作用・副作用予測システムの判別式最適化部によって実行される組合せ最適化の手順を示すフローチャートである。 本実施の形態に係る薬剤の作用・副作用予測システムを用いて実行される、遺伝子条件の組合せ最適化による遺伝子条件の組合せ数と性能の推移の例を示す 本実施の形態に係る薬剤の作用・副作用予測システムにおいて、A,B2つの遺伝子型(Homo、Hetero、Wild)を考慮した場合の遺伝子型の組合せと副作用の有無の症例を対応させた概念図である。 本実施の形態に係る薬剤の作用・副作用予測システムにおいて判定保留となった場合の信頼度の推定方法を示す概念図である。
 1…薬剤の作用・副作用予測システム
 2…判別式設計部 
 3…データベース 
 4…予測部
 5…症例解析テーブル生成部
 6…信頼度解析部
 7…判別式生成部
 8…判別式最適化部
 10…症例データ
 11…解析テーブル
 12…判別式データ 
 13…分類結果 
 14…予測結果 
 15…患者
 16…医学的知見条件
 以下に、本発明の最良の実施の形態に係る薬剤の作用・副作用予測システムを図1乃至図7に基づき説明する。
 図1は、本発明の実施の形態に係る薬剤の作用・副作用予測システムの構成図である。
 本実施の形態に係る薬剤の作用・副作用予測システム1は、大きく分けて判別式設計部2、予測部4及びデータベース3から構成される。
 さらに、判別式設計部2は、症例解析テーブル生成部5と信頼度解析部6と判別式生成部7、判別式最適化部8からなる。
 また、データベース3には、既に医療機関あるいは研究機関などで蓄積された薬剤の作用又は副作用についての有又は無などのデータをはじめ、そのデータを取得した患者(検体)等に関する性別、年齢、住所、薬剤投与履歴(少なくとも薬剤の名称、投与量、投与時期・期間を含む)等の属性データを含む症例データ10、症例解析テーブル生成部5において生成される解析テーブル11、判別式生成部7において生成された判別式データ12、医学的知見条件16が、判別式設計部2から読み出し可能に格納されている。なお、医学的知見条件16とは、薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件であって、臨床的に信頼性の高い条件あるいは信頼性の低い条件として予めデータベース3に格納されるかあるいは判別式設計部2の判別式最適化部8に入力されるものをいう。また、症例データ10については、データベース3に直接入力されて格納されてもよいし、判別式設計部2の症例解析テーブル生成部5に入力して解析テーブル11を生成する際にデータベース3に格納するようにしてもよい。予めデータベース3に格納される場合には、症例解析テーブル生成部5はデータベース3から症例データ10を読み出して解析テーブル11を生成する。
 予測部4では、所望の判別式データ12をデータベース3から読み出して、薬剤投与における作用あるいは副作用の有・無に関する予測を望む患者15に関する遺伝子型の組合せデータ(遺伝子条件データ)の入力を受けて、あるいは予めデータベース3に格納しておいて、これを読み込み、この判別式における遺伝子型の組合せと比較照合することで、判別式との整合性を分類し、その結果を分類結果13として生成し、この分類結果13を踏まえて予測結果14として出力する。
 予測結果14の出力方法については、図1に記載していないものの、液晶ディスプレイ装置などの表示装置や他の機器への送信などを可能とする送信装置などを薬剤の作用・副作用予測システム1に含めて予測部4に接続するか、あるいは別個独立に設けて使用時に薬剤の作用・副作用予測システム1との間でインターフェースを設けて接続するとよい。
 本実施の形態に係る薬剤の作用・副作用予測システム1においては、例えば、n種類の遺伝子についてその各々について生ずるa種類の遺伝子型及び遺伝子型の指定なしを加えて得られる組合せ((a+1)-1)通りを遺伝子条件として用意し、これらの遺伝子条件を組み合わせることにより判別式を生成する。
 従って、症例データ10なども遺伝子条件として用意される組合せに応じて収集されることになる。
 図2に本実施の形態に係る薬剤の作用・副作用予測システムに用いられる遺伝子型に関する因子、遺伝子条件、判別式の関係を示す。
 図2を参照しながら、遺伝子型に関する因子、遺伝子条件、判別式のそれぞれを説明する。
 まず、「因子」であるが、図2には遺伝子型の一例が示されている。本実施の形態における遺伝子にはそれぞれ”Homo“、”Hetero“,”Wild“の3種類の型があり、これらのいずれをも”指定しない“の場合も含めて4種類ある。
 このような場合における「遺伝子条件」の組合せを列挙すると、遺伝子条件1として、遺伝子Aの型がHomoで、遺伝子Bの型は指定なし、他の因子の指定もなしから始まり、遺伝子条件2で遺伝子Aの型をHeteroとして、遺伝子Bの型及び他の因子の指定をなしとし、すべての組合せを検討してそれぞれを遺伝子条件としている。このような遺伝子条件としての組合せは前述のとおり、(a+1)-1となる。
 症例データ10は、薬剤に対する作用・副作用の有・無を患者毎にまとめたものであるが、このような遺伝子条件毎に対応させ、まとめたものが解析テーブル11となるのである。そして、遺伝子条件にこれらの作用・副作用の有・無を対応させたものそれぞれの単体あるいはそれぞれの単体を組み合わせた複合体であって、その目的が薬剤の作用・副作用の有・無の予測であるものを判別式とし、そのデータを判別式データ12としている。図2に示される「判別式」は、遺伝子条件1’と遺伝子条件2’の組合せをもって1つの判別式とするものである。
 図1を参照しながらもう少し説明を加えると、このような判別式は、まず、症例解析テーブル生成部5が、これらの「遺伝子条件」に対して、薬剤に対する作用・副作用の有・無に関する患者15毎の症例データ10を対応させて、解析テーブル11を生成し、信頼度解析部6が、解析テーブル11において、少なくとも1の「遺伝子条件」に対する信頼度(占有率)を解析し、判別式生成部7が、その信頼度の度合いによって「判別式」として生成することで得られるものである。判別式生成部7によって生成された判別式は、判別式データ12としてデータベース3に読み出し可能に格納される。
 信頼の度合いとは、判別式は遺伝子条件の束あるいは複合体であるが、判別式に含まれる遺伝子条件個々の信頼度(占有率)を演算し、個々の遺伝子条件の抽出に該当する症例数を含めて設けられたしきい値との関係を意味するものである。また、そのしきい値を満足するものをまとめて、判別式とするものである。あるいは、遺伝子条件個々の信頼度(占有率)は問題とせず、全体としての信頼度(占有率)を演算することで、遺伝子条件全体としての信頼度(占有率)と該当する症例数をしきい値とすることもでき、その信頼度を満足する遺伝子条件の束(複合体)を判別式としてもよい。あるいは、最も簡単なのは、信頼度(占有率)や症例数に対するしきい値を設けることなく、すべての遺伝子条件を束ねて、それを判別式とする方法も考えられる。
 このような判別式の生成の例について、図3を参照しながら詳細に説明する。
 図3は、本実施の形態に係る薬剤の作用・副作用予測システム1による判別式生成の流れを示すフローチャートである。本図においては、因子として、n種類の遺伝子についてその各々について生ずるa種類の遺伝子型と遺伝子型の指定なしを考慮した組合せを用いる。
 本実施の形態に係る薬剤の作用・副作用予測システム1の症例解析テーブル生成部5では、ステップS1として、n種類の遺伝子についてその各々について生ずるa種類の遺伝子型及び遺伝子型の指定なしを加えて得られる組合せ((a+1)-1)通りを「遺伝子条件」として生成する。
 症例解析テーブル生成部5で生成される遺伝子条件には遺伝子型の指定なしが含まれる場合があるため、遺伝子条件の中にはn未満の遺伝子からなる遺伝子条件も含まれることになる。従って、n未満の遺伝子からなる遺伝子条件が、作用・副作用の有・無に関する分類に有効である場合には、その遺伝子条件を判別式に用いることができる。
 例えば、n種類の遺伝子のうち、1番目と2番目と3番目のみが分類に有効であるような場合は、4番目からn番目の遺伝子型については、「指定なし」が対応する場合が該当することになり、指定なしを加えて構成することでn未満の遺伝子を含めてすべての遺伝子の遺伝子型について遺伝子条件を生成することが可能なのである。
 次に、症例解析テーブル生成部5は、ステップS2として、症例データ10の入力を受けるか、あるいはデータベース3に予め格納された症例データ10を読み出して、遺伝子条件毎に作用または副作用の有・無に関する症例数を調査(チェック)する。このとき、各症例は複数の遺伝子条件に該当する場合、すなわち重複する場合も含まれる。このようにして症例解析テーブル生成部5は、「遺伝子条件」を生成しながら、症例データ10をそれらの遺伝子条件毎に調査して該当するものを対応させて解析テーブル11を生成する。生成された解析テーブル11は、データベース3に格納される。
 なお、薬剤の作用・副作用の有・無の組合せは4通りあるが、このいずれの症例数について調査するかは、用途に応じて予め症例解析テーブル生成部5に対して設定しておくか、表示装置等に対して、いずれの調査を実行するかを表示させ、その中から症例解析テーブル生成部5に対して入力可能としておくとよい。
 さらに、ステップS3では、信頼度解析部6による占有率の演算が実行される。この占有率とは、症例を、作用なし,作用あり,副作用なし,副作用ありなどに分類した際の、その分類ラベルに含まれる症例数の全体の症例数に対する占有率を意味しており、分類結果に対する信頼性を示す機能を有している。例えば、「副作用なし」という分類ラベルの場合において、ある「遺伝子条件」に5症例が該当し、その中で4症例に副作用がない場合には、この遺伝子条件での「副作用なし」の分類ラベルにおける占有率は80%となる。したがって、占有率を演算することで、「遺伝子条件」に該当する症例数がp以上であり、分類ラベルについての占有率がr%以上である遺伝子条件を有効な遺伝子条件として選択するというような判断が可能となる。なお、症例数をp以上とすることで、その遺伝子条件に該当する症例数のカバー率を上げることができ汎用性の機能を発揮させることができる。
 信頼度解析部6は、症例解析テーブル生成部5によって生成された解析テーブル11をそのまま症例解析テーブル生成部5からあるいはデータベース3に格納された解析テーブル11を読み出して占有率を演算する。
 次のステップS4では、分類に有効な遺伝子条件を抽出する。この分類に有効な遺伝子条件は、判別式生成部7によって抽出される。判別式生成部7は、例えば前述のとおり症例数がp以上であり、分類ラベルの占有率がr以上である遺伝子条件を有効な遺伝子条件として抽出することができる。また、判別式生成部7はこの抽出された遺伝子条件を組み合わせて判別式とするのである。
 具体的には、図1には図示されていない表示装置等に症例数のしきい値としての「p」や占有率のしきい値としての「r」の入力を促すような画面を表示して、これらの数値を薬剤の作用・副作用予測システム1に対して入力することで判別式生成部7がそれらの数値に合致する「遺伝子条件」を選択したり、予め所望の「p」や「r」としての値をデータベース3に格納しておき、これを自動的に読み出したり、複数の所望の「p」や「r」を格納しておきパラメータとして選択可能に読み出すことができるようにしておいて、これに合致する「遺伝子条件」を選択し、これらを組み合わせて「判別式」を生成するのである。しきい値は、症例数と占有率の両方を常に選択するものではなく、いずれか一方のみでもよいが、遺伝子条件の抽出の精度と適用範囲を考慮すれば、これを組み合わせることが望ましい。また、このしきい値の値は、薬剤の種類や症例データに含まれる症例数にも影響するため、一概にどの程度が望ましいということは言えず、適宜、利用者が目的や薬剤の種類、症例データの多少によって所望に決定するとよい。
 この選択される「遺伝子条件」は、単体でもよいし、上述のようにそれらを組み合わせてもよい。その分類ラベルにおける、すなわち、一定の目的における遺伝子条件単体あるいは複数の遺伝子条件を組み合わせた複合体が、前述のとおり、「判別式」となるのである。判別式生成部7は、このようにして得られた判別式を判別式データ12として、読み出し可能にデータベース3に格納する。
 「判別式」に含まれる「遺伝子条件」の数は、一定ではなく、遺伝子の種類や遺伝子型の種類によっても変動するものであり、さらに、症例数や占有率によっても変動する。また、同じ症例数や占有率を備えていても、「判別式」を構成する「遺伝子条件」の組合せは一定ではなく、これを整理することも可能である(ステップS5)。すなわち、同じ症例数や占有率を備える場合には、一般的には判別式を構成する遺伝子条件は少ない方が望ましい。
 このことについて、具体的な例を挙げて説明する。
 二つの遺伝子型からなる遺伝子条件Pとこの遺伝子条件Pに三つ目の遺伝子型を組み合わせた遺伝子条件Qとが、該当する症例数および占有率で等しい場合には、遺伝子条件Pと遺伝子条件Qは判別式を構成する遺伝子条件としては冗長である。したがって、このような場合には遺伝子型数が多い遺伝子条件Qを、判別式を構成する遺伝子条件の候補から除外する。例えば、遺伝子条件R((遺伝子A(Homo))かつ(遺伝子B(Homo)))に該当する症例が5例で、遺伝子条件S((遺伝子A(Homo))かつ(遺伝子B(Homo)かつ(遺伝子C(Homo)))に該当する症例が同じ5例であるとき、この2つの遺伝子条件は冗長であると見なす。この場合には、因子(遺伝子の遺伝子型)の組合せ数が多い遺伝子条件Sを有効な遺伝子条件の集合から削除する。このような演算は、判別式を構成する遺伝子条件を判別式最適化部8によって探索することで実行可能である。
 さらに、有効な遺伝子条件の集合の中から、必要に応じて、臨床的に信頼性の高い遺伝子条件や臨床的には信頼性の低い遺伝子条件を取捨選択するようにしておくとよい(ステップS6)。ここでは医学的な知見にもとづき遺伝子条件を選択する。予め薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件(医学的知見条件16)をデータベース3に格納しておき、これを判別式最適化部8が読み出した上で、判別式最適化部8による探索を実施して、判別式がその医学的知見条件16を含む場合には、その医学的知見条件16を差し引くようにしたり(医学的知見条件16が臨床的に信頼性の低い条件の場合)、あるいは、判別式に含まれていない場合に、その医学的知見条件16を加えるようにする(医学的知見条件16が臨床的に信頼性の高い条件の場合)とよい。判別式に含まれていない場合にその医学的知見条件16に加える場合には、常に加えるようにしたり、所定の要件を満たす場合に加えるようにしたり、加える要件を予め判別式最適化部8内に設定しておくか、医学的知見条件16の中に含めておいて、医学的知見条件16をデータベース3から読み出すことで、判別式最適化部8内に作用するようにしておくとよい。
 なお、医学的知見条件16とは、具体的には、例えば、以下のような知見に関する条件をいうが、これらに限定されるものではなく、また、下記の知見も現在における知見であり、修正される可能性もあり必ずしも普遍ではない。
 1)イリノテカンの投与においてUGT1A1*28(TA7/TA7)の遺伝子型をもつ場合には副作用が生じる。
 2)Wildタイプを持つ場合には副作用がない。
 3)Homoタイプを持つ場合には副作用がある。
 例えば、2)、3)の逆の遺伝子条件が判別式に含まれている場合には、副作用の有無についてそれぞれ疑わしい場合が存在する。そこで、医学的知見条件の導入としては、副作用なしの判別式の生成では、Homoタイプが含まれる遺伝子条件を削除し、副作用ありの判別式の生成ではWildタイプが含まれる遺伝子条件を削除するということが考えられる。
 なお、これらは副作用についての知見であり、作用の予測に関しては当てはまるとは言えないものである。
 本実施の形態においては、判別式を構成する冗長な遺伝子条件の削除、医学的知見遺伝子条件16を削除あるいは追加を便宜上、判別式最適化部8が実行するとしたが、判別式生成部7等が実行してもよく、言うなれば、薬剤の作用・副作用予測システム1に判別式を最適化する要素を設けておき、これによって実行されるものであればよい。また、その名称も限定するものではない。さらに、判別式を構成する冗長な遺伝子条件の削除、医学的知見条件16の削除あるいは追加をこの順序で説明したが、この順序で実行する必要は必ずしもなく、逆の順序に行ってもよいし、医学的知見条件16の削除・追加は選択的に(オプションとして)実行されるものでもあってもよい。
 後述する組合せ最適化による判別式の生成では、該当数が多く冗長性が低い遺伝子条件を組み合わせて、少ない遺伝子条件数で信頼性の高い判別式を生成することができる。
 判別式最適化部8と医学的知見条件16を用いて、最適化前に臨床的に信頼性の高い条件として選択することにより、該当数が少ないが臨床的に信頼性が高い条件を判別式に組み込むことができる。一方、症例データ10の中では分類ラベルについての占有率が高いが臨床的には信頼性が低い条件があれば、組合せ最適化の前の段階で削除することができる。
 例えば、データベース3に格納された症例データ10に対しては有効であるとされる遺伝子条件が実際に医学的な知見からは信頼性が低いと判断される場合には、この遺伝子条件は判別式に用いるべきではない。一方、ある遺伝子型の組合せをもつ症例は統計的に見れば少ないが、この遺伝子型の組合せをもつ場合には高い確率で副作用がある遺伝子型の組合せが有効な遺伝子条件として選ばれている場合、この遺伝子条件は該当する症例数が低いため判別式に組み込まれない可能性がある。このような遺伝子条件は遺伝子条件の組合せを考慮せずに判別式に用いることが考えられる。このような遺伝子条件に関するデータも医学的知見条件16に含めておくとよい。
 次に、ステップS7の遺伝子条件の組合せ最適化による判別式の生成では、選択された有効な遺伝子条件を組み合わせて、指定された信頼度R(>r)%以上の判別式を設計する。このとき、組合せ最適化処理が必要ない場合には、指定された信頼度R%以上の全遺伝子条件を組み合わせて判別式とすることも可能である。組合せ最適化により、最適化しない場合と比較して信頼性が高まる場合がある。判別式に使用する遺伝子条件の数が減少する場合はあるが、組合せ最適化により症例データベースの症例に対する正分類数(該当数)や占有率は減少しないようにする。なお、この遺伝子条件の組合せ最適化は、判別式最適化部8によって実行される。
 次に、ステップS7の組合せ最適化による信頼度R%以上の判別式の設計方法を説明する。
 判別式は、分類ラベルについての占有率がR%以上である条件をOR演算により組み合わせて設計する。組合せ最適化では、分類ラベルについての占有率がR%以上である条件(以下、候補条件という)を組み合わせることで、判別式に該当する症例数が多く、分類ラベルについての占有率が高くなるような組合せを探索する。組合せ探索においては、第一に該当する症例数、第二に分類ラベルついての占有率により遺伝子条件の組合せ(判別式)を評価し、特徴選択アルゴリズムSFFS(Sequential Forward Floating Search)により組合せを探索する。
 図4に本実施の形態に係る薬剤の作用・副作用予測システムの判別式最適化部によって実行される組合せ最適化の手順を示す。この組合せ最適化の手順は、図3ではステップS7として示されるものである。図4で、Yは全候補遺伝子条件の集合、Xは判別式に含まれるk個の遺伝子条件の集合、dは初期の遺伝子条件数、Jは判別式の評価関数、dは最適化終了時の組合せ数を表す。
 まず、判別式最適化部8及び医学的知見条件16の導入により判別式に使用する遺伝子条件がd個選択されている場合には、d個の組合せを初期の組合せとし、使用する遺伝子条件が選択されていない場合には初期の組合せを空集合(d=0)とする(ステップT1)。次に、全候補遺伝子条件集合Yから既に選択されている遺伝子条件集合Xに含まれない遺伝子条件の中で、遺伝子条件集合Xに追加することにより判別式(遺伝子条件集合X)の性能が最大になる遺伝子条件y を探索する(ステップT2)。さらに、ステップT2で選択された遺伝子条件y を判別式(遺伝子条件集合X)に追加し(ステップT3)、選択された遺伝子条件数を表す変数kを1増加する(ステップT4)。
 具体的には、候補条件の追加は、判別式最適化部8において実行されるが、この判別式最適化部8では、既に選択されているk個の遺伝子条件の組合せに対して、候補条件を1個追加することで生成されるk+1個の遺伝子条件の組合せを新たな判別式とするとき、新たな判別式に該当する分類ラベルの症例数(該当数)を最大とする候補条件の中で、分類ラベルについての占有率を最大とする候補条件を探索し(ステップT2)、これをk個の遺伝子条件の組合せに追加し(ステップT3)、k+1個の条件の組合せからなる新たな判別式を生成する(ステップT4)のである。
 本願でいう判別式の性能とは、図5に示されるが、第1に該当数(正分類数)をいい、第2に占有率をいう。第1、第2とは優先順位を意味しており、判別式最適化部8では、前述のとおり第1に分類ラベルの該当数を最大とする遺伝子条件を探索し、その後、第2にその中で分類ラベルの占有率を最大とする候補条件を探索するようにしている。
 これは、判別式の信頼性(精度)のみならず、ある程度の汎用性を重視しているためである。従って、汎用性を犠牲にしてもなお信頼性の向上を目的とする場合には、性能としての優先順位を逆にしてもよい。
 次に、判別式最適化部8によって遺伝子条件を追加した後に、同じく判別式最適化部8を用いて、組合せの中から遺伝子条件を削除することにより以前の組合せより性能が向上する判別式が存在するかを探索する。
 既に選択された遺伝子条件集合Xの中で、遺伝子条件集合Xから削除することにより判別式の性能が最大になる遺伝子条件y^ を探索し(ステップT5)、このステップT5で選択された遺伝子条件y^ を削除することにより、以前のk-1個の遺伝子条件からなる判別式(遺伝子条件集合Xk-1)より性能が上回るか否かを判定する(ステップT6)。性能が上回る場合にはステップT7に進み、そうでない場合には、ステップT9に進む。
 具体的には、遺伝子条件の削除は、判別式最適化部8において実行されるが、既に選択されているk個の遺伝子条件の組合せの中から、削除候補条件を1個削除することで生成されるk-1個の遺伝子条件の組合せを判別式候補とする中で、判別式候補に該当する分類ラベルの症例数を最大とし、分類ラベルについての占有率を最大とする削除候補条件を探索し(ステップT5)、これを削除したときの判別式候補が、以前のk-1個の遺伝子条件の組合せからなる判別式より、該当する分類ラベルの症例数を上回る場合、あるいは該当する分類ラベルの症例数が同数であり、分類ラベルについての占有率で上回る場合であるかを判定し(ステップT6)、そのような場合に削除候補条件を組合せから削除し、k-1個の遺伝子条件の組合せを更新する(ステップT7)。その他の場合には、ステップT9へ進むのである。
 なお、ステップT6では、k-1個の遺伝子条件からなる判別式を比較の対象としているが、これはステップT4でkを1つインクリメントしてk=k+1としていることから、ステップT3までのk個と同値となる。
 ステップT7では、ステップT5で選択された遺伝子条件y^ を遺伝子条件集合Xから削除する。ステップT8では、選択された遺伝子条件数を表す変数kを1減少する。
 ステップT9では、遺伝子条件の組合せ数kが指定されたしきい値dに達したか否かを判定する。遺伝子条件の組合せ数kが指定されたしきい値dに達したとき最適化を終了する。それ以外の場合にはステップT2に進む。
 このように図3に示されるステップS7では、初期の組合せ(k=d)に対して、候補条件の追加あるいは削除を繰り返すことにより、判別式に用いる遺伝子条件の組合せを最適化する。
 遺伝子条件の削除が行われた場合には、更に遺伝子条件を削除することでより性能の高い判別式が生成される可能性があるため、判別式最適化部8によって遺伝子条件の削除を繰り返し行う。遺伝子条件の削除が行われなかった場合には、判別式最適化部8によって遺伝子条件の追加を行う。
 なお、遺伝子条件の削除では、予め医学的知見条件16の導入により、組合せに含まれる医学的知見条件16を削除の候補に含めるか含めないかを個別に設定しておくことにより、最適化の工程の中で医学的知見条件16を判別式最適化部8によって削除する可能性を持たせるかを指定することができる。
 判別式最適化部8によって、追加と削除を適宜繰り返した後、遺伝子条件の組合せ数が指定されたしきい値dに達したとき組合せ最適化を終了する(ステップT9)が、このしきい値は、最適化の工程を実行する際に外部から入力するようにしてもよいし、予めデータベース3にしきい値に関するデータあるいは複数のしきい値に関するデータテーブルを格納しておき、最適化工程を実行する際に、そのデータを読み出したり、あるいはデータテーブルを表示装置に示して判別式最適化部8によって選択可能にしておいてもよい。
 最後に、各組合せ数での判別式の中で、該当する分類ラベルの症例数が最大であり、分類ラベルについての占有率が最大であるもののうち、遺伝子条件の組合せ数が最小である判別式を最終的に判別式として決定する。このような判別式の決定要件は予めデータベース3に格納しておくか、判別式最適化部8に格納しておくとよい。
 本実施の形態においては、遺伝子条件の追加及び削除を判別式最適化部8が実行しているが、追加と削除を例えば、それぞれ第1及び第2の判別式最適化部を備えて別個独立に実行するようにしてもよいことは言うまでもない。
 図5に本実施の形態に係る薬剤の作用・副作用予測システム1の判別式最適化部8を用いて実行される、遺伝子条件の組合せ最適化による遺伝子条件の組合せ数と性能の推移の例を示す。
 まず、医学的知見によりd個の遺伝子条件が選択されている型(組合せ)を図5の丸1で示す。このd個の組合せに対して組み合わせたとき性能が最高となるような遺伝子条件を1つ追加し丸2の組合せに推移する。ここで、性能とは、図5中に記載されるとおり、その遺伝子条件の組合せに該当する症例数が多い場合、すなわち汎用性に優れる場合と、その遺伝子条件の組合せに該当する症例数(分類ラベルの症例数)の全体に対する占有率が高い場合、すなわち精度に優れる場合の両方が含まれる。
 この丸2では、遺伝子条件を1つ削除しても性能が向上しないため、削除せず、さらに遺伝子条件を1つ追加して丸3の組合せに推移する。図5では、性能が高い「条件の組合せ」が存在しないことを×で表す。丸3の組合せから遺伝子条件を1つ削除することにより丸2の組合せより性能が向上するため、遺伝子条件を1つ削除して丸4の組合せに推移する。このとき、遺伝子条件を削除するときは、判別式における遺伝子条件の組合せ数が同じ場合である丸4は丸2より性能が高いことは保証されているが、遺伝子条件の組合せ数が異なる判別式(例えば、丸3と丸4)の問題としていない。そのため、丸4は丸3より性能が高い場合もあり、低い場合もあり、図6では例えば丸4を丸3の右上に表記し、丸2と丸4の性能の差を不等号で示している。
 この丸4では、さらに遺伝子条件を削除しても性能は向上しないため、遺伝子条件を1つ追加して丸5の組合せに推移する。さらに追加と削除を繰り返していくと、丸11の組合せでは、どの遺伝子条件を追加しても性能が向上しない。このような場合には、追加する遺伝子条件単独で分類ラベルについての占有率が高いものを優先して組合せに追加していく。追加しても性能が向上しない状況においても連続して遺伝子条件を追加することにより、初期に近い段階で追加された遺伝子条件を削除すると性能が向上する場合がある。そのため、遺伝子条件の組合せ数が予め指定した終了条件k=dとなるまで追加と削除を繰り返していく。この例では、性能が最高であり、かつ組合せ数が最小である丸11の組合せを判別式として採用する。
 次に、2つの遺伝子型を用いて薬剤の「副作用あり」を分類するための判別式の生成を図6に示す例を用いて説明する。図6は、(a)は本実施の形態に係る薬剤の作用・副作用予測システムにおいて、A,B2つの遺伝子型(Homo、Hetero、Wild)を考慮した場合の遺伝子型の組合せと副作用の有無の症例を対応させた概念図であり、(b)は占有率を70%以上として副作用有りの遺伝子条件を判別式として生成した状態を示す概念図である。
 図6に示される例では、判別式のための遺伝子型の組合せ(遺伝子条件)の総数は、((3+1)-1=15)通りとなる。判別式の生成に用いる症例データ10は20例であり、図6中では副作用があった症例を○、副作用がなかった症例を×で示す。まず、薬剤の作用・副作用予測システム1の信頼度解析部6が、15通りの遺伝子条件について、各々の分類ラベルとして、「副作用あり」・「副作用なし」の該当症例数を調べ、「副作用あり」についての占有率を計算する。各遺伝子条件の該当症例数と占有率を表1に示す。なお、遺伝子の型(遺伝子型)を示す欄に「-」で示されているのは、遺伝子型の指定がないことを意味している。
 次に、判別式生成部7が、該当数n=1以上でかつ副作用ありについての占有率r=70%以上の遺伝子条件を、有効な遺伝子条件として選択する。この選択された有効な遺伝子条件を示すのが、表1における丸印であり、また、図6(b)にハッチングで示される部分である。
 ここでは、判別式最適化部8による医学的知見条件16の導入を省略し、有効な遺伝子条件として選択されている4つの遺伝子条件から、判別式最適化部8による組合せ最適化を行い、信頼度R=70%以上の副作用なしの判別式を生成する。
 まず、判別式最適化部8によって、判別式生成部7において抽出された遺伝子条件から、一つ目の遺伝子条件として遺伝子条件1(遺伝子A(Homo))が選ばれる。次に、判別式最適化部8は、この遺伝子条件と組み合わせて正分類数が最大となる遺伝子条件11(遺伝子A(Hetero)かつ遺伝子B(Hetero))を判別式に加える。アルゴリズム上はさらに遺伝子条件の追加と削除(判別式最適化部8による)を繰り返し、組合せ数4まで計算可能であるが、この例では、遺伝子条件1と遺伝子条件11の組合せによる判別式が最高性能をもつため、以下の説明を省略する。
 したがって、遺伝子Aの型と遺伝子Bの型から生成した副作用ありの判別式(信頼度70%以上)は、((遺伝子A(Homo))または(遺伝子A(Hetero)かつ遺伝子B(Hetero)))となる。この例で用いた症例20例に対して生成した判別式により副作用あり(信頼度70%以上)を予測すると、20例中10例が副作用ありと予測される。
 このとき副作用ありと分類された10例のうち9例は実際に副作用があり、1例では副作用は生じないものであった。
Figure JPOXMLDOC01-appb-T000001
 本実施の形態に係る薬剤の作用・副作用予測システム1の予測部4では、作用・副作用の予測の対象となる患者15に対して、判別式設計部2で構築した判別式データ12を用いて、作用・副作用の予測を行う。
 分類ラベルA・B(例えば、副作用あり・副作用なし)について、信頼度を変えて生成した複数の判別式(以下、判別式は判別式データ12と同等の意味で用いる場合がある)を予測に用いる。信頼度の異なる判別式を複数用いて予測を行うことにより、患者15個人に対して確信度をつけた汎用性の高い予測が可能となる。
 信頼度をR、R、…、Rm1(R>R>…>Rm1)、R、R、…、Rm2(R>R>…>Rm2)、とするとき、判別式A(R)、判別式A(R)、…、判別式A(Rm1)、判別式B(R)、判別式B(R)、…、判別式B(Rm2)を用いる。
 例えば、データベース3の症例データ10中で該当する症例数が少ない信頼度100%の判別式(ここでは、判別式を遺伝子条件と置き換えても同じ意味になる)は、該当する症例数が少ないため汎用性が比較的低いと考えられるが、この判別式に該当する場合には信頼性の高い分類結果13が得られるため、確信度の高い診断をするために有効な判別式である。
 一方、データベース3の症例データ10中で該当する症例数が比較的多い信頼度70%の判別式は、信頼度100%の判別式と比べると、確信度は低いが汎用性の高い診断をするために有効な判別式である。本願では、複数の判別式を予測に用いるが、それぞれの判別式の遺伝子条件に該当するか否かを調査した結果を分類結果13といい、このうち、患者15の判定として採用したものを予測結果14という。
 予測対象となる患者15に関する遺伝子及び遺伝子型の組合せのデータを分類A、分類Bについて信頼度が高い順に判別式に該当するかを調べていき、患者が判別式の遺伝子条件に該当するとき、その判別式の信頼度を分類結果13の信頼度とする。このとき、分類Aと分類Bのいずれかの判別式にのみ該当する場合にはその分類結果13を採用し、分類Aと分類Bのいずれの判別式にも該当する場合は信頼度の高い分類結果13を採用する。また、分類Aと分類Bのいずれにも該当し、該当する判別式の信頼度が等しい場合や、分類Aと分類Bのいずれの判別式にも該当しない場合には、判定保留とする。
 例えば、副作用の有無を予測する場合に、「副作用あり」の判別式を信頼度100%、80%以上、70%以上で設計し、「副作用なし」の判別式を信頼度100%、80%以上、70%以上で設計したとする。患者Cが「副作用あり」の判別式(信頼度80%以上)に該当し、「副作用なし」ではいずれの判別式にも該当しない場合に、患者Cに対する予測は「信頼度80%以上で副作用あり」となり、患者Dが副作用ありの判別式(信頼度70%以上)と「副作用なし」の判別式(信頼度80%以上)に該当した場合に、患者Dに対する予測は「信頼度80%以上で副作用なし」となり、患者Eが「副作用あり」の判別式(信頼度70%以上)と「副作用なし」の判別式(信頼度70%以上)に該当した場合に、患者Eに対する予測は「判定保留」となり、患者Fは「副作用あり」、「副作用なし」のいずれの判別式にも該当しない場合に、患者Fに対する予測は「判定保留」となる。
 また、判定保留となる患者Xに対しては、図7に示すように、いずれかの分類ラベルと仮定して症例データベースに仮登録し、仮定した分類ラベルの判別式を再設計し直すことにより、仮定した分類ラベルについての信頼度を推定することができる。図7は、本実施の形態に係る薬剤の作用・副作用予測システムにおいて判定保留となった場合の信頼度の推定方法を示す概念図である。この機能は、予測部4が、症例解析テーブル生成部5、信頼度解析部6及び判別式生成部7と共に作用することで発揮されるものである。
 例えば、副作用の有無の予測を行う場合には、患者Xを「副作用あり」と仮定して「副作用あり」についての判別式を再設計したとき、患者Xが「副作用あり」と分類される最大の占有率を与える判別式における占有率を、患者Xが「副作用あり」である信頼度とする。
 具体的には、予測部4において判定保留となった場合に、表示装置などにその旨を表示させると同時に、推定を行うか否かの判断と、推定を行う場合にさらに分類ラベルとして「作用あり」、「作用なし」、「副作用あり」、「副作用なし」のいずれかの選択を促す表示をして、その表示を選択した場合には、その分類ラベルの表示に従って、症例解析テーブル生成部5は、その患者のデータをその分類ラベルの症例データ10として解析テーブル11に追加する。また、症例解析テーブル生成部5はその解析テーブル11をデータベース3に読み出し可能に格納する。
 その後、信頼度解析部6が解析テーブル11を読み出して占有率を演算し、判別式生成部7は先に説明した抽出遺伝子条件と同様にして判別式の生成を行う。予測部4は、このようにして生成された判別式の中で以下の2つのケースのうち、いずれかによって信頼度を推定する。
 1)該当する症例数がp以上(pは1より大)で、最大の占有率を与える遺伝子条件(この「遺伝子条件」は、単独の「判別式」として考えられる。)
 2)該当する症例数がp以上かつ占有率がr以上である遺伝子条件により生成した判別式
 1)の遺伝子条件における占有率、あるいは2)の判別式における全体の占有率をその患者がその分類に該当する信頼度として選択し、この推定結果を予測結果として表示装置等に出力するものである。
 なお、信頼度解析部6によって演算された結果は、解析テーブル11に反映されてデータベース3に読み出し可能に格納され、また、判別式生成部7によって生成された判別式も判別式データ12として読み出し可能にデータベース3に格納される。予測部4によって選択された判別式とその占有率もデータベース3に読み出し可能に格納される。
 一方、患者Xを「副作用なし」と仮定して「副作用なし」についての判別式を再設計したとき、患者Xが「副作用なし」と分類される最大の占有率を与える判別式における占有率を、患者Xが「副作用なし」である信頼度とする。このとき患者Xに対する「副作用あり」の信頼度と「副作用なし」の信頼度を比較し、信頼度が高い方へ患者Xを分類することにより、いずれの判別式にも該当しない患者に対する予測が可能である。また、分類されるときの信頼度が低い場合には、分類せずに「判定保留」とすることも可能である。このときの信頼度についてのしきい値は、予めデータベース3に格納されてもよいし、先に判定保留となって推定を行うか否かの判断の選択を促す表示をする際に、入力を促すようにしてもよいし、予測部4自体に設定値として記憶させておいてもよい。
 なお、本実施の形態においては、システム発明として説明したが、図1に示されるシステムを汎用のコンピュータと捉え、これを動作させるプログラムとして、図3に示すフローチャートを実行させることを考えると、上述の説明はコンピュータが各工程を実行しながら、解析テーブル11から判別式データ12を生成し、薬剤の作用・副作用の有無に関する予測結果を出力するするプログラムについての実施の形態の説明として成立するものであり、このプログラムについての実施の形態に係る作用、効果については先に説明した薬剤の作用・副作用予測システムに係る実施の形態に係る作用、効果と同様である。
 次に、抗がん剤イリノテカンを投与したときの作用・副作用の予測を実施例1として示す。
 イリノテカンを投与した71例の症例データを用いて、UGT1A1*28、UGT1A1*6、UGT1A9*22、UGT1A7-N129K、UGT1A1*60、UGT1A7-57T/Gの6遺伝子の型により作用・副作用予測のための判別式を設計した。
 対象とした遺伝子はいずれもHomo、Hetero、Wildの3つの型をもつため、全組合せ数は((3+1)-1)=4095通りとなる。
 副作用については好中球減少あるいは白血球減少についての評価グレード0-2を「副作用なし」、グレード3、4を「副作用あり」としてラベル付けし、作用については腫瘍縮小効果についての評価がCR、PRの場合に「効果あり」、SD、PDの場合に「効果なし」としてラベル付けした。71例中、37例(52.1%)が「副作用なし」、34例(47.9%)が「副作用あり」であり、また、23例(33.3%)は「効果あり」、46例(66.7%)が「効果なし」、残り2例は「評価できず」であった。副作用の予測では、「副作用なし」、「副作用あり」ともに信頼度を100%、80%以上、70%以上と設定して判別式を生成し、作用の予測では「効果あり」では信頼度100%、80%以上、「効果なし」では信頼度100%、80%以上、70%以上、50%以上のそれぞれで判別式を生成した。表2乃至表8に有効な遺伝子条件の一覧と最適化結果の一例を示す。また、73例に対する予測結果を表9に示す。
 表2を例にして、表の見方を説明する。表2には、イリノテカンが有効に作用する「効果あり」を予測するための有効な遺伝子条件と、それらの組合せ最適化結果が示されている。表の一行は「効果あり」の占有率70%以上の遺伝子条件と71例中の該当数(CR/PR:効果あり、SD/PD:効果なしおよびその合計)、および占有率(CR/PR:効果ありおよびSD/PD:効果なし)を示している。遺伝子条件は、左から順に6個の遺伝子UGT1A1*28、UGT1A1*6,UGT1A9*22、UGT1A7-N129K、UGT1A1*60、UGT1A7-57T/Gの遺伝子型をWild、Hetero、Homoあるいは空欄(指定なし)で表している。例えば、1番目の遺伝子条件は、UGT1A1*6がG/Aであり、かつUGT1A9*22がT10/10であることを示しており、この遺伝子条件でのCR/PRの該当数が1例で、SD/PDの該当数が0例であり、その占有率が100.0%(CR/PR)と0.0%(SD/PD)であることを示している。また、24番目の遺伝子条件は、UGT1A7N129KがG/Gであり、かつUGT1A1*60がT/Gであり、かつUGT1A7-57T/GがT/Gであることを示しており、この遺伝子条件でのCR/PRの該当数が3例で、SD/PDの該当数が1例であり、その占有率が75.0%(CR/PR)と25.0%(SD/PD)であることを示している。また、24式をOR演算で組み合わせたときには、CR/PRの該当数が7例で、SD/PDの該当数が1例であり、その占有率が87.5%(CR/PR)と12.5%(SD/PD)であることを示している。さらにこの24式を占有率70%以上、80%以上および100%で最適化すると、70%以上での最適化では遺伝子条件4式が選択され、この判別式によるCR/PRの該当数が7例で、SD/PDの該当数が1例であり、その占有率が87.5%(CR/PR)と12.5%(SD/PD)であり、80%以上での最適化では遺伝子条件4式が選択され、この判別式によるCR/PRの該当数が7例で、SD/PDの該当数が1例であり、その占有率が87.5%(CR/PR)と12.5%(SD/PD)であり、100%での最適化では遺伝子条件5式が選択され、この判別式によるCR/PRの該当数が5例で、SD/PDの該当数が0例であり、その占有率が100.0%(CR/PR)と0.0%(SD/PD)であることを示している。
Figure JPOXMLDOC01-appb-T000002
Figure JPOXMLDOC01-appb-T000003
Figure JPOXMLDOC01-appb-T000004
Figure JPOXMLDOC01-appb-T000005
Figure JPOXMLDOC01-appb-T000006
Figure JPOXMLDOC01-appb-T000007
Figure JPOXMLDOC01-appb-T000008
Figure JPOXMLDOC01-appb-T000009
 次に、実施例1について、6個の遺伝子に1st lineと2nd lineでの、抗がん剤イリノテカンを投与したときの作用・副作用予測を実施例2として示す。症例データや分類方法などは実施例1と同様であり、1st lineと2nd lineの症例データを別にして、各々で判別式を生成する。表10乃至表16に1st lineで有効な遺伝子条件の一覧と最適化結果の一例を、表17乃至表23に2nd lineで有効な遺伝子条件の一覧と最適化結果の一例を示す。また、73例に対する予測結果を表24に示す。
Figure JPOXMLDOC01-appb-T000010
Figure JPOXMLDOC01-appb-T000011
Figure JPOXMLDOC01-appb-T000012
Figure JPOXMLDOC01-appb-T000013
Figure JPOXMLDOC01-appb-T000014
Figure JPOXMLDOC01-appb-T000015
 
Figure JPOXMLDOC01-appb-T000016
Figure JPOXMLDOC01-appb-T000017
Figure JPOXMLDOC01-appb-T000018
Figure JPOXMLDOC01-appb-T000019
Figure JPOXMLDOC01-appb-T000021
Figure JPOXMLDOC01-appb-T000022
Figure JPOXMLDOC01-appb-T000023
Figure JPOXMLDOC01-appb-T000024
 実施例1と比較して、1st lineと2nd lineを分けることにより、予測性能が向上している。薬剤の作用・副作用の予測に、遺伝子型以外の遺伝子条件を与えることにより予測性能が向上する。本発明によれば、例えば、性別、他の疾病の有無、年齢層などにより分けることにより、予測性能が高い判別式を生成することができる。
 以上説明したように、本発明の請求項1乃至請求項12に記載された発明は、医療分野、バイオインフォマティクス分野における利用が可能であり、医薬品メーカーにおける新規医薬品研究開発や、これらのメーカーあるいは大学等を含めて研究機関における医薬品の作用・副作用に関する試験・研究、さらには医療機関における臨床・医療活動に利用可能である。
 

Claims (12)

  1. 薬剤の作用又は副作用に関わる遺伝子型の組合せ(以下、遺伝子条件という)毎に、前記作用又は副作用の有無に関する症例を対応させる解析テーブル(11)を生成する症例解析テーブル生成部(5)と、
     前記解析テーブル(11)における遺伝子条件のうち少なくとも1つを選択して、前記作用又は副作用の有又は無の症例数についての占有率を演算する信頼度解析部(6)と、
     前記占有率に対する所望のしきい値を基準として、前記信頼度解析部(6)において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成する判別式生成部(7)と、
     薬剤の作用又は副作用の有無に関する検体の遺伝子型に関するデータを前記判別式に含まれる遺伝子条件毎に比較照合して、前記判別式と整合することにより前記検体の前記薬剤の作用又は副作用の有無に関する予測を行う予測部(4)と、
     を有することを特徴とする薬剤の作用・副作用予測システム(1)。
  2.  前記判別式生成部(7)は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記信頼度解析部(6)において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成することを特徴とする請求項1記載の薬剤の作用・副作用予測システム(1)。
  3.  前記判別式生成部(7)において抽出された遺伝子条件のうち,前記占有率に対する所望の前記しきい値に該当する遺伝子条件であって,かつ前記症例数に対する所望の前記しきい値に該当している遺伝子条件のうち,前記判別式生成部(7)で生成された判別式に加えることで、加えられた後の全体の判別式における,前記占有率又は症例数が増加する前記遺伝子条件を選択して前記判別式に追加する機能及び/又は、前記生成された判別式から減ずることで、減じた後の全体の判別式における,前記占有率又は症例数が増加する遺伝子条件を選択して削除する機能を、備えた判別式最適化部と、を有することを特徴とする請求項2に記載の薬剤の作用・副作用予測システム(1)。
  4.  前記生成された判別式に含まれる遺伝子条件のうち、一の遺伝子条件における前記占有率及び症例数と、他の遺伝子条件における前記占有率及び症例数とが共通する場合に、前記他の遺伝子条件を前記生成された判別式から削除する判別式最適化部を有することを特徴とする請求項2又は請求項3に記載の薬剤の作用・副作用予測システム(1)。
  5.  前記判別式最適化部は、予めデータベースに格納された前記薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件(以下、医学的知見条件(16)という)を読み出して、前記抽出された遺伝子条件を探索し、前記抽出された遺伝子条件がその医学的知見条件(16)を含む場合にその医学的知見条件(16)を差し引くようにする機能と、前記抽出された遺伝子条件に含まれていない場合に、前記医学的知見条件(16)を加えるようにする機能とを有することを特徴とする請求項3又は請求項4に記載の薬剤の作用・副作用予測システム(1)。
  6.  前記症例解析テーブル生成部(5)は、前記検体の遺伝子条件に関するデータを薬剤の作用又は副作用の有無に関して分類しながら解析テーブル(11)に追加し、
     前記信頼度解析部(6)は、前記解析テーブル(11)を読み出して前記遺伝子条件のうちすくなくとも1つを選択して前記占有率を演算し、
     前記判別式生成部(7)は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記遺伝子条件を抽出して、この遺伝子条件を単独で、あるいは組合せて前記判別式を生成し、
     前記予測部(4)は、生成された判別式における全体の占有率をその検体が前記薬剤の作用又は副作用の有無に関して分類される信頼度の推定値として予測することを特徴とする請求項2乃至請求項5のいずれか1項に記載の薬剤の作用・副作用予測システム(1)。
  7.  コンピュータによって、薬剤の作用・副作用を予測するために実行されるプログラムであって、
     コンピュータに、薬剤の作用又は副作用に関わる遺伝子条件毎に、前記作用又は副作用の有無に関する症例を対応させる解析テーブル(11)を生成する症例解析テーブル生成工程と、
     前記解析テーブル(11)における遺伝子条件のうち少なくとも1つを選択して、前記作用又は副作用の有又は無の症例数についての占有率を演算する信頼度解析工程と、
     前記占有率に対する所望のしきい値を基準として、前記信頼度解析工程において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件を単独で、あるいは組合せて判別式を生成する判別式生成工程と、
     薬剤の作用又は副作用の有無に関する検体の遺伝子条件に関するデータを前記判別式に含まれる遺伝子条件毎に比較照合して、前記判別式と整合することにより前記検体の前記薬剤の作用又は副作用の有無に関する予測を行う予測工程と、を実行させることを特徴とする薬剤の作用・副作用予測プログラム。
  8.  前記判別式生成工程は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記信頼度解析工程において前記占有率の演算を行った前記遺伝子条件から該当する遺伝子条件を抽出し、この抽出された遺伝子条件と単独で、あるいは組合せて判別式を生成することを特徴とする請求項7記載の薬剤の作用・副作用予測プログラム。
  9.  前記判別式生成工程において抽出された遺伝子条件のうち,前記占有率に対する所望の前記しきい値に該当する遺伝子条件であって,かつ前記症例数に対する所望の前記しきい値に該当している遺伝子条件のうち,前記判別式生成工程で生成された判別式に加えることで、加えられた後の全体の判別式における,前記占有率又は症例数が増加する前記遺伝子条件を選択して前記判別式に追加するステップ及び/又は、前記生成された判別式から減ずることで、減じた後の全体の判別式における,前記占有率又は症例数が増加する遺伝子条件を選択して削除するステップを、備えた判別式最適化工程と、を有することを特徴とする請求項8に記載の薬剤の作用・副作用予測プログラム。
  10.  前記生成された判別式に含まれる遺伝子条件のうち、一の遺伝子条件における前記占有率及び症例数と、他の遺伝子条件における前記占有率及び症例数とが共通する場合に、前記他の遺伝子条件を前記生成された判別式から削除する判別式最適化工程を有することを特徴とする請求項8又は請求項9に記載の薬剤の作用・副作用予測プログラム。
  11.  前記判別式最適化工程は、予めデータベースに格納された前記薬剤の作用・副作用の有・無に関する医学的な知見に基づく条件(以下、医学的知見条件(16)という)を読み出して、前記抽出された遺伝子条件を探索し、前記抽出された遺伝子条件がその医学的知見条件(16)を含む場合にその医学的知見条件(16)を差し引くようにするステップと、前記抽出された遺伝子条件に含まれていない場合に、前記医学的知見条件(16)を加えるようにするステップとを有することを特徴とする請求項9又は請求項10に記載の薬剤の作用・副作用予測プログラム。
  12.  前記症例解析テーブル生成工程は、前記検体の遺伝子条件に関するデータを薬剤の作用又は副作用の有無に関して分類しながら解析テーブル(11)に追加し、
     前記信頼度解析工程は、前記解析テーブル(11)を読み出して前記遺伝子条件のうち少なくとも1つを選択して前記占有率を演算し、
     前記判別式生成工程は、前記占有率に対する所望のしきい値及び前記症例数の有又は無に対する所望のしきい値を基準として、前記遺伝子条件を抽出して、この遺伝子条件を単独で、あるいは組合せて前記判別式を生成し、
     前記予測工程は、生成された判別式における全体の占有率をその検体が前記薬剤の作用又は副作用の有無に関して分類される信頼度の推定値として予測することを特徴とする請求項8乃至請求項11のいずれか1項に記載の薬剤の作用・副作用予測プログラム。
PCT/JP2009/006520 2008-12-01 2009-12-01 薬剤の作用・副作用予測システムとそのプログラム WO2010064413A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010541227A JP5436446B2 (ja) 2008-12-01 2009-12-01 薬剤の作用・副作用予測システムとそのプログラム
US13/150,834 US20110288783A1 (en) 2008-12-01 2011-06-01 System for predicting drug effects and adverse effects and program for the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008306916 2008-12-01
JP2008-306916 2008-12-01

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/150,834 Continuation US20110288783A1 (en) 2008-12-01 2011-06-01 System for predicting drug effects and adverse effects and program for the same

Publications (1)

Publication Number Publication Date
WO2010064413A1 true WO2010064413A1 (ja) 2010-06-10

Family

ID=42233071

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/006520 WO2010064413A1 (ja) 2008-12-01 2009-12-01 薬剤の作用・副作用予測システムとそのプログラム

Country Status (3)

Country Link
US (1) US20110288783A1 (ja)
JP (1) JP5436446B2 (ja)
WO (1) WO2010064413A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011152272A1 (ja) * 2010-06-01 2011-12-08 東洋鋼鈑株式会社 イリノテカンの副作用の発生危険度を判定する方法及びそのためのキット
WO2016006532A1 (ja) * 2014-07-07 2016-01-14 株式会社日立製作所 薬効分析システム及び薬効分析方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275408B1 (en) * 2015-03-27 2019-04-30 EMC IP Holding Company LLC Analysis and visualization tool utilizing mixture of multiple reliability measures for product and part combinations
CN116004807B (zh) * 2022-12-28 2023-11-03 广州凯普医药科技有限公司 Ugt1a1基因多位点扩增引物组、试剂盒及检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004052191A1 (ja) * 2002-12-09 2004-06-24 Ajinomoto Co., Inc. 生体状態情報処理装置、生体状態情報処理方法、生体状態情報管理システム、プログラム、および、記録媒体
JP2005500543A (ja) * 2001-08-13 2005-01-06 ビヨンド ジェノミクス, インコーポレイテッド 生物学的系をプロファイリングするための方法およびシステム
JP2005202547A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 診療支援システム及びその情報提示方式
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181429A1 (en) * 2003-03-14 2004-09-16 Electronic Data Systems Corporation Method and system for administering a drug

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005500543A (ja) * 2001-08-13 2005-01-06 ビヨンド ジェノミクス, インコーポレイテッド 生物学的系をプロファイリングするための方法およびシステム
WO2004052191A1 (ja) * 2002-12-09 2004-06-24 Ajinomoto Co., Inc. 生体状態情報処理装置、生体状態情報処理方法、生体状態情報管理システム、プログラム、および、記録媒体
JP2005202547A (ja) * 2004-01-14 2005-07-28 Hitachi Ltd 診療支援システム及びその情報提示方式
WO2006088208A1 (ja) * 2005-02-21 2006-08-24 Dainippon Sumitomo Pharma Co., Ltd 生体の生理的変化の予測方法および装置
JP2007102709A (ja) * 2005-10-07 2007-04-19 Toshiba Corp 遺伝子診断用のマーカー選定プログラム、該プログラムを実行する装置及びシステム、並びに遺伝子診断システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011152272A1 (ja) * 2010-06-01 2011-12-08 東洋鋼鈑株式会社 イリノテカンの副作用の発生危険度を判定する方法及びそのためのキット
WO2016006532A1 (ja) * 2014-07-07 2016-01-14 株式会社日立製作所 薬効分析システム及び薬効分析方法
JP2016018321A (ja) * 2014-07-07 2016-02-01 株式会社日立製作所 薬効分析システム及び薬効分析方法

Also Published As

Publication number Publication date
JPWO2010064413A1 (ja) 2012-05-10
JP5436446B2 (ja) 2014-03-05
US20110288783A1 (en) 2011-11-24

Similar Documents

Publication Publication Date Title
Alirezaie et al. ClinPred: prediction tool to identify disease-relevant nonsynonymous single-nucleotide variants
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
JP6085612B2 (ja) 臨床判断支援のための患者シーケンシングデータからの臨床的に関連する情報の遡及的抽出
JP4437050B2 (ja) 診断支援システム、診断支援方法および診断支援サービスの提供方法
US11715565B2 (en) Evaluating effect of event on condition using propensity scoring
KR100806436B1 (ko) 유전자 진단을 위한 마커 선택 프로그램을 포함하는 컴퓨터판독가능 매체, 마커 선택 장치 및 시스템, 및 유전자진단 함수 생성 장치 및 시스템
US20210343414A1 (en) Methods and apparatus for phenotype-driven clinical genomics using a likelihood ratio paradigm
US20200402614A1 (en) A computer-implemented method of analysing genetic data about an organism
JP7041614B6 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
JP2006519440A (ja) 疾患の増大リスクの統計学的同定法
US20190147993A1 (en) Clinical report retrieval and/or comparison
Favalli et al. Machine learning-based reclassification of germline variants of unknown significance: The RENOVO algorithm
EP4260340A1 (en) Predicting fractional flow reserve from electrocardiograms and patient records
WO2014151626A1 (en) Electronic variant classification
JP5436446B2 (ja) 薬剤の作用・副作用予測システムとそのプログラム
JP5564073B2 (ja) 臨床情報表示装置および臨床情報表示方法並びに臨床情報表示プログラム
US20200357524A1 (en) Apparatus for patient data availability analysis
KR20180069651A (ko) 개인 유전체 맵 기반 맞춤의학 분석 플랫폼 및 이를 이용한 분석 방법
Mpanya et al. Predicting in-hospital all-cause mortality in heart failure using machine learning
JP2004030093A (ja) 遺伝子発現データ解析方法
US20240038326A1 (en) Method and system for phenotypic profile similarity analysis used in diagnosis and ranking of disease-driving factors
CN106503489A (zh) 心血管系统对应的基因的突变位点的获取方法及装置
Zheng et al. Evaluation of polygenic score for hypertrophic cardiomyopathy in the general population and across clinical settings
KR102640503B1 (ko) 체질별 고혈압 위험성 예측 방법 및 시스템
Horvath et al. The effect of neurological genomics and personalized mitochondrial medicine

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09830183

Country of ref document: EP

Kind code of ref document: A1

DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
ENP Entry into the national phase

Ref document number: 2010541227

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09830183

Country of ref document: EP

Kind code of ref document: A1