WO2021145434A1 - 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム - Google Patents

目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム Download PDF

Info

Publication number
WO2021145434A1
WO2021145434A1 PCT/JP2021/001265 JP2021001265W WO2021145434A1 WO 2021145434 A1 WO2021145434 A1 WO 2021145434A1 JP 2021001265 W JP2021001265 W JP 2021001265W WO 2021145434 A1 WO2021145434 A1 WO 2021145434A1
Authority
WO
WIPO (PCT)
Prior art keywords
drug
data
indication
prediction
artificial intelligence
Prior art date
Application number
PCT/JP2021/001265
Other languages
English (en)
French (fr)
Inventor
匠徳 佐藤
Original Assignee
Karydo TherapeutiX株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Karydo TherapeutiX株式会社 filed Critical Karydo TherapeutiX株式会社
Priority to US17/793,469 priority Critical patent/US20230066502A1/en
Priority to IL294698A priority patent/IL294698A/en
Priority to JP2021571265A priority patent/JPWO2021145434A1/ja
Priority to CN202180022106.XA priority patent/CN115315754A/zh
Priority to CA3167902A priority patent/CA3167902A1/en
Publication of WO2021145434A1 publication Critical patent/WO2021145434A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Definitions

  • This specification discloses a prediction method, a prediction device, and a prediction program for the indication of the target drug or its equivalent substance.
  • Non-Patent Document 1 repositioning and reperpassing (DR) of existing drugs
  • DR is a method of searching for further therapeutic indications (therapeutic indication (s): TI (s)) of existing clinically approved drugs.
  • therapeutic indication (s) therapeutic indication (s): TI (s)
  • TI therapeutic indication
  • the development time required is short, and the cost is not as high as new drug development.
  • the drug has already been approved for use in treating at least one disease or condition in humans. Therefore, there is little concern about toxicity in humans. This allows DR to skip Phase I clinical trials and proceed immediately to Phase II trials.
  • these drugs are already mass-produced for human use, the clinical production process has already been optimized.
  • Non-Patent Document 1 Non-Patent Document 1
  • Patent Document 1 describes an organ association index in each organ obtained from cells or tissues derived from one or more organs of an individual to which the test substance is administered. By comparing the test data of the factor with the standard data of the corresponding organ-related index factor determined in advance, the pattern similarity for calculating the pattern similarity of the organ-related index factor is obtained, and the pattern of the organ-related index factor is calculated.
  • a method for predicting the efficacy or side effect of a test substance in one or more organs and / or in an organ other than the one or more organs using the similarity as an index is disclosed.
  • Patent Document 2 and Non-Patent Document 2 are non-humans in which a plurality of known drugs whose actions in humans are known are individually administered.
  • a group of data showing the behavior of transcriptome in a plurality of different organs collected from animals for each of the non-human animals and data showing the known action of each known drug in humans were used as training data in an artificial intelligence model.
  • Transscriptome behavior in multiple different organs of a non-human animal administered the test substance, including inputting and training an artificial intelligence model, and the same organs collected at the time of training data generation Discloses an artificial intelligence model for predicting the action of one or more of the test substances in humans.
  • Non-Patent Document 3 is a method of acquiring information on adverse events and / or side effects and information on indications from a known drug database and predicting new indications. In this case, it is necessary to know in advance the adverse events and / or side effects of the drug for which a new indication is to be searched. Therefore, there is a problem that new drugs cannot be applied.
  • An object of the present invention is to predict indications, drug repositioning and / or drug reperpassing based on adverse events and / or side effects of a drug for which adverse events and / or side effects are unknown. ..
  • the present invention has been completed based on the findings, and includes the following aspects.
  • Item 1 A method for predicting the indication of a target drug or an equivalent substance thereof, which is a biomarker in one or more organs collected from a non-human animal to which the target drug or the equivalent substance is administered as a test substance.
  • the prediction including inputting estimated adverse event-related information estimated from a group of behavioral data into a predictive artificial intelligence model as test data to predict the indication of the target drug or its equivalent.
  • Method. Item 2.
  • the predictive artificial intelligence model is trained by a group of training data, which groups include (I) reported adverse event-related information and / or reported side effect-related information for each known drug.
  • II The prediction method according to Item 1, wherein the indication data reported for the known drug is associated with the data.
  • Item 3. Item 3.
  • Item 4. Item 3. The prediction method according to Item 1 or 2, wherein the prediction artificial intelligence model corresponds to a plurality of indications.
  • Item 5. Item 4. The item 1 to 4, wherein the estimated adverse event-related information and / or the estimated side effect-related information is generated using an artificial intelligence model for estimation, which is different from the artificial intelligence model for prediction. Prediction method.
  • the group of training data is generated by associating a label indicating the indication of the known drug with information on adverse events reported for the known drug with a label indicating the name of the known drug.
  • the prediction method according to any one of Items 1 to 5.
  • the estimated adverse event-related information and / or estimated side effect-related information corresponds to (1) the presence or absence of a plurality of adverse events and / or side effects, or (2) the frequency of occurrence of a plurality of adverse events and / or side effects.
  • the prediction method according to any one of Items 1 to 6.
  • Item 8. A device for predicting the indication of a target drug or an equivalent substance thereof, wherein the prediction device includes a processing unit, and the processing unit administers the target drug or an equivalent substance as a test substance to a non-human.
  • Estimated adverse event-related information estimated from a group of data showing the behavior of biomarkers in one or more organs collected from animals is input to a predictive artificial intelligence model as test data, and the target drug or the drug thereof or its The predictor configured to predict the indication of an equivalent substance.
  • Item 9. Estimates estimated from a group of data showing the behavior of biomarkers in one or more organs taken from non-human animals that received the drug of interest or its equivalent as the test substance when run on a computer.
  • the indication of the target drug or its equivalent substance is performed by inputting the adverse event-related information as test data into the artificial intelligence model for measurement and causing the computer to perform the step of predicting the indication of the target drug or its equivalent substance.
  • a computer program for predicting illness. Item 10.
  • the group of data showing the behavior of the biomarkers in the one or more organs used at the time was stratified by clustering, and the group of data showing the behavior of the stratified biomarkers was subjected to pathway analysis.
  • the estimation method including obtaining information on the mechanism of action of a test substance.
  • Item 11 An estimation device for estimating the action mechanism of a test substance in a living body, wherein the estimation device includes a processing unit, and the processing unit is predicted by the prediction method according to any one of Items 1 to 7.
  • the group of data showing the behavior of the biomarker in the one or more organs used in predicting the indication was stratified by clustering and stratified.
  • the estimation device comprising performing pathway analysis on a group of data showing the behavior of a biomarker and acquiring information on the mechanism of action of a test substance.
  • Item 12. The one or more used in predicting an indication based on the prediction result of the indication predicted by the prediction method according to any one of Items 1 to 7 when executed by a computer.
  • a pathway analysis is performed on a step of stratifying a group of data showing the behavior of biomarkers in an organ by clustering and a group of data showing the behavior of the stratified biomarkers to obtain information on the mechanism of action of the test substance.
  • An estimation program that causes a computer to perform a process comprising steps, and estimates the mechanism of action of a test substance in vivo.
  • An outline of the method for predicting an indication disclosed in the present specification is shown. Demonstrates how to estimate information about adverse events to generate test data.
  • An example of training data is shown.
  • (A) is an example of a group of training data of Nerve injury.
  • (B) is a group of training data of Type 2 diabetes mellitus.
  • the hardware configuration of the prediction training device 10 is shown.
  • the flowchart of the training process for prediction is shown.
  • An example of data showing the behavior of the biomarker is shown.
  • An example of the generated second training data is shown.
  • the hardware configuration of the test data generation device 50 for prediction is shown.
  • the flow chart of the process of the training program for estimation is shown.
  • the flowchart of the processing of the estimation program is shown.
  • the hardware configuration of the prediction device 20 is shown.
  • the flowchart of the prediction process is shown.
  • the hardware configuration of the operation mechanism estimation device 80 is shown.
  • the flowchart of the processing of the analysis program is shown.
  • the distribution of accuracy score, recall score, and precision score for all drugs is shown.
  • the scores of the top 50 drugs with accuracy score, precision score, and recall score of 1.0 are shown.
  • the distribution of accuracy, recall, and precision scores for all indications is shown.
  • the scores of the top 50 drugs with accuracy score, precision score, and recall score of 1.0 are shown.
  • the result of the blind evaluation is shown.
  • a comparison between V-AE and R-AE is shown.
  • the prediction results of the indications of 15 test drugs using V-AE are shown.
  • (A) shows the result of the mixed matrix.
  • (B) shows a comparison of the accuracy score, accuracy score, and recall score of the prediction results of the indications of 15 test drugs using V-AE and the prediction results after LP.
  • the comparison between the prediction result of the indication by V-AE and the prediction result of the indication by One-Class SVM using R-AE is shown.
  • the upper row is a comparison of TP
  • the lower row is a comparison of FP.
  • the comparison between the prediction result of the indication by V-AE and the prediction result of the indication by LP using R-AE is shown.
  • the upper row is a comparison of TP
  • the lower row is a comparison of FP.
  • (A) is a dendrogram showing the relationship between V-AE of each test drug and each indication.
  • (B) is a dendrogram showing the relationship between the transcriptome profile of each test drug and each indication. A comparison of the mechanisms of action of drugs for osteoporosis and schizophrenia is shown.
  • (A) is the distribution of V-AE, and (B) is the distribution of the transcriptome pattern.
  • REACTOME Pathways is used to predict and compare the pathways associated with the action of drugs on osteoporosis and schizophrenia in each organ.
  • the KEGG pathway is used to predict and compare the pathways associated with osteoporosis in each organ and the action of the drug on schizophrenia.
  • the prediction method predicts the indication of the target drug or its equivalent substance (in the present specification, including the drug or its equivalent substance, it may be simply referred to as “drug, etc.”).
  • the prediction method is to administer the drug of interest or an equivalent substance thereof to a non-human animal as a test substance, collect one or more organs from the non-human animal after the administration, and collect one or more organs.
  • a group of data showing the behavior of the biomarker is acquired from the organ, and adverse event (adverse-event: AE) related information (hereinafter referred to as “estimated adverse event related information”) estimated from the behavior of the biomarker, and / Or side effect (SE) related information (hereinafter referred to as “estimated side effect related information”) is used as test data.
  • the prediction method predicts the indication (TI) of the target drug or its equivalent based on the test data.
  • the prediction is achieved using an artificial intelligence model.
  • an example using an adverse event is shown.
  • the training phase The outline of the training phase is shown in the upper part of Fig. 1.
  • the training data includes information on adverse events in humans reported for known drugs (hereinafter, also referred to as "reported adverse event-related information”) based on information available from public drug databases, and the known drugs. Includes reported indication data.
  • FAERS described later is illustrated in FIG. 1, adverse events reported in humans and adverse events not reported in humans are registered for each drug in this drug database. In other words, for each drug, information on whether or not each adverse event has occurred is registered for a plurality of types of adverse events. Information regarding whether or not a certain adverse event has appeared (presence or absence of a certain adverse event) for one drug is referred to as adverse event data in the present specification.
  • the adverse event data is associated with a label indicating the drug name, which indicates which drug data the adverse event data is.
  • a plurality of adverse event data are registered for one drug in the drug database, and these constitute a group of adverse event data. Therefore, the information on adverse events includes (i) the occurrence of each adverse event calculated based on (i) the group of adverse event data registered for one drug, or (ii) the group of adverse event data for one drug.
  • a group of frequency data may be included.
  • the frequency of occurrence data is associated with a label indicating the drug name, which indicates which drug the frequency data of occurrence is.
  • indication data information indicating whether or not each disease or symptom is an indication is registered for a plurality of types of diseases or symptoms.
  • Information indicating whether or not a drug may be applied to a certain disease or symptom is referred to herein as indication data.
  • the indication data is associated with a label indicating the drug name, which indicates which drug data the indication data is for.
  • a plurality of indication data for one drug are registered in the drug database, and these constitute a group of indication data.
  • the information contained in the training data indicating whether or not the disease or symptom is an indication is information registered in the drug database, and it has not been confirmed experimentally whether the drug can be applied. Information may also be included.
  • linked is intended to be attached so that the correspondence between each data and which drug the data belongs to can be understood. Information on adverse events and indication data entered into artificial intelligence are not labeled with the drug name.
  • information on adverse events (AE1, AE2, AE3, AE4 ... In FIG. 1) reported for each known drug (Drug 1 ... In FIG. 1) is, for example, a drug name.
  • each drug can be associated with each indication data (Indication A: YES, Information B: NO).
  • FIG. 1 shows an example of using an artificial intelligence model that does not have a neural network structure such as a random forest (RF).
  • RF random forest
  • one artificial intelligence model is used for one indication, and the artificial intelligence model is trained for each indication.
  • the drug may or may not include a drug for which test data to be used in the prediction phase is obtained.
  • the trained artificial intelligence model is used to predict the indication of the target drug or its equivalent substance. Preferably, it predicts indications in humans. More preferably, it predicts new indications.
  • the new indication is an indication that is not yet known for a drug.
  • Predictive test data is generated according to the methods described in Patent Document 2 and Non-Patent Document 2. Specifically, a prediction test data is generated using a estimation artificial intelligence model that is different from the prediction artificial intelligence model.
  • FIG. 2 shows an outline of a training method of the estimation artificial intelligence model for generating the prediction test data and a method of generating the prediction test data using the estimation artificial intelligence model.
  • known agents A, B, and C are individually administered to a non-human animal such as a mouse, and each organ or organ is administered from the non-human animal. Collect some tissue.
  • the behavior of the biomarker in the collected organ or tissue is analyzed, and a first training data group reflecting the behavior of the biomarker is generated.
  • second training data which is information on adverse events, is generated from a human clinical database (drug database) that stores information on adverse events reported for known drugs.
  • the estimation artificial intelligence model is generated by training the estimation artificial intelligence model using the first training data group and the second training data.
  • data showing the behavior of the biomarker in one or more organs of the non-human animal to which the test substance X was administered is used as the estimation test data of the test substance X.
  • Predict adverse events in humans Specifically, one or a plurality of organs or a part of the organs are individually collected from the non-human animal to which the test substance X is administered, and a group of data showing the behavior of the biomarker in each organ is acquired.
  • the data group is input to the trained estimation artificial intelligence model as estimation test data, and the presence / absence or occurrence frequency of adverse events of the test substance X in humans is predicted.
  • the group of adverse event data predicted for (A) test substance X or the group of occurrence frequency data of each adverse event predicted for test substance X output by the estimation artificial intelligence model is the test substance. It becomes the estimated adverse event-related information of X.
  • the group of adverse event data and the frequency data are associated with a label indicating the drug name, which indicates which drug the frequency data is. In this way, each data can be obtained according to the methods described in Patent Document 2 and Non-Patent Document 2, and adverse events can be obtained even for drugs for which adverse events are not registered in a known drug database using these data. Information about can be estimated.
  • the prediction phase of the indication of the target drug, etc. using the artificial intelligence model for prediction will be described.
  • the estimated estimated adverse event-related information estimated by the estimation artificial intelligence model is used as test data.
  • the test data is input to the artificial intelligence model trained in (1) above to predict the indication.
  • FIG. 1 An example of the prediction phase is shown in the lower part of Fig. 1.
  • an artificial intelligence model for estimation is created according to the above method. Used to generate information about the estimated adverse events AE1, AE2, AE3, AE4 ...
  • the hMDB described in the lower part of FIG. 1 is intended to be a humanized Mouse Database individualized, hMDB-i reported in Non-Patent Document 2. Information on estimated adverse events AE1, AE2, AE3, AE4 ...
  • Indication B is used as predictive test data in artificial intelligence models trained for each application (RF for Indication A and RF for Indication B in FIG. 1), respectively. input.
  • the label "NO” indicating that it is not applicable is output from RF for Indication A, which predicts the applicability to Indication A.
  • the label "YES” is output from RF for Indication B.
  • Indication B can be predicted as an indication for drug X.
  • Indication B is an unknown indication for drug X
  • Indication B is a new indication for drug X.
  • the present embodiment includes predicting the action mechanism of the target drug or the like from the predicted indication.
  • drug includes pharmaceuticals, quasi-drugs, medicated cosmetics, foods, foods for specified health uses, foods with functional claims, and candidate products thereof.
  • drug also includes substances whose studies have been discontinued or discontinued in preclinical studies or clinical studies for regulatory approval. Drugs also include new and known drugs. More specifically, “drugs” include, for example, compounds; nucleic acids; sugars; lipids; glycolipids; glycolipids; lipoproteins; amino acids; peptides; proteins; polyphenols; chemokines; terminal metabolites of the substances, intermediates.
  • the "drug" or an equivalent substance thereof may include a single agent and a combination agent in which a plurality of types of agents are combined.
  • the "target drug” is a drug for which an indication is to be predicted.
  • Known drug is not limited as long as it is an existing drug. Preferably, it is an agent whose action in humans is known.
  • drug equivalents may include those that are similar in structure to existing drugs and have similar actions to known drugs.
  • a similar action is intended to have an action similar to that of a known drug, although the strength of the action is different.
  • “Adverse events” are not limited as long as they are actions that are judged to be harmful to humans.
  • FAERS https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm
  • Negative events listed in public drug databases such as gov https://clinicaltrials.gov/) can be exemplified.
  • Side effects are not limited to adverse events and are intended to have effects on humans other than the indications for each drug. Side effects can be exemplified by side effects listed in public drug databases such as SIDER4.1 (http://sideeffects.embl.de).
  • frequency of occurrence (number of reported adverse events for one known drug) / (total number of adverse events reported for that known drug).
  • “Indications” are not limited as long as they are intended to reduce, treat, stop or prevent diseases and symptoms in humans.
  • the above-mentioned FAERS, DAILYMED all drag labels (https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm), Medical Subject Health (https: /) /www.nlm.nih.gov/mesh/meshhome.html), Drugs @ FDA (https://www.accessdata.fda.gov/scripts/cder/daf/), International Classication of Diseases (https: // www) It can exemplify diseases or symptoms listed in public drug databases such as .who.int/health-topics/international-classification-of-diseases).
  • the indications are ischemic diseases such as thrombosis, embolism, and stenosis (particularly heart, brain, lung, colon, etc.); circulatory disorders such as aneurysm, venous aneurysm, congestion, and bleeding (aorta).
  • ischemic diseases such as thrombosis, embolism, and stenosis (particularly heart, brain, lung, colon, etc.); circulatory disorders such as aneurysm, venous aneurysm, congestion, and bleeding (aorta).
  • Allergic diseases such as allergic bronchitis and glomerular nephritis; Dementia such as Alzheimer's dementia, Parkinson's disease, muscle atrophic lateral sclerosis, severe muscle asthenia Degenerative diseases such as illness (nerve, skeletal muscle, etc.); Tumors (beneficial epithelial tumors, benign non-epithelial tumors, malignant epithelial tumors, malignant non-epithelial tumors); , Electrolyte abnormalities); Infectious diseases (bacteria, viruses, liquettia, chlamydia, fungi, protozoa, parasites, etc.), renal diseases, systemic erythematosus, autoimmune diseases such as multiple sclerosis, etc. be able to.
  • the "artificial intelligence model” refers to a unit of an algorithm capable of outputting a target result from a group of input data.
  • Artificial intelligence models include Random Forest (RF), Support Vector Machine (SVM), Relevance Vector Machine (RVM), Naive Bayes, Logistic Regression, Feed Forward Neural Network, Deep Learning, K Proximity Method, Adaboost, Bagging, C4 .5, Kernel Approximation, Stochastic Gradient Descent (SGD) Classifier, Lasso, Ridge Regression, Elastic Net, SGD Regression, Kernel Regression, Lowess Regression, Matrix Fractization, Non-Negative Matrix Fractization, Kernel Matrix Fracture It can include zation, interpolation, kernel smoothers, and co-filtering techniques.
  • training an artificial intelligence model for prediction and an artificial intelligence model for estimation may include validation processing, generalization processing, and the like.
  • the validation process and generalization process include a holdout method, a cross-validation method, AIC (An Information Theoretic Criterion / Akaike Information Criterion), MDL (Minimum Description Length), WAIC (WaIC), etc.
  • Non-human animals are not restricted in this disclosure. Examples thereof include mammals such as mice, rats, dogs, cats, rabbits, cows, horses, goats, sheep and pigs, and birds such as chickens. Mammals such as mice, rats, dogs, cats, cows, horses and pigs are preferable, mice or rats are more preferable, and mice are even more preferable. Non-human animals also include foets, chicks and the like of the animals.
  • the "organ” is not limited as long as it is an organ existing in the body of the mammal or bird described above.
  • the organs include circulatory organs (heart, arteries, veins, lymph vessels, etc.), respiratory organs (nasal cavity, sinus cavity, laryngeal, trachea, bronchi, lungs, etc.), digestive system organs ().
  • the "organs” include bone marrow, pancreas, skull, liver, skin, brain, pituitary gland, adrenal gland, thyroid gland, spleen, thymus, heart, lung, aorta, skeletal muscle, testis, peri-mitral fat, eyeball. , At least one selected from the ileum, stomach, jejunum, large intestine, adrenal gland, and parotid gland.
  • the plurality of organs is not limited as long as it is two or more. For example, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, and 24 species. You can choose from organs.
  • Biomarker refers to an in vivo substance that can fluctuate in cells or tissues of each organ and / or body fluid depending on the administration of the substance.
  • In vivo substances that can be “biomarkers” are nucleic acids; sugars; lipids; glycoproteins; glycolipids; lipoproteins; amino acids, peptides; proteins; polyphenols; chemokines; terminal metabolites, intermediate metabolites, and intermediate metabolites of the substances.
  • At least one metabolite selected from the group consisting of synthetic raw materials; and at least one selected from metal ions and the like can be exemplified. More preferably, it is a nucleic acid.
  • the biomarker is preferably a group of in vivo substances that can vary with the cells or tissues of each organ and / or body fluids depending on the administration of the substance.
  • a group of substances in the living body for example, nucleic acids; sugars; lipids; glycoproteins; glycolipids; lipoproteins; amino acids, peptides; proteins; polyphenols; chemokines; terminal metabolites, intermediate metabolites, and synthetic raw materials of the substances.
  • At least one group selected from the group consisting of substances; and at least one group selected from metal ions and the like can be exemplified.
  • the "nucleic acid” is preferably a group of RNA contained in a transcriptome such as mRNA, non-coding RNA, and microRNA, and more preferably a group of mRNA.
  • the RNA is preferably mRNA, untranslated RNA and / or microRNA that can be expressed in cells or tissues of the above organs, or cells in body fluids, and more preferably mRNA or untranslated RNA that can be detected by RNA-Seq or the like.
  • RNA-Seq RNA-Seq
  • the "group of data showing the behavior of the biomarker” is intended to be a group of data showing that the biomarker fluctuated or did not fluctuate according to the administration of a drug or the like.
  • the behavior of the biomarker indicates that the biomarker fluctuated in response to administration of the drug or the like.
  • the data can be obtained, for example, by the following method. Measure the abundance or concentration of each biomarker for tissues, cells, body fluids, etc. derived from a certain organ collected from a non-human animal to which a drug, etc. has been administered, and obtain the measured value in each organ of the individual to which the drug, etc. has been administered. do. Similarly, for tissues, cells, body fluids, etc.
  • the abundance of each biomarker or the abundance of each biomarker was similarly obtained.
  • the concentration is measured and the measured value of the non-administered individual is obtained.
  • the measured values of each biomarker derived from each organ of the drug-administered individual are compared with the measured values of the biomarkers in each organ corresponding to the biomarker of the drug-administered individual in the non-administered individual, and the value showing the difference is shown. Get as data.
  • "corresponding" means whether the organ and biomarker are the same or the same species.
  • the difference can be indicated by a ratio (for example, a divided value) between the measured value of each biomarker derived from the drug-administered individual and the measured value of the biomarker in the non-administered individual corresponding to the biomarker.
  • the data is a division value obtained by dividing the measured value of the biomarker A of the organ A derived from the drug-administered individual by the measured value of the biomarker A of the organ A derived from the non-administered individual.
  • RNA When the biomarker is a transcriptome, total RNA that can be analyzed from RNA-seq may be used, but the RNA is, for example, WGCNA (https://labs.genetics.ucla.edu/horvath). / CoexpressionNetwork / Rpackages / WGCNA /) may be used to analyze the expression of the RNA and divide it into subsets (modules) of data showing the behavior of each RNA associated with the organ name and the gene name. For each module divided by WGCNA, calculate Pearson's correlation coefficient with the 1-of-K expression for each drug, etc., and select the module with the highest absolute value of the correlation coefficient for each drug, etc. RNA in each organ contained in the selected module may be used as a biomarker.
  • WGCNA https://labs.genetics.ucla.edu/horvath
  • / CoexpressionNetwork / Rpackages / WGCNA / may be used to analyze the expression of the RNA and divide it
  • the change in the transcriptome in each organ of the drug or the like-administered animal as compared with the non-drug-administered animal should be performed using DESeq2 analysis.
  • the expression level of RNA in each organ collected from a drug-administered animal and the gene expression level in each corresponding organ collected from a non-drug-administered animal are quantified by htseq-count, and each count data is obtained. .. Then, the expression level of each organ and each gene in each organ is compared.
  • the log 2 (fold) value of the gene expression fluctuation amount of the drug-administered animal and the p value, which is an index of the certainty of each fluctuation amount, are output for each organ for each organ. Based on the log 2 (fold) value, it is possible to determine the presence or absence of the behavior of a biomarker such as a transcriptome.
  • Organic-derived means, for example, that it was collected from an organ, or that it was cultured from the cells or tissues of the collected organ, or body fluid.
  • the "body fluid” includes serum, plasma, urine, cerebrospinal fluid, ascites, pleural effusion, saliva, gastric juice, pancreatic juice, bile, milk, lymph, interstitial fluid, and the like.
  • the measured value of the biomarker can be obtained by a known method.
  • the biomarker is a nucleic acid
  • the measured value can be obtained by sequencing RNA-Seq or the like, quantitative PCR or the like.
  • the biomarker is at least one metabolite selected from the group consisting of sugars, lipids, glycolipids, amino acids, polyphenols; chemocaines; terminal metabolites, intermediate metabolites, and synthetic raw materials of the substances.
  • the measured value can be obtained by mass spectrometry or the like.
  • the biomarker is a glycoprotein, lipoprotein, peptide, protein or the like
  • the measured value can be obtained by an ELISA method (Enzyme-Linked Immuno Substance Association) or the like.
  • a method for collecting tissue, cells, or body fluid derived from an organ used for measurement, and a pretreatment method for measuring biomarkers are also known.
  • Test substance is a substance to be evaluated for its action.
  • the test substance may be a drug or a drug equivalent.
  • the test substance may be an existing substance or a new substance.
  • the prediction method can predict the action of a test substance in humans even when no association between the action of the test substance and the action of a known drug or an equivalent of a known drug has been found.
  • the test substance is a kind selected from a known drug or an equivalent of a known drug
  • an unknown action of a known drug or an equivalent of a known drug can be found.
  • the unknown action may be one or more.
  • the unknown effect is preferably a new application.
  • Drug repositioning can also be performed by predicting new indications for the test substance in humans. Administration of the test substance to non-human animals is known.
  • the data showing the behavior of the biomarker in one or more organs collected from the non-human animal to which the test substance was administered is the behavior of the biomarker in one or more organs collected from the non-human animal to which the drug or the like was administered. It can be obtained in the same way as the data indicating.
  • the training data includes previously reported adverse event-related information and indication data reported for the known drug, which is generated based on information available from the public drug database 60.
  • Some drug databases such as FAERS, basically include both adverse event data and indication data for each drug.
  • adverse event data reported for a known drug and indication data reported for the known drug can be obtained from one drug database.
  • the adverse event data and the indication data registered in the drug database are associated with a label indicating the drug name so that each data can be identified as which drug belongs to.
  • the label may be the drug name itself, or may be a drug registration number or the like.
  • FIG. 3 shows an example of training data.
  • FIG. 3 (A) is an example of a group of training data for nerve injury (Nerve injury)
  • FIG. 3 (B) is a group of training data for type 2 diabetes (Type 2 diabetes mellitus).
  • Names such as Nerve injury and Type 2 diabetes mellitus are labels indicating indication names.
  • FIG. 3 illustrates aripiprazole and empagliflozin (EMPA) as known agents.
  • Aripiprazole and EMPA are labels indicating drug names.
  • “True Indication” in FIG. 3 is intended for an indication whose effect has been confirmed and is registered in a drug database. For example, in FIG. 3 (A), “True Indication” is a nerve injury, and in FIG.
  • Labels indicating whether or not the indication is an indication whose effect has been confirmed registered in the drug database are "YES” and “NO”, as well as “Y” and “NO”, “1” and “0”, respectively. , “1", "-1” and the like.
  • a plurality of indication data are registered for one drug in the drug database, and these constitute a group of indication data.
  • FIG. 3 exemplifies Sleep disease and Blood glucose declared as adverse events.
  • “Sleep diseaser: 0.026” and “Blood glucose declared: 0.009” are described in the line of aripiprazole.
  • “0.026” and “0.009” are values representing the frequency of occurrence of each adverse event. Therefore, “Sleep diseaser: 0.026” and “Blood glucose declared: 0.009” are the occurrence frequency data of each adverse event.
  • “Sleep disturber: 0.026” and “Blood glucose declared: 0.009” constitute information related to previously reported adverse events of aripiprazole. Then, in the row of aripiprazole in FIG.
  • the indication data “Nerve injury: YES” is the previously reported adverse event-related information “Sleep disturber: 0.026” and “Blood glucose declared: 0. 009 ”is linked. That is, a combination of "Nerve injury: YES” and “Sleep distributor: 0.026” and “Blood glucose declared: 0.009” associated with the "Nerve injury: YES” ("Nerve injury: YES” _ "Sleep disorder:” 0.026 "+” Blood glucose declared: 0.009 "”) constitutes one training data.
  • the predictive artificial intelligence model is an artificial intelligence model that does not have a neural network structure such as a support vector machine (SVM), one artificial intelligence model is used for one indication, and one artificial intelligence model is used for each indication.
  • the group of training data includes "" Nerve injury: YES “_” Sleep disorder: 0.026 “+” Blood glucose declared: 0.009 “” and "” Nerve injury: NO "_” Sleep disorder: 0. .007 ”+“ Blood glucose declared: 0.141 ””.
  • the predictive artificial intelligence model is an artificial intelligence model having a neural network structure
  • one artificial intelligence model is trained for multiple indications. That is, one trained artificial intelligence model corresponds to the prediction of multiple indications. Therefore, the group of training data is "" Nerve injury: YES “+” Nerve injury: NO “_” Sleep disorder: 0.026 “+” Blood glucose declared: 0.009 “” and "Type 2 diabetes mellitus”. : NO "+” Type 2 diabetes mellitus: YES “_” Sleep disorder: 0.026 "+” Blood glucose declared: 0.009 "”.
  • the group of training data of an artificial intelligence model having a neural network structure is not limited as long as the group of previously reported adverse event-related information of a plurality of drugs and the group of indication data of the plurality of drugs are associated with each other.
  • FIG. 3 for convenience, two types of drugs, two types of adverse events, two types of indication data are shown in FIG. 3 (A), and two types are shown in FIG. 3 (B).
  • A two types of drugs
  • B two types of indication data
  • the drug is not limited as long as it is a drug in which adverse event data and indication data are linked in the above-mentioned drug database.
  • the number of drugs is preferably 1,000 or more, 2,000 or more, 3,000 or more, or 4,000 or more.
  • the upper limit is the number registered in the drug data.
  • the number of indication data registered per drug is preferably 1,000 or more, 5,000 or more, or 10,000 or more.
  • the upper limit is the number registered in the drug data.
  • the number of adverse event data registered per drug is preferably 1,000 or more, 5,000 or more, or 10,000 or more.
  • the upper limit is the number registered in the drug data.
  • the adverse event data and the group of adverse event data shown in FIG. 4 are acquired by the processing unit 101 of the training device 10 via the communication I / F 105 by receiving the data acquisition request by the operator. 101 starts acquisition.
  • the acquired adverse event data and the group of adverse event data are recorded in the adverse event database (DB) TR1 stored in the auxiliary storage unit 104 by the processing unit 101.
  • the acquisition of the indication data and the group of indication data from the drug database 60 shown in FIG. 4 is also performed via the communication I / F 105 by receiving the data acquisition request by the operator by the processing unit 101 of the training device 10.
  • the processing unit 101 starts acquisition.
  • the acquired indication data and the group of indication data are recorded by the processing unit 101 in the indication data database (DB) TR2 of the auxiliary storage unit 104 shown in FIG.
  • Predictive Artificial Intelligence Model Training Device Training of the predictive artificial intelligence model can be performed using, for example, a training device 10 (hereinafter, also referred to as device 10).
  • FIG. 4 shows the hardware configuration of the device 10.
  • the device 10 includes at least a processing unit 101 and a storage unit.
  • the storage unit is composed of a main storage unit 102 and / or an auxiliary storage unit 104.
  • the device 10 may be connected to the input unit 111, the output unit 112, and the storage medium 113.
  • the device 10 includes FAERS, DAILYMED's all drugs, Medical Subject Headings, Drugs @ FDA, International Classification of Diseases, and clinical trials. It is communicably connected to a drug database 60 such as gov.
  • the output interface (I / F) 107 and the media interface (I / F) 108 are connected to each other by a bus 109 so as to be capable of data communication.
  • the processing unit 101 is composed of a CPU, an MPU, a GPU, or the like.
  • the device 10 functions when the processing unit 101 executes a computer program stored in the auxiliary storage unit 104 or the ROM 103 and processes the acquired data.
  • the processing unit 101 is described in the above 1. Use the training data described in to train a predictive artificial intelligence model.
  • the ROM 103 is composed of a mask ROM, a PROM, an EPROM, an EEPROM, and the like, and records a computer program executed by the processing unit 101 and data used for the program.
  • the ROM 103 stores the boot program executed by the processing unit 101 when the device 10 is started, and the programs and settings related to the operation of the hardware of the device 10.
  • the main storage unit 102 is composed of a RAM (Random access memory) such as a SRAM or a DRAM.
  • the main storage unit 102 is used for reading the computer program recorded in the ROM 103 and the auxiliary storage unit 104. Further, the main storage unit 102 is used as a work area when the processing unit 101 executes these computer programs.
  • the main storage unit 102 temporarily stores the functions of the artificial intelligence model read from the auxiliary storage unit 104, such as training data acquired via the network.
  • the auxiliary storage unit 104 is composed of a hard disk, a semiconductor memory element such as a flash memory, an optical disk, or the like.
  • the auxiliary storage unit 104 stores various computer programs for execution by the processing unit 101, such as an operating system and an application program, and various setting data used for executing the computer programs.
  • the adverse event database (DB) TR1 that stores the frequency data and information on adverse events and the indication data database (DB) TR2 that stores the indication data of the drug acquired from the drug database 60 are stored non-volatilely. do.
  • the training program TP cooperates with the operation software (OS) 1041 to perform training processing of the artificial intelligence model described later.
  • the artificial intelligence model database AI1 may store an untrained artificial intelligence model and a trained predictive artificial intelligence model.
  • the communication I / F 105 is a serial interface such as USB, IEEE1394, RS-232C, a parallel interface such as SCSI, IDE, IEEE1284, an analog interface including a D / A converter, an A / D converter, and a network interface controller ( It is composed of Network interface controller (NIC) and the like.
  • the communication I / F 105 receives data from the measuring unit 30 or another external device under the control of the processing unit 101, and transmits information stored or generated by the device 10 to the measuring unit 30 or the outside as needed. Or display.
  • the communication I / F 105 may communicate with the measuring unit 30 or another external device (not shown, for example, another computer or a cloud system) via a network.
  • the input I / F 106 is composed of, for example, a serial interface such as USB, IEEE1394, RS-232C, a parallel interface such as SCSI, IDE, IEEE1284, and an analog interface including a D / A converter and an A / D converter. NS.
  • the input I / F 106 accepts character input, click, voice input, and the like from the input unit 111.
  • the received input contents are stored in the main storage unit 102 or the auxiliary storage unit 104.
  • the input unit 111 is composed of a touch panel, a keyboard, a mouse, a pen tablet, a microphone, and the like, and inputs characters or voices to the device 10.
  • the input unit 111 may be connected from the outside of the device 10 or may be integrated with the device 10.
  • the output I / F 107 is composed of an interface similar to that of the input I / F 106, for example.
  • the output I / F 107 outputs the information generated by the processing unit 101 to the output unit 112.
  • the output I / F 107 outputs the information generated by the processing unit 101 and stored in the auxiliary storage unit 104 to the output unit 112.
  • the output unit 112 is composed of, for example, a display, a printer, etc., and displays the measurement results transmitted from the measurement unit 30, various operation windows in the device 10, each training data, an artificial intelligence model, and the like.
  • the media I / F 108 reads, for example, application software stored in the storage medium 113.
  • the read application software and the like are stored in the main storage unit 102 or the auxiliary storage unit 104. Further, the media I / F 108 writes the information generated by the processing unit 101 into the storage medium 113.
  • the media I / F 108 writes the information generated by the processing unit 101 and stored in the auxiliary storage unit 104 to the storage medium 113.
  • the storage medium 113 is composed of a flexible disk, a CD-ROM, a DVD-ROM, or the like.
  • the storage medium 113 is connected to the media I / F 108 by a flexible disk drive, a CD-ROM drive, a DVD-ROM drive, or the like.
  • the storage medium 113 may store an application program or the like for the computer to execute an operation.
  • the processing unit 101 may acquire the application software and various settings necessary for controlling the device 10 via the network instead of reading from the ROM 103 or the auxiliary storage unit 104.
  • the application program is stored in the auxiliary storage unit of the server computer on the network, and the device 10 can access the server computer to download the computer program and store it in the ROM 103 or the auxiliary storage unit 104. Is.
  • an operating system that provides a graphical user interface environment such as Windows (registered trademark) manufactured and sold by Microsoft Corporation in the United States is installed in the ROM 103 or the auxiliary storage unit 104.
  • the training program TP shall run on the operating system. That is, the device 10 can be a personal computer or the like.
  • FIG. 5 Processing of Prediction Training Program FIG. 5 will explain the flow of training processing of the prediction artificial intelligence model.
  • the processing unit 101 receives the processing start command input from the input unit 111 by the operator, and the group of adverse event data and the group of indication data of each drug from the database TR1 and the database TR2 stored in the auxiliary storage unit 104 in step S1. Is read.
  • step S2 the processing unit 101 generates a data group of the frequency of occurrence from the group of adverse event data of each drug, if necessary.
  • the method of calculating the frequency of occurrence is described in 1. above. As described in (3).
  • step S3 the processing unit 101 described the above 2-1. Generate previously reported adverse event-related information for each drug according to the method described in.
  • the processing unit 101 reads the artificial intelligence model from the artificial intelligence model database AI1 stored in the auxiliary storage unit 104, and generates the previously reported adverse event-related information and the indication data associated with the generated adverse event. Enter the group into the artificial intelligence model and train the artificial intelligence model.
  • the artificial intelligence model read out in step S3 may be an artificial intelligence model that has not been trained yet, or an artificial intelligence model that has already been trained.
  • step S4 the processing unit 101 records the trained artificial intelligence model for prediction in the auxiliary storage unit 104, and ends the processing.
  • Training of the artificial intelligence model for prediction can be performed using software such as Python.
  • the first training data group may be composed of a group of data showing the behavior of biomarkers in one or a plurality of different organs.
  • the one or more different organs can be harvested from each non-human animal individually administered with a plurality of known agents known to act in humans.
  • the first training data group can be stored as a database.
  • Each of the data showing the behavior of the biomarker in each of the organs can be associated with information on the name of the known drug administered, information on the name of the collected organ, information on the name of the biomarker, and the like.
  • the information about the name may be the name itself, a label such as an abbreviation, or a label value corresponding to each name.
  • Each data included in the group of data showing the behavior of the biomarker is an element constituting a matrix in the first training data group of the artificial intelligence model described later.
  • the biomarker is a transcriptome
  • the expression level of each RNA corresponds to the data and becomes an element of the matrix constituting the first training data group.
  • the biomarker is a transcriptome
  • the log 2 (fold) value of each known drug obtained by DESeq2 analysis may be used as each element of the first training data group.
  • FIG. 6 shows a part of an example of the first training data group when the transcriptome is used as a biomarker.
  • Data showing the behavior of biomarkers is for each label of a known drug name (row direction), and the label indicating the combination of an organ name and a gene name (sometimes expressed as "organ-gene") is in the column direction. It is represented as a matrix arranged in. Each element of the matrix is the expression level of the gene indicated on the column label in the organ indicated on the column label taken from a non-human animal to which the known agent indicated by the row label was administered. More specifically, the row direction is labeled with the known agents Aripiprazole, EMPA.
  • labels such as Heart_Alas2, Heart_Apod, ParotidG_Alas2, and ParotidG_Apod are attached.
  • Heart "Parotid G” and the like are labels indicating organs such as the heart and parotid glands, and "Alas2" and “Apod” and the like indicate gene names from which RNA is derived. That is, the label “Heart_Alas2" means "expression of the Alas2 gene in the heart”.
  • the group of data showing the behavior of the biomarker may be used as it is as the first training data group, or may be used as the first training data group after standardization, dimension reduction, or the like.
  • a standardization method for example, a method of converting data showing an expression difference so that the average value is 0 and the variance is 1 can be exemplified.
  • the average value in standardization can be the average value in each organ, the average value in each gene, or the average value in all data.
  • the dimension reduction can be performed by statistical processing such as principal component analysis.
  • the population for statistical processing can be organ-by-organ, gene-by-gene, or whole data.
  • the biomarker is a transcriptome
  • only genes whose p-value with respect to the log2 (fold) value of each known drug obtained by DESeq2 analysis is equal to or less than a predetermined value may be used as the first training data group.
  • the predetermined value can be, for example, 10 -3 or 10 -4 . Preferably, it is 10-4.
  • the first training data group can be updated by updating known drugs and adding data showing the behavior of new biomarkers.
  • the second training data consists of information on adverse events in humans obtained for each of a plurality of known drugs administered to non-human animals when generating the first training data group. Can be done.
  • the singular second training data corresponds to information about adverse events (eg, "headache") associated with one drug.
  • the adverse event data should be acquired from the drug database 60 or the like and generated in the same manner as the previously reported adverse event-related information used as the training data of the artificial intelligence model for prediction. Can be done.
  • FIG. 7 shows an example of the generated second training data.
  • FIG. 7 shows the frequency of occurrence of each adverse event calculated based on the adverse event data of aripiprazole and EMPA downloaded from FAERS.
  • the adverse event of each drug may be expressed as the presence or absence of an adverse event, for example, "1" when a certain adverse event is confirmed, "0" or "-1" when it is not confirmed.
  • the second training data can be updated by updating known drugs, updating publicly known databases, and the like.
  • the acquisition of the measured value of the biomarker from the measuring device 30 shown in FIG. 8 is acquired by the processing unit 501 via the communication I / F 505 when the processing unit 501 of the test data generation device 50 receives the data acquisition request by the operator.
  • the acquired measured values of the biomarkers are recorded by the processing unit 501 in the estimation first training data database (DB) ETR1 of the auxiliary storage unit 504 shown in FIG.
  • the adverse event data and the group of adverse event data shown in FIG. 8 are acquired via the communication I / F 505 by receiving the data acquisition request by the operator by the processing unit 501 of the test data generation device 50.
  • the processing unit 501 starts acquisition.
  • the acquired adverse event data and the group of adverse event data are stored in the second training data database (DB) ETR2 for estimation stored in the auxiliary storage unit 504 by the processing unit 501.
  • DB training data database
  • estimation test data to be input to the estimation artificial intelligence model uses the target drug, etc. as the test substance.
  • the estimation test data is generated by the same method as the first training data and stored in the estimation test data database (DB) ETS shown in FIG.
  • Training of artificial intelligence model for estimation and estimation of adverse events Using the above-mentioned first training data group and second training data or second training data group, an artificial intelligence model is trained and an artificial intelligence model for estimation is constructed. do. Building an artificial intelligence model can include training an untrained artificial intelligence model and retraining an artificial intelligence model once trained. For the retraining, the updated first training data group and / or the second training data described above can be used.
  • the first training data group and the second training data or the second training data group are combined and input to the artificial intelligence model as training data.
  • the estimation training data is a label indicating the name of a known drug administered to a non-human animal, which is associated with (i) data indicating the behavior of the biomarker in each of the organs, which is included in the first training data group. Based on (ii) a label indicating the name of each known drug administered to the non-human animal, which is associated with information related to adverse events contained in the second training data or the second training data group.
  • the 1 training data group is associated with the 2nd training data or the 2nd training data group.
  • the correct answer (or TRUE, label "1" indicating the correct answer) is given to the group of data indicating the behavior of the biomarker in each organ.
  • the artificial intelligence models trained to predict each adverse event are Random Forest, SVM, Relevance Vector Machine (RVM), Naive Bayes, AdaBoost, C4.5, Stochastic Gradient Descent (SGD) Classification.
  • RVM Relevance Vector Machine
  • AdaBoost AdaBoost
  • C4.5 Stochastic Gradient Descent
  • the first training data group is One second training data can be linked.
  • the first One training data is associated with a plurality of second training data, that is, a second training data group.
  • each row showing the label of each known drug shown in FIG. 6 and each cell shown in FIG. 7 are linked one by one and input to the artificial intelligence model.
  • the training data for the set is generated. That is, the row of Aripiprazole shown in FIG. 6 and the row of Aripiprazole shown in FIG. 7 “sleepiness-0.5” are associated as one data set. Further, the line of Aripiprazole shown in FIG. 6 and the line "Low blood sugar-0.0" of the line of Aripiprazole shown in FIG. 7 are associated as one data set. Further, the row of EMPA shown in FIG. 6 and the row of EMPA shown in FIG.
  • FIG. 7 “sleepiness-0.01” are linked as one data set.
  • the row of EMPA shown in FIG. 6 and the row of EMPA shown in FIG. 7 "Low blood sugar-0.12" are associated as one data set. That is, from the data of the examples of FIGS. 6 and 7, a total of four data sets are generated as training data.
  • 0.5, 0.0, 0.01, and 0.12 are the occurrence frequencies of adverse events (when the maximum value is 1).
  • Prediction test data generation device Construction of the estimation artificial intelligence model can be performed using, for example, the following prediction test data generation device 50.
  • the predictive test data generation device 50 (hereinafter, also referred to as the device 50) includes at least a processing unit 501 and a storage unit.
  • the storage unit is composed of a main storage unit 502 and / or an auxiliary storage unit 504.
  • FIG. 8 shows the hardware configuration of the device 50.
  • the device 50 may be connected to the input unit 511, the output unit 512, and the storage medium 513. Further, it may be connected to a measuring unit 30 such as a next-generation sequencer or a mass spectrometer. That is, the device 50 may constitute a predictive test data generation system that is directly connected to the measurement unit 30 or via a network or the like.
  • the hardware configuration of the device 50 is basically the same as that of the training device 10. Therefore, the above 2-2. The explanation of is used here.
  • the output interface (I / F) 507 and the media interface (I / F) 508 are connected to each other by a bus 509 so as to be capable of data communication.
  • the auxiliary storage unit 504 includes an operation software (OS) 1041, a training program TP for prediction, an artificial intelligence model database (DB) AI1, an adverse event data database (DB) TR1, and an indication data database (DB) TR2.
  • operation software (OS) 5041 estimation training program ETP, estimation artificial intelligence model database (DB) EAI, estimation first training data database (DB) ETR1, estimation second training data database ( Stores DB) ETR2, estimation test data database (DB) ETS, and prediction test data database (DB) PTS.
  • the estimation artificial intelligence model database (DB) EAI stores the pre-training and post-training artificial intelligence models.
  • the first training data database (DB) ETR1 for estimation is the name of the drug to which a group of data showing the behavior of biomarkers in each organ collected from non-human animals to which each known drug was administered was administered as the first training data. Store in association with the indicated label.
  • the second training data database (DB) ETR2 for estimation stores information on adverse events used as second training data corresponding to each known drug administered to non-human animals in association with a label indicating the drug name. do.
  • Estimating test data ETS stores data showing the behavior of biomarkers in each organ collected from non-human animals to which a target drug or the like is administered as a test substance, which is used as estimation test data.
  • the processing device 50 of the estimation training program realizes a training function by executing the estimation training program ETP as application software by the processing unit 501.
  • step S11 the processing unit 501 receives the input of the processing start request from the input unit 511 by the operator, and stores the artificial intelligence model stored in the estimation artificial intelligence database EAI of the auxiliary storage unit 504, for example, in the main storage unit 502. Temporarily read to. Further, the processing unit 501 receives the input of the training data acquisition request from the input unit 511 by the operator, and from the estimation first training data database ETR1, the above 3-1. The first training data group obtained from the non-human animal to which each known drug described in the above was administered is read out. Further, from the estimation second training data database ETR2, information on adverse events corresponding to the administered drug or a group thereof is read out as a second training data or a group of the second training data.
  • step S12 the processing unit 501 attaches the first training data group and the second training data or the second training data group read in step S11 to the non-human animal associated with the first training data group.
  • the label indicating the name of the known drug administered and the label indicating the name of the known drug administered to the non-human animal associated with the second training data are linked and input to the artificial intelligence model.
  • step S13 the processing unit 501 calculates parameters such as weights in the function of the artificial intelligence model and trains the artificial intelligence model.
  • step S14 the processing unit 501 stores the trained artificial intelligence model as an estimation artificial intelligence model in the estimation artificial intelligence database EAI.
  • the training process can be performed using software such as Python, for example.
  • the processing device 50 of the estimation program generates test data for prediction by executing the estimation program EP as application software by the processing unit 501.
  • the processing unit 501 receives the processing start command input by the operator from the input unit 511, and in step S31 of FIG. 10, reads out the estimation test data from the estimation test data database ETS stored in the auxiliary storage unit 504. In addition, the processing unit 501 reads out the trained artificial intelligence model for estimation from the estimation artificial intelligence model database EAI stored in the auxiliary storage unit 504.
  • the processing unit 501 receives the prediction start command input from the input unit 211 by the operator, inputs the estimation test data to the training estimation artificial intelligence model in step S32, and causes an adverse event such as a target drug. Get the estimation result.
  • the estimation result can be output as a combination of a label indicating the adverse event name and a label indicating whether or not it is an adverse event from the trained estimated artificial intelligence model.
  • a label indicating whether or not it is an adverse event it is estimated to be "1" or “not present” when it is estimated that the target drug or the like "has” an adverse event corresponding to the artificial intelligence model. If so, "0" or "-1" can be output.
  • the processing unit 501 receives the recording command of the estimation result input from the input unit 511 by the operator, and in step S33, the estimation result estimated in step S32 is stored in the prediction test data database PTS of the auxiliary storage unit 504. Record.
  • the processing unit 501 receives the occurrence frequency calculation start request input by the operator from the input unit 511, and in step S34, calculates the occurrence frequency of each adverse event corresponding to the target drug or the like for which the estimation result was acquired.
  • the frequency data of each adverse event in each drug is recorded in the predictive test data database PTS of the auxiliary storage unit 504.
  • the method of calculating the frequency of occurrence is described in 1. above. As mentioned in.
  • the occurrence frequency data of each adverse event in each target drug or the like becomes the test data for prediction.
  • the processing unit 501 may accept the output command input by the operator from the input unit 511, or may output the estimation result to the output unit 512 with the end of step S34 as a trigger.
  • the estimation process can be performed using software such as Python, for example.
  • the trained predictive artificial intelligence model is a network or storage medium from the artificial intelligence database AI1 recorded in the auxiliary storage unit 104 of the device 10 shown in FIG. It may be acquired by the prediction device 20 via 213 and recorded in the database TS1 in the prediction device 20 auxiliary storage unit 204.
  • the prediction test data is acquired by the prediction device 20 from the prediction test data database PTS stored in the prediction test data generation device 50 shown in FIG. 8 via a network or a storage medium 213, and is processed by the processing unit. 201 records the acquired predictive test data in the test data database TS1 (hereinafter, also simply referred to as “database TS1”) stored in the auxiliary storage unit 204.
  • Indication Prediction Device Indication prediction can be performed using, for example, a prediction device 20 (hereinafter, may be simply referred to as a device 20).
  • FIG. 11 shows the hardware configuration of the prediction device 20 (hereinafter, also referred to as the device 20).
  • the device 20 includes at least a processing unit 201 and a storage unit.
  • the storage unit is composed of a main storage unit 202 and / or an auxiliary storage unit 204.
  • the device 20 may be connected to the input unit 211, the output unit 212, and the storage medium 213.
  • the device 20 includes FAERS, DAILYMED's all drugs, Medical Subject Headings, Drugs @ FDA, International Classification of Diseases, and clinical trials. It is communicably connected to a drug database 60 such as gov. Further, the device 20 may be communicably connected to the device 10 and the device 50 via a network.
  • the output interface (I / F) 207 and the media interface (I / F) 208 are connected to each other by bus 209 so as to be capable of data communication.
  • the auxiliary storage unit 204 of the device 20 instead of the operation software (OS) 1041, the training program TP for prediction, the artificial intelligence model database AI1, the adverse event data database TR1, and the indication data database TR2, , Operation software (OS) 2041, the prediction program PP, the artificial intelligence model database AI2 that stores the trained artificial intelligence model, and the database TS1 that stores the prediction test data are stored non-volatilely.
  • the prediction program PP cooperates with the operation software (OS) 2041 to perform prediction processing of indications described later.
  • the processing unit 201 receives the processing start command input by the operator from the input unit 211, and in step S51 of FIG. 12, reads out the prediction test data from the database TS1 stored in the auxiliary storage unit 204. In addition, the processing unit 201 reads the trained artificial intelligence model for prediction from the artificial intelligence model database AI2 stored in the auxiliary storage unit 204.
  • the processing unit 201 receives the prediction start command input by the operator from the input unit 211, inputs the prediction test data into the trained prediction artificial intelligence model in step S52, and inputs the prediction test data to the target drug or the like. Get the prediction result.
  • the prediction result can be output from the trained artificial intelligence model as a combination of a label indicating the indication name and a label indicating whether or not the indication is indicated.
  • a label indicating whether or not it is an indication if the target drug, etc. is predicted to be "effective" for the indication supported by the artificial intelligence model, it is predicted to be "1" or “not effective”. In that case, "0" or "-1" can be output.
  • the processing unit 204 records these prediction results in the auxiliary storage unit 204.
  • the processing unit 201 When the test substance is a known drug or an equivalent substance of a known drug, the processing unit 201 then receives an analysis command of the prediction result input by the operator from the input unit 211, and obtains it in step S54 and in step S53.
  • a mixed matrix analysis was performed on the predicted results, and the predicted results were true positive (True Positive: TP) but false positive (False Positive: FP) with respect to the predicted indication results output for each drug. Is determined.
  • TP true Positive
  • FP False Positive
  • the label "1" is attached to the label indicating the indication name.
  • the label "1" is attached to the label indicating the indication name.
  • a true positive is an indication registered as "indication” (the drug works) for each drug registered in the drug database 60, and is predicted to be “indication” in the prediction result. It means that it has been done.
  • False positives are indications that are registered in the drug database 60 and are not registered as “indications” for each drug, but are predicted to be “indications” in the prediction results. means.
  • the indication determined to be false positive becomes a new indication for the target drug or the like.
  • the indication data of each drug is accompanied by a label indicating the indication name and a label indicating whether or not each drug is effective for the indication.
  • Step S54 is not performed on drugs for which no adverse events have been reported.
  • the processing unit 201 receives the recording command of the prediction result input by the operator from the input unit 211, and in step S55, the prediction result acquired in step S53 or the analysis result acquired in step S54 is stored in the auxiliary storage unit 204. And end the process.
  • the processing unit 201 may accept the output command input by the operator from the input unit 211, or may output the analysis result to the output unit 212 with the end of step S55 as a trigger.
  • the prediction process can be performed using software such as Python, for example.
  • the mixed matrix analysis can be performed using, for example, software "R".
  • the predictive test data used in is obtained based on the behavior of biomarkers in one or more organs when a drug or the like of interest is administered to a non-human animal as a test substance.
  • the relationship between the predictive test data of each test substance and each indication corresponding to each target drug, etc. is the behavior of biomarkers of multiple organs when each test substance is administered and each indication. Can be replaced with a relationship.
  • the relationship between the behavior of the biomarker in one or more organs when each test substance is administered and each indication can be linked to the biological reaction by performing a known pathway analysis.
  • the biological reaction can be expressed as an information transmission pathway (hereinafter, simply referred to as "pathway"). Examples of the pathway analysis include KEGG paceway analysis and REACTOME paceway analysis.
  • Action mechanism estimation device FIG. 13 shows the hardware configuration of the action mechanism estimation device 80 (hereinafter, also referred to as device 80).
  • the device 80 includes at least a processing unit 801 and a storage unit.
  • the storage unit is composed of a main storage unit 802 and / or an auxiliary storage unit 804.
  • the device 80 may be connected to the input unit 811, the output unit 812, and the storage medium 813. Further, the device 80 is communicably connected to a pathway database 70 such as KEGG paceway analysis analysis and REACTOME paceway analysis. Further, the device 80 may be communicably connected to the device 10, the device 20, and the device 50 via a network.
  • the output interface (I / F) 807 and the media interface (I / F) 808 are connected to each other by a bus 809 so as to be capable of data communication.
  • the operation software (OS) 1041 the training program TP for prediction, the artificial intelligence model database AI1, the adverse event data database TR1, and the indication data database TR2 are replaced.
  • Operation software (OS) 8041, analysis program AP that performs pathway analysis, predictive adverse event data database (DB) ADP, predictive indication data database (DB) IDB, biomarker database (DB) BDB To store.
  • the predicted adverse event data database ADP is described in 3-5 above.
  • the estimation result of the adverse event of each drug obtained in step S32 described in step S32 or the occurrence frequency data of the adverse event of each drug calculated in step S34 is stored in association with the name of each drug.
  • the estimation result of the adverse event of each drug is obtained from the predictive test data database PTS stored in the device 50 by the device 80 via the communication I / F 805 or the storage medium 813, and the prediction result of the auxiliary storage unit 804 is obtained. It can be recorded in the adverse event data database ADP.
  • the predictive indication data database IDB is described in 4-3.
  • the prediction result of the indication of each drug obtained in step S52 described in the above is stored in association with the name of each drug.
  • the device 80 acquires the prediction result stored in the auxiliary storage unit 204 of the device 20 via the communication I / F 805 or the storage medium 813, and the prediction adaptation of the auxiliary storage unit 804. It can be recorded in the disease data database IDB.
  • the biomarker database BDB is described in 3-2.
  • the estimation test data described in the above is stored in association with the name of each drug.
  • the estimation test data, the estimation test data database ETS stored in the device 50, is acquired by the device 80 via the communication I / F 805 or the storage medium 813, and recorded in the biomarker database BDB in the auxiliary storage unit 804. can do.
  • the analysis program AP may include, for example, software R package "cluster Profiler" when performing KEGG paceway enrichment analysis.
  • software R package "cluster Profiler” when performing KEGG paceway enrichment analysis.
  • REACTOME pathway analysis https: // reactome. It may include browser software for accessing org / and the like.
  • the processing unit 801 receives the data acquisition start command input from the input unit 811 by the operator, and in step S71 shown in FIG. 14, the above 3-5 from the predicted adverse event data database ADP.
  • the occurrence frequency data of adverse events of each drug calculated in step S34 described in the above is read out.
  • estimation test data corresponding to each drug is read from the biomarker database BDB.
  • step S72 the processing unit 801 receives the processing start command input from the input unit 811 by the operator, and converts the estimation result of the adverse event of each drug read in step S71 and the estimation test data into a binary matrix representation. ..
  • the processing unit 801 may perform dimensional conversion by performing principal component analysis or the like on the data converted into the binary matrix representation.
  • the processing unit 801 performs hierarchical clustering on the converted data or the reduced-dimensional converted data. This process can be performed using, for example, software "R". By this treatment, the behavior of biomarkers that contributed to the prediction of adverse events in each drug can be estimated. These analyzes can be performed using software "R" or the like.
  • step S73 the processing unit 801 receives the pathway analysis start command input by the operator from the input unit 811, and in step S72, the processing unit 801 determines the behavior of the biomarker estimated to have a high degree of contribution by hierarchical clustering. , REACTOME pathway analysis, etc., and information on what kind of biometric information transmission pathway is involved is acquired from the pathway database as information on the mechanism of action of each drug.
  • the processing unit 801 receives a recording command of the prediction result input by the operator from the input unit 811, records the acquisition result of step S73 in the auxiliary storage unit 804 in step S74, and ends the processing.
  • the processing unit 801 may accept the output command input by the operator from the input unit 811 or output the acquisition result to the output unit 812 with the end of step S74 as a trigger.
  • Computer program 6-1 Prediction training program The prediction training program is described in 2. above. This is a computer program that causes the computer to function as the training device 10 by causing the computer to execute the processes including steps S1 to S4 described in the above.
  • Prediction program The prediction program is described in 4. above. This is a computer program that causes the computer to function as the prediction device 20 by causing the computer to execute the processes including steps S51 to S54 described in the above.
  • Prediction test data generation program The prediction test data generation program is described in 3. above. This is a computer program that causes the computer to function as the test data generation device 50 by causing the computer to execute the processes including steps S11 to S14 and steps S31 to S34 described in the above.
  • test data generation program for predicting the mechanism estimation program is described in 5. above.
  • This is a computer program that causes a computer to function as an action mechanism estimation device 80 by executing a process including steps S71 to S74 described in the above.
  • Storage medium for storing computer programs The present disclosure is described in 6. above. It relates to a storage medium for storing each computer program described in.
  • the computer program is stored in a semiconductor memory element such as a hard disk or a flash memory, or a storage medium such as an optical disk. Further, the computer program may be stored in a storage medium such as a cloud server that can be connected to a network.
  • the computer program may be a program product in download format or stored in a storage medium.
  • the storage format of the program in the pre-storage medium is not limited as long as the presenting device can read the program.
  • the storage in the storage medium is preferably non-volatile.
  • training device 10 and the prediction device 20 are different computers.
  • one computer may train and predict artificial intelligence models.
  • the artificial intelligence model database AI1 may be stored in the cloud and accessed in the cloud for training and prediction.
  • the test data generator 50 trained the estimation artificial intelligence model, and generated the prediction test data using the estimation artificial intelligence model.
  • the training of the estimation artificial intelligence model and the generation of the prediction test data may be performed by another computer.
  • one computer may generate predictive test data, predictive training data, and predict indications.
  • the artificial intelligence model database AI1 and the artificial intelligence model database EAI for estimation may be stored in the cloud and accessed to the cloud for training and prediction.
  • the frequency data of 17,155 adverse events registered in each of the 4,885 drugs registered in FAERS was calculated individually, and a group of frequency data of adverse events was generated for each drug.
  • a group of data on the frequency of adverse events of each drug was input as test data into a trained artificial intelligence model to predict indications.
  • 15 and 16 are results showing how accurately the reported indications for each drug could be predicted.
  • FIG. 15 shows the accuracy score indicating the accuracy of the prediction, the recall score indicating the coverage rate when predicted to be “indication”, and the predicted “indication” for all drugs.
  • the distribution of the precision score which indicates the reliability in the case of The accuracy score and the precision score are shown to be more accurate as they approach 1.0.
  • the recall score is intended to increase the accuracy rate of indications reported to be "effective" to 100% as it approaches 1.
  • the vertical axis of the graph shows the number of drugs belonging to each quantile when the score is divided into 11 by 0.1 in the range of -0.1 to 1.0.
  • the accuracy score of the prediction results of all indications of the drugs entered as test data showed a high score of 90% or more in 4,764 drugs (97.5%) out of 4,885 drugs.
  • the precision score was 90% or more for 1,790 drugs (36.6% of all drugs) out of 4,885 drugs, 70% or more for 3,252 drugs (66.6% of all drugs), and 4,238 drugs (86.8% of all drugs). It showed more than 50%.
  • FIG. 16 shows each score of the top 50 drugs having an accuracy score, a precision score, and a recall score of 1.0 among the 4,885 drugs.
  • TN is true negative
  • TP is true positive
  • FN is false negative
  • FP is true positive
  • True negative indicates the number of items that can be predicted to be “not indicated” for “non-indication”
  • true positive indicates the number of items that can be predicted to be “indication” for “indication”.
  • False negatives indicate the number of items predicted to be “not indicated” for "indications”
  • false positives indicate the number of items predicted to be "indications" for "no indications”.
  • the F-measure score is a harmonic mean of the precision score and the recall score, and is an index for evaluating the degree of accuracy obtained by integrating the precision score and the recall score.
  • 17 and 18 show how accurately the indication predictions derived from the trained artificial intelligence model could predict each reported indication (registered in FAERS). be.
  • FIG. 17 is a bar graph showing the distribution of accuracy score, recall score, and precision score for all indications.
  • the structure of the graph is the same as that in FIG.
  • the accuracy score of the predicted results of all reported indications was as high as 90% or more in 10,929 indications (96.6%) out of 11,310 indications.
  • the precision score was 90% or more for 7,230 indications (63.9% of all TIs) out of 11,310 indications, and 80% or more for 8,016 indications (70.9% of all TIs).
  • the recall score was 50% or more for 972 indications (8.6% of all TIs), 30% or more for 1,786 indications (15.8% of all TIs), and 4,873 indications (43.1%). Of all TIs) showed 10% or more.
  • FIG. 18 shows each score of the top 50 drugs having an accuracy score, a precision score, and a recall score of 1.0 among the 11,310 indications.
  • the terms used in FIG. 18 are similar to those used in FIG.
  • auxiliary data 2 TN, TP, FN, FP, accuracy score, precision score, recall score, and F-measure score for all indications are shown as auxiliary data 2 at the end of the detailed description of the invention.
  • the drugs used for training the artificial intelligence model include drugs approved by US Food and Drug Administration (FDA) and / or Pharmaceuticals and Medical Devices Agency (PMDA) from 2017 to 2019.
  • FDA US Food and Drug Administration
  • PMDA Pharmaceuticals and Medical Devices Agency
  • FIG. 19 A summary of the results is shown in Fig. 19. The meanings of the terms used in FIG. 19 are the same as those in FIG.
  • 61 drugs Of the 61 drugs, 54 drugs (88.5% of the drugs) showed an accuracy score of 90% or higher. Of the 61 drugs, 27 drugs (44.3%) showed 90%, 44 drugs (72.1%) showed 70% or more, and 53 drugs (86.9%) showed 50% or more. Of the 61 drugs, 4 drugs (6.6%) showed 50% or more, 17 drugs (27.9%) showed 30% or more, and 45 drugs (73.8%) showed 10% or more.
  • 9-2 Prediction of indications using estimated predictive test data (1) Evaluation by cross-validation Above 9-1. Using RF as an artificial intelligence model instead of the SVM used in 9-1. We trained a predictive artificial intelligence model as well. We used'RandomForestClassifier ()'(Python package'scikit-learn') for RF training. In'RandomForestClassifier ()', the parameter'n_estimator' minimized the generalization error. Other parameters are defaults
  • test agents (alendronate, acetaminophen, aripiprazole, asenapine, cisplatin, clozapine, doxicycline, empagliflozin, lenalidomide) , Lurasidone, olanzapine, evolocumab, lysedronate, sophosbuvir, teriparatide) to generate predictive test data for adverse events.
  • Predictive test data is referred to here as “virtual” AE (V-AE).
  • the first training data of the artificial intelligence model for estimation was obtained by administering the above 15 kinds of test drugs to mice according to the method described in Non-Patent Document 2 and acquiring each drug.
  • the second training data a group of frequency data of all adverse events of each drug registered in FAERS was used.
  • the first training data and the second training data were input to the artificial intelligence model RF, the artificial intelligence model was trained, and an artificial intelligence model for estimation was generated.
  • the data showing the behavior of the biomarker of the first training data was input to the trained estimated artificial intelligence model as the test data for estimation, and the V-AE of each drug as the prediction result was acquired.
  • Non-Patent Document 2 describes a method for predicting the indication of a drug using R-AE as test data and link prediction (LP) as an artificial intelligence model. Therefore, the prediction accuracy using V-AE by the prediction method of the present embodiment was compared with the prediction accuracy using LP described in Non-Patent Document 2. The result is shown in FIG. 21 (B).
  • the prediction results of TP for indications using V-AE included the results of the prediction method using R-AE for all test drugs. However, with the two test drugs, the indication of TP could not be predicted by the prediction method using R-AE. From this, it was shown that the prediction method using V-AE has higher prediction accuracy.
  • the prediction method using V-AE was able to detect far more FP than the prediction method using R-AE. From this, it was shown that the prediction method using V-AE can search for candidate indications different from the prediction method using R-AE.
  • the prediction results of TP for indications using V-AE included the results of the prediction method using R-AE for 13 types of test drugs. However, with the two test drugs, the indication of TP could not be predicted by the prediction method using R-AE. From this, it was shown that the prediction method using V-AE has higher prediction accuracy.
  • the prediction method using V-AE was able to detect FP different from the prediction method using R-AE. From this, it was shown that the prediction method using V-AE can search for candidate indications different from the prediction method using R-AE.
  • each V-AE The frequency of occurrence of each V-AE is predicted based on the behavior of biomarkers in one or more organs when each test drug is administered to mice. Therefore, we estimated the behavior of biomarkers that contribute to the estimation of each V-AE for V-AE corresponding to each drug, which is important for estimating the indication of each drug.
  • PCA principal component analysis
  • V-AE The relationship between V-AE of each test drug subjected to hierarchical clustering and each indication is shown in a dendrogram (Fig. 24 (A)).
  • V-AE is predicted based on the transcriptome profile of multiple organs that depends on the administration of each study drug. Therefore, the relationship between V-AE of each test drug and each indication should be converted into a transcriptome profile in multiple organs at the time of administration of each test drug and a dendrogram of the relationship with each indication. (Fig. 24 (B)). Then, the relationship between the transcriptome profile in a plurality of organs when each test drug is administered and each indication can be linked to the biological reaction by performing a known pathway analysis.
  • a pathway analysis was performed on osteoporosis and schizophrenia for some of the transcriptome profiles in multiple organs when each test drug was administered.
  • pathway analysis KEGG pathway enrichment analysis and REACTOME pathway analysis were performed.
  • REACTOME pathway analysis was done at https://reactome.org/.
  • KEGG pathway enrichment analysis was performed using R package “clusterProfiler” version 3.10.1. In the KEGG pathway enrichment analysis, there was a significant difference when the p-value was less than 0.05.
  • the therapeutic mechanism for each disease can be predicted from the drugs predicted to be applicable to the treatment of osteoporosis and schizophrenia based on the tree diagram of the PCA results.
  • FIG. 25 shows the distribution of the main component 1 (PC1) and the main component 2 (PC2) of the V-AE and transcriptome patterns of osteoporosis and schizophrenia.
  • FIG. 25 (A) is the distribution of V-AE
  • FIG. 25 (B) is the distribution of the transcriptome pattern.
  • Transcriptome analysis after PCA analysis showed that the mechanism of action of the drug on osteoporosis and schizophrenia is very similar.
  • FIG. 26 shows the result when REACTOME Pathways is used
  • FIG. 27 shows the result when predicted using KEGG pathway.
  • 26 and 27 are Venn diagrams showing the estimated number of pathways in each organ for osteoporosis and schizophrenia. The overlapping part is the estimated pathway common to osteoporosis and schizophrenia. 26 and 27 also show that the pathways for treating osteoporosis and the pathways for treating schizophrenia are very similar.
  • Training device 20 Prediction device 101 Processing unit 201 Processing unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Urology & Nephrology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Hematology (AREA)
  • Genetics & Genomics (AREA)
  • Toxicology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)

Abstract

本発明は、有害事象、及び/又は副作用がわかっていない薬剤について、有害事象、及び/又は副作用に基づいて適応症の予測、ドラッグリポジショニング及び/又はドラッグリパーパシングを行うことを課題とする。 目的とする薬剤又はその等価物質の適応症の予測方法であって、前記目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報、及び/又は推定副作用関連情報を被験データとして予測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測すること、を含む、前記予測方法により、課題を解決する。

Description

目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム
 本明細書には、目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラムが開示される。
 薬物の発見と開発には、長い時間と、膨大な資金が費やされるが、その過程にはリスクがある。新薬の発見と開発には、平均で12年かかり、約26億ドルの費用がかかると言われている。このような途方もない努力にもかかわらず、臨床試験で成功する候補薬はたった13.8%といわれている。これらの課題を回避するために、いくつかの戦略とアプローチが提案され、実行されている。その1つが、既存薬物のリポジショニング、リパーパシング(DR)である(非特許文献1)。
 DRは、既存の臨床的に承認された医薬品のさらなる治療適応症(therapeutic indication(s):TI(s))を探索する方法である。DRでは、必要な開発時間は短く、費用も新薬開発ほどはかからない。また、医薬品は、ヒトにおける少なくとも1つの疾患又は状態を治療するために使用することがすでに承認されている。このため、ヒトにおける毒性の懸念が少ない。このためDRでは、フェーズIの臨床試験をスキップして、フェーズIIの試験にすぐに進むことができる。さらに、これらの薬物はすでに人間が使用するために大量生産されているため、臨床用の生産プロセスはすでに最適化されている。DRのこれらの特性は、開発及び承認プロセスの時間とコストの大幅な削減につながる(非特許文献1)。
 現在、DRアプローチには主に2つのタイプがある。1つは、DR候補薬の生物学的、薬理学的、及び/又は構造的特性を徹底的に研究及び理解することにより、各DR候補薬の新しい適応症、及び/又は用途を合理的に設計及びスクリーニングする方法である。もう1つは、セレンディピティ(serendipity:偶然の発見)によるものである。すなわち、新たな適応症、及び/又は新たな適用を、前臨床試験、臨床試験、及び/又は新薬の現実世界のモニタリング中に偶発的に発見することが可能な場合がある。これらの一般的なアプローチは比較的非効率的であり、現在のDR発見プロセスのボトルネックである(非特許文献1)。
 新薬の開発において、新薬の候補物質の探索を補助する方法として、特許文献1には、被験物質が投与された個体の一種以上の器官由来の細胞又は組織から得られた各器官における器官連関指標因子の被験データと、あらかじめ決定された対応する器官連関指標因子の標準データとを比較して、器官連関指標因子のパターンの類似度を算出するパターン類似度を求め、器官連関指標因子のパターンの類似度を指標にして、前記一種以上の器官における、及び/又は前記一種以上の器官以外の器官における被験物質の効能又は副作用を予測する方法が開示されている。
 また、新薬の開発において、候補物質の効能又は副作用を予測する方法として、特許文献2、及び非特許文献2には、ヒトにおける作用が既知である複数の既知の薬剤を個別に投与した非ヒト動物から前記非ヒト動物ごとに採取された複数の異なる器官におけるトランスクリプトームの挙動を示すデータ群と、前記既知の薬剤ごとのヒトにおける既知の作用を示すデータとを訓練データとして人工知能モデルに入力し、人工知能モデルを訓練することを含む、被験物質を投与した非ヒト動物の複数の異なる器官であって、訓練データの作成時に採取された器官と同じ複数の器官におけるトランスクリプトームの挙動から前記被験物質のヒトにおける1又は複数の作用を予測するための人工知能モデルが開示されている。
国際公開第2016/208776号 特許第6559850号公報
Pushpakom, S et al., (2019): Nature reviews Drug discovery 18, 41-58. Kozawa, S et al., (2020): iScience (DOI: 10.1016/j.isci.2019.100791) Li, J., and Lu, Z. (2012): Proceedings (IEEE Int Conf Bioinformatics Biomed) 2012, 1-4.
 非特許文献3に記載の方法は、公知の薬剤データベースから有害事象及び/又は副作用の情報と、適応症の情報を取得し、新たな適応症の予測を行う方法である。この場合、新規適応症を探索したい目的とする薬剤の有害事象、及び/又は副作用があらかじめわかっている必要がある。このため、新規の薬剤については適応できないという課題がある。
 本発明は、有害事象、及び/又は副作用がわかっていない薬剤について、有害事象、及び/又は副作用に基づいて適応症の予測、ドラッグリポジショニング及び/又はドラッグリパーパシングを行うことを課題とする。
 本発明者は、鋭意研究を重ねたところ、公共のデータベース等に登録されている様々な公知の薬剤における有害事象、及び/又は副作用の情報と、適応症の情報に基づいて訓練された人工知能モデルと、特許文献2及び非特許文献2に記載の人工知能モデルとを用いて、有害事象、及び/又は副作用がわかっていない薬剤についても、適応症予測、ドラッグリポジショニング及び/又はドラッグリパーパシングを行うことができることを見出した。
 本発明は、当該知見に基づいて完成されたものであり、以下の態様を含む。
項1.目的とする薬剤又はその等価物質の適応症の予測方法であって、前記目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして予測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測すること、を含む、前記予測方法。
項2.前記予測用人工知能モデルは、訓練データの群によって訓練され、前記訓練データの群は、(I)個々の既知の薬剤について報告されている既報有害事象関連情報、及び/又は既報副作用関連情報に、(II)前記既知の薬剤について報告されている適応症データが紐付けられたデータである、項1に記載の予測方法。
項3.前記予測用人工知能モデルは、1つの適応症に対応する、項1又は2に記載の予測方法。
項4.前記予測用人工知能モデルは、複数の適応症に対応する、項1又は2に記載の予測方法。
項5.前記推定有害事象関連情報、及び/又は推定副作用関連情報が、前記予測用人工知能モデルとは異なる、推定用人工知能モデルを用いて生成される、項1から4のいずれか一項に記載の予測方法。
項6.前記訓練データの群は、前記既知の薬剤の適応症を示すラベルと、前記既知の薬剤について報告されている有害事象に関する情報とを、前記既知の薬剤の名称を示すラベルで紐付けることにより生成される、項1から5のいずれか一項に記載の予測方法。
項7.前記推定有害事象関連情報、及び/又は推定副作用関連情報は、(1)複数の有害事象、及び/又は副作用の有無、又は(2)複数の有害事象、及び/又は副作用の発生頻度に対応する、項1から6のいずれか一項に記載の予測方法。
項8.目的とする薬剤又はその等価物質の適応症の予測装置であって、前記予測装置は、処理部を含み、前記処理部は、前記目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして予測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測する、ように構成される前記予測装置。
項9.コンピュータに実行させたときに、目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測するステップを、コンピュータに実行させる、目的とする薬剤又はその等価物質の適応症を予測するためのコンピュータプログラム。
項10.生体内における被験物質の作用メカニズムを推定する、推定方法であって、項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化することと、階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い、被験物質の作用機序の情報を取得すること、を含む、前記推定方法。
項11.生体内における被験物質の作用メカニズムを推定する、推定装置であって、前記推定装置は、処理部を含み、前記処理部は、項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化することと、階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い、被験物質の作用機序の情報を取得すること、を備える、前記推定装置。
項12.コンピュータに実行させたときに、項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化するステップと、階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い被験物質の作用機序の情報を取得するステップ、を備える処理をコンピュータに実行させる、生体内における被験物質の作用メカニズムを推定させる、推定プログラム。
 有害事象、及び/又は副作用がわかっていない薬剤について、有害事象、及び/又は副作用に基づいて適応症の予測、ドラッグリポジショニング及び/又はドラッグリパーパシングを行うことが可能となる。
本明細書に開示される適応症の予測方法の概要を示す。 被験データを生成するための有害事象に関する情報の推定方法を示す。 訓練データの例を示す。(A)は、Nerve injuryの訓練データの群の例である。(B)は、Type 2 diabetes mellitusの訓練データの群である。 予測用訓練装置10のハードウエア構成を示す。 予測用訓練処理のフローチャートを示す。 バイオマーカーの挙動を示すデータの例を示す。 生成された第2訓練データの例を示す 予測用被験データ生成装置50のハードウエア構成を示す。 推定用訓練プログラムの処理のフローチャートを示す。 推定プログラムの処理のフローチャートを示す。 予測装置20のハードウエア構成を示す。 予測処理のフローチャートを示す。 作用メカニズムの推定装置80のハードウエア構成を示す。 解析プログラムの処理のフローチャートを示す。 すべての薬剤を対象とする、accuracyスコア、recallスコア、及びprecisionスコアの分布を示す。 適応症を予測した薬剤の中で、accuracyスコア、precisionスコア、及びrecallスコアがすべて1.0であった上位50薬剤の各スコアを示す。 すべての適応症を対象とする、accuracyスコア、recallスコア、及びprecisionスコアの分布を示す。 予測された適応症の中で、accuracyスコア、precisionスコア、及びrecallスコアがすべて1.0であった上位50薬剤の各スコアを示す。 ブラインド評価の結果を示す。 V-AEとR-AEとの比較を示す。 V-AEを用いた15種の被験薬の適応症の予測結果を示す。(A)は混合マトリクスの結果を示す。(B)は、V-AEを用いた15種の被験薬の適応症の予測結果とLPを後いた予測結果のaccuracyスコア、precisionスコア、及びrecallスコアの比較を示す。 V-AEによる適応症の予測結果と、R-AEを用いたOne-Class SVMによる適応症の予測結果の比較を示す。上段はTPの比較であり、下段はFPの比較である。 V-AEによる適応症の予測結果と、R-AEを用いたLPによる適応症の予測結果の比較を示す。上段はTPの比較であり、下段はFPの比較である。 (A)は、各被験薬のV-AEと各適応症との関係示す樹形図である。(B)は、各被験薬のトランスクリプトームプロファイルと各適応症との関係示す樹形図である。 骨粗鬆症と、統合失調症の薬剤の作用機序の比較を示す。(A)はV-AEの分布であり、(B)は、トランスクリプトームパターンの分布である。 REACTOME Pathwaysを使用して、各器官における骨粗鬆症と、統合失調症に対する薬剤の作用に関連するパスウエイを予測し、比較した結果を示す。 KEGG pathwayを使用して、各器官における骨粗鬆症と、統合失調症に対する薬剤の作用に関連するパスウエイを予測し、比較した結果を示す。
1.訓練方法及び予測方法の概要と用語の説明
 はじめに、本開示のある実施形態である人工知能の訓練方法、及び予測方法の概要を説明する。予測方法は、目的とする薬剤又はその等価物質(本明細書において、薬剤又はその等価物質を含めて、単に「薬剤等」という場合もある)の適応症を予測する。好ましくは、予測方法は、目的とする薬剤又はその等価物質を被験物質として非ヒト動物に投与し、前記投与後の非ヒト動物から1又は複数の器官を採取し、採取された1又は複数の器官からバイオマーカーの挙動を示すデータの群を取得し、前記バイオマーカーの挙動から推定された有害事象(adverse-event:AE)関連情報(以下、「推定有害事象関連情報」と呼ぶ)、及び/又は副作用(side-effect:SE)関連情報(以下、「推定副作用関連情報」と呼ぶ)を被験データとする。予測方法は、被験データに基づいて、前記目的とする薬剤又はその等価物の適応症(therapeutic indication:TI)を予測する。前記予測は、人工知能モデルを使用して達成される。ここでは、便宜上、有害事象を用いた例を示す。
(1)訓練フェーズ
 図1上段に訓練フェーズの概要を示す。訓練データは、公共の薬剤データベースから取得可能な情報に基づく、既知の薬剤について報告されているヒトにおける有害事象に関する情報(以下、「既報有害事象関連情報」ともいう)と、前記既知の薬剤について報告されている適応症データを含む。図1では後述するFAERSを例示するが、この薬剤データベースには、薬剤ごとに、ヒトにおいて報告されている有害事象と、報告されていない有害事象が登録されている。言い換えると、薬剤ごとに、複数種の有害事象について、各有害事象が現れたか否かに関する情報が登録されている。1つの薬剤について、ある1つの有害事象が現れたか否か(ある1つの有害事象の有無)に関する情報を本明細書において有害事象データと呼ぶ。有害事象データは、その有害事象データがどの薬剤のデータであるかを示す、薬剤名を示すラベルと紐付けられている。薬剤データベースには、1薬剤について、有害事象データが、複数登録されており、これらは有害事象データの群を構成する。したがって、有害事象に関する情報には、(i)1つの薬剤について登録されている有害事象データの群、又は(ii)1つの薬剤の有害事象データの群に基づいて算出された各有害事象の発生頻度データの群が含まれ得る。発生頻度データは、その発生頻度データがどの薬剤のデータであるかを示す、薬剤名を示すラベルと紐付けられている。
 また、適応症についても同様に、薬剤ごとに、ヒトにおいて適用可能な疾患や症状と、適用の可能性が報告されていない疾患や症状とが登録されている。言い換えると、薬剤ごとに、複数種の疾患や症状について、各疾患や症状が適応症であるか否かを示す情報が登録されている。1つの薬剤について、ある1つの疾患又は症状に適用される可能性があるか否かを示す情報を本明細書において適応症データと呼ぶ。適応症データは、その適応症データがどの薬剤のデータであるかを示す、薬剤名を示すラベルと紐付けられている。薬剤データベースには、1薬剤について、適応症データが、複数登録されており、これらは適応症データの群を構成する。訓練データに含まれる疾患や症状が適応症であるか否かを示す情報は、あくまでも、薬剤データベースに登録された情報であり、実際に実験的にその薬剤が適用可能であるか確認されていない情報も含み得る。
 ここで、「紐付けられている」とは、あくまでも各データとそのデータがどの薬剤のものであるかの対応関係がわかるように付されていることを意図する。人工知能に入力する有害事象に関する情報及び適応症データには、薬剤名を示すラベルは付されていない。
 図1上段において、個々の既知の薬剤(図1ではDrug 1・・・)について報告されている有害事象に関する情報(図1では、AE1、AE2、AE3、AE4・・・)は、例えば薬剤名を示すラベルに基づいて、薬剤ごとに、各適応症データ(Indicstion A:YES、Indication B:NO)と紐付けることができる。
 例示的に図1には、ランダムフォレスト(RF)等のニューラルネットワーク構造を有しない人工知能モデルを使用する例を示す。
 この例では、1つの適応症に1つの人工知能モデルを使用し、適応症ごとに人工知能モデルを訓練する。
 このため所定の適応症(例えば、Indication A)についての適用可能性を予測するため、1つの人工知能モデルに対して、個々の既知の薬剤について報告されている有害事象に関する情報(図1では、AE1、AE2、AE3、AE4・・・)と、それぞれの薬剤に対応する適応症データ(例えば、Indication A:YES)とを組み合わせて、人工知能モデルに入力し、人工知能モデルを訓練する。また、同様に別の適応症(例えば、Indication B)についての適用可能性を予測するため、1つの人工知能モデルに対して、個々の既知の薬剤について報告されている有害事象に関する情報(図1では、AE1、AE2、AE3、AE4・・・)と、それぞれの薬剤に対応する適応症データ(例えば、Indication B:NO)とを組み合わせて、人工知能モデルに入力し、人工知能モデルを訓練する。この訓練フェーズで訓練された人工知能モデルは、後述する予測用被験データから適応症を予測するための人工知能モデルであり、予測用人工知能モデルと称する。
 薬剤には、予測フェーズで使用する被験データを取得される薬剤が含まれていても、含まれていなくてもよい。
(2)予測フェーズ
 次に、訓練した人工知能モデルを使用し、目的とする薬剤又はその等価物質の適応症を予測する。好ましくは、ヒトにおける適応症を予測する。より好ましくは、新たな適応症を予測する。新たな適応症は、ある薬剤についてまだ知られていない適応症である。
 予測用被験データは、特許文献2、及び非特許文献2に記載の方法にしたがって生成される。具体的には、予測用人工知能モデルとは異なる、推定用人工知能モデルを使用して、予測用被験データを生成する。
 図2に予測用被験データを生成するための、推定用人工知能モデルの訓練方法と、推定用人工知能モデルを用いた予測用被験データの生成方法の概要を示す。
 図2に示すように、推定用人工知能モデルの訓練フェーズにおいて、例えば既知の薬剤A、B、Cを個別にマウス等の非ヒト動物に投与し、前記非ヒト動物からそれぞれに器官又は器官の一部である組織を採取する。次に採取した器官又は組織におけるバイオマーカーの挙動を解析し、バイオマーカーの挙動を反映する第1訓練データ群を生成する。また、既知の薬剤について報告されている有害事象に関する情報を格納したヒト臨床データベース(薬剤データベース)から、有害事象に関する情報である第2訓練データを生成する。
 推定用人工知能モデルは、第1訓練データ群と第2訓練データとを用いて推定用人工知能モデルを訓練することにより生成される。推定フェーズは、訓練された推定用人工知能モデルを使って、被験物質Xを投与した非ヒト動物の1又は複数の器官におけるバイオマーカーの挙動を示すデータを推定用被験データとして、被験物質Xのヒトにおける有害事象を予測する。具体的には、被験物質Xを投与した非ヒト動物から1又は複数の器官又は器官の一部を個別に採取し、それぞれの器官におけるバイオマーカーの挙動を示すデータの群を取得する。続いて、前記データ群を、推定用被験データとして前記訓練された推定用人工知能モデルに入力し、被験物質Xのヒトにおける有害事象の有無、又は発生頻度を予測する。推定用人工知能モデルにより、出力された(A)被験物質Xについて予測された有害事象データの群、又は(B)被験物質Xについて予測された各有害事象の発生頻度データの群は、被験物質Xの推定された推定有害事象関連情報となる。有害事象データの群、及び発生頻度データは、その発生頻度データがどの薬剤のデータであるかを示す、薬剤名を示すラベルと紐付けられている。このように、特許文献2、及び非特許文献2に記載の方法にしたがって各データを取得でき、これらのデータを使用し、公知の薬剤データベースに有害事象が登録されていない薬剤についても、有害事象に関する情報を推定することができる。
 図1に戻り、予測用人工知能モデルを用いた、目的とする薬剤等の適応症の予測フェーズについて説明する。予測フェーズにおいて、推定用人工知能モデルにより推定された推定された推定有害事象関連情報を被験データとして使用する。被験データを、上記(1)で訓練した人工知能モデルに入力し、適応症を予測する。
 図1下段に予測フェーズの例を示す。ここでは、適応症を予測したい薬剤(薬剤X)を非ヒト動物に投与し取得した各器官におけるバイオマーカーの挙動を示すデータの群に基づいて、上述の方法にしたがって、推定用人工知能モデルを使用し、推定した有害事象に関する情報AE1、AE2、AE3、AE4・・・を生成する。図1下段に記載されているhMDBは、非特許文献2で報告されているhumanized Mouse DataBase individualized,hMDB-iを意図する。推定した有害事象に関する情報AE1、AE2、AE3、AE4・・・を予測用被験データとして、適用症ごとに訓練された人工知能モデル(図1ではRF for Indication A、及びRF for Indication B)にそれぞれ入力する。薬剤Xが、Indication Aに対して効果がない場合、Indication Aへの適用可能性を予測するRF for Indication Aからは、適用可能性がないことを示すラベル「NO」が出力される。一方、薬剤Xが、Indication Bに対して効果を有する場合、RF for Indication Bから、ラベル「YES」が出力される。このとき、Indication Bを薬剤Xの適応症と予測することができる。薬剤Xについて、Indication Bが知られていない適応症である場合、Indication Bは、薬剤Xの新たな適応症である。
 このようにして、hMDBを使用することにより、公知の薬剤データベースに有害事象が登録されていない薬剤等についても、有害事象に関する情報に基づいてヒトにおける適応症を予測することができる。
 さらに、本実施形態が、予測された適応症から、目的とする薬剤等の作用メカニズムを予測することを含む。
(3)用語の説明
 本開示において、「薬剤」には、医薬品、医薬部外品、薬用化粧品、食品、特定保健用食品、機能性表示食品及びこれらの候補品等を含む。また、「薬剤」には、薬事承認のための前臨床試験又は臨床試験において試験が中止又は中断された物質も含む。また、薬剤には、新たな薬剤及び既知の薬剤を含む。より具体的には、「薬剤」には、例えば化合物;核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸;ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;金属イオン;又は微生物等が含まれうる。ここで、「薬剤」又はその等価物質には、単剤と、複数種の薬剤等を組み合わせた併用剤が含まれ得る。
 「目的とする薬剤」は、適応症を予測したい薬剤である。
 「既知の薬剤」は、既存の薬剤である限り、制限されない。好ましくは、ヒトにおける作用が既知である薬剤である。また、薬剤の等価物質には、既存の薬剤と構造が類似し、既知の薬剤と類似の作用を有するものを含み得る。ここで類似の作用とは、作用の強さは異なるものの既知の薬剤と同種の作用を有するものを意図する。
 「有害事象」は、ヒトに害があると判断される作用である限り制限されない。好ましくは、FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm)、clinicaltrials.gov (https://clinicaltrials.gov/)等の公共の薬剤データベースに収載された有害事象を例示することができる。
 副作用は、有害事象に限定されない、各薬剤の適応症以外のヒトへの作用を意図する。副作用は、SIDER4.1(http://sideeffects.embl.de)等の公共の薬剤データベースに収載された副作用を例示することができる。
 有害事象又は副作用の発生頻度は、次の方法により求めることができる。有害事象の名称を示す単語又はフレーズを上記clinicaltrials.gov、FAERS、DAILYMEDのall drug labels等のデータベースからテキスト抽出等により抽出する。抽出された1単語又は1フレーズは、報告された1件の有害事象としてカウントすることができる。1つの既知の薬剤に対して、有害事象を例にすると、発生頻度=(1つの有害事象が報告された件数)/(その既知の薬剤について報告された有害事象の全件数)の式により求めることができる。データベースにおいて作用に関連する説明が文章で登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
 「適応症」は、ヒトにおける疾患や症状を軽減、治療、進行を停止、予防する対象である限り制限されない。前記疾患や症状として、前述のFAERS、DAILYMEDのall drug labels (https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm )、Medical Subject Headings(https://www.nlm.nih.gov/mesh/meshhome.html)、Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)、International Classification of Diseases(https://www.who.int/health-topics/international-classification-of-diseases)等の公共の薬剤データベースに収載された疾患又は症状を例示することができる。より具体的には、適応症は、血栓症、塞栓症、狭窄症等の虚血性疾患(特に心臓、脳、肺、大腸等);動脈瘤、静脈瘤、うっ血、出血等の循環障害(大動脈、静脈、肺、肝臓、脾臓、網膜等);アレルギー性気管支炎、糸球体腎炎等のアレルギー性疾患;アルツハイマー型認知症等の認知症、パーキンソン病、筋萎縮性側索硬化症、重症筋無力症等の変性疾患(神経、骨格筋等);腫瘍(良性上皮性腫瘍、良性非上皮性腫瘍、悪性上皮性腫瘍、悪性非上皮性腫瘍);代謝性疾患(糖質代謝異常、脂質代謝異常、電解質異常);感染症(細菌、ウイルス、リケッチア、クラミジア、真菌等、原虫、寄生虫等)、腎疾患、全身性エリテマトーデス、多発性硬化症等の自己免疫疾患等に伴う症状又は疾病を挙げることができる。
 本開示において、「人工知能モデル」は、一群の入力データから目的とする結果を出力可能なアルゴリズムの単位をいう。人工知能モデルには、ランダムフォレスト(RF)、サポートベクターマシン(SVM)、リレバンスベクターマシン(RVM)、ナイーブベイズ、ロジスティック回帰、フィードフォワードニューラルネットワーク、ディープラーニング、K近傍法、AdaBoost、バギング、C4.5、カーネル近似、確率的勾配降下法(SGD)分類器、Lasso、リッジ回帰、Elastic Net、SGD回帰、カーネル回帰、Lowess回帰、マトリックス フラクトリゼーション、ノンネガティブ マトリックス フラクトリゼーション、カーネル マトリックス フラクトリゼーション、内挿法、カーネルスムーサー、及び協調フィルタリング手法等を含み得る。
 本開示において、予測用人工知能モデル及び推定用人工知能モデルを訓練することには、バリデーション処理、汎化処理等を含んでいてもよい。バリデーション処理、汎化処理は、ホールドアウト法、クロスバリデーション法、AIC(An Information Theoretical Criterion/Akaike Information Criterion)、MDL (Minimum Description Length)、WAIC (Widely Applicable Information Criterion)等を例示することができる。
 本開示において、非ヒト動物は、制限されない。例えば、マウス、ラット、イヌ、ネコ、ウサギ、ウシ、ウマ、ヤギ、ヒツジ、ブタ等の哺乳動物、ニワトリ等の鳥類等が挙げられる。好ましくはマウス、ラット、イヌ、ネコ、ウシ、ウマ、ブタ等の哺乳動物であり、より好ましくはマウス、又はラット等であり、さらに好ましくはマウスである。非ヒト動物には、前記動物の胎児、雛等も含まれる。
 「器官」は、上述した哺乳動物、又は鳥類の体内に存在する器官である限り制限されない。例えば、哺乳動物の場合、器官として循環器系器官(心臓、動脈、静脈、リンパ管等)、呼吸器系器官(鼻腔、副鼻腔、喉頭、気管、気管支、肺等)、消化器系器官(口唇、頬部、口蓋、歯、歯肉、舌、唾液腺、咽頭、食道、胃、十二指腸、空腸、回腸、盲腸、虫垂、上行結腸、横行結腸、S状結腸、直腸、肛門、肝臓、胆嚢、胆管、胆道、膵臓、膵管等)、泌尿器系器官(尿道、膀胱、尿管、腎臓)、神経系器官(大脳、小脳、中脳、脳幹、脊髄、末梢神経、自律神経等)、女性生殖器系器官(卵巣、卵管、子宮、膣等)、乳房、男性生殖器系器官(陰茎、前立腺、精巣、精巣上体、精管)、内分泌系器官(視床下部、下垂体、松果体、甲状腺、副甲状腺、副腎等)、外皮系器官(皮膚、毛、爪等)、造血器系器官(血液、骨髄、脾臓等)、免疫系器官(リンパ節、扁桃、胸腺等)、骨軟部器官(骨、軟骨、骨格筋、結合組織、靱帯、腱、横隔膜、腹膜、胸膜、脂肪組織(褐色脂肪、白色脂肪)等)、及び感覚器系器官(眼球、眼瞼、涙腺、外耳、中耳、内耳、蝸牛等)から選択される少なくとも一種が挙げられる。好ましくは、「器官」として、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺から選択される少なくとも一種を挙げることができる。好ましくは、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺すべてを、本開示に係る予測に使用する。複数の器官とは、2以上であれば制限されない。例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、及び24種の器官から選択することができる。
 「バイオマーカー」には、前記物質の投与に依存して、各器官の細胞若しくは組織、及び/又は体液で変動しうる生体内物質をいう。「バイオマーカー」となりうる生体内物質は、核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸、ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;及び金属イオン等から選択される少なくとも一種を例示することができる。より好ましくは、核酸である。前記バイオマーカーは、前記物質の投与に依存して、各器官の細胞若しくは組織、及び/又は体液で変動しうる生体内物質の群であることが好ましい。生体内物質の群として、例えば、核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸、ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;及び金属イオン等から選択される少なくとも一種の群を例示することができる。
 「核酸」として好ましくはmRNA、非翻訳RNA、microRNA等のトランスクリプトームに含まれるRNAの群であり、より好ましくはmRNAの群である。RNAとして好ましくは、上記器官の細胞若しくは組織、又は体液中の細胞において発現され得るmRNA、非翻訳RNA及び/又はmicroRNAであり、より好ましくは、RNA-Seq等で検出され得るmRNA、非翻訳RNA及び/microRNAである(https://www.ncbi.nlm.nih.gov/gene?LinkName=genome_gene&from_uid=52、http://jp.support.illumina.com/sequencing/sequencing_software/igenome.html)。好ましくは、RNA-Seqをとして解析可能なRNAすべてを本開示に係る予測に使用する。
 「バイオマーカーの挙動を示すデータの群」とは、薬剤等の投与に応じてバイオマーカーが変動したこと、又は変動しなかったことを示すデータの群を意図する。好ましくは、バイオマーカーの挙動は、薬剤等の投与に応じてバイオマーカーが変動したことを示す。前記データは、例えば、次の方法により取得することができる。薬剤等を投与した非ヒト動物から採取されたある器官に由来する組織、細胞、又は体液等について、各バイオマーカーの存在量又は濃度を測定し、薬剤等投与個体の各器官における測定値を取得する。また、薬剤等を投与していない非ヒト動物から、薬剤等投与個体の測定値を取得した器官に対応する器官に由来する組織、細胞、又は体液等について、同様に各バイオマーカーの存在量又は濃度を測定し、非投与個体の測定値を取得する。薬剤等投与個体の各器官に由来する各バイオマーカーの測定値を、非投与個体において薬剤等投与個体のバイオマーカーに対応する各器官におけるバイオマーカーの測定値と比較し、その差を示す値をデータとして取得する。ここで「対応する」とは、器官及びバイオマーカーが同じであるか、同種であるかを意味する。好ましくは、前記差は、薬剤等投与個体に由来する各バイオマーカーの測定値と、このバイオマーカーに対応する非投与個体においてバイオマーカーの測定値との比(例えば除算値)で示すことができる。例えば、データは、薬剤等投与個体に由来する器官AのバイオマーカーAの測定値を非投与個体に由来する器官AのバイオマーカーAの測定値で除した除算値である。
 また、バイオマーカーがトランスクリプトームである場合、RNA-seqより解析可能な全RNAを使用してもよいが、前記RNAは、例えば、WGCNA(https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/)を用いて前記RNAの発現について解析し、器官名と遺伝子名が紐付けられた各RNAの挙動を示すデータの部分集合(モジュール)に分割してもよい。WGCNAにより分割した各モジュールに対し、各薬剤等について、1-of-K表現とのピアソンの相関係数を算出し、各薬剤等について相関係数の絶対値が一番高いモジュールを選択し、選択されたモジュールに含まれる各器官におけるRNAをバイオマーカーとしてもよい。
 さらに、薬剤等の投与に応じてバイオマーカーがトランスクリプトームである場合、薬剤等の非投与動物と比較した薬剤等投与動物の各器官におけるトランスクリプトームの変動を、DESeq2解析を用いて行うことができる。例えば、薬剤等投与動物から採取した各器官におけるRNAの発現量と、薬剤等非投与動物採取した対応する各器官における遺伝子の発現量とを、htseq-countで定量し、それぞれのカウントデータを得る。そして、各器官及び各器官における各遺伝子の発現量の比較を行う。比較結果として、薬剤等投与動物の遺伝子発現変動量のlog(fold)値、及び各変動量の確からしさの指標となるp値が器官ごとに各遺伝子について出力される。log(fold)値に基づいて、トランスクリプトーム等のバイオマーカーの挙動の有無を判定することができる。
 「器官由来」とは、例えば、器官から採取されたこと、採取された器官の細胞、若しくは組織、又は体液から培養されたことを意図する。
 前記「体液」には、血清、血漿、尿、髄液、腹水、胸水、唾液、胃液、膵液、胆汁、乳汁、リンパ液、細胞間質液等が含まれる。
 前記バイオマーカーの測定値は、公知の方法により取得することができる。バイオマーカーが核酸の場合には、RNA-Seq等のシーケンシング、定量的PCR等で測定値を取得することができる。バイオマーカーが、糖質、脂質、糖脂質、アミノ酸、ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質等である場合には、質量分析等によって、測定値を取得することができる。バイオマーカーが、糖タンパク質、リポタンパク質、ペプチド、タンパク質等である場合には、ELISA法(Enzyme-Linked Immuno Sorbent Assay)等で測定値を取得することができる。また、測定に用いる器官由来の組織、細胞、又は体液の採取方法、バイオマーカーを測定するための前処理方法も公知である。
 「被験物質」は、作用を評価する対象となる物質である。被験物質は、薬剤又は薬剤の等価物であってもよい。被験物質は、既存物質であっても新規物質であってもよい。予測方法では、被験物質の作用と、既知の薬剤又は既知の薬剤の等価物と作用の関連性が見出されていない場合であっても、ヒトにおける被験物質の作用を予測することができる。一方、被験物質が、既知の薬剤又は既知の薬剤の等価物から選択される一種である場合、既知の薬剤又は既知の薬剤の等価物の未知の作用を見つけることができる。未知の作用は一種であっても複数種であってもよい。未知の作用は、好ましくは新規適用症である。ヒトにおける被験物質の新規適用症を予測することにより、ドラッグリポジショニングを行うこともできる。被験物質の非ヒト動物への投与は公知である。また被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータは、薬剤等を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータと同様に取得することができる。
2.予測用人工知能モデルの構築
 有害事象を例として、予測用人工知能モデルの構築について説明する。
2-1.訓練データの生成
 訓練データの生成方法について説明する。訓練データは、公共の薬剤データベース60から取得可能な情報に基づいて生成される、既報有害事象関連情報と、前記既知の薬剤について報告されている適応症データを含む。
 「有害事象データ」、「有害事象に関する情報」及び「適応症データ」の定義は、上記1.(1)の説明をここに援用する。
 薬剤データベースには、FAERSのように各薬剤について基本的に有害事象データと適応症データの両方を含むものがある。このような場合には、1つの薬剤データベースから既知の薬剤について報告されている有害事象データと、前記既知の薬剤について報告されている適応症データを取得することができる。
 一方、例えば、clinicaltrials.gov等は、有害事象に関する情報のみが記載されているため、各薬剤の適応症については、別の薬剤データベース、FAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases等から取得することができる。
 上記1.(1)で述べたとおり、薬剤データベースに登録されている有害事象データと適応症データは、各データがどの薬剤のものであるかわかるように薬剤名を示すラベルと紐付けられている。ラベルは、薬剤名そのものであってもよいが、薬剤の登録番号等であってもよい。
 図3に訓練データの例を示す。図3(A)は、神経損傷(Nerve injury)の訓練データの群の例であり、図3(B)は、2型糖尿病(Type 2 diabetes mellitus)の訓練データの群である。Nerve injury及びType 2 diabetes mellitus等の名称は、適応症名を示すラベルとなる。図3では、既知の薬剤として、アリピプラゾール及びエンパグリフロジン(EMPA)を例示している。アリピプラゾール及びEMPAは、薬剤名を示すラベルとなる。図3における“True Indication”は、薬剤データベースに登録されている効果が確認されている適応症を意図する。例えば、図3(A)では“True Indication”は神経損傷であり、図3(B)では“True Indication”は2型糖尿病である。図3(A)では、アリピプラゾールは神経損傷に適用がある薬剤であるため、“Nerve injury:YES”が“True Indication”の列に付されている。EMPAは、神経損傷に適用がない薬剤であるため、“Nerve injury:NO”が“True Indication”の列に付されている。図3(B)では、アリピプラゾールは2型糖尿病には適用がない薬剤であるため、“Type 2 diabetes mellitus:NO”が“True Indication”の列に付されている。EMPAは、2型糖尿病に適用がある薬剤であるため、“Type 2 diabetes mellitus:YES”が“True Indication”の列に付されている。
 “Nerve injury:YES”、“Nerve injury:NO”、“Type 2 diabetes mellitus:NO”、“Type 2 diabetes mellitus:YES”が適応症データとなる。
 薬剤データベースに登録されている効果が確認されている適応症であるか否かを示すラベルは、“YES”及び“NO”の他、それぞれ“Y”及び“NO”、“1”及び“0”、“1”及び“-1”等であってもよい。
 上記1.(1)で述べたとおり、薬剤データベースには、1薬剤について、適応症データが複数登録されており、これらが、適応症データの群を構成している。
 図3では、有害事象としてSleep disorder、Blood glucose decreasedを例示している。図3(A)では、アリピプラゾールの行に、“Sleep disorder:0.026”と、“Blood glucose decreased:0.009”とが記載されている。“0.026”と、“0.009”とは、各有害事象の発生頻度を表す値である。したがって、“Sleep disorder:0.026”と、“Blood glucose decreased:0.009”とは、それぞれの有害事象の発生頻度データとなる。そして、“Sleep disorder:0.026”と、“Blood glucose decreased:0.009”とが、アリピプラゾールの既報有害事象関連情報を構成する。そして、図3(A)のアリピプラゾールの行では、適応症データである“Nerve injury:YES”が、既報有害事象関連情報である“Sleep disorder:0.026”と、“Blood glucose decreased:0.009”が、紐付けられている。すなわち、“Nerve injury:YES”と、これに紐付けられた、“Sleep disorder:0.026”及び“Blood glucose decreased:0.009”の組み合わせ(「“Nerve injury:YES”_“Sleep disorder:0.026”+“Blood glucose decreased:0.009”」と表すことがある)が、1つの訓練データを構成する。
 また、図3(A)では、EMPAの行に、“Sleep disorder: 0.007”と、“Blood glucose decreased: 0.141”とが記載されている。“Sleep disorder: 0.007”と、“Blood glucose decreased: 0.141”とが、EMPAの既報有害事象関連情報を構成する。そしてこれらの既報有害事象関連情報に、適応症データ“Nerve injury:NO”が紐付けられた組み合わせ(「“Nerve injury:NO”_“Sleep disorder: 0.007”+“Blood glucose decreased: 0.141”」と表すことがある)が、1つの訓練データを構成する。
 図3(B)では、アリピプラゾールの行に、既報有害事象関連情報として“Sleep disorder:0.026”と、“Blood glucose decreased:0.009”とが記載されている。図3(B)において、アリピプラゾールの適応症データは、“Type 2 diabetes mellitus:NO”である。“Type 2 diabetes mellitus:NO”と既報有害事象関連情報の組み合わせ(「“Type 2 diabetes mellitus:NO”_“Sleep disorder:0.026”+“Blood glucose decreased:0.009”」と表すことがある)が、1つの訓練データを構成する。
 図3(B)では、EMPAの行に、既報有害事象関連情報として“Sleep disorder: 0.007”と、“Blood glucose decreased: 0.141”とが記載されている。図3(B)において、アリピプラゾールの適応症データは、“Type 2 diabetes mellitus:YES”である。“Type 2 diabetes mellitus:NO”と既報有害事象関連情報の組み合わせ(「“Nerve injury:YES”_“Sleep disorder:0.007”+“Blood glucose decreased: 0.141”」と表すことがある)が、1つの訓練データを構成する。
 予測用人工知能モデルが、サポートベクターマシン(SVM)等のニューラルネットワーク構造を有しない人工知能モデルの場合、1つの適応症に1つの人工知能モデルを使用し、適応症ごとに1つの人工知能モデルを訓練する。このため、訓練データの群は、「“Nerve injury:YES”_“Sleep disorder:0.026”+“Blood glucose decreased:0.009”」及び「“Nerve injury:NO”_“Sleep disorder:0.007”+“Blood glucose decreased:0.141”」となる。
 予測用人工知能モデルが、ニューラルネットワーク構造を有する人工知能モデルの場合には、複数の適応症について1つの人工知能モデルを訓練する。すなわち、訓練された1つの人工知能モデルが、複数の適応症の予測に対応する。このため、訓練データの群は、「“Nerve injury:YES”+“Nerve injury:NO”_“Sleep disorder:0.026”+“Blood glucose decreased:0.009”」及び「“Type 2 diabetes mellitus:NO”+“Type 2 diabetes mellitus:YES”_“Sleep disorder:0.026”+“Blood glucose decreased:0.009”」となる。ニューラルネットワーク構造を有する人工知能モデルの訓練データの群は、複数の薬剤の既報有害事象関連情報と、前記複数の薬剤の適応症データの群とが対応付けられている限り制限されない。
 図3では、便宜上薬剤を2種、有害事象を2種、適応症データとして図3(A)に2種、図3(B)に2種を例示している。予測できる適応症を増やすためには、できるだけ多種の薬剤と、これらに対応する有害事象データ、及び適応症データを用いることが好ましい。
 薬剤は、上述した薬剤データベースにおいて、有害事象データと適応症データとが紐付けられる薬剤である限り制限されない。薬剤数は、1,000種以上、2,000種以上、3,000種以上、又は4,000種以上であることが好ましい。上限は、薬剤データに登録されている数である。
 1薬剤あたりに登録されている適応症データ数は、1,000種以上、5,000種以上、又は10,000種以上であることが好ましい。上限は、薬剤データに登録されている数である。
 1薬剤あたりに登録されている有害事象データ数は、1,000種以上、5,000種以上、又は10,000種以上であることが好ましい。上限は、薬剤データに登録されている数である。
 図4に示す薬剤データベース60からの有害事象データ、及び有害事象データの群の取得は、オペレータによるデータ取得要求を訓練装置10の処理部101が受け付けることによって、通信I/F105を介して処理部101が取得を開始する。取得された有害事象データ、及び有害事象データの群は、処理部101によって補助記憶部104に格納された有害事象データベース(DB)TR1に記録される。また、図4に示す薬剤データベース60からの適応症データ、及び適応症データの群の取得も、オペレータによるデータ取得要求を訓練装置10の処理部101が受け付けることによって、通信I/F105を介して処理部101が取得を開始する。取得された適応症データ、及び適応症データの群は、処理部101によって図4に示す補助記憶部104の適応症データ・データベース(DB)TR2に記録される。
2-2.予測用人工知能モデルの訓練装置
 上記予測用人工知能モデルの訓練は、例えば、訓練装置10(以下、装置10ともいう)を使用して行うことができる。
 装置10及び装置10の処理に係る説明において、上記1.、上記2-1.に記載された用語と共通する用語については、上記説明をここに援用する。
 図4に、装置10のハードウエアの構成を示す。装置10は、少なくとも処理部101と記憶部を備える。記憶部は、主記憶部102及び/又は補助記憶部104から構成される。装置10は、入力部111と、出力部112と、記憶媒体113とに接続されていてもよい。また装置10は、FAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases、clinicaltrials.gov等の薬剤データベース60と通信可能に接続される。
 装置10において、処理部101と、主記憶部102と、ROM(read only memory)103と、補助記憶部104と、通信インタフェース(I/F)105と、入力インタフェース(I/F)106と、出力インタフェース(I/F)107と、メディアインターフェース(I/F)108は、バス109によって互いにデータ通信可能に接続されている。
 処理部101は、CPU、MPU又はGPU等から構成される。処理部101が、補助記憶部104又はROM103に記憶されているコンピュータプログラムを実行し、取得されるデータの処理を行うことにより、装置10が機能する。処理部101は、上記1.で述べた訓練データを使用して、予測用人工知能モデルを訓練する。
 ROM103は、マスクROM、PROM、EPROM、EEPROMなどによって構成され、処理部101により実行されるコンピュータプログラム及びこれに用いるデータが記録されている。ROM103は、装置10の起動時に、処理部101によって実行されるブートプログラムや装置10のハードウエアの動作に関連するプログラムや設定を記憶する。
 主記憶部102は、SRAM又はDRAMなどのRAM(Random access memory)によって構成される。主記憶部102は、ROM103及び補助記憶部104に記録されているコンピュータプログラムの読み出しに用いられる。また、主記憶部102は、処理部101がこれらのコンピュータプログラムを実行する時の作業領域として利用される。主記憶部102は、ネットワークを介して取得された訓練データ等、補助記憶部104より読み出された人工知能モデルの関数等を一時的に記憶する。
 補助記憶部104は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等によって構成される。補助記憶部104には、オペレーティングシステム及びアプリケーションプログラムなどの、処理部101に実行させるための種々のコンピュータプログラム及びコンピュータプログラムの実行に用いる各種設定データが記憶されている。具体的には、オペレーションソフト(OS)1041と、予測用訓練プログラムTPと、予測用人工知能モデルデータベース(DB)AI1と、薬剤データベース60から取得した薬剤の有害事象データ、及び/又は有害事象の発生頻度データ、及び有害事象に関する情報を格納する有害事象データベース(DB)TR1と、薬剤データベース60から取得した薬剤の適応症データを格納する適応症データ・データベース(DB)TR2とを不揮発性に記憶する。訓練プログラムTPは、オペレーションソフト(OS)1041と協働して、後述する人工知能モデルの訓練処理を行う。人工知能モデルデータベースAI1には、未訓練の人工知能モデル及び訓練された予測用人工知能モデルが格納されうる。
 通信I/F105は、USB、IEEE1394、RS-232Cなどのシリアルインタフェース、SCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェース、ネットワークインタフェースコントローラ(Network interface controller:NIC)等から構成される。通信I/F105は、処理部101の制御下で、測定部30又は他の外部機器からのデータを受信し、必要に応じて装置10が保存又は生成する情報を、測定部30又は外部に送信又は表示する。通信I/F105は、ネットワークを介して測定部30又は他の外部機器(図示せず、例えば他のコンピュータ、又はクラウドシステム)と通信を行ってもよい。
 入力I/F106は、例えばUSB、IEEE1394、RS-232Cなどのシリアルインタフェース、SCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェースなどから構成される。入力I/F106は、入力部111から文字入力、クリック、音声入力等を受け付ける。受け付けた入力内容は、主記憶部102又は補助記憶部104に記憶される。
 入力部111は、タッチパネル、キーボード、マウス、ペンタブレット、マイク等から構成され、装置10に文字入力又は音声入力を行う。入力部111は、装置10の外部から接続されても、装置10と一体となっていてもよい。
 出力I/F107は、例えば入力I/F106と同様のインタフェースから構成される。出力I/F107は、処理部101が生成した情報を出力部112に出力する。出力I/F107は、処理部101が生成し、補助記憶部104に記憶した情報を、出力部112に出力する。
 出力部112は、例えばディスプレイ、プリンター等で構成され、測定部30から送信される測定結果及び装置10における各種操作ウインドウ、各訓練データ、人工知能モデル等を表示する。
 メディアI/F108は、記憶媒体113に記憶された例えばアプリケーションソフト等を読み出す。読み出されたアプリケーションソフト等は、主記憶部102又は補助記憶部104に記憶される。また、メディアI/F108は、処理部101が生成した情報を記憶媒体113に書き込む。メディアI/F108は、処理部101が生成し、補助記憶部104に記憶した情報を、記憶媒体113に書き込む。
 記憶媒体113は、フレキシブルディスク、CD-ROM、又はDVD-ROM等で構成される。記憶媒体113は、フレキシブルディスクドライブ、CD-ROMドライブ、又はDVD-ROMドライブ等によってメディアI/F108と接続される。記憶媒体113には、コンピュータがオペレーションを実行するためのアプリケーションプログラム等が格納されていてもよい。
 処理部101は、装置10の制御に必要なアプリケーションソフトや各種設定をROM103又は補助記憶部104からの読み出しに代えて、ネットワークを介して取得してもよい。前記アプリケーションプログラムがネットワーク上のサーバコンピュータの補助記憶部内に格納されており、このサーバコンピュータに装置10がアクセスして、コンピュータプログラムをダウンロードし、これをROM103又は補助記憶部104に記憶することも可能である。
 また、ROM103又は補助記憶部104には、例えば米国マイクロソフト社が製造販売するWindows(登録商標)などのグラフィカルユーザインタフェース環境を提供するオペレーションシステムがインストールされている。訓練プログラムTPは、前記オペレーティングシステム上で動作するものとする。すなわち、装置10は、パーソナルコンピュータ等であり得る。
2-3.予測用訓練プログラムの処理
 図5用いて、予測用人工知能モデルの訓練処理の流れを説明する。
 処理部101は、オペレータが入力部111から入力した処理開始指令を受け付け、ステップS1において補助記憶部104に格納されたデータベースTR1及びデータベースTR2から各薬剤の有害事象データの群と適応症データの群を読み出す。
 処理部101は、ステップS2において、必要に応じて、各薬剤の有害事象データの群から、発生頻度のデータ群を生成する。発生頻度の算出方法は、上記1.(3)で述べたとおりである。
 処理部101は、ステップS3において、上記2-1.で述べた方法にしたがって、各薬剤について既報有害事象関連情報を生成する。また、処理部101は、補助記憶部104に格納されている人工知能モデルデータベースAI1から人工知能モデルを読み出し、生成した既報有害事象関連情報と、生成した有害事象に紐付けられた適応症データの群を、人工知能モデルに入力し、人工知能モデルを訓練する。ここで、ステップS3で読み出される人工知能モデルは、まだ訓練されていない人工知能モデルであっても、既に訓練された人工知能モデルであってもよい。
 処理部101は、ステップS4において、訓練した予測用人工知能モデルを補助記憶部104に記録し、処理を終了する。
 予測用人工知能モデルの訓練は、例えばPython等のソフトウエアを使用して行うことができる。
3.予測用被験データの生成
 有害事象を例として、予測用人工知能モデルに入力する予測用被験データの生成について説明する。
3-1.推定用人工知能モデルを訓練するための推定用訓練データの生成
(1)第1訓練データ群の生成
 第1訓練データ群は、1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群から構成され得る。前記1又は複数の異なる器官は、ヒトにおける作用が既知である複数の既知の薬剤を個別に投与した各非ヒト動物から採取され得る。前記第1訓練データ群は、データベースとして格納され得る。
 前記各器官におけるバイオマーカーの挙動を示すデータのそれぞれは、投与した既知の薬剤の名称に関する情報、採取された器官の名称に関する情報、バイオマーカーの名称に関する情報等と紐付けられ得る。名称に関する情報とは、名称そのもの、あるいは略称等のラベルであってもよく、各名称に対応するラベル値であってもよい。
 バイオマーカーの挙動を示すデータの群に含まれる各データは、後述する人工知能モデルの第1訓練データ群において行列を構成する要素となる。バイオマーカーがトランスクリプトームである場合、各RNAの発現量がデータに相当し、第1訓練データ群を構成する行列の要素となる。例えば、バイオマーカーがトランスクリプトームである場合、DESeq2解析により得られた各既知の薬剤のlog(fold)値を第1訓練データ群の各要素としてもよい。
 図6に、バイオマーカーとしてトランスクリプトームを使用する場合の、第1訓練データ群の例の一部を示す。バイオマーカーの挙動を示すデータは既知の薬剤の名称のラベルごとに(行方向)、器官の名称と遺伝子の名称の組み合わせ(「器官-遺伝子」と表現する場合がある)を表すラベルが列方向に並べられた行列として表されている。行列の各要素は、行ラベルで示された既知の薬剤を投与した、非ヒト動物より採取した列ラベルに示される器官における、列ラベルに示された遺伝子の発現量となる。より具体的には、行方向には、既知の薬剤であるAripiprazole、EMPAのラベルが付されている。列方向には、Heart_Alas2、Heart_Apod、ParotidG_Alas2、ParotidG_Apod等のラベルが付されている。「Heart」、「ParotidG」等は、心臓、耳下腺等の器官を示すラベルであり、「Alas2」及び「Apod」等は、RNAが由来する遺伝子名を示す。すなわち、ラベル「Heart_Alas2」は、「心臓におけるAlas2遺伝子の発現」を意味する。
 バイオマーカーの挙動を示すデータの群は、そのまま第1訓練データ群として使用してもよいが、標準化、次元削減等を行ってから第1訓練データ群として使用してもよい。標準化の方法としては、例えば発現差を示すデータを平均値が0、分散が1となるように変換する方法を例示することができる。標準化における平均値は、各器官における平均値、各遺伝子における平均値、又は全データにおける平均値とすることができる。また次元削減は、主成分分析等の統計処理で行うことができる。統計処理を行う場合の母集団は、器官ごと、遺伝子ごと、又は全データとすることができる。例えばバイオマーカーがトランスクリプトームである場合、DESeq2解析により得られた各既知の薬剤のlog2(fold)値に対するp値が所定の値以下である遺伝子のみを第1訓練データ群として用いてもよい。前記所定の値は、例えば10-3、又は10-4とすることができる。好ましくは、10-4である。
 第1訓練データ群は、既知の薬剤の更新、新たなバイオマーカーの挙動を示すデータの追加により、更新されうる。
(2)第2訓練データの生成
 第2訓練データは、第1訓練データ群を生成する際に非ヒト動物に投与した、複数の既知の薬剤それぞれについて取得した、ヒトにおける有害事象に関する情報から構成され得る。単数形の第2訓練データは、1つの薬剤に関する有害事象(例えば「頭痛」)のに関する情報に対応する。第2訓練データとして使用する有害事象に関する情報は、上記予測用人工知能モデルの訓練データとして使用される既報有害事象関連情報と同様に、薬剤データベース60等から有害事象データを取得し、生成することができる。
 図7は、生成された第2訓練データの例を示す。図7は、FAERSからダウンロードしたアリピプラゾール、EMPAの有害事象データに基づいて計算した各有害事象の発生頻度である。各薬剤の有害事象は、有害事象の有無として、例えばある有害事象が確認された場合を「1」、確認されなかった場合を「0」、又は「-1」のように表してもよい。
 第2訓練データは、既知の薬剤の更新、公知データベースの更新等により、更新されうる。
 図8に示す測定装置30からのバイオマーカーの測定値の取得は、オペレータによるデータ取得要求を被験データ生成装置50の処理部501が受け付けることによって、通信I/F505を介して処理部501が取得を開始する。取得されたバイオマーカーの測定値は、処理部501によって図8に示す補助記憶部504の推定用第1訓練データ・データベース(DB)ETR1に記録される。
 図8に示す薬剤データベース60からの有害事象データ、及び有害事象データの群の取得は、オペレータによるデータ取得要求を被験データ生成装置50の処理部501が受け付けることによって、通信I/F505を介して処理部501が取得を開始する。取得された有害事象データ、及び有害事象データの群は、処理部501によって補助記憶部504に格納された推定用第2訓練データ・データベース(DB)ETR2に格納される。
3-2.推定用人工知能モデルに入力する推定用被験データの生成
 目的とする薬剤の有害事象を推定するために、推定用人工知能モデルに入力する推定用被験データは、目的とする薬剤等を被験物質として投与した非ヒト動物の1又は複数の器官におけるバイオマーカーの挙動を示すデータ群である。推定用被験データは、第1訓練データと同様の方法により生成され、図8に示す推定用被験データ・データベース(DB)ETSに格納される。
3-3.推定用人工知能モデルの訓練及び有害事象の推定
 上述した第1訓練データ群と、第2訓練データ又は第2訓練データ群を使用して、人工知能モデルを訓練し、推定用人工知能モデルを構築する。人工知能モデルの構築には、未訓練の人工知能モデルを訓練することと、一度訓練した人工知能モデルを再訓練することを含み得る。再訓練には、上述した更新された第1訓練データ群及び/又は第2訓練データを使用することができる。
 第1訓練データ群と、第2訓練データ又は第2訓練データ群を組み合わせて訓練データとして人工知能モデルへ入力する。推定用訓練データは、第1訓練データ群に含まれる、(i)前記各器官におけるバイオマーカーの挙動を示すデータのそれぞれに紐付けられた、非ヒト動物に投与した既知の薬剤名を示すラベルと、(ii)第2訓練データ又は第2訓練データ群に含まれる有害事象に関連する情報に紐付けられた前記非ヒト動物に投与した各既知の薬剤名を示すラベルと、に基づいて第1訓練データ群と、第2訓練データ又は第2訓練データ群が紐付けられる。非ヒト動物に投与した各既知の薬剤名を示すラベルに基づいて、前記各器官におけるバイオマーカーの挙動を示すデータの群に対して、正解(あるいはTRUE、正解を示すラベル「1」)である非ヒト動物に投与した既知の薬剤の有害事象に関連する情報に対応づけて人工知能モデルを訓練する。
 ここで、各有害事象を予測するために訓練される人工知能モデルが、ランダムフォレスト、SVM、リレバンスベクターマシン(RVM)、ナイーブベイズ、AdaBoost、C4.5、確率的勾配降下法(SGD)分類器、Lasso、リッジ回帰、Elastic Net、SGD回帰、カーネル回帰等のように1つの作用(例えば「頭痛」)に1つの人工知能モデルのアルゴリズムが対応するタイプの場合、第1訓練データ群は、1つの第2訓練データを紐付けられる。一方、フィードフォワードニューラルネットワーク、ディープラーニングや行列分解のように、1つの人工知能モデルで複数の作用(例えば「頭痛」、「嘔吐」、・・・)を予測可能な人工知能モデルの場合、第1訓練データは、複数の第2訓練データ、すなわち第2訓練データ群と紐付けられる。
 図6及び図7を例として説明すると、図6に示す各既知の薬剤のラベルが示された各行と、図7に示す各セルが1つずつ紐付けられて人工知能モデルに入力される1セットの訓練データが生成される。つまり、図6に示すAripiprazoleの行と、図7に示すAripiprazoleの行の「sleepiness-0.5」が1つのデータセットとして紐付けられる。また、図6に示すAripiprazoleの行と、図7に示すAripiprazoleの行の「Low blood sugar-0.0」が1つのデータセットとして紐付けられる。さらに、図6に示すEMPAの行と、図7に示すEMPAの行の「sleepiness-0.01」が1つのデータセットとして紐付けられる。図6に示すEMPAの行と、図7に示すEMPAの行の「Low blood sugar-0.12」が1つのデータセットとして紐付けられる。つまり、図6及び図7の例のデータからは、計4つのデータセットが訓練データとして生成されることとなる。ここで、図7において0.5、0.0、0.01、0.12は有害事象の発生頻度(最高値を1としたとき)である。
3-4.予測用被験データ生成装置
 推定用人工知能モデルの構築は、例えば、下記予測用被験データ生成装置50を使用して行うことができる。
 予測用被験データ生成装置50及び予測用被験データ生成装置50の動作に係る説明において、上記「訓練方法及び予測方法の概要と用語の説明」、「推定用人工知能モデルを訓練するための推定用訓練データの生成」に記載された用語と共通する用語については、上記説明をここに援用する。
 予測用被験データ生成装置50(以下、装置50ともいう)は、少なくとも処理部501と記憶部を備える。記憶部は、主記憶部502及び/又は補助記憶部504から構成される。
 図8に、装置50のハードウエアの構成を示す。装置50は、入力部511と、出力部512と、記憶媒体513とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部30と接続されていてもよい。すなわち、装置50は、測定部30と直接又はネットワーク等を介して接続された、予測用被験データ生成システムを構成することもある。
 装置50のハードウエアの構成は、基本的には、訓練装置10と同様である。したがって、上記2-2.の説明をここに援用する。装置50において、処理部501と、主記憶部502と、ROM(read only memory)103と、補助記憶部504と、通信インタフェース(I/F)505と、入力インタフェース(I/F)506と、出力インタフェース(I/F)507と、メディアインターフェース(I/F)508は、バス509によって互いにデータ通信可能に接続されている。
 ただし、補助記憶部504には、オペレーションソフト(OS)1041、予測用訓練プログラムTP、人工知能モデルデータベース(DB)AI1、有害事象データ・データベース(DB)TR1、適応症データ・データベース(DB)TR2に替えて、オペレーションソフト(OS)5041、推定用訓練プログラムETP、推定用人工知能モデルデータベース(DB)EAI、推定用第1訓練データ・データベース(DB)ETR1、推定用第2訓練データ・データベース(DB)ETR2、推定用被験データ・データベース(DB)ETS、予測用被験データ・データベース(DB)PTSを格納する。推定用人工知能モデルデータベース(DB)EAIは、訓練前及び訓練後の人工知能モデルを格納する。推定用第1訓練データ・データベース(DB)ETR1は、各既知の薬剤を投与した非ヒト動物から採取した各器官におけるバイオマーカーの挙動を示すデータの群を第1訓練データとして投与した薬剤名を示すラベルと紐付けて格納する。推定用第2訓練データ・データベース(DB)ETR2は、非ヒト動物に投与した各既知の薬剤に対応する第2訓練データとして使用する有害事象に関する情報を、薬剤名を示すラベルと紐付けて格納する。推定用被験データETSは、推定用被験データとして使用する、目的とする薬剤等を被験物質として投与した非ヒト動物から採取した各器官におけるバイオマーカーの挙動を示すデータを格納する。
3-5.推定用訓練プログラムの処理
 装置50は、推定用訓練プログラムETPをアプリケーションソフトとして処理部501が実行することにより、訓練機能を実現する。
 図9を用いて、推定用訓練プログラムETPが行う処理を説明する。
 処理部501は、ステップS11において、オペレータによる入力部511からの処理開始要求の入力を受け付けて、例えば補助記憶部504の推定用人工知能データベースEAIに記憶されている人工知能モデルを主記憶部502に一時的に読み出す。また、処理部501は、オペレータによる入力部511からの訓練データ取得要求の入力を受け付けて、推定用第1訓練データ・データベースETR1から、上記3-1.で説明した各既知の薬剤を投与した非ヒト動物から取得した第1訓練データ群を読み出す。さらに、推定用第2訓練データ・データベースETR2から、投与した薬剤に対応する有害事象に関する情報又はその群を、第2訓練データ又は第2訓練データの群として読み出す。
 処理部501は、ステップS12において、ステップS11で読み出した、第1訓練データ群と、第2訓練データ又は第2訓練データの群を、第1訓練データ群に紐付けられている非ヒト動物に投与した既知の薬剤名を示すラベルと、第2訓練データに紐付けられている非ヒト動物に投与した既知の薬剤名を示すラベルとで紐付けて、人工知能モデルに入力する。
 次に、処理部501は、ステップS13において、人工知能モデルの関数における重み等のパラメータを計算し、人工知能モデルを訓練する。
 次に、処理部501は、ステップS14において、訓練した人工知能モデルを推定用人工知能モデルとして推定用人工知能データベースEAIに格納する。
 訓練処理は、例えば、Python等のソフトウエアを使用して行うことができる。
3-6.推定プログラムの処理
 装置50は、推定プログラムEPをアプリケーションソフトとして処理部501が実行することにより、予測用被験データを生成する。
 図10を用いて、推定用プログラムETPが行う処理を説明する。
 処理部501は、オペレータが入力部511から入力した処理開始指令を受け付け、図10のステップS31において、補助記憶部504に格納された推定用被験データ・データベースETSから推定用被験データを読み出す。また、処理部501は、補助記憶部504に格納された推定用人工知能モデルデータベースEAIから、訓練された推定用人工知能モデルを読み出す。
 次に、処理部501は、オペレータが入力部211から入力した予測開始指令を受け付け、ステップS32において推定用被験データを訓練した推定用人工知能モデルに入力し、目的とする薬剤等の有害事象の推定結果を取得する。推定結果は、訓練した推定人工知能モデルから有害事象名を示すラベルと、有害事象であるか否かを示すラベルとの組み合わせとして出力され得る。有害事象であるか否かを示すラベルとして、目的とする薬剤等が、人工知能モデルが対応している有害事象を「有する」と推定した場合には「1」、「有さない」と推定した場合には、「0」又は「-1」を出力することができる。例えば、有害事象が「sleepiness」である場合、目的とする薬剤等にsleepinessがあると推定された場合には、「sleepiness:1」が推定結果となる。また、目的とする薬剤等がsleepinessを有さないと推定した場合には、「sleepiness:0」又は「sleepiness:-1」が推定結果となる。
 次に、処理部501は、オペレータが入力部511から入力した推定結果の記録指令を受け付け、ステップS33において、ステップS32で推定した推定結果を、補助記憶部504の予測用被験データ・データベースPTSに記録する。
 次に、処理部501は、オペレータが入力部511から入力した発生頻度算出開始要求を受け付け、ステップS34において、推定結果を取得した目的とする薬剤等に対応する各有害事象の発生頻度を算出し、各薬剤における各有害事象の発生頻度データとして補助記憶部504の予測用被験データ・データベースPTSに記録する。発生頻度の算出方法は、上記1.で述べたとおりである。各目的とする薬剤等における各有害事象の発生頻度データが、予測用被験データとなる。
 処理部501は、ステップS34の後に、オペレータが入力部511から入力した出力指令を受け付けるか、ステップS34の終了をトリガとして、出力部512に、推定結果を出力してもよい。
 推定処理は、例えば、Python等のソフトウエアを使用して行うことができる。
4.予測用人工知能モデルによる適応症の予測
 有害事象を例として、適応症の予測について説明する。
 装置20及び装置20の処理に係る説明において、上記1.、上記2-1.に記載された用語と共通する用語については、上記説明をここに援用する。
4-1.被験データ及び訓練した予測用人工知能モデルの取得・記録
 訓練した予測用人工知能モデルは、図4に記載の装置10の補助記憶部104に記録されている人工知能データベースAI1から、ネットワーク又は記憶媒体213を介して、予測装置20が取得し、予測装置20補助記憶部204内のデータベースTS1に記録してもよい。
 予測用被験データは、図8に記載の予測用被験データ生成装置50に格納されている予測用被験データ・データベースPTSから、ネットワーク又は記憶媒体213を介して、予測装置20が取得し、処理部201は、取得した予測用被験データを、補助記憶部204に格納された被験データ・データベースTS1(以下、単に「データベースTS1」ともいう)に記録する。
4-2.適応症の予測装置
 適応症の予測は、例えば、予測装置20(以下、単に装置20と呼ぶことがある)を使用して行うことができる。
 図11に予測装置20(以下、装置20ともいう)のハードウエアの構成を示す。装置20は、少なくとも処理部201と記憶部を備える。記憶部は、主記憶部202及び/又は補助記憶部204から構成される。装置20は、入力部211と、出力部212と、記憶媒体213とに接続されていてもよい。また装置20は、FAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases、clinicaltrials.gov等の薬剤データベース60と通信可能に接続される。さらに、装置20は、ネットワークを介して、装置10、装置50と通信可能に接続されていてもよい。
 装置20において、処理部201と、主記憶部202と、ROM(read only memory)203と、補助記憶部204と、通信インタフェース(I/F)205と、入力インタフェース(I/F)206と、出力インタフェース(I/F)207と、メディアインターフェース(I/F)208は、バス209によって互いにデータ通信可能に接続されている。
 装置20の基本的なハードウエアの構成は、装置10と同様であるので、上記2-2.の説明をここに援用する。
 ただし、装置20の補助記憶部204には、オペレーションソフト(OS)1041と、予測用訓練プログラムTPと、人工知能モデルデータベースAI1、有害事象データ・データベースTR1と、適応症データ・データベースTR2に代えて、オペレーションソフト(OS)2041と、予測プログラムPPと、訓練された人工知能モデルを格納する人工知能モデルデータベースAI2と、予測用被験データを格納するデータベースTS1とを不揮発性に記憶する。予測プログラムPPは、オペレーションソフト(OS)2041と協働して、後述する適応症の予測処理を行う。
4-3.適応症の予測処理
 図12を用いて、適応症の予測処理の流れを説明する。
 処理部201は、オペレータが入力部211から入力した処理開始指令を受け付け、図12のステップS51において、補助記憶部204に格納されたデータベースTS1から予測用被験データを読み出す。また、処理部201は、補助記憶部204に格納された人工知能モデルデータベースAI2から、訓練された予測用人工知能モデルを読み出す。
 次に、処理部201は、オペレータが入力部211から入力した予測開始指令を受け付け、ステップS52において予測用被験データを訓練した予測用人工知能モデルに入力し、目的とする薬剤等の適応症の予測結果を取得する。予測結果は、訓練した人工知能モデルから適応症名を示すラベルと、適応症であるか否かを示すラベルとの組み合わせとして出力され得る。適応症であるか否かを示すラベルとして、目的とする薬剤等が、人工知能モデルが対応している適応症に「効く」と予測した場合には「1」、「効かない」と予測した場合には、「0」又は「-1」を出力することができる。例えば、適応症が「Nerve injury」である場合、目的とする薬剤等がNerve injuryに効くと予測した場合には、「Nerve injury:1」が予測結果となる。また、目的とする薬剤等がNerve injuryに効かないと予測した場合には、「Nerve injury:0」又は「Nerve injury:-1」が予測結果となる。処理部204は、これらの予測結果を、補助記憶部204に記録する。
 被験物質が既知の薬剤、又は既知の薬剤の等価物質である場合、次に、処理部201は、オペレータが入力部211から入力した予測結果の解析指令を受け付け、ステップS54において、ステップS53において取得した予測結果について、混合マトリクス解析を行い、各薬剤について出力された適応症の予測結果に対して、予測された結果が真陽性(True Positive:TP)であるが偽陽性(False Positive:FP)であるかを判定する。真陽性の場合には、その適応症名を示すラベルに例えばラベル「1」を付す。偽陽性の場合には、その適応症名を示すラベルに例えばラベル「1」を付す。真陽性とは、薬剤データベース60に登録されている、各薬剤について「適応症である」(薬剤が効く)として登録されている適応症であり、予測結果においても「適応症である」と予測されていることを意味する。偽陽性とは、薬剤データベース60に登録されている、各薬剤について「適応症である」として登録されていない適応症であるが、予測結果において「適応症である」と予測されていることを意味する。この偽陽性と判定された適応症が、目的とする薬剤等の新たな適応症となる。具体的には、各薬剤の適応症データには、適応症名を示すラベルと、その適応症に各薬剤が効くか否かを示すラベルが付されている。例えば、適応症データが「Nerve injury:0」又は「Nerve injury:-1」であるにもかかわらず、予測結果が「Nerve injury:1」である場合には、偽陽性であると判定することができる。適応症データが「Nerve injury:1」であり、予測結果が「Nerve injury:1」である場合には、真陽性である。ステップS54は、有害事象が報告されていない薬剤には行わない。
 次に、処理部201は、オペレータが入力部211から入力した予測結果の記録指令を受け付け、ステップS55において、ステップS53で取得した予測結果、又はステップS54で取得した解析結果を、補助記憶部204に記録し、処理を終了する。
 処理部201は、ステップS55の後に、オペレータが入力部211から入力した出力指令を受け付けるか、ステップS55の終了をトリガとして、出力部212に、解析結果を出力してもよい。
 予測処理は、例えば、Python等のソフトウエアを使用して行うことができる。混合マトリクス解析は、例えば、ソフトウエア「R」を使用して行うことができる。
5.作用機序のメカニズムの推定
 各薬剤について、新たに予測された適応症に対し、各薬剤がどのような作用機序で効くのかを知ることは、新たなより効果の高い薬剤を開発する上でも重要である。
 上記4.で使用される予測用被験データは、非ヒト動物に目的とする薬剤等を被験物質として投与した時の、1又は複数の器官におけるバイオマーカーの挙動に基づいて取得される。各被験物質の予測用被験データと、各目的とする薬剤等に対応する各適応症との関係は、各被験物質を投与した時の複数の器官のバイオマーカーの挙動と、各適応症との関係に置き換えることができる。そして、各被験物質を投与した時の1又は複数の器官におけるバイオマーカーの挙動と、各適応症との関係は、公知のパスウエイ解析を行うことにより、生体反応と紐付けることができる。生体反応は情報伝達パスウエイ(以下、単に「パスウエイ」と呼ぶ)として表すことができる。パスウエイ解析は、KEGG pathway enrichment analysis、REACTOME pathway analysis等を挙げることができる。
5-1.作用メカニズムの推定装置
 図13に、作用メカニズムの推定装置80(以下、装置80ともいう)のハードウエア構成を示す。
 装置80の基本的なハードウエアの構成は、装置10と同様であるので、上記2-2.の説明をここに援用する。
 装置80は、少なくとも処理部801と記憶部を備える。記憶部は、主記憶部802及び/又は補助記憶部804から構成される。装置80は、入力部811と、出力部812と、記憶媒体813とに接続されていてもよい。また装置80は、KEGG pathway enrichment analysis、REACTOME pathway analysis等のパスウエイデータベース70と通信可能に接続される。さらに、装置80は、ネットワークを介して、装置10、装置20、装置50と通信可能に接続されていてもよい。
 装置80において、処理部801と、主記憶部802と、ROM(read only memory)803と、補助記憶部804と、通信インタフェース(I/F)805と、入力インタフェース(I/F)806と、出力インタフェース(I/F)807と、メディアインターフェース(I/F)808は、バス809によって互いにデータ通信可能に接続されている。
 ただし、装置80の補助記憶部804には、オペレーションソフト(OS)1041と、予測用訓練プログラムTPと、人工知能モデルデータベースAI1、有害事象データ・データベースTR1と、適応症データ・データベースTR2に代えて、オペレーションソフト(OS)8041と、パスウエイ解析を行う解析プログラムAPと、予測有害事象データ・データベース(DB)ADPと、予測適応症データ・データベース(DB)IDBと、バイオマーカーデータベース(DB)BDBとを格納する。
 予測有害事象データ・データベースADPは、上記3-5.において説明した、ステップS32で得られた各薬剤の有害事象の推定結果、あるいは、ステップS34で算出した各薬剤の有害事象の発生頻度データを、各薬剤の名称と対応付けて格納している。各薬剤の有害事象の推定結果、は、装置50に格納された予測用被験データ・データベースPTSから、通信I/F805又は記憶媒体813を介して、装置80が取得し、補助記憶部804の予測有害事象データ・データベースADPに記録することができる。
 予測適応症データ・データベースIDBは、上記4-3.において説明したステップS52で得られた各薬剤の適応症の予測結果を、各薬剤の名称と対応付けて格納している。各薬剤の適応症の予測結果は、装置20の補助記憶部204に格納された予測結果を、通信I/F805又は記憶媒体813を介して、装置80が取得し、補助記憶部804の予測適応症データ・データベースIDBに記録することができる。
 バイオマーカーデータベースBDBは、上記3-2.において説明した推定用被験データを各薬剤の名称と対応付けて格納している。推定用被験データ、装置50に格納された推定用被験データ・データベースETSから、通信I/F805又は記憶媒体813を介して、装置80が取得し、補助記憶部804内のバイオマーカーデータベースBDBに記録することができる。
 解析プログラムAPは、例えばKEGG pathway enrichment analysisを行う場合、例えば、ソフトウエアR package “clusterProfiler”等を含み得る。また、REACTOME pathway analysisを行う場合、https://reactome.org/にアクセスするためのブラウザソフト等を含み得る。
5-2.解析プログラムによる処理
 図14を用いて、各薬剤がどのようなメカニズムで新たな適応症に作用するかを推定するための解析処理の流れを説明する。
 処理部801は、オペレータが入力部811から入力したデータ取得開始指令を受け付け、図14に示すステップS71において、予測有害事象データ・データベースADPから上記3-5.において説明したステップS34で算出した各薬剤の有害事象の発生頻度データを読み出す。また、バイオマーカーデータベースBDBから、各薬剤に対応する推定用被験データを読み出す。
 処理部801は、ステップS72において、オペレータが入力部811から入力した処理開始指令を受け付け、ステップS71において読み出した各薬剤の有害事象の推定結果と推定用被験データのバイナリマトリクス表現への変換を行う。任意ではあるが、処理部801は、バイナリマトリクス表現へ変換されたデータに対して、主成分分析等を行って、次元変換を行ってもよい。処理部801は、変換されたデータ、又は低次元化された変換データに対して、階層的クラスタリングを行う。この処理は、例えば、ソフトウエア“R”を使用して行うことができる。この処理により、各薬剤における有害事象の予測に貢献した、バイオマーカーの挙動を推定することができる。これらの解析は、ソフトウエア「R」等を使用して行うことができる。
 処理部801は、ステップS73において、オペレータが入力部811から入力したパスウエイ解析開始指令を受け付け、ステップS72において階層的クラスタリングによって貢献度が高いことが推定されたバイオマーカーの挙動を、KEGG pathway enrichment analysis、REACTOME pathway analysis等のパスウエイデータベースに入力し、どのような生体情報の情報伝達パスウエイが関与しているかの情報を、各薬剤の作用機序に関する情報としてパスウエイデータベースから取得する。
 次に、処理部801は、オペレータが入力部811から入力した予測結果の記録指令を受け付け、ステップS74において、ステップS73の取得結果を、補助記憶部804に記録し、処理を終了する。
 処理部801は、ステップS74の後に、オペレータが入力部811から入力した出力指令を受け付けるか、ステップS74の終了をトリガとして、出力部812に、取得結果を出力してもよい。
6.コンピュータプログラム
6-1.予測用訓練プログラム
 予測用訓練プログラムは、上記人工知能モデルの訓練で述べた上記2.で述べたステップS1~S4を含む処理をコンピュータで実行させることにより、コンピュータを訓練装置10として機能させるコンピュータプログラムである。
6-2.予測プログラム
 予測プログラムは、上記4.で述べたステップS51からS54を含む処理をコンピュータで実行させることにより、コンピュータを予測装置20として機能させるコンピュータプログラムである。
6-3.予測用被験データ生成プログラム
 予測用被験データ生成プログラムは、上記3.で述べたステップS11からS14及びステップS31からS34を含む処理をコンピュータで実行させることにより、コンピュータを被験データ生成装置50として機能させるコンピュータプログラムである。
6-4.メカニズム推定プログラム
 予測用被験データ生成プログラムは、上記5.で述べたステップS71からS74を含む処理をコンピュータで実行させることにより、コンピュータを作用メカニズムの推定装置80として機能させるコンピュータプログラムである。
7.コンピュータプログラムを記憶した記憶媒体
 本開示は、上記6.で述べた各コンピュータプログラムを記憶した記憶媒体に関する。前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。また前記コンピュータプログラムは、クラウドサーバ等のネットワークで接続可能な記憶媒体に記憶されていてもよい。コンピュータプログラムは、ダウンロード形式の、又は記憶媒体に記憶されたプログラム製品であってもよい。
 前記憶媒体へのプログラムの記憶形式は、前記提示装置が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。
8.変形例
 本明細書において、ハードウエアに付された同一符号は、同じ部分又は同じ機能を示す。
 上記2.及び4では訓練装置10と予測装置20が別のコンピュータである実施形態を示した。しかし、1台のコンピュータが、人工知能モデルの訓練と予測を行ってもよい。また、人工知能モデルデータベースAI1をクラウド上に格納しておき、クラウドにアクセスして、訓練と予測を行ってもよい。
 上記3では被験データ生成装置50が推定用人工知能モデルを訓練し、推定用人工知能モデルを用いて、予測用被験データの生成を行った。しかし、推定用人工知能モデルの訓練と、予測用被験データの生成は、別のコンピュータが行ってもよい。また、予測用被験データの生成、予測用訓練データの生成、適応症の予測を、1台のコンピュータが行ってもよい。また、人工知能モデルデータベースAI1、推定用人工知能モデルデータベースEAIをクラウド上に格納しておき、クラウドにアクセスして、訓練と予測を行ってもよい。
 上記1.から4.では、有害事象に関する情報を用いて、人工知能モデルの訓練及び適応症の予測について説明した。しかし、有害事象に替えて副作用を用いてもよい。この場合、言葉の定義を除き、各装置、各処理、各方法における「有害事象」の用語を「副作用」に置き換えることができる。
9.人工知能モデルの効果の検証
9-1.予測用人工知能モデルの性能評価
(1)人工知能モデルの訓練と、訓練された人工知能モデルの性能評価(参考例)
 U.S. Food & Drug Adverse Event Reporting System (FAERS) に2014年第3四半期から2017年第4四半期に報告されたすべての薬剤に関し、各薬剤に登録されているすべての有害事象の発生頻度データとすべての適応症データを取得した。適応症は11,310種である。具体的には、4,885種の薬剤について、発生頻度データの群と適応症データの群のデータセットを取得した。
 これらのすべてのデータを使って、上記2-1.において説明した訓練データの生成にしたがって、適応症ごとにSVMを訓練し、訓練済の人工知能モデルを生成した。
 FAERSに登録されている4,885種の薬剤のそれぞれに登録されている17,155種の有害事象の発生頻度データを個々に算出し、1薬剤ごとに有害事象の発生頻度データの群を生成した。各薬剤の有害事象の発生頻度データの群をそれぞれ被験データとして、訓練済の人工知能モデルに入力し、適応症の予測を行った。
 この結果を図15から図18に示す。図15及び図16は、各薬剤について報告されている適応症をどのくらい正確に予測できたかを示す結果である。
 図15は、すべての薬剤を対象とする、予測の正確性を示すaccuracyスコア、「適応症である」と予測された場合の網羅率を示すrecallスコア、及び「適応症である」と予測された場合の信頼度を示すprecisionスコアの分布を棒グラフで示す。accuracyスコア及びprecisionスコアは1.0に近づくほど正確であることを示す。recallスコアは、1に近づくほど、「効く」と報告されている適応症の正解率が100%になることを意図する。
 グラフの縦軸は、スコアを-0.1から1.0までの範囲を0.1ずつの11に分位したときの各分位に属する薬剤の数を示している。
 訓練された人工知能モデルにおいて、被験データとして入力した薬剤のすべての適応症の予測結果のaccuracyスコアは、4,885薬剤のうち4,764薬剤(97.5%)において90%以上の高いスコアを示した。
 precisionスコアは、4,885薬剤のうち1,790 薬剤(36.6% of all drugs)で90%以上を示し、3,252薬剤 (66.6% of all drugs) で70%以上を示し、4,238 薬剤(86.8% of all drugs) で50%以上を示した。
 recallスコアは、4,885薬剤のうち、746 薬剤(15.3% of all drugs)で50%以上を示し、1,951薬剤 (39.9% of all drugs)で30%以上を示し、4,092 薬剤(83.8% of all drugs)で10%以上を示した。
 図16に、4,885薬剤の中で、accuracyスコア、precisionスコア、及びrecallスコアがすべて1.0であった上位50薬剤の各スコアを示す。図8において、TNは真陰性、TPは真陽性、FNは偽陰性、FPは真陽性を示す。真陰性は、「適応症でない」ものを「適応症でない」と予測できた項目数を示し、真陽性は、「適応症である」ものを「適応症である」と予測できた項目数を示す。偽陰性は、「適応症である」ものを「適応症でない」と予測した項目数を示し、偽陽性は、「適応症ない」ものを「適応症である」と予測した項目数を示す。F-measureスコアはprecisionスコアとrecallスコアの調和平均であり、precisionスコアとrecallスコアを統合するとどの程度の正確性がでるのかを評価する指標である。
 図17及び図18は、訓練済の人工知能モデルから導き出された適応症の予測結果が、報告されている(FAERSに登録されている)各適応症をどのくらい正確に予測できたかを示す結果である。
 図17は、すべての適応症を対象とする、accuracyスコア、recallスコア、及びprecisionスコアの分布を棒グラフで示す。グラフの構成は、図15と同様である。
 報告されている全適応症の予測結果のaccuracyスコアは、11,310適応症のうち10,929適応症 (96.6%) において90%以上の高いスコアを示した。
 precisionスコアは、11,310適応症のうち7,230 適応症 (63.9% of all TIs) で90%以上を示し、8,016適応症 (70.9% of all TIs)で80%以上を示した。
 recallスコアは、11,310適応症のうち、972適応症(8.6% of all TIs)で50%以上を示し、1,786適応症(15.8% of all TIs) で30%以上を示し、4,873適応症(43.1% of all TIs)で10%以上を示した。
 図18に11,310適応症の中で、accuracyスコア、precisionスコア、及びrecallスコアがすべて1.0であった上位50薬剤の各スコアを示す。図18で使用されている用語は、図16と同様である。
 また、全適応症のTN、TP、FN、FP、accuracyスコア、precisionスコア、recallスコア、及びF-measureスコアを発明の詳細な説明の末尾に補助データ2として示す。
 上記評価結果から本明細書に開示される訓練された人工知能モデルにより、有害事象に関する情報から適応症を予測できることが示された。
(2)訓練された人工知能モデルを用いたブラインド評価
 次に、訓練データの群に含まれていない有害事象に関する情報を用いて、正確な予測が行えるか評価した。
 上記7.(1)において、人工知能モデルの訓練に使用された薬剤には、2017年から2019年間にU.S. Food and Drug Administration (FDA) 及び/又はPharmaceuticals and Medical Devices Agency (PMDA) において承認された薬剤と、Perwitasari et al., (2013): Pharmaceuticals (Basel) 6, 124-160.によってリポジショニングによって報告された61薬剤が含まれている。
 そこで、人工知能モデルのブラインド評価では、この61薬剤に関す有害事象に関連する情報及び適応症データの群を除いた訓練データの群を用いて、上記7.(1)と同様にSVMを訓練した。
 次に、この61薬剤の有害事象に関する情報を訓練した人工知能モデルに入力し、上記7.(1)と同様に適応症の予測を行った。
 その結果のサマリーを図19に示す。図19において使用されている用語の意味は、図16と同様である。
 61薬剤のうち、54薬剤(88.5% of the drugs)でaccuracyスコアが90%以上を示した。precisionスコアは、61薬剤のうち、27 薬剤(44.3%)で90%を示し、44 薬剤(72.1%)で70%以上を示し、53薬剤(86.9%)で50%以上を示した。recallスコアは、61薬剤のうち、4薬剤(6.6%)で50%以上を示し、17薬剤(27.9%)で30%以上を示し、45薬剤(73.8%)で10%以上を示した。
 この結果から、訓練データの群に含まれていない薬剤についても、適応症の予測が可能であり、正確性も担保されていることが示された。
9-2.推定された予測用被験データを用いた適応症の予測
(1)クロスバリデーションによる評価
 上記9-1.で使用したSVMに替えて、人工知能モデルとしてRFを用いて、9-1.と同様に予測用人工知能モデルを訓練した。RFの訓練には、‘RandomForestClassifier()’( Python package ‘scikit-learn’)を使用した。‘RandomForestClassifier()’において、パラメータ‘n_estimator’は、generalization errorを最小とした。他のパラメータはデフォルトとした・
 上記3.に記載の方法(特許文献2及び非特許文献2に記載の方法)にしたがって、15種類の被験薬(アレンドロネート、アセトアミノフェン、アリピプラゾール、アセナピン、シスプラチン、クロザピン、ドキシサイクリン、エンパグリフロジン、レナリドミド、ルラシドン、オランザピン、エボロクマブ、リセドロネート、ソホスブビル、テリパラチド)の有害事象の予測用被験データを生成した。予測用被験データをここでは“virtual” AE (V-AE)と呼ぶ。
 前記15種類の被験薬について、FAERSに登録されている全有害事象の発生頻度を算出し、各薬剤の名称を示すラベルと紐付けた。また、15種類のすべての被験薬について、FAERSに登録されている全適応症について適応症データを取得して、各薬剤の名称を示すラベルと紐付けた。FAERSには、17,155の有害事象、及び11,310の適応症が報告されている。ここで、実際に薬剤データベースから取得した各薬剤の有害事象に関する情報を“real” AE (R-AE)と呼ぶ。
 また、推定用人工知能モデルの第1訓練データは、前記15種類の被験薬を非特許文献2に記載の方法にしたがって、マウスに投与し、薬剤ごとに取得した。第2訓練データは、FAERSに登録されている各薬剤の全有害事象の発生頻度データの群を使用した。
 第1訓練データ及び第2訓練データを人工知能モデルRFに入力し、人工知能モデルを訓練し、推定用人工知能モデルを生成した。
 訓練した推定人工知能モデルに、推定用被験データとして、第1訓練データのバイオマーカーの挙動を示すデータを入力し、予測結果である各薬剤のV-AEを取得した。
 次にV-AEとR-AEを比較した。ピアソン相関係数及びスピアマンの相関係数を求めることで、2群間の比較を行った。その結果を、図20に示す。多くの薬剤で、良好な相関が認められた。
 次に、予測用人工知能モデルの訓練は、FAERSに登録されている全薬剤の全有害事象の発生頻度と全薬剤の適応症データを紐付けて行った。人工知能モデルとしてRFを用いた。訓練した予測用人工知能モデルに、V-AEを入力し、15種の被験薬の適応症を予測した。その結果を図21(A)に混合マトリクスとして示す。混合マトリクス解析は、ソフトウエア“R”を用いて行った。15種類の薬剤のaccuracyスコアはすべて良好であった。
 非特許文献2には、被験データとしてR-AEを使用し、人工知能モデルとしてリンクプリディクション(LP)を用いた薬剤の適応症の予測方法が記載されている。そこで、本実施形態の予測方法によるV-AEを使用した予測精度と、非特許文献2に記載のLPを用いた予測精度の比較を行った。その結果を図21(B)に示す。
 accuracyスコアとrecallスコアは、V-AEを使用した予測方法とLPを使用した方法ともに良好であった。一方、predictionスコアは、15種類すべての被験薬においてのV-AEを使用した予測方法の方が大幅に向上した。このことから、V-AEを使用した予測方法の方が、予測が正確であることが示された。
(2)先行技術との比較
 V-AEを使用した予測方法とR-AEを使用した予測方法(非特許文献2に記載のOne-Class SVM法)との適応症の予測結果の比較を行った。はじめに、V-AEによる適応症の予測結果と、R-AEによる適応症の予測結果を比較した。結果を図22に示す。図22の上段は、2つの予測方法によって予測された、真陽性(TP)の適応症数の比較結果を示す。下段は、偽陽性(FP)の適応症数、すなわち新たな適応症数の比較結果を示す。
 V-AEを使用した適応症のTPの予測結果は、すべての被験薬で、R-AEを使用した予測方法の結果を包含していた。しかし、2種類の被験薬では、R-AEを使用した予測方法ではTPの適応症を予測できなかった。このことからV-AEを使用した予測方法の方が、予測精度が高いことが示された。
 FPの適応症の比較では、V-AEを使用した予測方法の方が、R-AE を使用した予測方法よりも、はるかに多くのFPを検出することができた。このことから、V-AEを使用した予測方法では、R-AE を使用した予測方法とは異なる候補適応症を探索できることが示された。
 次に、V-AEを使用した予測方法とR-AEを使用した非特許文献2に記載のLPによる予測方法との適応症の予測結果の比較を行った。はじめに、V-AEによる適応症の予測結果と、とR-AEによる適応症の予測結果を比較した。結果を図23に示す。図23の上段は、2つの予測方法によって予測された、真陽性(TP)の適応症数の比較結果を示す。下段は、偽陽性(FP)の適応症数、すなわち新たな適応症数の比較結果を示す。
 V-AEを使用した適応症のTPの予測結果は、13種類の被験薬で、R-AEを使用した予測方法の結果を包含していた。しかし、2種類の被験薬では、R-AEを使用した予測方法ではTPの適応症を予測できなかった。このことからV-AEを使用した予測方法の方が、予測精度が高いことが示された。
 FPの適応症の比較では、V-AEを使用した予測方法では、R-AE を使用した予測方法とは異なるFPを検出することができた。このことから、V-AEを使用した予測方法では、R-AE を使用した予測方法とは異なる候補適応症を探索できることが示された。
9-3.適応症への作用のメカニズムの推定
 推定された適応症に関連するバイオマーカーを検討することにより、薬剤が、推定された適応症に作用する時のメカニズムを推定することができる。
 各V-AEの発生頻度は、マウスに各被験薬を投与した時の、1又は複数の器官におけるバイオマーカーの挙動に基づいて予測されている。そこで、各薬剤の適応症を推定するために重要なそれぞれの薬剤に対応するV-AEについて、各V-AEの推定に貢献するバイオマーカーの挙動の推定を行った。
 Repathaを除く14種類の被験薬(Repathaは、SIDER4.1に含まれていないため、15の薬物からRepathaを差し引いたもの)について、FAERSとSIDERの両方で報告された3,054種類の適応症について、それらの適応症を推定するために重要なV-AEの特徴を抽出した。
 特徴の抽出は、主成分分析(PCA)により行った。PCAは、V-AEと各適応症に対応するトランスクリプトームのパターンに対して行った。はじめに、各適応症について、binary matrix representationを使って、V-AEを各V-AEのパターンをトランスクリプトームのパターンに変換した(1:重要なAE/器官遺伝子0:その他)。この処理は、ソフトウエア” R”を用いて行った。PCAをbinary matrixに対して行い、各適応症について、PC1及びPC2の2つの主成分スコアを得た。PCAは、デフォルトのパラメータを使用してソフトウエア” R”関数の「prcomp」を使用して行った。PCAの結果に対して、階層クラスタリングを行った。階層的クラスタリングは、ソフトウエア “R“関数の「hclust」のデフォルトを使って行った(Yu et al.、2012、Omics : a journal of integrative biology 16, 284-287)。
 階層的クラスタリングを行った各被験薬のV-AEと各適応症との関係を樹形図で示した(図24(A))。V-AEは、各被験薬の投与に依存する複数の器官のトランスクリプトームプロファイルに基づいて予測される。したがって、各被験薬のV-AEと各適応症との関係は、各被験薬を投与した時の複数の器官におけるトランスクリプトームプロファイルと、各適応症との関係の樹形図に変換することができる(図24(B))。そして、各被験薬を投与した時の複数の器官におけるトランスクリプトームプロファイルと、各適応症との関係は、公知のパスウエイ解析を行うことにより、生体反応と紐付けることができる。
 各被験薬を投与した時の複数の器官におけるトランスクリプトームプロファイルの一部に対して、骨粗鬆症と、統合失調症についてパスウエイ解析を行った。パスウエイ解析は、KEGG pathway enrichment analysis及びREACTOME pathway analysisを行った。REACTOME pathway analysis はhttps://reactome.org/において行った。REACTOME PathwaysはFDR値が0.05より小さい時に、有意差有りとした。KEGG pathway enrichment analysisは、R package “clusterProfiler” version 3.10.1. を使用して行った。KEGG pathway enrichment analysisでは、p値が0.05より小さい時に有意差有りとした。PCA結果の樹形図に基づく骨粗鬆症と総合失調症の治療に適応可能と予測された薬剤から、各疾患に対する治療機序を予測することができる。図25に骨粗鬆症と総合失調症のV-AEとトランスクリプトームのパターンの主成分1(PC1)と主成分2(PC2)の分布を示す。図25(A)はV-AEの分布であり、図25(B)は、トランスクリプトームパターンの分布である。PCA解析後のトランスクリプトーム解析の結果、骨粗鬆症と、統合失調症に対する薬剤の作用機序は、非常に似ていることが示された。本項のメカニズム解析により、骨粗鬆症と統合失調症に関連することが推定されたパスウエイについて、REACTOME Pathwaysを使用して予測した場合と、KEGG pathwayを使用して予測した場合の比較を行った。図26は、REACTOME Pathwaysを使用した場合の結果であり、図27は、KEGG pathwayを使用して予測した場合の結果である。図26及び図27は、骨粗鬆症と統合失調症について各器官において推定されたパスウエイの数をVenn図で示している。重複している部分は、骨粗鬆症と統合失調症に共通して推定されたパスウエイである。図26と図27からも骨粗鬆症を治療するためのパスウエイと総合失調症を治療するためのパスウエイが非常に似ていることが示された。
10 訓練装置
20 予測装置
101 処理部
201 処理部 

Claims (12)

  1.  目的とする薬剤又はその等価物質の適応症の予測方法であって、
     前記目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして予測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測すること、
    を含む、
    前記予測方法。
  2.  前記予測用人工知能モデルは、訓練データの群によって訓練され、
     前記訓練データの群は、(I)個々の既知の薬剤について報告されている既報有害事象関連情報、及び/又は既報副作用関連情報に、(II)前記既知の薬剤について報告されている適応症データが紐付けられたデータである、
    請求項1に記載の予測方法。
  3.  前記予測用人工知能モデルは、1つの適応症に対応する、請求項1又は2に記載の予測方法。
  4.  前記予測用人工知能モデルは、複数の適応症に対応する、請求項1又は2に記載の予測方法。
  5.  前記推定有害事象関連情報、及び/又は推定副作用関連情報が、前記予測用人工知能モデルとは異なる、推定用人工知能モデルを用いて生成される、請求項1から4のいずれか一項に記載の予測方法。
  6.  前記訓練データの群は、前記既知の薬剤の適応症を示すラベルと、前記既知の薬剤について報告されている有害事象に関する情報とを、前記既知の薬剤の名称を示すラベルで紐付けることにより生成される、請求項1から5のいずれか一項に記載の予測方法。
  7.  前記推定有害事象関連情報、及び/又は推定副作用関連情報は、(1)複数の有害事象、及び/又は副作用の有無、又は(2)複数の有害事象、及び/又は副作用の発生頻度に対応する、請求項1から6のいずれか一項に記載の予測方法。
  8.  目的とする薬剤又はその等価物質の適応症の予測装置であって、
     前記予測装置は、処理部を含み、
     前記処理部は、
     前記目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして予測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測する、
    ように構成される前記予測装置。
  9.  コンピュータに実行させたときに、
     目的とする薬剤又はその等価物質を被験物質として投与した非ヒト動物から採取された、1又は複数の器官におけるバイオマーカーの挙動を示すデータの群から推定された推定有害事象関連情報を被験データとして測用人工知能モデルに入力し、前記目的とする薬剤又はその等価物質の適応症を予測するステップを、
    コンピュータに実行させる、目的とする薬剤又はその等価物質の適応症を予測するためのコンピュータプログラム。
  10.  生体内における被験物質の作用メカニズムを推定する、推定方法であって、
     請求項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化することと、
     階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い、被験物質の作用機序の情報を取得すること、
    を含む、前記推定方法。
  11.  生体内における被験物質の作用メカニズムを推定する、推定装置であって、
     前記推定装置は、処理部を含み、
     前記処理部は、
     請求項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化することと、
     階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い、被験物質の作用機序の情報を取得すること、
    を備える、前記推定装置。
  12.  コンピュータに実行させたときに、
     請求項1から7のいずれか一項に記載の予測方法により予測された適応症の予測結果に基づいて、適応症を予測する際に使用された前記1又は複数の器官におけるバイオマーカーの挙動を示すデータの群を、クラスタリングにより階層化するステップと、
     階層化されたバイオマーカーの挙動を示すデータの群についてパスウエイ解析を行い被験物質の作用機序の情報を取得するステップ、
    を備える処理をコンピュータに実行させる、生体内における被験物質の作用メカニズムを推定させる、推定プログラム。
PCT/JP2021/001265 2020-01-17 2021-01-15 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム WO2021145434A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US17/793,469 US20230066502A1 (en) 2020-01-17 2021-01-15 Prediction method for indication of aimed drug or equivalent substance of drug, prediction apparatus, and prediction program
IL294698A IL294698A (en) 2020-01-17 2021-01-15 A prediction method for the prescription of a targeted drug or a substance equivalent to a drug, a prediction device and a prediction program
JP2021571265A JPWO2021145434A1 (ja) 2020-01-17 2021-01-15
CN202180022106.XA CN115315754A (zh) 2020-01-17 2021-01-15 关注药物或该药物的等效物质的适应症的预测方法、预测装置和预测程序
CA3167902A CA3167902A1 (en) 2020-01-17 2021-01-15 Prediction method for indication of aimed drug or equivalent substance of drug, prediction apparatus, and prediction program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020006304 2020-01-17
JP2020-006304 2020-01-17

Publications (1)

Publication Number Publication Date
WO2021145434A1 true WO2021145434A1 (ja) 2021-07-22

Family

ID=76863781

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/001265 WO2021145434A1 (ja) 2020-01-17 2021-01-15 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム

Country Status (6)

Country Link
US (1) US20230066502A1 (ja)
JP (1) JPWO2021145434A1 (ja)
CN (1) CN115315754A (ja)
CA (1) CA3167902A1 (ja)
IL (1) IL294698A (ja)
WO (1) WO2021145434A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676684B2 (en) 2018-07-27 2023-06-13 Karydo Therapeutix, Inc. Artificial intelligence model for predicting actions of test substance in humans

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115486819B (zh) * 2022-11-15 2023-03-24 安徽星辰智跃科技有限责任公司 一种感知觉神经通路多级联检测量化的方法、系统和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259850B2 (ja) 1986-07-31 1990-12-13 Sumitomo Metal Mining Co
JP2004514879A (ja) * 2000-07-28 2004-05-20 ライオン バイオサイエンス アクチェンゲゼルシャフト 哺乳類における化合物の代謝を予測するための薬物動態ツールおよび方法
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
JP2014095931A (ja) * 2012-11-07 2014-05-22 Okinawa Institute Of Science And Technology Graduate Univ データ通信システム、データ解析装置、データ通信方法、および、プログラム
WO2016208776A1 (ja) 2015-06-25 2016-12-29 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259850B2 (ja) 1986-07-31 1990-12-13 Sumitomo Metal Mining Co
JP2004514879A (ja) * 2000-07-28 2004-05-20 ライオン バイオサイエンス アクチェンゲゼルシャフト 哺乳類における化合物の代謝を予測するための薬物動態ツールおよび方法
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
JP2014095931A (ja) * 2012-11-07 2014-05-22 Okinawa Institute Of Science And Technology Graduate Univ データ通信システム、データ解析装置、データ通信方法、および、プログラム
WO2016208776A1 (ja) 2015-06-25 2016-12-29 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
KOZAWA, S ET AL., ISCIENCE (DOI: 10.1016/J .ISCI.2019.100791, 2020
LI, J.LU, Z., PROCEEDINGS (IEEE INT CONF BIOINFORMATICS BIOMED, vol. 2012, 2012, pages 1 - 4
PERWITASARI ET AL., PHARMACEUTICALS, vol. 6, 2013, pages 124 - 160
PUSHPAKOM, S ET AL., NATURE REVIEWS DRUG DISCOVERY, vol. 18, 2019, pages 41 - 58
YU ET AL., OMICS: A JOURNAL OF INTEGRATIVE BIOLOGY, vol. 16, 2012, pages 284 - 287

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676684B2 (en) 2018-07-27 2023-06-13 Karydo Therapeutix, Inc. Artificial intelligence model for predicting actions of test substance in humans

Also Published As

Publication number Publication date
IL294698A (en) 2022-09-01
US20230066502A1 (en) 2023-03-02
CN115315754A (zh) 2022-11-08
JPWO2021145434A1 (ja) 2021-07-22
CA3167902A1 (en) 2021-07-22

Similar Documents

Publication Publication Date Title
JP7266899B2 (ja) ヒトにおける被験物質の作用を予測するための人工知能モデル
Karathia et al. Saccharomyces cerevisiae as a model organism: a comparative study
WO2021145434A1 (ja) 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム
US20220076832A1 (en) Prediction device based on inter-organ cross talk system
US20240006021A1 (en) Molecular evidence platform for auditable, continuous optimization of variant interpretation in genetic and genomic testing and analysis
US20220102009A1 (en) Systems and methods for nutrigenomics and nutrigenetic analysis
Venkat et al. Investigating genes associated with heart failure, atrial fibrillation, and other cardiovascular diseases, and predicting disease using machine learning techniques for translational research and precision medicine
US20190189247A1 (en) Analytics and machine learning framework for actionable intelligence from clinical and omics data
WO2021075574A1 (ja) 被験物質のヒトにおける適応疾患を予測するための人工知能モデル
Field et al. Bayesian modeling suggests that IL-12 (p40), IL-13 and MCP-1 drive murine cytokine networks in vivo
US20230253115A1 (en) Methods and systems for predicting in-vivo response to drug therapies
WO2021157739A1 (ja) シングルセルRNA-Seq解析のカウントデータセットの補正方法、シングルセルRNA-Seqの解析方法、細胞種の構成比率の解析方法、並びにこれらの方法を実行するための装置及びコンピュータプログラム
JP2005509933A (ja) 細胞成分の生物活性を予測するための方法
Zhang et al. Era of the 4D animal model
Burkhard The origins of acoustic variation in the songs of Neotropical singing mice
Woo et al. Collective interaction effects associated with mammalian behavioral traits reveal genetic factors connecting fear and hemostasis
Su et al. Identification of Parkinson PACE subtypes and repurposing treatments through integrative analyses of multimodal clinical progression, neuroimaging, genetic, and transcriptomic data
Zafeiris Elucidating new molecular drivers and pathways involved in Alzheimer’s disease using systems biology approaches
Lindau et al. OP0255 TLR9-independent and immune complex-independent interferon-alpha production by neutrophils upon netosis in response to circulating chromatin
WHO 142 Friday, 8 June 2012 Scientific Abstracts
Michalski Aspects for implementation of data mining in gerontology and geriatrics
Savage et al. The metabolomics of asthma control: a promising link between genetics and disease

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21741256

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021571265

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 3167902

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021741256

Country of ref document: EP

Effective date: 20220817

122 Ep: pct application non-entry in european phase

Ref document number: 21741256

Country of ref document: EP

Kind code of ref document: A1