WO2021075574A1 - 被験物質のヒトにおける適応疾患を予測するための人工知能モデル - Google Patents

被験物質のヒトにおける適応疾患を予測するための人工知能モデル Download PDF

Info

Publication number
WO2021075574A1
WO2021075574A1 PCT/JP2020/039179 JP2020039179W WO2021075574A1 WO 2021075574 A1 WO2021075574 A1 WO 2021075574A1 JP 2020039179 W JP2020039179 W JP 2020039179W WO 2021075574 A1 WO2021075574 A1 WO 2021075574A1
Authority
WO
WIPO (PCT)
Prior art keywords
group
data group
training
test
training data
Prior art date
Application number
PCT/JP2020/039179
Other languages
English (en)
French (fr)
Inventor
匠徳 佐藤
Original Assignee
Karydo TherapeutiX株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Karydo TherapeutiX株式会社 filed Critical Karydo TherapeutiX株式会社
Priority to IL292185A priority Critical patent/IL292185A/en
Priority to CN202080072814.XA priority patent/CN114556481A/zh
Priority to EP20877483.6A priority patent/EP4047607A4/en
Priority to JP2021552483A priority patent/JPWO2021075574A1/ja
Priority to CA3158327A priority patent/CA3158327A1/en
Priority to US17/769,516 priority patent/US20240153649A1/en
Publication of WO2021075574A1 publication Critical patent/WO2021075574A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K67/00Rearing or breeding animals, not otherwise provided for; New or modified breeds of animals
    • A01K67/027New or modified breeds of vertebrates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/15Medicinal preparations ; Physical properties thereof, e.g. dissolubility
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01KANIMAL HUSBANDRY; AVICULTURE; APICULTURE; PISCICULTURE; FISHING; REARING OR BREEDING ANIMALS, NOT OTHERWISE PROVIDED FOR; NEW BREEDS OF ANIMALS
    • A01K2267/00Animals characterised by purpose
    • A01K2267/03Animal model, e.g. for test or diseases
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Definitions

  • a method for predicting an indication disease of a test substance in humans a device for predicting an indication disease of a test substance in humans, a program for predicting an indication disease of a test substance in humans, and a test substance of the test substance.
  • methods of training artificial intelligence models used to predict adaptive diseases in humans and trained artificial intelligence models are disclosed.
  • Patent Document 1 describes organ association in each organ obtained from cells or tissues derived from one or more organs of an individual to which the test substance is administered. By comparing the test data of the index factor with the standard data of the corresponding organ-related index factor determined in advance, the pattern similarity for calculating the pattern similarity of the organ-related index factor is obtained, and the pattern of the organ-related index factor is obtained. Disclosed is a method for predicting the efficacy or side effect of a test substance in one or more of the organs and / or in an organ other than the one or more organs by using the similarity of the above as an index.
  • Patent Document 2 describes from a non-human animal to each of the non-human animals to which a plurality of existing substances whose actions in humans are known are individually administered.
  • the data group showing the behavior of the transcriptome in a plurality of different organs collected in the above and the data showing the known action of each existing substance in humans are input to the artificial intelligence model as training data, and the artificial intelligence model is trained. From the behavior of the transcriptome in a plurality of different organs of the non-human animal to which the test substance was administered, including the organs collected at the time of preparation of the training data, 1 of the test substance in humans.
  • an artificial intelligence model for predicting multiple actions has been disclosed.
  • One object of the present disclosure is to efficiently predict the indication of the test substance in humans from the behavior of the biomarker when the test substance is administered to an animal other than human.
  • An object of the present invention is to predict even if the test substance has an unknown effect on the existing substance used when acquiring the training data.
  • the present invention may include the following embodiments as embodiments.
  • the training method includes associating the first training data group, the second training data group, and the third training data group and inputting them into the artificial intelligence model to train the artificial intelligence model, and the first training data.
  • the group includes a group of data showing the behavior of biomarkers in one or more different organs collected from each non-human animal individually administered with a plurality of predetermined existing substances having known indications in humans, as described above. It is a group of data associated with a label indicating each name of a predetermined existing substance administered, and the second training data group includes a label indicating each name of the plurality of predetermined existing substances and the above.
  • the first training data group and the third training data group are linked by the second training data group to generate a fourth training data group, and the fourth training data group is artificially created. Enter into intelligence.
  • the information regarding the adverse event includes a label indicating the adverse event and the presence / absence or frequency of occurrence of the adverse event in the indication.
  • the biomarker is a transcriptome.
  • the artificial intelligence model is One-Class SVM.
  • One embodiment of the present invention relates to a training device for an artificial intelligence model.
  • the training device includes a processing unit, and the processing unit associates the first training data group, the second training data group, and the third training data group and inputs them into the artificial intelligence model to train the artificial intelligence model.
  • the first training data group showed the behavior of biomarkers in one or more different organs collected from each non-human animal individually administered with a plurality of predetermined pre-existing substances of known indications in humans. It is a group of data in which the group of the data to be shown and the label indicating the name of each of the predetermined existing substances administered are linked, and the second training data group is each of the plurality of predetermined existing substances. A group of data in which a label indicating a name and a label indicating the indication reported for each of the plurality of predetermined existing substances are associated with each other, and the third training data group is the plurality of predetermined data.
  • the first training data group is the behavior of biomarkers in one or more different organs taken from each non-human animal individually administered with multiple predetermined pre-existing substances of known indications in humans.
  • the second training data group is a group of the plurality of predetermined existing substances.
  • the third training data group is the plurality of data. It is a group of data in which labels indicating the indications reported for each of the predetermined existing substances and information on adverse events reported corresponding to each of these indications are linked, and the artificial intelligence.
  • the model is for predicting the indication of the test substance in humans. Item 8.
  • One embodiment of the invention relates to a method of predicting the indication of a test substance in humans.
  • the method is a step of acquiring a first test data group, wherein the first test data group is data showing the behavior of a biomarker in one or more organs collected from a non-human animal to which a test substance has been administered.
  • the steps, the first test data group, and the second test data group were input to the artificial intelligence model trained by the method according to any one of Items 1 to 5, and the training was performed.
  • It is a step of predicting the indication of the test substance in humans based on the input first test data group and the second test data group by the artificial intelligence model, and the second test data group is a plurality of known known.
  • the test substance includes a processing unit, and the processing unit uses an artificial intelligence model in which a first test data group and a second test data group are trained by the method according to any one of Items 1 to 5.
  • the second test data group is a group of data showing the behavior of the biomarker in the above, and the second test data group is reported corresponding to each of a plurality of known indication labels and the plurality of known indications. This is a group of data associated with information on adverse events acquired when the training data group was generated. Item 12.
  • An embodiment of the present invention comprises an artificial intelligence model in which a first test data group and a second test data group are trained by the method according to any one of items 1 to 5 when executed by a computer.
  • the group is a group of data showing the behavior of biomarkers in one or more organs collected from non-human animals to which the test substance was administered, and corresponds to the organ collected at the time of generation of the first training data group1.
  • the present invention relates to a predictive system for predicting the indication of a test substance in humans.
  • the system is a server device that transmits a first test data group, and the first test data group is data showing the behavior of biomarkers in one or more organs collected from a non-human animal to which the test substance was administered.
  • a server device which is a group of the above, and a prediction device connected to the server device via a network for predicting the action of the test substance in humans.
  • the server device includes a communication unit for transmitting the first test data group, the prediction device includes a processing unit and a communication unit, and the processing unit transmits via the communication unit of the server device.
  • the method according to any one of Items 1 to 5, wherein the obtained first test data group is acquired via the communication unit of the prediction device, and the acquired first test data group and the second test data group are obtained.
  • the first test data group is a group of data showing the behavior of biomarkers in one or more organs collected from non-human animals to which the test substance was administered, and is an organ collected at the time of generation of the first training data group. It is a group of data showing the behavior of the biomarker in one or a plurality of organs corresponding to, and the second test data group corresponds to a plurality of known indication labels and each of the plurality of known indications. This is a group of data associated with information on adverse events acquired at the time of generation of the third training data group reported in the above. Item 14.
  • the name of the existing substance administered when acquiring a group of data showing the behavior of the biomarker in one or a plurality of different organs and a group of data showing the behavior of the biomarker is given.
  • the first training data group which is a group of data associated with the indicated label
  • the one or more different organs individually administer a plurality of predetermined existing substances having known indications in humans.
  • the first training data group labels indicating the names of the plurality of predetermined existing substances, and the indications reported for each of the plurality of predetermined existing substances, which are collected from each of the non-human animals.
  • the second training data group which is a group of data associated with the label indicating the disease, and the information on the adverse events reported corresponding to each of the label indicating the indication and the indication are associated.
  • the third training data group which is a group of the obtained data, relates to a method of using the third training data group for training an artificial intelligence model for predicting the indication of a test substance in humans.
  • Item 15. The present invention relates to a method of using a first test data group and a second test data group as test data for predicting the indication of a test substance in humans.
  • the first test data group is a group of data showing the behavior of biomarkers in one or more organs collected from a non-human animal to which the test substance was administered, and generation of the first training data group.
  • test substance Even if the test substance has an unknown effect on the existing substance used when acquiring the training data, the effect can be predicted.
  • the outline of the present invention is shown.
  • the outline of the invention (conventional technique) described in Patent Document 2 is shown.
  • An example of training data is shown.
  • (A) shows an example of the first training data.
  • (B) shows an example of the second training data.
  • (C) shows an example of the third training data.
  • (D) shows an example of the 4th training data.
  • (A) shows the hardware configuration of the training system.
  • (B) shows the hardware configuration of the prediction system.
  • the hardware configuration of the training device is shown. It is a flowchart which shows the process flow of a training program.
  • the hardware configuration of the prediction device is shown. It is a flowchart which shows the processing flow of a prediction program.
  • the hardware configuration of the server device is shown.
  • the prediction result of the artificial intelligence trained without using the transcriptome data of the test drug is shown.
  • the prediction results of artificial intelligence trained using the transcriptome data of the test drug are shown.
  • Some of the decision function values of the alendronate are shown.
  • the prediction method predicts the indication of the test substance in humans.
  • the predictive method is the behavior of the biomarker in non-human animals administered with an existing substance of known action in humans, the known indications, and the adverse events reported in response to the known indications.
  • the prediction is achieved using an artificial intelligence model.
  • the artificial intelligence model used for prediction preferably associates three types of training data groups, a first training data group, a second training data group, and a third training data group. Trained by a set of data.
  • a plurality of predetermined existing substances having known indications in humans were individually administered to non-human animals, and one or one collected from each of the non-human animals. It is a group of data in which a group of data showing the behavior of a biomarker in each of a plurality of different organs is associated with a label showing the name of each of the predetermined existing substances administered.
  • drugs A, B, and C are individually administered to non-human animals such as mice as predetermined existing substances, and the organs or organs are individually administered from the non-human animals. Collect some tissue.
  • FIG. 3A shows a specific example of the first training data group.
  • the leftmost column is the first column.
  • the drug name “Aripiprazole” and the drug name “EMPA” are shown as examples.
  • the second and subsequent columns show the expression level of RNA in each organ.
  • "Heart” and “Skin” are labels for organ names
  • "Alas2" and "Apod” are labels for gene names whose expression has been analyzed.
  • values indicating the expression level of each gene are input as elements.
  • [label indicating the organ name and label indicating the gene name] and [value indicating the expression level of each gene] correspond to the label indicating the drug name.
  • the second training data includes a label (first column of FIG. 3A) indicating the name of each of the plurality of predetermined existing substances administered when the first training data group was acquired.
  • a group of data associated with the label indicating the indication reported for each of the plurality of predetermined existing substances.
  • FIG. 3B shows a specific example of the second training data group.
  • the leftmost column is the first column.
  • the drug name “Aripiprazole” and the drug name “EMPA” are shown as examples.
  • the second and subsequent columns are the indications reported for each of the drugs listed in the first column.
  • "Nerve injury” is indicated as a label indicating the indication of the drug name "Aripiprazole”
  • Type 2 diabetes mellitus is indicated as the label of the name indicating the indication of the drug name "EMPA”.
  • the third training data includes a label indicating the indication shown in FIG. 3 (B) reported for each of the plurality of predetermined existing substances administered when acquiring the first training data group. It is a group of data associated with information on adverse events reported for each of these indications.
  • the information about the adverse event may include a label indicating the name of the adverse event, the presence or absence of the adverse event, or the frequency of occurrence.
  • FIG. 3C shows a more specific example of the third training data group. In the example of the first training data group shown in FIG. 3C, the leftmost column is the first column. “Nerve injury”, which is an indication for the drug name “Aripiprazole” described in “Indication 1” in FIG.
  • what is input to the artificial intelligence is the fourth training data group generated by associating the first training data group and the third training data group with the second training data group. ..
  • FIG. 3 (D) An example of the fourth training data group is shown in FIG. 3 (D).
  • the leftmost column is the first column.
  • labels indicating the names of the adverse events shown in FIG. 3C and the frequency of occurrence of each are shown.
  • a label indicating the name of the organ shown in FIG. 3A a label indicating the name of the gene, and the expression level of the gene are shown.
  • FIG. 3 (D) is data in which the frequency of occurrence of adverse events in the second and subsequent columns shown in FIG. 3 (C) is substituted for the label in the first column indicating the drug name in FIG. 3 (A).
  • the artificial intelligence model trained in (1) is used to predict the indication of the test substance in humans.
  • the test data groups input to the artificial intelligence model trained in predicting the indication are the first test data group and the second test data group.
  • the first test data group is input to the trained artificial intelligence model together with the second test data group.
  • the first test data group is a group of data showing the behavior of biomarkers in one or more organs collected from non-human animals to which the test substance was administered.
  • the plurality of periods correspond to the organs collected at the time of generation of the first training data group.
  • the first test data is obtained by administering one test substance to a non-human animal, collecting one or more organs, analyzing the transcriptome, and [label indicating the organ name and the label indicating the gene name]. ] And [value indicating the expression level of each gene].
  • the second test data group includes labels for a plurality of known indications and information on adverse events acquired at the time of generation of the third training data group reported corresponding to each of the plurality of known indications. Is a group of data associated with.
  • the plurality of known indications may include not only indications used as the second training data but also known indications registered in an external database.
  • “plurality" can be intended, for example, 100, 500, 1000, or 2000, or even more.
  • the prediction method does not have to be an existing substance or an equivalent substance of the existing substance as the test substance. If the test substance is not an existing substance or an equivalent substance of an existing substance, the prediction method is a method for predicting the indication of the new substance.
  • the prediction method may include an existing substance or an equivalent substance of the existing substance as the test substance.
  • the prediction method is a drug repositioning method for searching for a new indication of an existing substance or an equivalent substance of an existing substance.
  • the prediction method described herein it is preferable that the test substance is also included in the existing substance administered to obtain the first training data group. By doing so, the prediction accuracy can be improved.
  • the conventional method shown in FIG. 2 is the method described in Patent Document 2.
  • drugs A, B, and C as existing substances are individually administered to a non-human animal such as a mouse, and the above.
  • Each non-human animal is harvested from an organ or tissue that is part of an organ.
  • the behavior of the biomarker in the collected organ or tissue is analyzed, and the first training data group is generated.
  • a second training data is generated from a human clinical database of adverse events, indications, pharmacokinetics, indications, etc. of existing substances.
  • the artificial intelligence model shown in FIG. 2 is generated by training using the first training data group and the second training data.
  • the conventional method builds an artificial intelligence model by associating the behavior of the biomarker with each of the adverse events, indications, pharmacokinetics, or indications of the existing substance.
  • the test data used in the conventional method is one or more different organs of the non-human animal to which the test substance was administered, and one or more organs corresponding to the organs collected at the time of generation of the first training data group. It is the data which shows the behavior of the biomarker in.
  • This embodiment differs from the conventional method in that not only the behavior of the biomarker but also the information on the adverse event assigned to the indication name is used as the training data. Also, as test data, not only the behavior of biomarkers but also information on a plurality of known indications and adverse events will be used.
  • test substance has an unknown indication for the existing substance used when acquiring the training data, it can be predicted.
  • Non-human animals are not limited in the present disclosure. Examples thereof include mammals such as mice, rats, dogs, cats, rabbits, cows, horses, goats, sheep and pigs, and birds such as chickens. Mammals such as mice, rats, dogs, cats, cows, horses and pigs are preferable, mice or rats are more preferable, and mice are even more preferable. Non-human animals also include foets, chicks and the like of the animals.
  • “substances” include, for example, compounds; nucleic acids; sugars; lipids; glycolipids; glycolipids; lipoproteins; amino acids; peptides; proteins; polyphenols; chemokines; terminal metabolites and intermediate metabolites of the substances. , And at least one metabolite selected from the group consisting of synthetic raw materials; metal ions; or microorganisms and the like.
  • the substance may be a simple substance or a mixture of a plurality of kinds of substances.
  • the “substance” includes pharmaceuticals, quasi-drugs, medicinal cosmetics, foods, foods for specified health uses, foods with functional claims, and candidate products thereof.
  • the “substance” may also include a substance whose study has been discontinued or discontinued in preclinical or clinical trials for regulatory approval.
  • Existing substance is not limited as long as it is an existing substance. Preferably, it is a substance whose action in humans is known.
  • the "equivalent substance of an existing substance” may include a substance having a structure similar to that of the existing substance and having an action similar to that of the existing substance.
  • a similar action is intended to have the same action as an existing substance, although the strength of the action is the same or different.
  • Adverse events are not limited as long as they are actions that are judged to be harmful to humans.
  • FAERS https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm
  • Adverse events listed in external databases such as gov https://clinicaltrials.gov/) can be exemplified.
  • “Indications” are not limited as long as they are intended to reduce, treat, stop or prevent diseases and symptoms in humans.
  • the above-mentioned FAERS, DAILYMED all drag labels (https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm), Medical Subject Headings (https: /) /www.nlm.nih.gov/mesh/meshhome.html), Drugs @ FDA (https://www.accessdata.fda.gov/scripts/cder/daf/), International Classication of Diseases (https: // www) It can exemplify diseases or symptoms listed in external databases such as .who.int/health-topics/international-classification-of-diseases).
  • the indications are ischemic diseases such as thrombosis, embolism, stenosis (particularly heart, brain, lung, large intestine, etc.); circulatory disorders such as aneurysm, venous aneurysm, congestion, bleeding (aorta).
  • ischemic diseases such as thrombosis, embolism, stenosis (particularly heart, brain, lung, large intestine, etc.); circulatory disorders such as aneurysm, venous aneurysm, congestion, bleeding (aorta).
  • Symptoms or diseases associated with infectious diseases bacteria, viruses, liquettia, chlamydia, fungi, protozoa, parasites, etc.
  • renal diseases systemic erythematosus, autoimmune diseases such as multiple sclerosis, etc. be able to.
  • the incidence of adverse events can be determined by the following method.
  • the word indicating the name of the adverse event is referred to as the above clinicaltrials.
  • Extract from databases such as gov, FAERS, and DAILYMED's all drug labels by text extraction or the like.
  • the "organ” is not limited as long as it is an organ existing in the body of the mammal or bird described above.
  • the organs include circulatory organs (heart, arteries, veins, lymph vessels, etc.), respiratory organs (nasal cavity, sinus cavity, laryngeal, trachea, bronchi, lungs, etc.), digestive system organs ().
  • the "organs” include bone marrow, pancreas, skull, liver, skin, brain, pituitary gland, adrenal gland, thyroid gland, spleen, thymus, heart, lung, aorta, skeletal muscle, testis, peri-mitral fat, eyeball. , At least one selected from the ileum, stomach, jejunum, large intestine, adrenal gland, and parotid gland.
  • the plurality of organs is not limited as long as it is two or more. For example, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, and 24 species. You can choose from organs.
  • Organic-derived means, for example, that it was collected from an organ, or that it was cultured from the cells or tissues of the collected organ, or body fluid.
  • the "body fluid” includes serum, plasma, urine, cerebrospinal fluid, ascites, pleural effusion, saliva, gastric fluid, pancreatic fluid, bile, milk, lymph fluid, interstitial fluid, and the like.
  • Biomarker refers to an in vivo substance that can fluctuate in cells or tissues of each organ and / or body fluid depending on the administration of the substance.
  • In vivo substances that can be “biomarkers” are nucleic acids; sugars; lipids; glycolipids; glycolipids; lipoproteins; amino acids, peptides; proteins; polyphenols; chemokines; terminal metabolites, intermediate metabolites, and intermediate metabolites of the substances.
  • At least one metabolite selected from the group consisting of synthetic raw materials; and at least one selected from metal ions and the like can be exemplified. More preferably, it is a nucleic acid.
  • the biomarker is preferably a group of in vivo substances that can vary with the cells or tissues of each organ and / or body fluids, depending on the administration of the substance.
  • a group of substances in the living body for example, nucleic acids; sugars; lipids; glycolipids; glycolipids; lipoproteins; amino acids, peptides; proteins; polyphenols; chemokines; terminal metabolites, intermediate metabolites, and synthetic raw materials of the substances.
  • At least one group selected from the group consisting of substances; and at least one group selected from metal ions and the like can be exemplified.
  • the "nucleic acid” is preferably a group of RNA contained in a transcriptome such as mRNA, non-coding RNA, and microRNA, and more preferably a group of mRNA.
  • the RNA is preferably mRNA, untranslated RNA and / or microRNA that can be expressed in cells or tissues of the above organs, or cells in body fluids, and more preferably mRNA or untranslated RNA that can be detected by RNA-Seq or the like.
  • RNA-Seq RNA-Seq
  • the "group of data showing the behavior of the biomarker” is intended to be a group of data showing that the biomarker fluctuated or did not fluctuate according to the administration of the existing substance.
  • the behavior of the biomarker indicates that the biomarker fluctuated with administration of the existing substance.
  • the data can be obtained, for example, by the following method. Measure the abundance or concentration of each biomarker for tissues, cells, body fluids, etc. derived from a certain organ collected from a non-human animal to which an existing substance has been administered, and obtain the measured value in each organ of an individual to which the existing substance has been administered. To do. Similarly, for tissues, cells, body fluids, etc.
  • the abundance of each biomarker or the abundance of each biomarker was similarly obtained. Measure the concentration and obtain the measured value of the non-administered individual. The measured values of each biomarker derived from each organ of the existing substance-administered individual are compared with the measured values of the biomarkers in each organ corresponding to the biomarker of the existing substance-administered individual in the non-administered individual, and the value showing the difference is shown. Get as data.
  • "corresponding" means whether the organ and biomarker are the same or the same species.
  • the difference can be indicated by the ratio (eg, division value) of the measured value of each biomarker derived from the existing substance-administered individual to the measured value of the biomarker in the non-administered individual corresponding to this biomarker.
  • the data is a division of the measured value of biomarker A of organ A derived from an existing substance-administered individual divided by the measured value of biomarker A of organ A derived from a non-administered individual.
  • RNA-Seq total RNA that can be analyzed by RNA-Seq may be used, but the RNA is, for example, WGCNA (https://labs.genetics.ucla.edu/horvath).
  • WGCNA https://labs.genetics.ucla.edu/horvath.
  • CoexpressionNetwork / Rpackages / WGCNA / may be used to analyze the expression of the RNA and divide it into subsets (modules) of data showing the behavior of each RNA associated with the organ name and the gene name. For each module divided by WGCNA, calculate Pearson's correlation coefficient with the 1-of-K representation for each existing substance, and select and select the module with the highest absolute value of the correlation coefficient for each existing substance.
  • the RNA in each organ contained in the module may be used as a biomarker.
  • the change in transcriptome in each organ of the existing substance-administered animal compared to the non-administered animal of the existing substance should be performed using DESeq2 analysis.
  • the expression level of RNA in each organ collected from an animal to which an existing substance is administered and the expression level of a gene in each corresponding organ collected from an animal to which an existing substance is not administered are quantified by htseq-count, and each count data is obtained. .. Then, the expression level of each organ and each gene in each organ is compared.
  • the log 2 (fold) value of the gene expression fluctuation amount of the existing substance-administered animal and the p value which is an index of the certainty of each fluctuation amount are output for each gene for each organ. Based on the log 2 (fold) value, it is possible to determine the presence or absence of the behavior of a biomarker such as a transcriptome.
  • the measured value of the biomarker can be obtained by a known method.
  • the biomarker is a nucleic acid
  • the measured value can be obtained by sequencing RNA-Seq or the like, quantitative PCR or the like.
  • the biomarker is at least one metabolite selected from the group consisting of sugars, lipids, glycolipids, amino acids, polyphenols; chemocaines; terminal metabolites, intermediate metabolites, and synthetic raw materials of the substances.
  • the measured value can be obtained by mass spectrometry or the like.
  • the biomarker is a glycoprotein, lipoprotein, peptide, protein or the like
  • the measured value can be obtained by an ELISA method (Enzyme-Linked Immuno Substance Association) or the like.
  • a method for collecting tissue, cells, or body fluid derived from an organ used for measurement, and a pretreatment method for measuring biomarkers are also known.
  • Test substance is a substance to be evaluated for its action.
  • the test substance may be an existing substance, an equivalent of an existing substance, or a novel substance.
  • the action of the test substance in humans can be predicted even when the relationship between the action of the test substance and the action of the existing substance or the equivalent substance of the existing substance is not found.
  • the test substance is a kind selected from the existing substance or the equivalent of the existing substance, the unknown action of the existing substance or the equivalent of the existing substance can be found.
  • the unknown action may be one or more.
  • the unknown effect is preferably a new application.
  • Drug repositioning can also be performed by predicting new indications for the test substance in humans. Administration of the test substance to non-human animals is known.
  • the data showing the behavior of the biomarker in one or more organs collected from the non-human animal to which the test substance was administered shows the behavior of the biomarker in one or more organs collected from the non-human animal to which the existing substance was administered. It can be obtained in the same way as the data indicating.
  • the first training data group is composed of a group of data indicating the behavior of biomarkers in one or a plurality of different organs and a label indicating the existing substance name. To. The one or more different organs can be harvested from each non-human animal individually administered with a plurality of existing substances known to act in humans.
  • the first training data group can be stored as the database TR1 in the auxiliary storage unit 104 of the training device 10 shown in FIG.
  • a group of data showing the behavior of biomarkers in one or more different organs is described in 1. above. It can be obtained by the method described in (4).
  • Each of the data showing the behavior of the biomarker in each of the organs can be associated with information on the name of the existing substance administered, information on the name of the collected organ, information on the name of the biomarker, and the like.
  • the information about the name may be the name itself, a label such as an abbreviation, or a label value corresponding to each name.
  • Each data included in the group of data showing the behavior of the biomarker is an element constituting a matrix in the first training data group of the artificial intelligence model described later.
  • the expression level of each RNA corresponds to the data included in the group of data showing the behavior of the biomarker, and becomes an element of the matrix constituting the first training data group.
  • the biomarker is a transcriptome
  • the log 2 (fold) value of each existing substance obtained by DESeq2 analysis may be used as each element of the first training data group.
  • An example of the first training data group is the above 1. It is as shown in (1) and FIG. 3 (A).
  • the measured value of the biomarker may be used as it is as an element of the first training data group, but after standardization, dimension reduction, etc., it is used as an element of the first training data group. You may use it.
  • a standardization method for example, a method of converting data showing an expression difference so that the average value is 0 and the variance is 1 can be exemplified.
  • the mean value in the standardization can be the mean value in each organ, the mean value in each gene, or the mean value in all the data.
  • the dimension reduction can be performed by statistical processing such as principal component analysis.
  • the population for statistical processing can be organ-by-organ, gene-by-gene, or whole data.
  • the biomarker is a transcriptome
  • genes whose p-value with respect to the log 2 (fold) value of each existing substance obtained by DESeq2 analysis is equal to or less than a predetermined value are used as elements of the first training data group. May be good.
  • the predetermined value can be, for example, 10 -3 or 10 -4 . Preferably, it is 10-4.
  • the label indicating the name of each of the predetermined existing substances administered, which is included in the first training data group may be the name of the substance itself, or may be encoded.
  • the first training data group can be updated by updating existing substances and adding data showing the behavior of new biomarkers.
  • the second training data group is described in the above 1.
  • the indications for existing substances are as described in 1. above. Search for existing substances from external databases such as FAERS, DAILYMED's all drugs, Medical Substance Headings, Drugs @ FDA, International Classification of Diseases, etc. described in (4). You can get the label of the corresponding indication name. There can be one or more indications for one existing substance.
  • the two or more indications constitute the second training data group.
  • Labels indicating the indications reported for each of a plurality of predetermined existing substances are obtained by performing text extraction, natural language processing, digitizing processing, image analysis processing, etc. on the data group stored in the database. Can be obtained. For example, a label indicating the name of each indication corresponding to each existing substance administered to the non-human animal when generating the first training data group stored in the external database is inserted and registered in the text. In that case, the registered sentence may be subjected to parsing, word division, semantic analysis, etc. by natural language processing, and then the text corresponding to the action may be extracted.
  • the third training data is described in 1. above.
  • the indications shown in FIG. 3 (B) reported for each of the plurality of predetermined existing substances administered when acquiring the first training data group Is a group of data associated with a label indicating the above and information on adverse events reported corresponding to each of these indications.
  • Indications reported for each of a plurality of pre-existing substances are from external databases such as FAERS, DAILYMED's all drug labels, Medical Subject Headings, Drugs @ FDA, International Classification of Diseases, etc., for each existing substance. You can search by the word of the substance name and obtain the label of the corresponding indication name.
  • Labels indicating adverse events reported for each of these indications are FAERS, or clinicaltrials. It can be searched and obtained from an external database such as gov with a label indicating the indication name. In addition, when a label indicating the name of an indication or an adverse event is inserted in a sentence and registered, syntactic analysis, word division, semantic analysis, etc. are performed on the registered sentence by natural language processing. After that, the text corresponding to the action may be extracted. The frequency of adverse events is described in 1. above. It can be calculated by the method described in (4).
  • the 4th training data group is described in 1. above. As described in (1) and FIG. 3 (D), the first column of the label indicating the drug name included in the first training data group (the first column showing the drug name in FIG. 3 (A)) is displayed. Frequency of adverse events reported for indications corresponding to labels indicating the names of existing substances administered to obtain training data (occurrence of adverse events in the second and subsequent columns shown in FIG. 3C) Frequency) is substituted and generated.
  • the artificial intelligence model is not limited as long as it can solve the problem according to the present invention. In this embodiment, it is preferable to use an artificial intelligence model capable of performing Link Precision.
  • One-Class SVM one-class support vector machine
  • One-Class SVM one-class support vector machine
  • the data to be input to the One-class SVM is input to the One-class SVM as the fourth training data group by associating the first training data group and the third training data group with the kernel function of the following equation.
  • k (g A d 1 , g B d 2 ) ⁇ g A , g B > ⁇ d 1 , d 2 >
  • ⁇ , ⁇ > indicates an operator that scales each vector so that the 12 norm becomes 1, and takes the inner product between both scaled vectors.
  • Training system for artificial intelligence model Fig. 4 (A) shows the hardware configuration of the training system 50.
  • the training system 50 includes a measuring unit 30 for acquiring measurement data of a biomarker such as a next-generation sequencer, and a training device 10.
  • the training device 10 and the measuring unit 30 may be communicably connected by a wireless or wired network, but the data acquired by the measuring unit 30 may be acquired via a storage medium such as a CD-R. ..
  • (1) Artificial Intelligence Model Training Device Training of the artificial intelligence model can be performed using, for example, a training device 10 (hereinafter, also referred to as a device 10).
  • a training device 10 hereinafter, also referred to as a device 10.
  • the device 10 includes at least a processing unit 101 and a storage unit.
  • the storage unit is composed of a main storage unit 102 and / or an auxiliary storage unit 104.
  • FIG. 5 shows the hardware configuration of the device 10.
  • the device 10 may be connected to the input unit 111, the output unit 112, and the storage medium 113. Further, it may be connected to a measuring unit 30 such as a next-generation sequencer or a mass spectrometer.
  • the device 10 includes FAERS, DAILYMED's all drugs, Medical Subject Headings, Drugs @ FDA, International Classification of Diseases, and clinical trials. It may be communicably connected to an external database 60 such as gov.
  • the output interface (I / F) 107 and the media interface (I / F) 108 are connected to each other by a bus 109 so as to be capable of data communication.
  • the processing unit 101 is composed of a CPU, an MPU, or the like.
  • the processing of the processing unit 101 may be assisted by the GPU.
  • the device 10 functions when the processing unit 101 executes a computer program stored in the auxiliary storage unit 104 or the ROM 103 and processes the acquired data.
  • the processing unit 101 is described in the above 1.
  • a group of data showing the behavior of biomarkers in a plurality of different organs collected from non-human animals to which the existing substance described in the above is administered, and the known action of the existing substance in humans are acquired as training data.
  • the artificial intelligence model is trained using the above two training data.
  • the ROM 103 is composed of a mask ROM, a PROM, an EPROM, an EEPROM, and the like, and records a computer program executed by the processing unit 101 and data used for the computer program.
  • the ROM 103 stores a boot program executed by the processing unit 101 when the device 10 is started, a program related to the operation of the hardware of the device 10, a setting, and the like.
  • the main storage unit 102 is composed of a RAM (Random access memory) such as a SRAM or a DRAM.
  • the main storage unit 102 is used for reading the computer program recorded in the ROM 103 and the auxiliary storage unit 104. Further, the main storage unit 102 is used as a work area when the processing unit 101 executes these computer programs.
  • the main storage unit 102 temporarily stores the functions of the artificial intelligence model read from the auxiliary storage unit 104, such as training data acquired via the network.
  • the auxiliary storage unit 104 is composed of a hard disk, a semiconductor memory element such as a flash memory, an optical disk, or the like.
  • the auxiliary storage unit 104 stores various computer programs to be executed by the processing unit 101 and various setting data used for executing the computer programs.
  • the database TR3 that stores the training data group is stored non-volatilely.
  • the training program TP cooperates with the operation software (OS) 1041 to perform artificial intelligence training processing described later.
  • the communication I / F 105 is a serial interface such as USB, IEEE1394, RS-232C, a parallel interface such as SCSI, IDE, IEEE1284, an analog interface including a D / A converter, an A / D converter, and a network interface controller ( It is composed of Network interface controller (NIC) and the like.
  • the communication I / F 105 functions as a communication unit 105, receives data from the measurement unit 30 or another external device under the control of the processing unit 101, and stores or generates information that the device 10 stores or generates as needed. It is transmitted or displayed to the measuring unit 30 or the outside.
  • the communication I / F 105 may communicate with the measuring unit 30 or another external device (not shown, for example, another computer or a cloud system) via a network.
  • the input I / F 106 is composed of, for example, a serial interface such as USB, IEEE1394, RS-232C, a parallel interface such as SCSI, IDE, IEEE1284, and an analog interface including a D / A converter and an A / D converter.
  • a serial interface such as USB, IEEE1394, RS-232C
  • a parallel interface such as SCSI, IDE, IEEE1284
  • an analog interface including a D / A converter and an A / D converter.
  • the input I / F 106 accepts character input, click, voice input, and the like from the input unit 111.
  • the received input contents are stored in the main storage unit 102 or the auxiliary storage unit 104.
  • the input unit 111 is composed of a touch panel, a keyboard, a mouse, a pen tablet, a microphone, and the like, and inputs characters or voices to the device 10.
  • the input unit 111 may be connected from the outside of the device 10 or may be integrated with the device 10.
  • the output I / F 107 is composed of an interface similar to that of the input I / F 106, for example.
  • the output I / F 107 outputs the information generated by the processing unit 101 to the output unit 112.
  • the output I / F 107 outputs the information generated by the processing unit 101 and stored in the auxiliary storage unit 104 to the output unit 112.
  • the output unit 112 is composed of, for example, a display, a printer, etc., and displays the measurement results transmitted from the measurement unit 30, various operation windows in the device 10, each training data, an artificial intelligence model, and the like.
  • the media I / F 108 reads, for example, application software stored in the storage medium 113.
  • the read application software and the like are stored in the main storage unit 102 or the auxiliary storage unit 104. Further, the media I / F 108 writes the information generated by the processing unit 101 into the storage medium 113.
  • the media I / F 108 writes the information generated by the processing unit 101 and stored in the auxiliary storage unit 104 to the storage medium 113.
  • the storage medium 113 is composed of a flexible disk, a CD-ROM, a DVD-ROM, or the like.
  • the storage medium 113 is connected to the media I / F 108 by a flexible disk drive, a CD-ROM drive, a DVD-ROM drive, or the like.
  • the storage medium 113 may store an application program or the like for the computer to execute an operation.
  • the processing unit 101 may acquire the application software and various settings necessary for controlling the device 10 via the network instead of reading from the ROM 103 or the auxiliary storage unit 104.
  • the application program is stored in the auxiliary storage unit of the server computer on the network, and the device 10 can access the server computer to download the computer program and store it in the ROM 103 or the auxiliary storage unit 104. Is.
  • ROM 103 or the auxiliary storage unit 104 an operation system that provides a graphical user interface environment such as Windows (registered trademark) manufactured and sold by Microsoft Corporation in the United States is installed.
  • the application program according to the second embodiment shall run on the operating system. That is, the device 10 can be a personal computer or the like.
  • the processing unit 101 receives the processing start command input from the input unit 111 by the operator, and the first training data group database TR1, the second training data group database TR2, and the third training data group database TR2 stored in the auxiliary storage unit 104 in step S1.
  • the first training data group, the second training data group, and the third training data group are acquired from each of the training data group database TR3.
  • the processing unit 101 receives the generation start command of the fourth training data group input from the input unit 111 by the operator, and generates the fourth training data group in step S2.
  • the processing unit 101 receives an input command for the fourth training data group input by the operator from the input unit 111, inputs the fourth training data group to the artificial intelligence model AI1 in step S3, and trains the artificial intelligence model. ..
  • the processing unit 101 stores the trained artificial intelligence model in the auxiliary storage unit 104.
  • the transition between the steps may be performed by the operator by inputting a command, but the processing unit 101 may automatically proceed by using the completion of the previous step as a trigger.
  • the first test data group is a group of data showing the behavior of biomarkers in one or a plurality of different organs, and the first training data was acquired. It can be obtained from a period corresponding to one or more different organs.
  • the group of data showing the behavior of biomarkers in each organ is described in 1. above. It can be obtained in the same manner as the data group showing the behavior of the biomarker used as the first training data by the method described in (4).
  • the second test data is described in the above 1.
  • a group of data in which labels of a plurality of known indications and information on adverse events reported corresponding to each of the plurality of known indications are linked. is there.
  • Labels for multiple known indications and labels indicating adverse events reported for each of these indications are available from FAERS, or clinicaltrials.gov. It can be searched and obtained from an external database such as gov with a label indicating the indication name.
  • syntactic analysis, word division, semantic analysis, etc. are performed on the registered sentence by natural language processing. After that, the text corresponding to the action may be extracted.
  • the frequency of adverse events is described in 1. above. It can be calculated by the method described in (4).
  • FIG. 4A shows the hardware configuration of the prediction system 51.
  • the prediction system 51 includes a measurement unit 30 for acquiring measurement data of a biomarker such as a next-generation sequencer, and a prediction device 20.
  • the prediction device 20 and the measurement unit 30 may be connected by a wireless or wired network, but the data acquired by the measurement unit 30 may be acquired via a storage medium such as a CD-R.
  • the prediction of the indication can be performed using, for example, a prediction device 20 (hereinafter, may be simply referred to as a device 20).
  • FIG. 7 shows the hardware configuration of the prediction device 20 (hereinafter, also referred to as the device 20).
  • the device 20 includes at least a processing unit 201 and a storage unit.
  • the storage unit is composed of a main storage unit 202 and / or an auxiliary storage unit 204.
  • the device 20 may be connected to the input unit 211, the output unit 212, and the storage medium 213. Further, it may be connected to a measuring unit 30 such as a next-generation sequencer or a mass spectrometer.
  • the output interface (I / F) 207 and the media interface (I / F) 208 are connected to each other by bus 209 so as to be capable of data communication.
  • the communication interface 205 functions as a communication unit 205.
  • the auxiliary storage unit 204 of the device 20 stores the operation software (OS) 1041, the training program TP, the artificial intelligence model AI1, the database TR1 that stores the first training data group, and the second training data group.
  • the operation software (OS) 2041, the prediction program PP, the trained artificial intelligence model AI2, and the database TS1 that stores the first test data group is stored non-volatilely.
  • the prediction program PP cooperates with the operation software (OS) 2041 to perform prediction processing of indications described later.
  • the processing unit 201 receives the processing start command input from the input unit 211 by the operator, and acquires the first test data group and the second test data group stored in the auxiliary storage unit 204 in step S51.
  • the processing unit 201 receives the prediction start command input by the operator from the input unit 211, and in step S52, the first test data group database TS1, the second test data group database TS2, the first test data group, and the first test data group 2 Input the test data group into the trained artificial intelligence model AI2 to predict the indication of the test substance.
  • the trained artificial intelligence model AI2 individually determines whether or not the target test substance is effective for all the indications input as the second test data. Specifically, the trained artificial intelligence model AI2 determines whether or not there is a link between the target drug and the individual indication in the LP problem.
  • the processing unit 201 stores the result in the storage unit.
  • the result derived by the processing unit 201 by the trained artificial intelligence model AI2 returns the label "1" if the test substance works for a certain indication, and the label "-1" if the test substance does not work for a certain indication. ". That is, the indication marked with "1" is the predicted indication of the test substance.
  • the artificial intelligence model is One-Class SVM
  • the description function values indicating the reliability of the prediction are calculated.
  • it can be predicted that the possibility of indications is high in descending order of this value.
  • another drug having a mechanism of action similar to that of the target test substance is administered to the test substance, and the transcriptome in one or more organs collected is obtained.
  • the prediction result of the target test substance is compared with the prediction result of other test substances having a similar mechanism of action, and the indications common to both are used. May be the prediction result.
  • FIG. 4B shows the configuration of the prediction system 400.
  • the measurement unit 30, the training device 10, the prediction device 20, and the server device 40 that transmits a data group indicating the behavior of the biomarker are communicably connected to each other.
  • the training device 10 and the prediction device 20 acquire the data acquired by the measuring unit 30 via the server device 40.
  • Server device Regarding the server device 40 (hereinafter, may be simply referred to as the device 40), the above 1. , Above 2-1. For terms that are common to the terms described in, the above description is incorporated herein by reference.
  • FIG. 9 shows the hardware configuration of the server device 40 (hereinafter, also referred to as the device 40).
  • the device 40 includes at least a processing unit 401 and a storage unit.
  • the storage unit is composed of a main storage unit 402 and / or an auxiliary storage unit 404.
  • the device 40 may be connected to the input unit 411, the output unit 412, and the storage medium 413. In addition, it can be communicably connected to the measuring unit 30 of the next-generation sequencer, mass spectrometer, or the like via a wireless or wired network.
  • the output interface (I / F) 407 and the media interface (I / F) 408 are connected to each other by a bus 409 so as to be capable of data communication.
  • the communication interface 405 functions as a communication unit 405.
  • the auxiliary storage unit 404 of the device 40 stores the operation software (OS) 1041, the training program TP, the artificial intelligence model AI1, the database TR1 that stores the first training data group, and the second training data group.
  • the operation software (OS) 4041 and the database TS1 that stores the first test data group are stored non-volatilely.
  • step S81 the measuring unit 30 acquires the measured values of the biomarkers of each organ of the non-human animal to which the existing substance has been administered.
  • the acquisition of the measured value in the measuring unit 30 can be performed by inputting the measurement start instruction by the operator.
  • step S82 the measuring unit 30 transmits the acquired measured value to the server device 40.
  • the transmission process can be performed by inputting a transmission start instruction by the operator.
  • step S83 the processing unit 401 of the server device 40 acquires the measured value via the communication I / F405.
  • the communication I / F 405 functions as a communication unit.
  • step S84 in response to an instruction to start acquisition of the measured value input by the operator from the input unit 111 of the training device 10, the processing unit 101 of the training device 10 sends a signal of starting measurement value transmission from the communication I / F 105 to the server device 40. Send to.
  • the processing unit 401 of the server device 40 receives the input for starting the measurement value transmission via the communication I / F 405, and starts the transmission of the measured value from the communication I / F 405.
  • the communication I / F 105 and the communication I / F 405 function as the communication unit 105 and the communication unit 405, respectively.
  • step S85 the processing unit 101 of the training device 10 acquires information on the indication of the existing substance administered to the non-human animal from the external database 60 and the adverse event corresponding to the indication via the communication I / F 105. To do.
  • step S84 the processing unit 101 of the training device 10 acquires the measured value transmitted from the server device 40 via the communication I / F 105 (step S86) and stores it in the storage unit of the training device 10.
  • Step S86 may be performed before step S85.
  • step S87 of FIG. 14 the processing unit 101 of the training device 10 sets the first training data group, the second training data group, and the third training data group according to the processing shown in step S1 of FIG. Generate.
  • the description of step S1 of FIG. 6 is incorporated herein by reference.
  • step S88 of FIG. 14 the processing unit 101 of the training device 10 from the first training data group, the second training data group, and the third training data group according to the processing shown in step S2 of FIG.
  • the fourth training data group is generated.
  • the description of step S2 of FIG. 6 is incorporated herein by reference.
  • step S89 of FIG. 14 the processing unit 101 of the training device 10 inputs the fourth training data group to the artificial intelligence model according to the processing shown in steps S3 to S4 of FIG. 6, and inputs the artificial intelligence model. Train and store the trained artificial intelligence model in the memory. Further, the description of steps S3 to S4 in FIG. 6 is incorporated herein by reference.
  • the processing unit 101 of the training device 10 After receiving the instruction from the prediction device 20 to start transmitting the artificial intelligence model, the processing unit 101 of the training device 10 transmits the trained artificial intelligence model stored in step S90 of FIG. 14 via the communication I / F 105 to the prediction device 20. Send to. At this time, the communication I / F 105 functions as the communication unit 105.
  • step S91 the measuring unit 30 acquires the measured values of the biomarkers of each organ of the non-human animal to which the test substance is administered.
  • the acquisition of the measured value in the measuring unit 30 can be performed by inputting the measurement start instruction by the operator.
  • step S92 the measuring unit 30 transmits the acquired measured value to the server device 40.
  • the transmission process can be performed by inputting a transmission start instruction by the operator.
  • step S93 the processing unit 401 of the server device 40 acquires the measured value via the communication I / F405.
  • the communication I / F 405 functions as the communication unit 405.
  • step S94 in response to an instruction to start acquisition of the measured value input by the operator from the input unit 211 of the prediction device 20, the processing unit 201 of the prediction device 20 sends a signal of the measurement value transmission start from the communication I / F 205 to the server device 40. Send to.
  • the processing unit 401 of the server device 40 receives the input for starting the measurement value transmission via the communication I / F 405, and starts the transmission of the measured value from the communication I / F 405.
  • the communication I / F 205 and the communication I / F 405 function as a communication unit.
  • the processing unit 201 of the prediction device 20 acquires the measured value via the communication I / F 205 and stores it in the storage unit of the prediction device 20. Subsequently, the processing unit 201 of the prediction device 20 generates the first test data group. The generation of the first test data group is described in 2-4.
  • step S95 the processing unit 201 of the prediction device 20 transmits an artificial intelligence model transmission start instruction to the training device 10 via the communication I / F 205.
  • the processing unit 101 of the training device 10 receives the artificial intelligence model transmission start instruction from the prediction device 20, it transmits the artificial intelligence model trained to the prediction device 20 via the communication I / F 105 of the training device 10.
  • the predictor 20 acquires an artificial intelligence model trained via the communication I / F 205.
  • Step S95 may be performed before step S94.
  • step S96 the processing unit 201 of the prediction device 20 acquired the first test data generated in step S94 and the second test data stored in the storage unit in step S95. Input to model AI2 and predict the human action of the test substance according to step S52 of FIG.
  • the processing unit 201 of the prediction device 20 outputs the result in step S97.
  • steps S94 to 97 of FIG. 14 the processing unit 201 of the prediction device 20 may perform steps S62 to S67 described in FIG. 13 to predict the prediction result regarding a new application of the existing substance.
  • the method of constructing a prediction system includes a step of preparing a training device 10 and a prediction device 20.
  • the construction method further obtains a measured value of a biomarker in one or more organs of a non-human animal to which an existing substance has been administered, or a measured value of a biomarker in one or more organs of a non-human animal to which a test substance has been administered. It may include a step of preparation.
  • the training program TP is a computer program that causes the computer to function as the training device 10 by causing the computer to execute the processes including steps S1 to S4 of FIG. 6 described in the training of the artificial intelligence model.
  • the prediction program PP is a computer program that causes the computer to function as the prediction device 20 by causing the computer to execute the processes including steps S51 to S53 described in the prediction of the action of the test substance.
  • a storage medium for storing a computer program The present invention relates to a storage medium for storing a computer program.
  • the computer program is stored in a semiconductor memory element such as a hard disk or a flash memory, or a storage medium such as an optical disk. Further, the computer program may be stored in a storage medium such as a cloud server that can be connected to a network.
  • the computer program may be a program product in download format or stored in a storage medium.
  • the storage format of the program in the pre-storage medium is not limited as long as the presenting device can read the program.
  • the storage in the storage medium is preferably non-volatile. 6.
  • Modification example 2 The embodiment in which the training device 10 and the prediction device 20 are different computers is shown. However, one computer may train and predict artificial intelligence models. In the present specification, the same reference numerals attached to the hardware indicate the same parts or the same functions.
  • mice Preparation of drug-administered mice and gene expression analysis 1.
  • Administration of drug (1) Alendronate In 11-week-old male C57BL / 6N mice, alendronate sodium salt trihydrate (Wako) was dissolved in PBS (Nacalai Tesque) at a dose of 1.0 mg / kg. Subcutaneous injection was performed every 3 or 4 days for 8 days. The drug was freshly prepared for each dose. Each organ was collected in the afternoon of the 8th day after drug administration.
  • Acetaminophen 10-week-old male C57BL / 6N mice were fasted for 12 hours, during which time they were allowed to freely ingest water.
  • acetaminophen (Wako) dissolved in physiological saline (Otsuka Pharmaceutical Co., Ltd.) was administered intraperitoneally in a single dose of 300 mg / kg.
  • physiological saline (Otsuka Pharmaceutical Co., Ltd.) was administered intraperitoneally in a single dose of 300 mg / kg.
  • the mice were allowed to freely ingest the usual diet.
  • Administration was performed by noon, and organs were collected 2 hours after administration.
  • aripiprazole In 11-week-old male C57BL / 6N mice, aripiprazole (Sigma-Aldrich) was dissolved in 0.5% (w / v) carboxymethyl cellulose 400 solution (Wako) and peritoneally at a single dose of 0.3 mg / kg. Was administered within. The drug was administered in the afternoon and the organ was collected 2 hours later.
  • Cisplatin 11-week-old male C57BL / 6N mice were intraperitoneally administered with a single dose of cisplatin (Bristol-Myers Squibb) at a dose of 20 mg / kg. Organs were collected in the afternoon of the third day after drug administration.
  • Clozapine 11-week-old male C57BL / 6N mice were subcutaneously administered with clozapine (Sigma-Aldrich) at a dose of 0.3 mg / kg in a single dose.
  • Clozapine was first dissolved in acetic acid, diluted with saline and adjusted to pH 6 with 1M NaOH. Organs were harvested in the afternoon 2 hours after drug administration.
  • Doxycycline 9-week-old male C57BL / 6N mice were fed with RO water containing 5% sucrose (Nacalai Tesque) and 2 mg / mL doxycycline hydrochloride n-hydrate (Wako) for 2 weeks. .. RO water containing the drug was replaced with a new one every week. Organs were collected in the afternoon of the 13th day after drug administration. The negative control group was fed RO water supplemented with 5% sucrose (Nacalai Tesque).
  • lenalidomide In 8-week-old male C57BL / 6N mice, lenalidomide (Wako) was dissolved in a solution containing 0.5% carboxymethyl cellulose and 0.25% Tween-80 (Nacalai Tesque), and 50 mg / kg was forced daily for 69 days. Orally administered. The drug was freshly prepared for each dose. Organs were collected in the afternoon of the 69th day after the start of drug administration. In addition, a solution containing 0.5% carboxymethyl cellulose and 0.25% Tween-80 was administered to the negative control group.
  • Lurasidone 11-week-old male C57BL / 6N mice were forcibly orally administered with lurasidone hydrochloride (Medchemexpress) dissolved in a 0.5% carboxymethyl cellulose solution at a dose of 0.3 mg / kg. Organs were collected in the afternoon 2 hours after drug administration.
  • Medchemexpress lurasidone hydrochloride
  • Olanzapine (Tokyo Chemical Industry Co., Ltd.) dissolved in a 0.5% carboxymethyl cellulose solution was forcibly orally administered in a single dose at a dose of 0.3 mg / kg. Organs were collected in the afternoon 2 hours after drug administration.
  • Evolocumab (Repatha TM) Eleven-week-old male C57BL / 6N mice were subcutaneously administered with saline-dissolved Repatha TM (Astellas Pharma Inc.) at a dose of 10 mg / kg every 10 days for 4 weeks. Organs were harvested in the afternoon 4 weeks after drug administration.
  • Sophosvir 7-week-old male C57BL / 6N mice were intraperitoneally administered with Sophosvir (LKT) at a dose of 20 mg / kg daily for 10 days. Sophosvir was first diluted with DMSO (Nacalai Tesque) and then 100-fold diluted with PBS prior to administration (final concentration is 1.0% DMSO / PBS). Organs were collected in the afternoon of the 10th day after the start of administration.
  • Sophosvir was first diluted with DMSO (Nacalai Tesque) and then 100-fold diluted with PBS prior to administration (final concentration is 1.0% DMSO / PBS). Organs were collected in the afternoon of the 10th day after the start of administration.
  • Teriparatide 10-week-old male C57BL / 6N mice were subcutaneously administered with human parathyroid hormone fragment 1-34 (teriparatide) (Sigma-Aldrich) dissolved in physiological saline at a dose of 40 ⁇ g / kg daily. Organs were harvested in the afternoon of 4 weeks after the start of drug administration. For negative controls, saline was administered.
  • human parathyroid hormone fragment 1-34 teriparatide
  • Wild-type mice Organs were collected in the afternoon from 11-week-old male C57BL / 6N mice to which no drug was administered.
  • mice, organ extraction, and transcriptome analysis were performed according to the method described in Patent Document 1.
  • the 24 organs are the adrenal gland, aorta, bone marrow cells (BM), brain, colon, eyes, heart, ileum, jejunum, left kidney, liver, lung, pancreas, parotid gland, pituitary gland, skeletal muscle, skin, skull, White adipose tissue (WAT) of the spleen, stomach, left testis, thymus, thyroid, and gonads.
  • BM bone marrow cells
  • WAT White adipose tissue
  • mice All mice were housed in a temperature-controlled room at approximately 25 ° C with a 12-hour light-dark cycle and were allowed to freely ingest water and normal feed (CE-2, CLEA Japan, Inc., Tokyo, Japan). ..
  • Transcriptome analysis is performed by QuantSeq 3'mRNA-Seq Library Prep Kit for Illumina (FWD) (cat # 015.384, LEXOGEN) and Illumina NextSeq 500 (75bp single-read, ca. 400 million reads / run, NextSeq 500/550 High Output Kit v2.5, cat # 20024906) was used.
  • RNA-seq data processing transcription product mapping and counting
  • Second training data 1.
  • the label of the drug name administered to the mouse and the label of the indication name of each drug were set and used as the second training data.
  • the indication name corresponding to the drug name follows The FDA Adverse Event Reporting System (FAERS: https://open.fda.gov/data/faers/).
  • Adverse event report data from 2014Q2 to 2018Q1 was downloaded from the 3rd training data FAERS (https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm). Above 1. Words indicating adverse events corresponding to the indication names of each drug administered to the mice were extracted from the reported data. One extracted word is regarded as one reported adverse event (the number of cases where one adverse event was reported for one drug indication name) / (the number of reported adverse events for one drug indication name). The frequency of occurrence (%) of each adverse event was calculated using the formula (all cases).
  • g A and g B indicate the transcriptome pattern of 24 organs when the drugs A and B are administered (first training data). group).
  • the indication of drug A is represented by "1”
  • the indication of drug B is represented by "2”
  • the elements of adverse events (AE) reported for indication 1 are represented by i, ii ... N.
  • d 2 (d 2i , d 2ii ,..., d 2N ) (third training data group).
  • the second training data group is a set of a label indicating the name of drug A and a label indicating the name of indication 1, and a label indicating the name of drug B and a label indicating the name of indication 2. Therefore, it can be represented by g A d 1 and g B d 2 respectively (second training data group).
  • the indication was positive (with indication) when the number of records of drug A taken by the patient with indication 1 in FAERS exceeded 10.
  • One-class SVM The data to be input to the One-class SVM was input to the One-class SVM as the fourth training data group by associating the first training data group and the third training data group with the kernel function of the following equation.
  • k (g A d 1 , g B d 2 ) ⁇ g A , g B > ⁇ d 1 , d 2 >
  • ⁇ , ⁇ > indicates an operator that scales each vector so that the 12 norm becomes 1, and takes the inner product between both scaled vectors.
  • Example 1 In Example 1, the above 1. Predictions were made assuming that the indication for one of the drugs administered in. In other words, first, the above 1. One-class SVM was trained using the data on 14 kinds of drugs excluding one of the drugs administered in 1 as training data. After that, the removed drug is used as the target drug, and the transcriptome pattern when the target drug is administered is input as the first test data to the trained One-class SVM together with the second test data to predict the indication. did. The result is shown in FIG. In FIG. 11, TN is true negative, TP is true positive, FN is false negative, and FP is true positive.
  • true negative indicates the number of items that can be predicted to be “not indicated” for “non-indication”
  • true positive indicates the number of items that can be predicted to be “indication” for “indication”.
  • False negatives indicate the number of items predicted to be “not indicated” for “indications”
  • false positives indicate the number of items predicted to be “indications” for "no indications”.
  • the accuracy scores are scores that indicate the accuracy of the prediction.
  • the recall scores indicate the coverage rate when it is predicted to be "indication”.
  • the precision score indicates the reliability when predicted to be "indication”.
  • the prediction method of the present invention is a useful method for predicting the indication of a new substance whose indication is unknown.
  • Example 2 We evaluated whether the present invention is useful for so-called drug repositioning, which seeks new indications for known substances. Above 1. Artificial intelligence was trained using data from all 15 drugs mentioned in the section to predict the indications for individual drugs. The result is shown in FIG. The symbols in the figure are the same as those in FIG.
  • TP the number of TPs for all drugs increased and the number of FNs decreased.
  • the recall score has also improved.
  • accuracy scores and recall scores improved for all drugs, showing 0.770-1.000. This result indicates that both reported and unreported indications can be captured with a probability of 77% or higher.
  • precision scores were low due to the high number of FNs.
  • FP shows the potential for new indications that have not been reported so far. Since the number of FPs is relatively large, if it is necessary to narrow down the candidates, more candidates can be selected by calculating the decision function values of each indication in FP and ranking each indication of each drug. It is possible to squeeze.
  • FIG. 13 shows an example of the decision function values of the alendronate.
  • the predicted indications for FP that are common to drugs that are already known to have similar mechanisms of action are also repositioned indications. It is considered to have a high possibility of illness.
  • Training device 20 Prediction device 40 Server device 101 Processing unit 201 Processing unit 401 Processing unit 400 Prediction system 105 Communication unit 405 Communication unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Pathology (AREA)
  • Medicinal Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Biochemistry (AREA)
  • Primary Health Care (AREA)
  • Bioethics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Environmental Sciences (AREA)
  • Wood Science & Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Food Science & Technology (AREA)
  • Microbiology (AREA)

Abstract

被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても予測することを課題とする。 第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、訓練方法により訓練された人工知能モデルを使用する。

Description

被験物質のヒトにおける適応疾患を予測するための人工知能モデル
 本明細書には、被験物質のヒトにおける適応疾患を予測する方法、被験物質のヒトにおける適応疾患を予測するための装置、被験物質のヒトにおける適応疾患を予測するためのプログラム、並びに被験物質のヒトにおける適応疾患を予測するために使用される人工知能モデルの訓練方法及び訓練された人工知能モデルが開示される。
 新薬の開発は、新薬の候補物質を見つけるための創薬研究(ディスカバリーフェーズ)から始まり、動物や培養細胞を使った前臨床試験(フェーズ0)、ヒトにおけるフェーズI~IIIまでの臨床試験を経て、合格した物質のみが、医薬品として厚生労働省から製造販売の承認を受けるための承認申請を行うことを許される。そして、しかるべき審査を受け医薬品として認可され、発売された後も、開発段階や承認審査段階で予測のつかなかった有害事象や効果を監視するための期間が設けられている。このように、1つの新薬が発売されるまでには、膨大な時間と費用を要する。一方で、ディスカバリーフェーズから製造販売承認に至る確率は、1.6%程度といわれている。また前臨床試験を通過してからフェーズIIIまでの臨床試験の間に、効果が得られ、かつ有害事象が現れずに承認申請まで至る物質は、前臨床試験を通過してからした物質の13.8%にとどまるといわれている。つまり、8割以上の候補物質がフェーズI~IIIまでの臨床試験に間にドロップアウトすることになる。このドロップアウトによる損失は、1物質あたり、1.5億ドル~2億ドルともいわれており、膨大な損失となっている。
 新薬の開発において、新薬の候補物質の探索を補助する方法として、特許文献1には、被験物質が投与された個体の1種以上の器官由来の細胞又は組織から得られた各器官における器官連関指標因子の被験データと、あらかじめ決定された対応する器官連関指標因子の標準データとを比較して、器官連関指標因子のパターンの類似度を算出するパターン類似度を求め、器官連関指標因子のパターンの類似度を指標にして、前記1種以上の器官における、及び/又は前記1種以上の器官以外の器官における被験物質の効能又は副作用を予測する方法が開示されている。
 また、新薬の開発において、候補物質の効能又は副作用を予測する方法として、特許文献2には、ヒトにおける作用が既知である複数の既存物質を個別に投与した非ヒト動物から前記非ヒト動物ごとに採取された複数の異なる器官におけるトランスクリプトームの挙動を示すデータ群と、前記既存物質ごとのヒトにおける既知の作用を示すデータとを訓練データとして人工知能モデルに入力し、人工知能モデルを訓練することを含む、被験物質を投与した非ヒト動物の複数の異なる器官であって、訓練データの作成時に採取された器官と同じ複数の器官におけるトランスクリプトームの挙動から前記被験物質のヒトにおける1又は複数の作用を予測するための人工知能モデルが開示されている。
国際公開第2016/208776号 特許第6559850号公報
 本開示では、ヒト以外の動物に被験物質を投与した時のバイオマーカーの挙動から、ヒトにおける被験物質の適応症を効率よく予測することを一課題とする。
 特許文献2に記載の方法では、訓練データとして複数の器官のトランスクリプトームデータを取得する際に使用した既存物質について、既に知られている効能についてのみ予測が可能であった。
 本発明は、被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても予測することを課題とする。
 本発明は、実施形態として、以下の形態を含みうる。
項1.本発明のある実施形態は、人工知能モデルの訓練方法に関する。前記訓練方法は、第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、前記訓練方法。
項2.項1に記載の訓練において、前記第1訓練データ群と前記第3訓練データ群とを前記第2訓練データ群により紐付けて第4訓練データ群を生成し、前記第4訓練データ群を人工知能に入力する。
項3.項1又は項2に記載の訓練方法において、前記有害事象に関する情報は、前記有害事象を示すラベルと、前記適応症における前記有害事象の有無、又は発生頻度を含む。
項4.項1から3のいずれか一項に記載の訓練方法において、前記バイオマーカーがトランスクリプトームである。
項5.項1から4のいずれか一項に記載の訓練方法において、前記人工知能モデルは、One-Class SVMである。
項6.本発明のある実施形態は、人工知能モデルの訓練装置に関する。前記訓練装置は、処理部を備え、前記処理部は、第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練し、前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである。
項7.本発明のある実施形態は、コンピュータに実行させたときに、第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練するステップをコンピュータに実行させる、人工知能モデルの訓練プログラムに関する。前記プログラムにおいて、第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群であり、前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである。
項8.本発明のある実施形態は、被験物質のヒトにおける適応症を予測する方法に関する。前記方法は、第1被験データ群を取得する工程であって、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群である工程と、前記第1被験データ群と、第2被験データ群とを項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測する工程であって、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である工程と、を含む。
項9.項8に記載の予測方法において、前記被験物質は、既存物質又は既存物質の等価物質を含まない。
項10.項8又は項9に記載の予測方法において、前記被験物質は、既存物質又は既存物質の等価物質から選択される1種である。
項11.本発明のある実施形態は、被験物質のヒトにおける適応症を予測する予測装置に関する。前記予測装置は、処理部を備え、前記処理部は、第1被験データ群と、第2被験データ群とを項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。
項12.本発明のある実施形態は、コンピュータに実行させた時に、第1被験データ群と、第2被験データ群とを項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測するステップであって、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であるステップを、コンピュータに実行させる、被験物質のヒトにおける適応症を予測するためのコンピュータプログラムに関する。
項13.本発明のある実施形態は、被験物質のヒトにおける適応症を予測するための予測システムに関する。前記システムは、第1被験データ群を送信するサーバ装置であって、前記第1被験データ群が被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群である、サーバ装置と、前記サーバ装置とネットワークを介して接続された、ヒトにおける前記被験物質の作用を予測するための予測装置と、を備える。前記サーバ装置は、前記第1被験データ群を送信するための通信部を備え、前記予測装置は、処理部と、通信部を備え、前記処理部は、前記サーバ装置の通信部を介して送信された第1被験データ群を、前記予測装置の通信部を介して取得し、取得した第1被験データ群と、第2被験データ群とを項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。
項14.本発明のある実施形態は、1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記バイオマーカーの挙動を示すデータの群を取得する際に投与した前記既存物質の名称を示すラベルとが紐付けられたデータの群である、第1訓練データ群であって、前記1又は複数の異なる器官は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取される、前記第1訓練データ群と、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である、第2訓練データ群と、前記適応症を示すラベルと前記適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群である、前記第3訓練データ群と、を、被験物質のヒトにおける適応症を予測するための人工知能モデルの訓練のために使用する方法に関する。
項15.第1被験データ群と、第2被験データ群とを、被験物質のヒトにおける適応症を予測するための被験データとして使用する方法に関する。前記方法において、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。
 被験物質が、訓練データを取得する際に使用した既存物質について知られていない効能を持っていたとしても、その効能を予測することができる。
本発明の概要を示す。 特許文献2に記載の発明(従来技術)の概要を示す。 訓練データの例を示す。(A)は第1訓練データの例を示す。(B)は第2訓練データの例を示す。(C)は第3訓練データの例を示す。(D)は第4訓練データの例を示す。 (A)は、訓練システムのハードウエアの構成を示す。(B)は、予測システムのハードウエアの構成を示す。 訓練装置のハードウエアの構成を示す。 訓練プログラムの処理の流れを示すフローチャートである。 予測装置のハードウエアの構成を示す。 予測プログラムの処理の流れを示すフローチャートである。 サーバ装置のハードウエアの構成を示す。 予測システムの処理の流れを示すフローチャートである。 被験薬剤のトランスクリプトームデータを使用せず訓練した人工知能の予測結果を示す。 被験薬剤のトランスクリプトームデータを使用して訓練した人工知能の予測結果を示す。 アレンドロネートのdecision function valuesの一部を示す。
1.訓練方法及び予測方法の概要と用語の説明
 はじめに、本開示のある実施形態である人工知能の訓練方法、及び予測方法の概要を説明する。また、従来法と本開示に含まれる訓練方法、及び予測方法の相違点を説明する。
 予測方法は、被験物質のヒトにおける適応症を予測する。好ましくは、予測方法は、ヒトにおける作用が既知である既存物質を投与した非ヒト動物におけるバイオマーカーの挙動と、公知の適応症と、前記公知の適応症に対応して報告されている有害事象に関する情報に基づいて、被験物質のヒトにおける適応症を予測する。前記予測は、人工知能モデルを使用して達成される。
(1)訓練フェーズ
 図1に示すように、予測に用いられる人工知能モデルは、好ましくは、第1訓練データ群、第2訓練データ群及び第3訓練データ群の3種類の訓練データ群を関連付けたデータ群により訓練される。
 図1に示すように第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与に非ヒト動物に投与し、非ヒト動物のそれぞれから採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群である。第1訓練データは、例えば、図1に示すように、所定の既存物質として薬剤A、B、Cを個別にマウス等の非ヒト動物に投与し、前記非ヒト動物からそれぞれに器官又は器官の一部である組織を採取する。次に採取した器官又は組織におけるバイオマーカーの挙動を解析し、[各器官名とバイオマーカーの挙動を示すデータ]と[投与した薬剤のそれぞれの名称]から第1訓練データ群を生成する。図3(A)により具体的な第1訓練データ群の例を示す。図3(A)に示す第1の訓練データ群の例では、一番左側の列を第1列とする。図3(A)に示す第1列には、例として薬剤名“Aripiprazole”、薬剤名“EMPA”が示されている。第2列目以降は各器官におけるRNAの発現量を示す。“Heart”、“Skin”が器官名のラベルであり、“Alas2”、“Apod”が発現を解析した遺伝子名のラベルである。第2列目以降第2行目以降は、各遺伝子の発現量を示す値が要素として入力されている。第1訓練データ群は、[器官名を示すラベルと遺伝子名を示すラベル]と[各遺伝子の発現量を示す値]が、薬剤名を示すラベルと対応している。
 図1に示すように第2訓練データは、第1訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれの名称を示すラベル(図3(A)の第1列目)と、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である。図3(B)に第2訓練データ群の具体例を示す。図3(B)に示す第1の訓練データ群の例では、一番左側の列を第1列とする。図3(B)に示す第1列には、例として薬剤名“Aripiprazole”、薬剤名“EMPA”が示されている。第2列目以降は、第1列目に記載された各薬剤について報告されている適応症である。ここでは、薬剤名“Aripiprazole”適応症を示す名称のラベルとして“Nerve injury”が、薬剤名“EMPA”の適応症を示す名称のラベルとして“Type 2 diabetes mellitus”が示されている。
 図1に示すように第3訓練データは、第1訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれについて報告されている図3(B)に示す適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。ここで、有害事象に関する情報には、有害事象の名称を示すラベルと、有害事象の有無、又は発生頻度が含まれ得る。図3(C)に第3訓練データ群のより具体的な例を示す。図3(C)に示す第1の訓練データ群の例では、一番左側の列を第1列とする。図3(B)の“Indication 1”に記載された薬剤名“Aripiprazole”の適応症である“Nerve injury”が図3(C)の第1列目に示されている。また、図3(B)の“Indication 1”に記載された薬剤名“EMPA”の適応症として“Type 2 diabetes mellitus”が図3(C)の第1列目に示されている。図3(C)の第2列目移行の最上列は有害事象の名称を示すラベルであり、ここでは“Sleep disorder”、 “Blood glucose decreased”が示されている。図3(C)第2列目の第2行目以降の数値は、各有害事象の発生頻度を示す。
 本実施形態の訓練方法において人工知能に入力されるのは、第1訓練データ群と前記第3訓練データ群とを前記第2訓練データ群により紐付けて生成された第4訓練データ群である。
 第4訓練データ群の例を図3(D)に示す。図3(D)に示す第1の訓練データ群の例では、一番左側の列を第1列とする。第1列目及び第2列目には、図3(C)で示した有害事象の名称を示すラベルと、それぞれの発生頻度が示されている。また、第4列目以降は、図3(A)で示した器官の名称を示すラベルと遺伝子の名称のラベルと、遺伝子の発現量が示されている。言い換えると、図3(D)は、図3(A)の薬剤名を示す第1列目のラベルに、図3(C)に示す第2列目以降の有害事象の発生頻度を代入したデータ群となる。
(2)予測フェーズ
 上記1.(1)において訓練された人工知能モデルを用いて、被験物質のヒトにおける適応症を予測する。適応症を予測する際に訓練された人工知能モデルに入力される被験データ群は、第1被験データ群と第2被験データ群となる。第1被験データ群は第2被験データ群と共に訓練された人工知能モデルに入力される。
 第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群である。また、前記複数の期間は、第1訓練データ群の生成時に採取された器官に対応する。好ましくは、第1被験データは、一つの被験物質を非ヒト動物に投与し、1又は複数の器官を採取し、トランスクリプトームの解析を行い、[器官名を示すラベルと遺伝子名を示すラベル]と[各遺伝子の発現量を示す値]とを紐付けたデータである。
 第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である。ここで、前記複数の公知の適応症は、第2訓練データとして使用される適応症だけでなく、外部データベースに登録されている公知の適応症を含み得る。公知の適応症において、「複数」とは、例えば100、500、1000、又は2000、さらにそれ以上を意図しうる。
 ここで、予測方法は、被験物質として、既存物質又は既存物質の等価物質でなくてもよい。被験物質が既存物質又は既存物質の等価物質でない場合には、予測方法は、新規物質の適応症を予測する方法となる。
 また、予測方法は、被験物質として、既存物質又は既存物質の等価物質を含んでいてもよい。この場合、予測方法は、既存物質又は既存物質の等価物質の新たな適応症を探索するためのドラッグリポジショニング法となる。ドラッグリポジショニング法として本明細書に記載の予測方法を使用する場合、第1訓練データ群を取得するために投与する既存物質にも、被験物質を含めることが好ましい。このようにすることで予測精度を高めることができる。
(3)従来法との比較
 図2に示す従来法は、特許文献2に記載の方法であり、例えば既存物質として薬剤A、B、Cを個別にマウス等の非ヒト動物に投与し、前記非ヒト動物からそれぞれに器官又は器官の一部である組織を採取する。次に採取した器官又は組織におけるバイオマーカーの挙動を解析し、第1訓練データ群を生成する。また、既存物質の有害事象、適応症、薬物動態、及び適応症等のヒト臨床データベースから、第2訓練データを生成する。ぞして、図2に示す人工知能モデルは、第1訓練データ群と第2訓練データとを用いて訓練することにより生成される。言い換えると、従来法では、バイオマーカーの挙動と既存物質の有害事象、適応症、薬物動態、又は適応症の一つずつを対応付けて人工知能モデルを構築する。また、従来法で使用する被験データは、被験物質を投与した非ヒト動物の1又は複数の異なる器官であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータである。
 本実施形態では、訓練データとして、バイオマーカーの挙動だけでなく、適応症名に代入される有害事象に関する情報を使用する点において従来法とは相違する。また、被験データとしても、バイオマーカーの挙動だけでなく、複数の公知の適応症と有害事象に関する情報を使用する。
 このため、被験物質が、訓練データを取得する際に使用した既存物質について知られていない適応症を持っていたとしても、それを予測することができる。
(4)用語の説明
 本開示において、非ヒト動物は、制限されない。例えば、マウス、ラット、イヌ、ネコ、ウサギ、ウシ、ウマ、ヤギ、ヒツジ、ブタ等の哺乳動物、ニワトリ等の鳥類等が挙げられる。好ましくはマウス、ラット、イヌ、ネコ、ウシ、ウマ、ブタ等の哺乳動物であり、より好ましくはマウス、又はラット等であり、さらに好ましくはマウスである。非ヒト動物には、前記動物の胎児、雛等も含まれる。
 本開示において、「物質」には、例えば化合物;核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸;ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;金属イオン;又は微生物等が含まれうる。また、前記物質は、単体でもよいが複数種の物質を混合したものであってもよい。好ましくは、「物質」には、医薬品、医薬部外品、薬用化粧品、食品、特定保健用食品、機能性表示食品及びこれらの候補品等が含まれる。また、「物質」には、薬事承認のための前臨床試験又は臨床試験において試験が中止又は中断された物質も含まれ得る。
 「既存物質」は、既存の物質である限り、制限されない。好ましくは、ヒトにおける作用が既知である物質である。また、「既存物質の等価物質」には、既存物質と構造が類似し、既存物質と類似の作用を有するものを含み得る。ここで類似の作用とは、作用の強さが同じまたは異なるものの既存物質と同種の作用を有するものを意図する。
 「有害事象」は、ヒトに害があると判断される作用である限り制限されない。好ましくは、FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm)、又はclinicaltrials.gov (https://clinicaltrials.gov/)等の外部データベースに収載された有害事象を例示することができる。
 「適応症」は、ヒトにおける疾患や症状を軽減、治療、進行を停止、予防する対象である限り制限されない。前記疾患や症状として、前述のFAERS、DAILYMEDのall drug labels (https://dailymed.nlm.nih.gov/dailymed/spl-resources-all-drug-labels.cfm )、Medical Subject Headings (https://www.nlm.nih.gov/mesh/meshhome.html)、Drugs@FDA(https://www.accessdata.fda.gov/scripts/cder/daf/)、International Classification of Diseases(https://www.who.int/health-topics/international-classification-of-diseases)等の外部データベースに収載された疾患又は症状を例示することができる。より具体的には、適応症は、血栓症、塞栓症、狭窄症等の虚血性疾患(特に心臓、脳、肺、大腸等);動脈瘤、静脈瘤、うっ血、出血等の循環障害(大動脈、静脈、肺、肝臓、脾臓、網膜等);アレルギー性気管支炎、糸球体腎炎等のアレルギー性疾患;アルツハイマー型認知症等の認知症、パーキンソン病、筋萎縮性側索硬化症、重症筋無力症等の変性疾患(神経、骨格筋等);腫瘍(良性上皮性腫瘍、良性非上皮性腫瘍、悪性上皮性腫瘍、悪性非上皮性腫瘍);代謝性疾患(糖質代謝異常、脂質代謝異常、電解質異常);感染症(細菌、ウイルス、リケッチア、クラミジア、真菌等、原虫、寄生虫等)、腎疾患、全身性エリテマトーデス、多発性硬化症等の自己免疫疾患等に伴う症状又は疾病を挙げることができる。
 有害事象の発生率は、次の方法により求めることができる。有害事象の名称を示す単語を上記clinicaltrials.gov、FAERS、DAILYMEDのall drug labels等のデータベースからテキスト抽出等により抽出する。抽出された1単語は、報告された1件の有害事象としてカウントすることができる。1つの既存物質に対して、発生率=(1つの有害事象が報告された件数)/(その既存物質について報告された有害事象の全件数)の式により求めることができる。データベースにおいて作用に関連する説明が文章で登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
 「器官」は、上述した哺乳動物、又は鳥類の体内に存在する器官である限り制限されない。例えば、哺乳動物の場合、器官として循環器系器官(心臓、動脈、静脈、リンパ管等)、呼吸器系器官(鼻腔、副鼻腔、喉頭、気管、気管支、肺等)、消化器系器官(口唇、頬部、口蓋、歯、歯肉、舌、唾液腺、咽頭、食道、胃、十二指腸、空腸、回腸、盲腸、虫垂、上行結腸、横行結腸、S状結腸、直腸、肛門、肝臓、胆嚢、胆管、胆道、膵臓、膵管等)、泌尿器系器官(尿道、膀胱、尿管、腎臓)、神経系器官(大脳、小脳、中脳、脳幹、脊髄、末梢神経、自律神経等)、女性生殖器系器官(卵巣、卵管、子宮、膣等)、乳房、男性生殖器系器官(陰茎、前立腺、精巣、精巣上体、精管)、内分泌系器官(視床下部、下垂体、松果体、甲状腺、副甲状腺、副腎等)、外皮系器官(皮膚、毛、爪等)、造血器系器官(血液、骨髄、脾臓等)、免疫系器官(リンパ節、扁桃、胸腺等)、骨軟部器官(骨、軟骨、骨格筋、結合組織、靱帯、腱、横隔膜、腹膜、胸膜、脂肪組織(褐色脂肪、白色脂肪)等)、及び感覚器系器官(眼球、眼瞼、涙腺、外耳、中耳、内耳、蝸牛等)から選択される少なくとも一種が挙げられる。好ましくは、「器官」として、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺から選択される少なくとも一種を挙げることができる。好ましくは、骨髄、膵臓、頭蓋骨、肝臓、皮膚、脳、脳下垂体、副腎、甲状腺、脾臓、胸腺、心臓、肺、大動脈、骨格筋、精巣、精巣上体周囲脂肪、眼球、回腸、胃、空腸、大腸、腎臓、及び耳下腺すべてを、本開示に係る予測に使用する。複数の器官とは、2以上であれば制限されない。例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、及び24種の器官から選択することができる。
 「器官由来」とは、例えば、器官から採取されたこと、採取された器官の細胞、若しくは組織、又は体液から培養されたことを意図する。
 前記「体液」には、血清、血漿、尿、髄液、腹水、胸水、唾液、胃液、膵液、胆汁、乳汁、リンパ液、細胞間質液等が含まれる。
 「バイオマーカー」には、前記物質の投与に依存して、各器官の細胞若しくは組織、及び/又は体液で変動しうる生体内物質をいう。「バイオマーカー」となりうる生体内物質は、核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸、ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;及び金属イオン等から選択される少なくとも一種を例示することができる。より好ましくは、核酸である。前記バイオマーカーは、前記物質の投与に依存して、各器官の細胞若しくは組織、及び/又は体液で変動しうる生体内物質の群であることが好ましい。生体内物質の群として、例えば、核酸;糖質;脂質;糖タンパク質;糖脂質;リポタンパク質;アミノ酸、ペプチド;タンパク質;ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質;及び金属イオン等から選択される少なくとも一種の群を例示することができる。
 「核酸」として好ましくはmRNA、非翻訳RNA、microRNA等のトランスクリプトームに含まれるRNAの群であり、より好ましくはmRNAの群である。RNAとして好ましくは、上記器官の細胞若しくは組織、又は体液中の細胞において発現され得るmRNA、非翻訳RNA及び/又はmicroRNAであり、より好ましくは、RNA-Seq等で検出され得るmRNA、非翻訳RNA及び/microRNAである(https://www.ncbi.nlm.nih.gov/gene?LinkName=genome_gene&from_uid=52、http://jp.support.illumina.com/sequencing/sequencing_software/igenome.html)。好ましくは、RNA-Seqにより解析可能なRNAすべてを本開示に係る予測に使用する。
 「バイオマーカーの挙動を示すデータの群」とは、既存物質の投与に応じてバイオマーカーが変動したこと、又は変動しなかったことを示すデータの群を意図する。好ましくは、バイオマーカーの挙動は、既存物質の投与に応じてバイオマーカーが変動したことを示す。前記データは、例えば、次の方法により取得することができる。既存物質を投与した非ヒト動物から採取されたある器官に由来する組織、細胞、又は体液等について、各バイオマーカーの存在量又は濃度を測定し、既存物質投与個体の各器官における測定値を取得する。また、既存物質を投与していない非ヒト動物から、既存物質投与個体の測定値を取得した器官に対応する器官に由来する組織、細胞、又は体液等について、同様に各バイオマーカーの存在量又は濃度を測定し、非投与個体の測定値を取得する。既存物質投与個体の各器官に由来する各バイオマーカーの測定値を、非投与個体において既存物質投与個体のバイオマーカーに対応する各器官におけるバイオマーカーの測定値と比較し、その差を示す値をデータとして取得する。ここで「対応する」とは、器官及びバイオマーカーが同じであるか、同種であるかを意味する。好ましくは、前記差は、既存物質投与個体に由来する各バイオマーカーの測定値と、このバイオマーカーに対応する非投与個体においてバイオマーカーの測定値との比(例えば除算値)で示すことができる。例えば、データは、既存物質投与個体に由来する器官AのバイオマーカーAの測定値を非投与個体に由来する器官AのバイオマーカーAの測定値で除した除算値である。
 また、バイオマーカーがトランスクリプトームである場合、RNA-Seqにより解析可能な全RNAを使用してもよいが、前記RNAは、例えば、WGCNA(https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/)を用いて前記RNAの発現について解析し、器官名と遺伝子名が紐付けられた各RNAの挙動を示すデータの部分集合(モジュール)に分割してもよい。WGCNAにより分割した各モジュールについて、各既存物質について、1-of-K表現とのピアソンの相関係数を算出し、各既存物質について相関係数の絶対値が一番高いモジュールを選択し、選択されたモジュールに含まれる各器官におけるRNAをバイオマーカーとしてもよい。
 さらに、既存物質の投与に応じてバイオマーカーがトランスクリプトームである場合、既存物質の非投与動物と比較した既存物質投与動物の各器官におけるトランスクリプトームの変動を、DESeq2解析を用いて行うことができる。例えば、既存物質投与動物から採取した各器官におけるRNAの発現量と、既存物質非投与動物採取した対応する各器官における遺伝子の発現量とを、htseq-countで定量し、それぞれのカウントデータを得る。そして、各器官及び各器官における各遺伝子の発現量の比較を行う。比較結果として、既存物質投与動物の遺伝子発現変動量のlog(fold)値、及び各変動量の確からしさの指標となるp値が器官ごとに各遺伝子について出力される。log(fold)値に基づいて、トランスクリプトーム等のバイオマーカーの挙動の有無を判定することができる。
 前記バイオマーカーの測定値は、公知の方法により取得することができる。バイオマーカーが核酸の場合には、RNA-Seq等のシーケンシング、定量的PCR等で測定値を取得することができる。バイオマーカーが、糖質、脂質、糖脂質、アミノ酸、ポリフェノール類;ケモカイン;前記物質の終末代謝産物、中間代謝産物、及び合成原料物質からなる群から選択される少なくとも一種の代謝物質等である場合には、質量分析等によって、測定値を取得することができる。バイオマーカーが、糖タンパク質、リポタンパク質、ペプチド、タンパク質等である場合には、ELISA法(Enzyme-Linked Immuno Sorbent Assay)等で測定値を取得することができる。また、測定に用いる器官由来の組織、細胞、又は体液の採取方法、バイオマーカーを測定するための前処理方法も公知である。
 「被験物質」は、作用を評価する対象となる物質である。被験物質は、既存物質又は既存物質の等価物であっても、新規物質であってもよい。予測方法では、被験物質の作用と、既存物質又は既存物質の等価物質と作用の関連性がみいだされていない場合であっても、ヒトにおける被験物質の作用を予測することができる。一方、被験物質が、既存物質又は既存物質の等価物から選択される一種である場合、既存物質又は既存物質の等価物の未知の作用を見つけることができる。未知の作用は1種であっても複数種であってもよい。未知の作用は、好ましくは新規適用症である。ヒトにおける被験物質の新規適用症を予測することにより、ドラッグリポジショニングを行うこともできる。被験物質の非ヒト動物への投与は公知である。また被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータは、既存物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータと同様に取得することができる。
2.人工知能モデルの構築
2-1.訓練データの生成
(1)第1訓練データ群の生成
 第1訓練データ群は、1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記既存物質名を示すラベルから構成される。前記1又は複数の異なる器官は、ヒトにおける作用が既知である複数の既存物質を個別に投与した各非ヒト動物から採取され得る。前記第1訓練データ群は、データベースTR1として図5に示す訓練装置10の補助記憶部104に格納され得る。
 1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群は、上記1.(4)に記載の方法により取得されうる。
 前記各器官におけるバイオマーカーの挙動を示すデータのそれぞれは、投与した既存物質の名称に関する情報、採取された器官の名称に関する情報、バイオマーカーの名称に関する情報等と紐付けられ得る。名称に関する情報とは、名称そのもの、あるいは略称等のラベルであってもよく、各名称に対応するラベル値であってもよい。
 バイオマーカーの挙動を示すデータの群に含まれる各データは、後述する人工知能モデルの第1訓練データ群において行列を構成する要素となる。バイオマーカーがトランスクリプトームである場合、各RNAの発現量がバイオマーカーの挙動を示すデータの群に含まれるデータに相当し、第1訓練データ群を構成する行列の要素となる。例えば、バイオマーカーがトランスクリプトームである場合、DESeq2解析により得られた各既存物質のlog(fold)値を第1訓練データ群の各要素としてもよい。
 第1訓練データ群の例は、上記1.(1)と図3(A)に示したとおりである。
 バイオマーカーの挙動を示すデータの群は、バイオマーカーの測定値をそのまま第1訓練データ群の要素として使用してもよいが、標準化、次元削減等を行ってから第1訓練データ群の要素として使用してもよい。標準化の方法としては、例えば発現差を示すデータを平均値が0、分散が1となるように変換する方法を例示することができる。標準化における平均値は、各器官における平均値、各遺伝子における平均値、又は全データにおける平均値とすることができる。また次元削減は、主成分分析等の統計処理で行うことができる。統計処理を行う場合の母集団は、器官ごと、遺伝子ごと、又は全データとすることができる。例えばバイオマーカーがトランスクリプトームである場合、DESeq2解析により得られた各既存物質のlog(fold)値に対するp値が所定の値以下である遺伝子のみを第1訓練データ群の要素として用いてもよい。前記所定の値は、例えば10-3、又は10-4とすることができる。好ましくは、10-4である。
 第1訓練データ群に含まれる、投与した所定の既存物質のそれぞれの名称を示すラベルは、物質の名称そのものであってもよいが、符号化してもよい。
 第1訓練データ群は、既存物質の更新、新たなバイオマーカーの挙動を示すデータの追加により、更新されうる。
(2)第2訓練データ群の生成
 前記第2訓練データ群は、上記1.(1)及び図3(B)に示したように、第1訓練データ群を生成する際に非ヒト動物に投与した、複数の所定の既存物質それぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとを紐付けて生成される。既存物質の適応症は、上記1.(4)で述べたFAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases等の外部データベースから、既存物質ごとに、例えば既存物質名を示す単語で検索し、これに対応する適応症名のラベルを取得することができる。適応症は、1つの既存物質に対して、1又は2以上存在し得る。各適応症が、1つの既存物質に対して2以上存在する場合、前記2以上の複数の適応症が第2訓練データ群を構成する。複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルは、データベースに格納されているデータ群に対し、テキスト抽出、自然言語処理、デジタイズ処理、画像解析処理等を行うことにより取得することができる。例えば、外部データベースに格納されている、第1訓練データ群を生成する際に非ヒト動物に投与した各既存物質に対応した各適応症の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
(3)第3訓練データ群の生成
 第3訓練データは、上記1.(1)、及び図3(C)で述べたように、第1訓練データ群を取得する際に投与した複数の所定の既存物質のそれぞれについて報告されている図3(B)に示す適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。複数の所定の既存物質のそれぞれについて報告されている適応症は、FAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases等の外部データベースから、既存物質ごとに、例えば既存物質名の単語で検索し、これに対応する適応症名のラベルを取得することができる。これらの適応症のそれぞれに対応して報告されている有害事象を示すラベルは、FAERS、又はclinicaltrials.gov等の外部データベースから、適応症名を示すラベルで検索し、取得することができる。また、適応症又は有害事象の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
 有害事象の発生頻度は、上記1.(4)で説明した方法により、算出することができる。
(4)第4訓練データ群の生成
 第4訓練データ群は、上記1.(1)及び図3(D)において説明したように、第1訓練データ群に含まれる薬剤名を示すラベルの部分(図3(A)の薬剤名を示す第1列目)に、第1訓練データを取得するために投与された既存物質の名称を示すラベルに対応する適応症について報告されている有害事象の発生頻度(図3(C)に示す第2列目以降の有害事象の発生頻度)を代入し生成される。
2-2.人工知能モデルへの訓練データの入力
 人工知能モデルは、本発明に係る課題を解決することができる限り制限されない。本実施形態では、Link Predictionを行うことができる人工知能モデルを使用することが好ましい。このような人工知能モデルとしてOne-Class SVM(ワンクラス サポートベクターマシン)等を挙げることができる。
 Link PredictionをOne-Class SVMで行う場合を例にして、第4の訓練データの入力例を説明する。One-class SVMに入力するためのデータは下式のカーネル関数により、第1訓練データ群と第3訓練データ群を対応付けて第4訓練データ群としてOne-class SVMに入力する。
   k(g,g)=<g,g><d,d
 ここで、<・,・>は12ノルムが1になるように各ベクトルをスケーリングし、スケーリングされた両方のベクトル間の内積を取る演算子を示す。
 One-class SVMは、例えば、Pythonの ‘scikit-learn’ パッケージを用い、parameterはnu=0.1とすることができる。
2-3.人工知能モデルの訓練システム
 図4(A)に訓練システム50のハードウエアの構成を示す。訓練システム50は、次世代シーケンサー等のバイオマーカーの測定データを取得するための測定部30と、訓練装置10を備える。訓練装置10と測定部30は、無線又は有線のネットワークで通信可能に接続されていてもよいが、測定部30で取得されたデータをCD-R等の記憶媒体を介して取得してもよい。
(1)人工知能モデルの訓練装置
 前記人工知能モデルの訓練は、例えば、訓練装置10(以下、装置10ともいう)を使用して行うことができる。
 装置10及び装置10の処理に係る説明において、上記1.、上記2-1.に記載された用語と共通する用語については、上記説明をここに援用する。
 装置10は、少なくとも処理部101と記憶部を備える。記憶部は、主記憶部102及び/又は補助記憶部104から構成される。
 図5に、装置10のハードウエアの構成を示す。装置10は、入力部111と、出力部112と、記憶媒体113とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部30と接続されていてもよい。また装置10は、FAERS、DAILYMEDのall drug labels 、Medical Subject Headings、Drugs@FDA、International Classification of Diseases、clinicaltrials.gov等の外部データベース60と通信可能に接続されていてもよい
 装置10において、処理部101と、主記憶部102と、ROM(read only memory)103と、補助記憶部104と、通信インタフェース(I/F)105と、入力インタフェース(I/F)106と、出力インタフェース(I/F)107と、メディアインターフェース(I/F)108は、バス109によって互いにデータ通信可能に接続されている。
 処理部101は、CPU、又はMPU等から構成される。処理部101の処理はGPUによって補助されてもよい。処理部101が、補助記憶部104又はROM103に記憶されているコンピュータプログラムを実行し、取得されるデータの処理を行うことにより、装置10が機能する。処理部101は、上記1.で述べた既存物質を投与した非ヒト動物から採取された複数の異なる器官におけるバイオマーカーの挙動を示すデータ群と、前記既存物質のヒトにおける既知の作用を訓練データとして取得する。また、前記2つの訓練データを使用して、人工知能モデルを訓練する。
 ROM103は、マスクROM、PROM、EPROM、EEPROMなどによって構成され、処理部101により実行されるコンピュータプログラム及びこれに用いるデータが記録されている。ROM103は、装置10の起動時に、処理部101によって実行されるブートプログラム、装置10のハードウエアの動作に関連するプログラム、及び設定等を記憶する。
 主記憶部102は、SRAM又はDRAMなどのRAM(Random access memory)によって構成される。主記憶部102は、ROM103及び補助記憶部104に記録されているコンピュータプログラムの読み出しに用いられる。また、主記憶部102は、処理部101がこれらのコンピュータプログラムを実行する時の作業領域として利用される。主記憶部102は、ネットワークを介して取得された訓練データ等、補助記憶部104より読み出された人工知能モデルの関数等を一時的に記憶する。
 補助記憶部104は、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等によって構成される。補助記憶部104には、処理部101に実行させるための種々のコンピュータプログラム及びコンピュータプログラムの実行に用いる各種設定データが記憶されている。具体的には、オペレーションソフト(OS)1041と、訓練プログラムTPと、人工知能モデルデータベースAI1、第1訓練データ群を格納するデータベースTR1と、第2訓練データ群を格納するデータベースTR2と、第3訓練データ群を格納するデータベースTR3とを不揮発性に記憶する。訓練プログラムTPは、オペレーションソフト(OS)1041と協働して、後述する人工知能の訓練処理を行う。
 通信I/F105は、USB、IEEE1394、RS-232Cなどのシリアルインタフェース、SCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェース、ネットワークインタフェースコントローラ(Network interface controller:NIC)等から構成される。通信I/F105は、通信部105として機能し、処理部101の制御下で、測定部30又は他の外部機器からのデータを受信し、必要に応じて装置10が保存又は生成する情報を、測定部30又は外部に送信又は表示する。通信I/F105は、ネットワークを介して測定部30又は他の外部機器(図示せず、例えば他のコンピュータ、又はクラウドシステム)と通信を行ってもよい。
 入力I/F106は、例えばUSB、IEEE1394、RS-232Cなどのシリアルインタフェース、SCSI、IDE、IEEE1284などのパラレルインタフェース、及びD/A変換器、A/D変換器などからなるアナログインタフェースなどから構成される。入力I/F106は、入力部111から文字入力、クリック、音声入力等を受け付ける。受け付けた入力内容は、主記憶部102又は補助記憶部104に記憶される。
 入力部111は、タッチパネル、キーボード、マウス、ペンタブレット、マイク等から構成され、装置10に文字入力又は音声入力を行う。入力部111は、装置10の外部から接続されても、装置10と一体となっていてもよい。
 出力I/F107は、例えば入力I/F106と同様のインタフェースから構成される。出力I/F107は、処理部101が生成した情報を出力部112に出力する。出力I/F107は、処理部101が生成し、補助記憶部104に記憶した情報を、出力部112に出力する。
 出力部112は、例えばディスプレイ、プリンター等で構成され、測定部30から送信される測定結果及び装置10における各種操作ウインドウ、各訓練データ、人工知能モデル等を表示する。
 メディアI/F108は、記憶媒体113に記憶された例えばアプリケーションソフト等を読み出す。読み出されたアプリケーションソフト等は、主記憶部102又は補助記憶部104に記憶される。また、メディアI/F108は、処理部101が生成した情報を記憶媒体113に書き込む。メディアI/F108は、処理部101が生成し、補助記憶部104に記憶した情報を、記憶媒体113に書き込む。
 記憶媒体113は、フレキシブルディスク、CD-ROM、又はDVD-ROM等で構成される。記憶媒体113は、フレキシブルディスクドライブ、CD-ROMドライブ、又はDVD-ROMドライブ等によってメディアI/F108と接続される。記憶媒体113には、コンピュータがオペレーションを実行するためのアプリケーションプログラム等が格納されていてもよい。
 処理部101は、装置10の制御に必要なアプリケーションソフトや各種設定をROM103又は補助記憶部104からの読み出しに代えて、ネットワークを介して取得してもよい。前記アプリケーションプログラムがネットワーク上のサーバコンピュータの補助記憶部内に格納されており、このサーバコンピュータに装置10がアクセスして、コンピュータプログラムをダウンロードし、これをROM103又は補助記憶部104に記憶することも可能である。
 また、ROM103又は補助記憶部104には、例えば米国マイクロソフト社が製造販売するWindows(登録商標)などのグラフィカルユーザインタフェース環境を提供するオペレーションシステムがインストールされている。第2の実施形態に係るアプリケーションプログラムは、前記オペレーティングシステム上で動作するものとする。すなわち、装置10は、パーソナルコンピュータ等であり得る。
(2)人工知能モデルの訓練処理
 図6を用いて、訓練プログラムTPによる人工知能モデルの訓練処理の流れを説明する。
 処理部101は、オペレータが入力部111から入力した処理開始指令を受け付け、ステップS1において補助記憶部104に格納された第1訓練データ群データベースTR1と、第2訓練データ群データベースTR2と、第3訓練データ群データベースTR3のそれぞれから第1訓練データ群と、第2訓練データ群と、第3訓練データ群を取得する。
 次に、処理部101は、オペレータが入力部111から入力した第4訓練データ群の生成開始指令を受け付け、ステップS2において第4訓練データ群を生成する。
 次に、処理部101は、オペレータが入力部111から入力した第4訓練データ群の入力指令を受け付け、ステップS3において第4訓練データ群を人工知能モデルAI1に入力し、人工知能モデルを訓練する。
 処理部101は、訓練した人工知能モデルを補助記憶部104に記憶する。
 各スッテプ間の移行は、オペレータが指令を入力してもよいが、処理部101が前のステップが終了したことをトリガーとして自動的に進めてもよい。
 訓練処理において、上記1.、上記2-1.に記載された用語と共通する用語、説明については、上記説明をここに援用する。
3.人工知能モデルによる適応症の予測
3-1.被験データの生成
(1)第1被験データ群の生成
 第1被験データ群は、1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群であって、前記第1訓練データを取得した1又は複数の異なる器官に対応する期間から取得されうる。各器官におけるバイオマーカーの挙動を示すデータの群は、上記1.(4)に記載の方法により第1訓練データとして使用されるバイオマーカーの挙動を示すデータ群と同様に取得され得る。
(2)第2被験データ群の生成
 第2被験データは、上記1.(2)で説明したように、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である。複数の公知の適応症のラベルと、これらの適応症のそれぞれに対応して報告されている有害事象を示すラベルは、FAERS、又はclinicaltrials.gov等の外部データベースから、適応症名を示すラベルで検索し、取得することができる。また、適応症又は有害事象の名称を示すラベルが文章に挿入されて登録されている場合には、自然言語処理により、登録されている文章に対して、構文解析、単語分割、意味解析等を行ってから、作用に対応するテキストを抽出してもよい。
 有害事象の発生頻度は、上記1.(4)で説明した方法により、算出することができる。
3-2.予測システム1
 図4(A)に予測システム51のハードウエアの構成を示す。予測システム51は、次世代シーケンサー等のバイオマーカーの測定データを取得するための測定部30と、予測装置20を備える。予測装置20と測定部30は、無線又は有線のネットワークで接続されていてもよいが、測定部30で取得されたデータをCD-R等の記憶媒体を介して取得してもよい。
(1)適応症の予測装置
 前記適応症の予測は、例えば、予測装置20(以下、単に装置20と呼ぶことがある)を使用して行うことができる。
 装置20及び装置20の処理に係る説明において、上記1.、上記2-1.に記載された用語と共通する用語については、上記説明をここに援用する。
 図7に予測装置20(以下、装置20ともいう)のハードウエアの構成を示す。装置20は、少なくとも処理部201と記憶部を備える。記憶部は、主記憶部202及び/又は補助記憶部204から構成される。装置20は、入力部211と、出力部212と、記憶媒体213とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部30と接続されていてもよい。
 装置20において、処理部201と、主記憶部202と、ROM(read only memory)203と、補助記憶部204と、通信インタフェース(I/F)205と、入力インタフェース(I/F)206と、出力インタフェース(I/F)207と、メディアインターフェース(I/F)208は、バス209によって互いにデータ通信可能に接続されている。
 装置20の基本的なハードウエアの構成は、装置10と同様であるので、上記2-3.(1)の説明をここに援用する。通信インタフェース205は、通信部205として機能する。
 ただし、装置20の補助記憶部204には、オペレーションソフト(OS)1041と、訓練プログラムTPと、人工知能モデルAI1、第1訓練データ群を格納するデータベースTR1と、第2訓練データ群を格納するデータベースTR2と、第3訓練データ群を格納するデータベースTR3に代えて、オペレーションソフト(OS)2041と、予測プログラムPPと、訓練した人工知能モデルAI2、第1被験データ群を格納するデータベースTS1と、第2被験データ群を格納するデータベースTS2とを不揮発性に記憶する。予測プログラムPPは、オペレーションソフト(OS)2041と協働して、後述する適応症の予測処理を行う。
(2)適応症の予測処理
 図8を用いて、予測プログラムPPによる適応症の予測処理の流れを説明する。
 処理部201は、オペレータが入力部211から入力した処理開始指令を受け付け、ステップS51において補助記憶部204に格納された第1被験データ群と、第2被験データ群を取得する。
 次に、処理部201は、オペレータが入力部211から入力した予測開始指令を受け付け、ステップS52において第1被験データ群データベースTS1と、第2被験データ群データベースTS2と、第1被験データ群と第2被験データ群とを訓練した人工知能モデルAI2に入力し被験物質の適応症を予測する。
 この時、訓練された人工知能モデルAI2は第2被験データとして入力した全ての適応症について個別に目的とする被験物質が効くか否かを一つずつ判断する。具体的には、訓練された人工知能モデルAI2は、LP problemにおいて、目的薬剤と個々の適応症にリンクが有るか無いかを判断する。
 次に、処理部201は、結果を記憶部に記憶する。処理部201が、訓練された人工知能モデルAI2によって導き出す結果は、被験物質がある適応症に効くのであればラベル“1”を返し、被験物質ある適応症に効かないのであればラベル“-1”となる。
 つまり、“1”が付されている適応症が、被験物質の予測された適応症となる。
 さらに、人工知能モデルがOne-Class SVMである場合、予測の信頼性を示すdecision function valuesが算出される。予測結果として出力された適応症が多い場合には、この値が高い順に適応症の可能性が高いと予測することができる。また、予測結果として出力された適応症が多い場合には、目的としている被験物質と作用機序が似ている別の薬剤を被験物質と投与し、採取した1又は複数の器官におけるトランスクリプトームの挙動を示すデータを使用して、同様に予測を行い、目的とする被験物質の予測結果と、作用機序が似ている他の被験物質の予測結果を比較し、両方に共通する適応症を、予測結果としてもよい。
3-3.予測システム2
 図4(B)に予測システム400の構成を示す。
 予測システム400は、測定部30と、訓練装置10と、予測装置20と、バイオマーカーの挙動を示すデータ群を送信するサーバ装置40とは、通信可能に接続されている。訓練装置10と予測装置20は、測定部30が取得したデータを、サーバ装置40を介して取得する。
(1)サーバ装置
 サーバ装置40(以下、単に装置40と呼ぶことがある)について、上記1.、上記2-1.に記載された用語と共通する用語については、上記説明をここに援用する。
 図9にサーバ装置40(以下、装置40ともいう)のハードウエアの構成を示す。装置40は、少なくとも処理部401と記憶部を備える。記憶部は、主記憶部402及び/又は補助記憶部404から構成される。装置40は、入力部411と、出力部412と、記憶媒体413とに接続されていてもよい。また、次世代シーケンサー、質量分析装置等の測定部30と、無線又は有線のネットワークで通信可能に接続され得る。
 装置40において、処理部401と、主記憶部402と、ROM(read only memory)403と、補助記憶部404と、通信インタフェース(I/F)405と、入力インタフェース(I/F)406と、出力インタフェース(I/F)407と、メディアインターフェース(I/F)408は、バス409によって互いにデータ通信可能に接続されている。
 装置40の基本的なハードウエアの構成は、装置10と同様であるので、上記2-3.(1)の説明をここに援用する。通信インタフェース405は、通信部405として機能する。
 ただし、装置40の補助記憶部404には、オペレーションソフト(OS)1041と、訓練プログラムTPと、人工知能モデルAI1、第1訓練データ群を格納するデータベースTR1と、第2訓練データ群を格納するデータベースTR2と、第3訓練データ群を格納するデータベースTR3に代えて、オペレーションソフト(OS)4041と、第1被験データ群を格納するデータベースTS1を不揮発性に記憶する。
(2)予測システム2の動作
 図10を用いて予測システムの動作を説明する。
 ここでは測定部30によるバイオマーカーの測定値の取得から、予測結果の出力まで一連の流れを説明する。
 測定部30は、ステップS81において、既存物質を投与した非ヒト動物の各器官のバイオマーカーの測定値を取得する。測定部30における測定値の取得は、オペレータによる測定開始指示の入力により行われ得る。ステップS82において、測定部30は、取得した測定値をサーバ装置40に送信する。送信処理は、オペレータによる送信開始指示の入力により行われ得る。
 サーバ装置40の処理部401は、ステップS83において、通信I/F405を介して、測定値を取得する。このとき通信I/F405は通信部として機能する。
 ステップS84において、訓練装置10の入力部111からオペレータにより入力された測定値の取得開始の指示により、訓練装置10の処理部101は通信I/F105から、測定値送信開始の信号をサーバ装置40に送信する。サーバ装置40の処理部401は、通信I/F405を介して、測定値送信開始の入力を受け付け、通信I/F405から測定値の送信を開始する。このとき通信I/F105及び通信I/F405は、それぞれ通信部105及び通信部405として機能する。
 訓練装置10の処理部101は、ステップS85において、外部データベース60から非ヒト動物に投与した既存物質の適応症、及び前記適応症に対応する有害事象に関する情報を、通信I/F105を介して取得する。
 また、訓練装置10の処理部101は、ステップS84において、サーバ装置40から送信された測定値を通信I/F105を介して取得し(ステップS86)、訓練装置10の記憶部に記憶する。ステップS86は、ステップS85の前に行ってもよい。
 次に、訓練装置10の処理部101は、図14のステップS87において、図6のステップS1に示した処理にしたがって、第1訓練データ群、第2訓練データ群、及び第3訓練データ群を生成する。図6のステップS1の説明は、ここに援用する。
 次に、訓練装置10の処理部101は、図14のステップS88において、図6のステップS2に示した処理にしたがって、第1訓練データ群、第2訓練データ群、及び第3訓練データ群から第4訓練データ群を生成する。図6のステップS2の説明は、ここに援用する。
 次に、訓練装置10の処理部101は、図14のステップS89において、図6のステップS3~S4に示した処理にしたがって、第4訓練データ群を人工知能モデルに入力し、人工知能モデルを訓練し、訓練した人工知能モデルを記憶部に記憶する。また、図6のステップS3~S4の説明は、ここに援用する。
 訓練装置10の処理部101は、予測装置20からの人工知能モデル送信開始の指示を受け付けた後、図14のステップS90において記憶した訓練した人工知能モデルを通信I/F105を介して予測装置20に送信する。このとき通信I/F105は通信部105として機能する。
 次に、測定部30は、ステップS91において、被験物質を投与した非ヒト動物の各器官のバイオマーカーの測定値を取得する。測定部30における測定値の取得は、オペレータによる測定開始指示の入力により行われ得る。ステップS92において、測定部30は、取得した測定値をサーバ装置40に送信する。送信処理は、オペレータによる送信開始指示の入力により行われ得る。
 サーバ装置40の処理部401は、ステップS93において、通信I/F405を介して、測定値を取得する。このとき通信I/F405は通信部405として機能する。
 ステップS94において、予測装置20の入力部211からオペレータにより入力された測定値の取得開始の指示により、予測装置20の処理部201は通信I/F205から、測定値送信開始の信号をサーバ装置40に送信する。サーバ装置40の処理部401は、通信I/F405を介して、測定値送信開始の入力を受け付け、通信I/F405から測定値の送信を開始する。このとき通信I/F205及び通信I/F405は通信部として機能する。予測装置20の処理部201は、通信I/F205を介して測定値を取得し、予測装置20の記憶部に記憶する。続いて、予測装置20の処理部201は、第1被験データ群を生成する。第1被験データ群の生成は、上記2-4.(1)にしたがう。
 次に、ステップS95において、予測装置20の処理部201は、通信I/F205を介して訓練装置10に人工知能モデル送信開始指示を送信する。訓練装置10の処理部101は、予測装置20からの人工知能モデル送信開始指示を受け付けると、訓練装置10の通信I/F105を介して、予測装置20に訓練した人工知能モデルを送信する。予測装置20は、通信I/F205を介して訓練された人工知能モデルを取得する。ステップS95はステップS94の前に行ってもよい。
 次に、ステップS96において、予測装置20の処理部201は、ステップS94で生成した第1被験データと、記憶部に記憶している第2被験データとをステップS95で取得した訓練された人工知能モデルAI2に入力し、図12のステップS52にしたがって、被験物質のヒトのおける作用を予測する。予測装置20の処理部201は、ステップS97において、結果を出力する。或いは、図14のステップS94から97において、予測装置20の処理部201は、図13に記載のステップS62からS67までを行い、既存物質の新たな適用症に関する予測結果を予測してもよい。
(3)予測システムの構築方法
 予測システムの構築方法は、訓練装置10と予測装置20を準備する工程を含む。前記構築方法は、さらに既存物質を投与した非ヒト動物の1又は複数の器官におけるバイオマーカーの測定値、あるいは、被験物質を投与した非ヒト動物の1又は複数の器官におけるバイオマーカーの測定値を準備する工程を含んでいてもよい。
4.コンピュータプログラム
4-1.訓練プログラム
 訓練プログラムTPは、上記人工知能モデルの訓練で述べた図6のステップS1~S4を含む処理をコンピュータで実行させることにより、コンピュータを訓練装置10として機能させるコンピュータプログラムである。
4-2.予測プログラム
 予測プログラムPPは、上記被験物質の作用の予測で述べたステップS51~S53を含む処理をコンピュータで実行させることにより、コンピュータを予測装置20として機能させるコンピュータプログラムである。
5.コンピュータプログラムを記憶した記憶媒体
 上記コンピュータプログラムを記憶した記憶媒体に関する。前記コンピュータプログラムは、ハードディスク、フラッシュメモリ等の半導体メモリ素子、光ディスク等の記憶媒体に記憶される。また前記コンピュータプログラムは、クラウドサーバ等のネットワークで接続可能な記憶媒体に記憶されていてもよい。コンピュータプログラムは、ダウンロード形式の、又は記憶媒体に記憶されたプログラム製品であってもよい。
 前記憶媒体へのプログラムの記憶形式は、前記提示装置が前記プログラムを読み取り可能である限り制限されない。前記記憶媒体への記憶は、不揮発性であることが好ましい。
6.変形例
 上記2.では訓練装置10と予測装置20が別のコンピュータである実施形態を示した。しかし、1台のコンピュータが、人工知能モデルの訓練と予測を行ってもよい。
 本明細書において、ハードウエアに付された同一符号は、同じ部分又は同じ機能をしめす。
 以下に実施例を示して、本発明をより具体的に説明する。しかし、本発明は下記実施形態に限定して解釈されるものではない。
 以下の動物実験は、Karydo TherapeutiX、Inc.の倫理委員会において承認を受けて行った。
実験例I.薬剤投与マウスにおける遺伝子発現解析
I-1.薬剤投与マウスの作製、および遺伝子発現解析
1.薬剤の投与
(1)アレンドロネート
 11週齢の雄のC57BL / 6Nマウスに、アレンドロン酸ナトリウム塩三水和物(和光)をPBS(ナカライテスク)に溶解し、1.0 mg / kgの用量で3日又は4日ごとに8日間皮下注射した。薬剤は投与ごとに新たに調製した。薬剤投与後8日目の午後に各器官を採取した。
(2)アセトアミノフェン
 10週齢の雄のC57BL/6Nマウスを12時間絶食させ、その間水を自由に摂取させた。絶食期間の直後に、生理食塩水(大塚製薬)に溶解したアセトアミノフェン(和光)を300 mg / kgの用量で単回でマウスの腹腔内に投与した。投与後、マウスには通常の飼料を自由に摂取させた。投与は正午までに行い、投与2時間後に器官を採取した。
(3)アリピプラゾール
 11週齢の雄C57BL / 6Nマウスに、アリピプラゾール(Sigma-Aldrich)を0.5%(w / v)カルボキシメチルセルロース400溶液(Wako)に溶解し0.3 mg / kgの用量で単回で腹腔内に投与した。午後に薬剤を投与し2時間後に器官を採取した。
(4)アセナピン
 11週齢のオスのC57BL/6Nマウスに、0.3 mg / kgの用量で生理食塩水に溶解したアセナピンマレイン酸塩(Chemscene)を単回で皮下に投与した。午後に薬剤を投与し2時間後に器官を採取した。
(5)シスプラチン
 11週齢のオスのC57BL / 6Nマウスに、20 mg/kgの用量でシスプラチン(Bristol-Myers Squibb)を単回で腹腔内に投与した。薬剤投与後3日目の午後に器官を採取した。
(6)クロザピン
 11週齢のオスのC57BL / 6Nマウスに、クロザピン(Sigma-Aldrich)を0.3 mg / kgの用量で単回で皮下投与した。クロザピンを最初に酢酸に溶解してから生理食塩水で希釈し、1M NaOHでpH 6に調整した。薬剤投与の2時間後の午後に器官を採取した。
(7)ドキシサイクリン
 9週齢の雄のC57BL / 6Nマウスに、5%スクロース(ナカライテスク)と2 mg / mLのドキシサイクリン塩酸塩n-水和物(和光)を含む2週間RO水を摂取させた。薬剤を含むRO水は1週間ごとに新しいものに交換した。薬剤投与後13日目の午後に器官を採取した。陰性コントロール群には、5%スクロース(ナカライテスク)を添加したRO水を摂取させた。
(8)エンパグリフロジン
 10週齢のオスのC57BL / 6Nマウスに、エンパグリフロジン(トロントの研究用化学物質)を0.5%カルボキシメチルセルロースに溶解し、2週間毎日10 mg / kgの用量となるように強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。薬剤の薬剤投与開始から2週間目の午後に器官を採取した。
(9)レナリドマイド
 8週齢のオスのC57BL / 6Nマウスに、0.5%カルボキシメチルセルロースと0.25%Tween-80(ナカライテスク)を含む溶液にレナリドマイド(和光)を溶解し、69日間毎日50mg / kgを強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。薬剤の投与開始から69日目の午後に器官を採取した。また、陰性コントロール群には、0.5%カルボキシメチルセルロースおよび0.25%Tween-80を含む溶液を投与した。
(10)ルラシドン
 11週齢の雄のC57BL / 6Nマウスに、0.5%カルボキシメチルセルロース溶液に溶解した塩酸ルラシドン(Medchemexpress)を0.3 mg / kgとなるように単回で強制的に経口投与した。薬剤投与後2時間後の午後に器官を採取した。
(11)オランザピン
 0.5%カルボキシメチルセルロース溶液に溶解したオランザピン(東京化成工業)を0.3 mg/kgとなるように単回で強制的に経口投与した。薬剤投与後2時間後の午後に器官を採取した。
(12)エボロクマブ(Repatha(商標))
 11週齢のオスのC57BL / 6Nマウスに、4週間、10日ごとに生理食塩水溶解したRepatha(商標)(アステラス製薬株会社)を10 mg / kgの用量で皮下投与した。薬剤投与の4週間後の午後に器官を採取した。
(13)リセドロネート
 11週齢の雄のC57BL / 6Nマウスに、PBSに溶解したリセドロン酸ナトリウム塩(Cayman Chemical Company)を10 mg / kgの用量で1日おきに8日間強制的に経口投与した。薬剤は、毎回投与ごとに新しく調製した。投与開始後8日目の午後に器官を採取した。
(14)ソフォスビル
 7週齢のオスのC57BL / 6Nマウスに、ソフォスビル(LKT)を20 mg / kgの用量で毎日10日間腹腔内投与した。ソフォスビルは、最初にDMSO(ナカライテスク)で希釈し、その後、投与前にPBSで100倍に希釈した(最終濃度は1.0%DMSO / PBSです)。投与開始後10日目の午後に器官を採取した。
(15)テリパラチド
 10週齢の雄のC57BL / 6Nマウスに、生理食塩水に溶解したヒト副甲状腺ホルモンフラグメント1-34(テリパラチド)(Sigma-Aldrich)を40 μg/kg用量で毎日皮下投与した。薬剤の投与の開始後4週間目の午後に器官を採取した。陰性コントロールには、生理食塩水を投与した。
(16)野生型(WT)マウス
 薬剤を投与していない11週齢の雄C57BL / 6Nマウスから、器官を午後に採取した。
2.マウスおよび24器官トランスクリプトーム解析
(1)器官
 マウスを使った実験、器官の抽出、及びトランスクリプトーム解析は、特許文献1に記載された方法にしたがって行った。24の器官は、副腎、大動脈、骨髄細胞(BM)、脳、結腸、目、心臓、回腸、空腸、左腎臓、肝臓、肺、膵臓、耳下腺、下垂体、骨格筋、皮膚、頭蓋、 脾臓、胃、左精巣、胸腺、甲状腺、および性腺の白色脂肪組織(WAT)である。
 すべてのマウスは、約25℃の温度制御された部屋に12時間の明暗サイクルで飼育し、水と通常の飼料(CE-2、CLEA Japan、Inc.、東京、日本)を自由に摂取させた。
(2)トランスクリプトーム解析
 トランスクリプトーム解析は、 QuantSeq 3’mRNA-Seq Library Prep Kit for Illumina (FWD) (cat#015.384, LEXOGEN)とIllumina NextSeq 500 (75bp single-read, ca. 400 million reads/run, NextSeq 500/550 High Output Kit v2.5, cat#20024906)を使用して行った。
 各薬剤を投与したマウスから採取した各器官における差次的遺伝子発現データを、機械学習フレームワークの各薬剤の特徴として使用した。RNA-seqデータ処理(転写産物のマッピングとカウント)は、特許文献1に記載の方法に従って行った。
 マウスゲノムのマッピングは、TopHat2を使用してmm10に対して行った。薬剤投与群と、陰性コントロール群(ドキシサイクリンおよびレナリドマイド投与群)またはWTマウス群(ドキシサイクリンおよびレナリドマイド以外の薬剤投与群に対するコントロール)の各器官における差次的な遺伝子発現を、DESeq2(1.22.1)によって同定した。それぞれの薬剤投与群、陰性コントロール群、WTマウス群は、それぞれn=2で解析した。
3.実施例
 One-class SVMを用いたLink Prediction(LP)を使用した人工知能モデルを構築し、薬剤の適応症の予測を行った。
3-1.訓練
(1)第1訓練データ
 各薬剤の特徴として、各器官において発現の変化が、p<0.0001を示した遺伝子を選択した。器官と、すべての器官(24器官のフレームワーク)または個々の器官(個々の器官のフレームワーク)から選択したすべての遺伝子のlog2fold値と器官名との組み合わせと、その遺伝子発現データを取得する際に投与した薬剤の名称のラベルをセットにして第1訓練データとして使用した。
(2)第2訓練データ
 上記1.でマウスに投与した薬剤名のラベルと、その各薬剤の適応症名のラベルをセットにして第2訓練データとして使用した。薬剤名に対応する適応症名は、The FDA Adverse Event Reporting System (FAERS: https://open.fda.gov/data/faers/)にしたがった。
(3)第3訓練データ
 FAERS(https://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm) から2014Q2~2018Q1までのadverse event報告データをダウンロードした。上記1.でマウスに投与した各薬剤の適応症名に対応する有害事象を名示す単語を報告データから抽出した。抽出された1単語を、1つの報告された有害事象とし、(1つの薬剤の適応症名について1つの有害事象が報告された件数)/(1つの薬剤の適応症名について報告された有害事象の全ての件数)の式を用いて各有害事象の発生頻度(%)をそれぞれ計算した。
(4)第4訓練データ
 薬剤名を例えばA、Bとしたとき、gA, gBは、各薬剤A、Bを投与した時の24器官のトランスクリプトームのパターンを示す(第1訓練データ群)。また、薬剤Aの適応症を“1”、薬剤Bの適応症を“2”で表し、適応症1ついて報告されている有害事象(AE)の要素をi、ii・・・Nで表すと、適応症1のベクトルはd1= (d1i, d1ii, … , d1N), d2= (d2i, d2ii, … , d2N)となる(第3訓練データ群)。また、第2訓練データ群は、薬剤Aの名称を示すラベルと適応症1の名称を示すラベル、及び薬剤Bの名称を示すラベルと適応症2の名称を示すラベルをセットにしたものであるので、それぞれgAd1, gBd2で表すことができる(第2訓練データ群)。ここで、適応症は、FAERSにおいて適応症1の患者が服用した薬剤Aのレコードが10個を超える場合を陽性(適応有り)とした。
(5)One-class SVM
 One-class SVMに入力するためのデータは下式のカーネル関数により、第1訓練データ群と第3訓練データ群を対応付けて第4訓練データ群としてOne-class SVMに入力した。
  k(gAd1, gBd2)= <gA, gB><d1, d2>
 ここで、<・,・> は12ノルムが1になるように各ベクトルをスケーリングし、スケーリングされた両方のベクトル間の内積を取る演算子を示す。
 One-class SVMは、Pythonのp ‘scikit-learn’ パッケージを用い、parameterはnu=0.1とした。
3-2.予測
 訓練されたOne-class SVMに目的とする薬剤を投与した時の24器官のトランスクリプトームのパターン(第1被験データ)と、FAERSに登録されている[全ての適応症の名称を示すラベル]と[その適応症に対応する有害事象名と発生頻度の組み合わせ(gd)]を入力し、全ての適応症について個別に目的とする薬剤が効くか否かを訓練されたOne-class SVMに判断させた。 具体的には、LP problemにおいて、目的薬剤と個々の適応症にリンクが有るか無いかを訓練されたOne-class SVMに判断させた。SVMは、目的薬剤がある適応症に効くのであればラベル“1”を返し、目的薬剤がある適応症に効かないのであればラベル“-1” を返す。
3-3.実施例1
 実施例1では、上記1.で投与した薬剤の1つの適応症が未知であると仮定して、予測を行った。言い換えると、はじめに、上記1.で投与した薬剤のうち1つを除いた14種の薬剤に関するデータを訓練データとしてOne-class SVMを訓練した。その後除かれた薬剤を目的薬剤として、目的薬剤を投与した際のトランスクリプトームのパターンとを第1被験データとして、訓練されたOne-class SVMに第2被験データと共に入力し、適応症を予測した。その結果を図11に示す。図11において、TNは真陰性、TPは真陽性、FNは偽陰性、FPは真陽性を示す。真陰性は、「適応症でない」ものを「適応症でない」と予測できた項目数を示し、真陽性は、「適応症である」ものを「適応症である」と予測できた項目数を示す。偽陰性は、「適応症である」ものを「適応症でない」と予測した項目数を示し、偽陽性は、「適応症ない」ものを「適応症である」と予測した項目数を示す。 accuracy scoresは予測の正確性を示すスコアである。recall scoresは「適応症である」と予測された場合の網羅率を示す。precision scoreは「適応症である」と予測された場合の信頼度を示す。
 accuracy scoresは15薬剤とも高かった(>0.78)。この結果は、78%以上の予測された適応症又は非適応症が実際に報告されているか報告されていないことを示している。 また、recall scoresは、アレンドロネート、アリピプラゾール、アセナピン、クロザピン、エンパグリフロジン、ルラシドン、オランザピン、エボロクマブ、リセドロネート、ソホスブビルおよびテリパラチドにおいて高い値を示した(>0.8)。recall scoresは、これらの薬剤について既に報告されている適応症の80%以上を予測できていることを示している。ドキシサイクリンのrecall scoreは0.527であり、報告された適応症の約50%がこの薬剤で予測されていることを示している。アセトアミノフェン(APAP)のみが高いprecision score(1.000)を示し、他のすべては低いprecision scores(<0.35)を示した。シスプラチンとレナリドマイドの両方が0 TPと0 FNを示すため、precision scoreとFメジャースコアを計算できなかった。多くの薬剤においてこのような低いprecision scoreを示す理由は、主にTPと比較して多くのFPが存在するためであると考えられた。
 これらの結果から、本発明の予測方法は、適応症がわからない新たな物質の適応症を予測する上で有用な方法であると考えられた。
3-4.実施例2
 本発明が、公知物質の新たな適応症を探索する、いわゆるドラッグリポジショニングに有用であるかいなかを評価した。上記1.で述べた15薬剤全てのデータを使って人工知能を訓練し、個々の薬剤の適応症を予測した。その結果を図12に示す。図内の記号は図11と同様である。
 結果として、すべての薬剤のTPの数が増加し、FNの数が減少した。またrecall scoreも改善した。さらに、全ての薬剤についてaccuracy scoresとrecall scores が改善し、0.770-1.000を示した。この結果は、報告されている適応症と報告されていない適応症の両方を77%以上の確率で捉えることができることを示している。全ての薬剤について、precision scores はFNの数が多いため低くなった。図12において、FPは、これまで報告されていない新たな適応症の可能性を示す。FPの数が比較的多いため、候補を絞る必要がある場合には、FPにおけるそれぞれの適応症のdecision function valuesを算出し、各薬剤のそれぞれの適応症をランク付けすることにより、より候補を絞ることが可能である。図13にアレンドロネートのdecision function valuesの例を示す。また、類似の作用機序を持っていることが既に知られている薬剤同士(例えば、アレンドロネートとリセドロネートや、アリピプラゾールとクロザピン)で共通のFPに予測された適応症もリポジショニングされた適応症として高い可能性を持っていると考えられる。
 これらの結果から、本発明の予測方法は、ドラッグリポジショニングにも有用であると考えられた。
10 訓練装置
20 予測装置
40 サーバ装置
101 処理部
201 処理部
401 処理部
400 予測システム
105 通信部
405 通信部

Claims (15)

  1.  人工知能モデルの訓練方法であって、
     前記訓練方法は、第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練することを含み、
      前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
      前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
      前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、
     前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
     前記訓練方法。
  2.  前記訓練において、前記第1訓練データ群と前記第3訓練データ群とを前記第2訓練データ群により紐付けて第4訓練データ群を生成し、前記第4訓練データ群を人工知能に入力する、
    請求項1に記載の訓練方法。
  3.  前記有害事象に関する情報は、前記有害事象を示すラベルと、前記適応症における前記有害事象の有無、又は発生頻度を含む、
    請求項1又は2に記載の訓練方法。
  4.  前記バイオマーカーがトランスクリプトームである、請求項1から3のいずれか一項に記載の訓練方法。
  5.  前記人工知能モデルが、One-Class SVMである、請求項1から4のいずれか一項に記載の訓練方法。
  6.  人工知能モデルの訓練装置であって、
     前記訓練装置は、処理部を備え、
      前記処理部は、
      第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練し、
       前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
       前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
       前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群であり、
    前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
    前記訓練装置。
  7.  コンピュータに実行させたときに、第1訓練データ群と、第2訓練データ群と、第3訓練データ群とを関連付けて人工知能モデルに入力して人工知能モデルを訓練するステップをコンピュータに実行させる、人工知能モデルの訓練プログラムであって、
      前記第1訓練データ群は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取された1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記投与した所定の既存物質のそれぞれの名称を示すラベルとが紐付けられたデータの群であり、
      前記第2訓練データ群は、前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群であり、
      前記第3訓練データ群は、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとこれらの適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群であり、
     前記人工知能モデルは、被験物質のヒトにおける適応症を予測するためのものである、
    前記訓練プログラム。
  8.  被験物質のヒトにおける適応症を予測する方法であって、
      第1被験データ群を取得する工程であって、前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群である工程と、
      前記第1被験データ群と、第2被験データ群とを請求項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測する工程であって、前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である工程と、
    を含む、前記予測方法。
  9.  前記被験物質は、既存物質又は既存物質の等価物質を含まない、請求項7に記載の予測方法。
  10.  前記被験物質は、既存物質又は既存物質の等価物質から選択される1種である、請求項7に記載の予測方法。
  11.  被験物質のヒトにおける適応症を予測する予測装置であって、
     前記予測装置は、処理部を備え、前記処理部は、
      第1被験データ群と、第2被験データ群とを請求項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、
       前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
       前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である、
    前記予測装置。
  12.  コンピュータに実行させた時に、
      第1被験データ群と、第2被験データ群とを請求項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測するステップであって、
       前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
       前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群であるステップを、
    コンピュータに実行させる、被験物質のヒトにおける適応症を予測するためのコンピュータプログラム。
  13.  被験物質のヒトにおける適応症を予測するための予測システムであって、
     前記システムは、
      第1被験データ群を送信するサーバ装置であって、前記第1被験データ群が被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群である、サーバ装置と、
      前記サーバ装置とネットワークを介して接続された、ヒトにおける前記被験物質の作用を予測するための予測装置と、
    を備え、
       前記サーバ装置は、前記第1被験データ群を送信するための通信部を備え、
       前記予測装置は、処理部と、通信部を備え、
        前記処理部は、
        前記サーバ装置の通信部を介して送信された第1被験データ群を、前記予測装置の通信部を介して取得し、
        取得した第1被験データ群と、第2被験データ群とを請求項1~5のいずれか一項に記載の方法で訓練された人工知能モデルに入力し、前記訓練された人工知能モデルにより、入力した前記第1被験データ群と第2被験データ群に基づいて前記被験物質のヒトにおける適応症を予測し、
         前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
         前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている第3訓練データ群の生成時に取得された有害事象に関する情報とが紐付けられたデータの群である、
    前記システム。
  14.  1又は複数の異なる各器官におけるバイオマーカーの挙動を示すデータの群と、前記バイオマーカーの挙動を示すデータの群を取得する際に投与した既存物質の名称を示すラベルとが紐付けられたデータの群である、第1訓練データ群であって、
      前記1又は複数の異なる器官は、ヒトにおける適応症が既知である複数の所定の既存物質を個別に投与した各非ヒト動物から採取される、前記第1訓練データ群と、
     前記複数の所定の既存物質のそれぞれの名称を示すラベルと、前記複数の所定の既存物質のそれぞれについて報告されている前記適応症を示すラベルとが紐付けられたデータの群である、第2訓練データ群と、
     前記適応症を示すラベルと前記適応症のそれぞれに対応して報告されている有害事象に関する情報が紐付けられたデータの群である、前記第3訓練データ群と、
    を、被験物質のヒトにおける適応症を予測するための人工知能モデルの訓練のために使用する方法。
  15.  第1被験データ群と、第2被験データ群とを、被験物質のヒトにおける適応症を予測するための被験データとして使用する方法であって、
     前記第1被験データ群は、被験物質を投与した非ヒト動物から採取された1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であって、第1訓練データ群の生成時に採取された器官に対応する1又は複数の器官におけるバイオマーカーの挙動を示すデータの群であり、
     前記第2被験データ群は、複数の公知の適応症のラベルと、前記複数の公知の適応症のそれぞれに対応して報告されている有害事象に関する情報とが紐付けられたデータの群である、
    方法。
PCT/JP2020/039179 2019-10-17 2020-10-16 被験物質のヒトにおける適応疾患を予測するための人工知能モデル WO2021075574A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
IL292185A IL292185A (en) 2019-10-17 2020-10-16 An artificial intelligence model for predicting labels for test substances in humans
CN202080072814.XA CN114556481A (zh) 2019-10-17 2020-10-16 用于预测测试物质在人类中的适应症的人工智能模型
EP20877483.6A EP4047607A4 (en) 2019-10-17 2020-10-16 ARTIFICIAL INTELLIGENCE MODEL FOR PREDICTING INDICATIONS FOR TEST SUBSTANCES IN HUMANS
JP2021552483A JPWO2021075574A1 (ja) 2019-10-17 2020-10-16
CA3158327A CA3158327A1 (en) 2019-10-17 2020-10-16 Artificial intelligence model for predicting indications for test substances in humans
US17/769,516 US20240153649A1 (en) 2019-10-17 2020-10-16 Artificial Intelligence Model for Predicting Indications for Test Substances in Humans

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019190332 2019-10-17
JP2019-190332 2019-10-17

Publications (1)

Publication Number Publication Date
WO2021075574A1 true WO2021075574A1 (ja) 2021-04-22

Family

ID=75538249

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/039179 WO2021075574A1 (ja) 2019-10-17 2020-10-16 被験物質のヒトにおける適応疾患を予測するための人工知能モデル

Country Status (7)

Country Link
US (1) US20240153649A1 (ja)
EP (1) EP4047607A4 (ja)
JP (1) JPWO2021075574A1 (ja)
CN (1) CN114556481A (ja)
CA (1) CA3158327A1 (ja)
IL (1) IL292185A (ja)
WO (1) WO2021075574A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676684B2 (en) 2018-07-27 2023-06-13 Karydo Therapeutix, Inc. Artificial intelligence model for predicting actions of test substance in humans

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259850B2 (ja) 1986-07-31 1990-12-13 Sumitomo Metal Mining Co
JP2015507470A (ja) * 2011-11-11 2015-03-12 コールド スプリング ハーバー ラボラトリー,アン エデュケーションコーポレーション オブ ザ ステイト オブ ニュー ヨーク 薬物スクリーニング法およびその使用
US20150371009A1 (en) * 2014-06-19 2015-12-24 Jake Yue Chen Drug identification models and methods of using the same to identify compounds to treat disease
WO2016208776A1 (ja) 2015-06-25 2016-12-29 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
JP2019502988A (ja) * 2015-12-02 2019-01-31 株式会社Preferred Networks 薬物設計のための生成機械学習システム
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0259850B2 (ja) 1986-07-31 1990-12-13 Sumitomo Metal Mining Co
JP2015507470A (ja) * 2011-11-11 2015-03-12 コールド スプリング ハーバー ラボラトリー,アン エデュケーションコーポレーション オブ ザ ステイト オブ ニュー ヨーク 薬物スクリーニング法およびその使用
US20150371009A1 (en) * 2014-06-19 2015-12-24 Jake Yue Chen Drug identification models and methods of using the same to identify compounds to treat disease
WO2016208776A1 (ja) 2015-06-25 2016-12-29 株式会社国際電気通信基礎技術研究所 多器官連関システムを基盤とした予測装置、及び予測プログラム
JP2019502988A (ja) * 2015-12-02 2019-01-31 株式会社Preferred Networks 薬物設計のための生成機械学習システム
JP6559850B1 (ja) * 2018-07-27 2019-08-14 Karydo TherapeutiX株式会社 ヒトにおける被験物質の作用を予測するための人工知能モデル

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4047607A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676684B2 (en) 2018-07-27 2023-06-13 Karydo Therapeutix, Inc. Artificial intelligence model for predicting actions of test substance in humans

Also Published As

Publication number Publication date
IL292185A (en) 2022-06-01
CN114556481A (zh) 2022-05-27
EP4047607A1 (en) 2022-08-24
US20240153649A1 (en) 2024-05-09
EP4047607A4 (en) 2022-12-07
JPWO2021075574A1 (ja) 2021-04-22
CA3158327A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
US11676684B2 (en) Artificial intelligence model for predicting actions of test substance in humans
JP6432962B2 (ja) 腎機能低下、慢性腎疾患及び腎不全からなる群から選択される少なくとも一種の疾患を予防、又は治療するための有効成分の候補物質のスクリーニング方法
Semler et al. A mutation in the 5′-UTR of IFITM5 creates an in-frame start codon and causes autosomal-dominant osteogenesis imperfecta type V with hyperplastic callus
Rinaldi et al. Mutation in CPT1C associated with pure autosomal dominant spastic paraplegia
Alexandrov et al. Large-scale phenome analysis defines a behavioral signature for Huntington's disease genotype in mice
Kara et al. A 6.4 Mb duplication of the α-synuclein locus causing frontotemporal dementia and Parkinsonism: phenotype-genotype correlations
US20220076832A1 (en) Prediction device based on inter-organ cross talk system
Anheim et al. Exonic deletions of FXN and early-onset Friedreich ataxia
Cade et al. Associations of variants In the hexokinase 1 and interleukin 18 receptor regions with oxyhemoglobin saturation during sleep
WO2021145434A1 (ja) 目的とする薬剤又はその等価物質の適応症の予測方法、予測装置、及び予測プログラム
Louie et al. Molecular and cellular pathogenesis of Ellis-van Creveld syndrome: lessons from targeted and natural mutations in animal models
Xie et al. Deep phenotyping and lifetime trajectories reveal limited effects of longevity regulators on the aging process in C57BL/6J mice
WO2021075574A1 (ja) 被験物質のヒトにおける適応疾患を予測するための人工知能モデル
Ramírez Rozzi et al. Diversity among African pygmies
Schachtschneider et al. Altered hippocampal epigenetic regulation underlying reduced cognitive development in response to early life environmental insults
WO2021145798A2 (en) Methods of biological age evaluation and systems using such methods
Yabumoto et al. Novel variants in KAT6B spectrum of disorders expand our knowledge of clinical manifestations and molecular mechanisms
WO2021157739A1 (ja) シングルセルRNA-Seq解析のカウントデータセットの補正方法、シングルセルRNA-Seqの解析方法、細胞種の構成比率の解析方法、並びにこれらの方法を実行するための装置及びコンピュータプログラム
Behren et al. Genomic Selection for Dairy Cattle Behaviour Considering Novel Traits in a Changing Technical Production Environment
Illera et al. Addressing Combative Behaviour in Spanish Bulls by Measuring Hormonal Indicators
De Lillo et al. Phenome-wide association study of TTR and RBP4 genes in 361,194 individuals reveals novel insights in the genetics of hereditary and senile systemic amyloidoses
JP2020129360A (ja) mRNA前駆体の解析方法、情報処理装置、コンピュータプログラム
Lindau et al. OP0255 TLR9-independent and immune complex-independent interferon-alpha production by neutrophils upon netosis in response to circulating chromatin
De Lara et al. OP0254 Who should control the classical cardiovascular risk factors in the rheumatoid arthritis? study on the consistency between primary care and rheumatology
Michalski Aspects for implementation of data mining in gerontology and geriatrics

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20877483

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021552483

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 3158327

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 17769516

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020877483

Country of ref document: EP

Effective date: 20220517