WO2022220236A1 - 情報処理方法、情報処理装置、及びプログラム - Google Patents

情報処理方法、情報処理装置、及びプログラム Download PDF

Info

Publication number
WO2022220236A1
WO2022220236A1 PCT/JP2022/017576 JP2022017576W WO2022220236A1 WO 2022220236 A1 WO2022220236 A1 WO 2022220236A1 JP 2022017576 W JP2022017576 W JP 2022017576W WO 2022220236 A1 WO2022220236 A1 WO 2022220236A1
Authority
WO
WIPO (PCT)
Prior art keywords
disease
snp
alzheimer
information
genotype
Prior art date
Application number
PCT/JP2022/017576
Other languages
English (en)
French (fr)
Inventor
治久 井上
孝之 近藤
健 池内
Original Assignee
国立大学法人京都大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人京都大学 filed Critical 国立大学法人京都大学
Priority to CA3214838A priority Critical patent/CA3214838A1/en
Priority to CN202280028249.6A priority patent/CN117136234A/zh
Priority to EP22788161.2A priority patent/EP4324922A1/en
Priority to JP2023514652A priority patent/JPWO2022220236A1/ja
Publication of WO2022220236A1 publication Critical patent/WO2022220236A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Definitions

  • the present invention relates to an information processing method, an information processing apparatus, and a program.
  • This application claims priority to US Patent No. 63/174,500 filed April 13, 2021 in the United States, the contents of which are hereby incorporated by reference.
  • AD Alzheimer's disease
  • AD genome-wide association studies
  • GWAS genome-wide association studies
  • AD is thought to develop due to the combined action of multiple genes (polygenes), and in particular, sporadic AD with no family history, which accounts for 95% of AD patients, is characterized by genetic factors in the pathology. There is no effective approach to find the cause.
  • the present invention has been made in view of the above circumstances, and provides an information processing method, information processing apparatus, and program capable of predicting the risk of developing AD in a subject.
  • the inventors created cerebral cortical neurons using an iPS cohort consisting of iPS cells established from sporadic AD patients.
  • a ⁇ 42/40 ratio amyloid ⁇ (A ⁇ 42/40 ratio) 42/40 ratio
  • GWAS cell GWAS
  • a ⁇ 42/ Loci associated with the 40 ratio were searched.
  • the inventors have found that the risk of developing AD in a subject can be predicted using the identified loci associated with the A ⁇ 42/40 ratio as a polygene data set, and have completed the present invention.
  • CDiP Cellular dissection of polygenicity
  • Step 1 of detecting a first SNP that is a mutation in an Alzheimer's disease-associated gene in a genomic DNA sample derived from a subject; Based on a plurality of training data sets labeled with information on the onset of Alzheimer's disease for the second SNP, which is a mutation in the Alzheimer's disease-associated gene detected in a genomic DNA sample derived from a patient who developed Alzheimer's disease.
  • Step 2 of determining whether the subject develops Alzheimer's disease from the first SNP using the machine learning model learned in A method of processing information comprising: (2) the machine learning model is a random forest comprising a plurality of classifiers; Each classifier is learned using a specific training data set selected from among the plurality of training data sets based on the principal component information in the attribute information and genetic information of the patient with Alzheimer's disease. , the information processing method according to (1). (3) the plurality of training data sets are labeled with information about the onset of Alzheimer's disease for the attributed genotype of the second SNP estimated from the second SNP using genotype imputation; The information processing method according to (1) or (2), wherein the attached data set is included. (4) The information processing method according to any one of (1) to (3), wherein the mutation is one or more mutations listed in Tables 1-1 to 1-77.
  • a detection unit that detects a first SNP that is a mutation in an Alzheimer's disease-associated gene in a genomic DNA sample derived from a subject; Based on a plurality of training data sets labeled with information on the onset of Alzheimer's disease for the second SNP, which is a mutation in the Alzheimer's disease-associated gene detected in a genomic DNA sample derived from a patient who developed Alzheimer's disease.
  • a determination unit that determines whether the subject develops Alzheimer's disease from the first SNP using the machine learning model learned in An information processing device.
  • Step 1 of detecting a first SNP that is a mutation in an Alzheimer's disease-associated gene in a genomic DNA sample derived from a subject; Based on a plurality of training data sets labeled with information on the onset of Alzheimer's disease for the second SNP, which is a mutation in the Alzheimer's disease-associated gene detected in a genomic DNA sample derived from a patient who developed Alzheimer's disease.
  • Step 2 of determining whether the subject develops Alzheimer's disease from the first SNP using the machine learning model learned in program to run the
  • the risk of developing AD in a subject can be predicted. Prediction of onset risk can contribute to improvement of AD prevention or therapeutic effects. Furthermore, new therapeutic targets for AD can be provided.
  • FIG. 4 is a flow chart showing the flow of a series of runtime processes by the processing unit 120 according to the first embodiment; It is a figure which shows an example of the prediction model MDL which concerns on 1st Embodiment.
  • 6 is a flow chart showing a series of training processes performed by the processing unit 120 according to the first embodiment.
  • 4 is a graph showing the amount of A ⁇ 40 corresponding to the apolipoprotein E (APOE) ⁇ 4 genotype in Example 1.
  • APOE apolipoprotein E
  • N.S. indicates no significant difference (P>0.05).
  • 4 is a graph showing the amount of A ⁇ 42 corresponding to the APOE ⁇ 4 genotype in Example 1.
  • N.S.” indicates no significant difference (P>0.05).
  • 2 is a graph showing A ⁇ 42/40 ratios corresponding to APOE ⁇ 4 genotypes in Example 1.
  • FIG. 4 is a graph showing the protein concentration of iPS cell-derived neurons corresponding to the APOE ⁇ 4 genotype in Example 1.
  • FIG. 2 is a Manhattan plot of a genome-wide association study of cell polygenic analysis (CDiP) to identify loci associated with the A ⁇ 42/40 ratio without considering the APOE ⁇ 4 genotype in Example 1.
  • FIG. The x-axis shows chromosomes and the y-axis shows ⁇ log10 (p-value) of all SNPs tested. The upper line indicates the Bonferroni-corrected significance threshold (p ⁇ 5 ⁇ 10 ⁇ 8 ).
  • 2 is a Manhattan plot of CDiP genome-wide association studies to identify loci associated with the A ⁇ 42/40 ratio considering the APOE ⁇ 4 genotype in Example 1.
  • the x-axis shows chromosomes and the y-axis shows ⁇ log10 (p-value) of all SNPs tested.
  • the upper line indicates the Bonferroni-corrected significance threshold (p ⁇ 5 ⁇ 10 ⁇ 8 ).
  • 2 is a graph showing the results of pathway analysis of 24 CDiP-identified genes using A ⁇ 42/40 ratios in Example 1.
  • FIG. The horizontal axis indicates the p-value.
  • 4 is a plot showing phosphorylated tau (p231-tau)/total tau ratios corresponding to APOE ⁇ 4 genotypes in Example 1.
  • N.S. indicates no significant difference (P>0.05).
  • 2 is a plot showing p231-tau/total tau ratios in culture supernatants of iPS cell-derived neurons, corresponding to gender in Example 1.
  • the x-axis shows chromosomes and the y-axis shows ⁇ log10 (p-value) of all SNPs tested.
  • the upper line indicates the Bonferroni-corrected significance threshold (p ⁇ 5 ⁇ 10 ⁇ 8 ).
  • FIG. The x-axis shows chromosomes and the y-axis shows ⁇ log10 (p-value) of all SNPs tested.
  • the upper line indicates the Bonferroni-corrected significance threshold (p ⁇ 5 ⁇ 10 ⁇ 8 ).
  • 1 is a graph showing changes in A ⁇ 42/40 ratio due to knockdown of the identified genes in Example 1.
  • FIG. The x-axis indicates the level of change in the A ⁇ 42/40 ratio compared to non-siRNA-treated controls. Values are shown as mean ⁇ standard deviation. * is p ⁇ 0.05, ** is p ⁇ 0.01, *** is p ⁇ 0.005, *** is p ⁇ 0.001. 1 is a graph showing changes in the amount of A ⁇ 40 due to knockdown of the specified gene in Example 1.
  • FIG. The x-axis indicates the level of change in A ⁇ 40 abundance compared to non-siRNA-treated controls. Values are shown as mean ⁇ standard deviation. * is p ⁇ 0.05, ** is p ⁇ 0.01, *** is p ⁇ 0.005, *** is p ⁇ 0.001.
  • FIG. 1 is a graph showing changes in the amount of A ⁇ 42 due to knockdown of the specified gene in Example 1.
  • FIG. The x-axis indicates the level of change in A ⁇ 42 abundance compared to non-siRNA-treated controls. Values are shown as mean ⁇ standard deviation. * is p ⁇ 0.05, ** is p ⁇ 0.01, *** is p ⁇ 0.005, *** is p ⁇ 0.001.
  • 2 is a graph showing changes in protein concentration due to knockdown of the identified genes in Example 1.
  • FIG. The x-axis indicates the level of change in protein concentration compared to non-siRNA-treated controls. Values are shown as mean ⁇ standard deviation. * is p ⁇ 0.05, ** is p ⁇ 0.01, *** is p ⁇ 0.005, *** is p ⁇ 0.001.
  • FIG. 1 is a graph comparing expression levels in neurons of genes in which siRNAs changed the A ⁇ 42/40 ratio between Alzheimer's disease brains and non-dementia control brains in Example 1.
  • FIG. 1 is a graph comparing the expression levels in neurons of genes in which siRNA reduced the amount of A ⁇ 42 between Alzheimer's disease brains and non-dementia control brains in Example 1.
  • FIG. 1 shows genes shown and potential therapeutic targets. Fig.
  • 2 is a boxplot showing the relationship between A ⁇ -positive patients and A ⁇ -negative patients and age of onset in Example 2; The n number of A ⁇ -positive patients was 15, and the n number of A ⁇ -negative patients was 4.
  • 2 is a plot showing the relationship between A ⁇ -positive patients and A ⁇ -negative patients in Example 2 and the amount of A ⁇ 40 in culture supernatants of cerebral cortical neurons induced from human iPS cells. The n number of A ⁇ -positive patients was 15, and the n number of A ⁇ -negative patients was 4.
  • 2 is a plot showing the relationship between A ⁇ -positive patients and A ⁇ -negative patients in Example 2 and the amount of A ⁇ 42 in culture supernatants of cerebral cortical neurons induced from human iPS cells.
  • FIG. 10 is a graph showing prediction results of A ⁇ deposition.
  • 1 is a graph showing the results of predicting the amount of A ⁇ (1-42) in fluid (CSF).
  • CSF using covariates (age, sex, and APOE- ⁇ 4 allele genotype) in Example 2 (left graph) or with covariates and CDiP-specified genotype sets (right graph) 1 is a graph showing prediction results of the total tau (t-tau) amount of .
  • Example 2 In CSF using covariates (age, sex, and APOE- ⁇ 4 allele genotype) in Example 2 (left graph) or with covariates and CDiP-specified genotype sets (right graph) 1 is a graph showing the prediction result of the amount of phosphorylated tau (p-tau) in .
  • AD-related gene mutation ⁇ Alzheimer's disease (AD)-related gene mutation>
  • the inventors used neuronal cells in the cerebral cortex induced from iPS cells established from sporadic AD patients, and used the A ⁇ 42/40 ratio, which is one of the pathological indicators of AD, as a phenotype to detect GWAS (cell GWAS). ), and as shown in the examples described later, among the mutations of AD-related genes, the mutations described in Tables 1-1 to 1-77 are found as mutations related to the A ⁇ 42/40 ratio. .
  • AD-related genes containing one or more mutations listed in Tables 1-1 to 1-77 above, age, sex, and accumulation of A ⁇ in the brain Without analyzing the APOE4 genotype that is said to be involved, and without analyzing mutations in AD-related genes containing one or more mutations listed in Tables 1-1 to 1-77 above, age, sex , and when only the APOE4 genotype, which is said to be involved in the accumulation of A ⁇ in the brain, is analyzed, AD-related including one or more mutations described in Tables 1-1 to 1-77 above Analysis of gene mutations, age, gender, and APOE4 genotype, which is believed to be involved in the accumulation of A ⁇ in the brain, yields higher results in the AUC score, which is one of the indicators of prediction accuracy.
  • the prediction of AD onset risk using the information processing apparatus and information processing method of the present embodiment should be performed with an accuracy of AUC of about 0.7 (more specifically, about 0.73 or more and 0.76 or less). can be done.
  • the risk of AD is determined by analyzing a SNP set containing one or more mutations listed in Tables 1-1 to 1-77 above. By doing so, it is possible to provide a risk determination method with high accuracy or high predictability. That is, the information processing apparatus and information processing method of the present embodiment can be said to be an AD onset risk prediction apparatus and prediction method. Further, according to the information processing apparatus and information processing method of the present embodiment, it is possible to predict the risk of developing AD in subjects, including subjects suspected of having sporadic AD with no family history.
  • the information processing apparatus and information processing method of the present embodiment can also contribute to AD stratification. This can also contribute to precision medicine.
  • the term "risk of Alzheimer's disease (AD)” refers to the possibility of contracting Alzheimer's disease, such as susceptibility to or difficulty in contracting AD.
  • “Risk determination” includes, for example, dividing the current or future AD probability into several levels and outputting them numerically. Determining risk for AD includes assessing genetic factors or genetic susceptibility to disease, such as predisposition or predisposition to AD.
  • One or more of the mutations described in Tables 1-1 to 1-77 above can be used, and the mutations described in Tables 1-1 to 1-77 above are associated with AD.
  • This is an SNP that has not been recognized in the past. That is, AD is thought to develop due to the combined action of polygenes, and rather than individually analyzing the mutations listed in Tables 1-1 to 1-77 above, Table 1-1 to Table 1-
  • the risk of AD can be determined with higher accuracy.
  • the inventors found that mutations related to the phosphorylated tau/total tau ratio among AD-related gene mutations described in Tables 2-1 to 2-9 above. I found a mutation. Therefore, one or more mutations described in Tables 2-1 to 2-9 above can be further included, but since AD is believed to be developed by the combined action of polygenes, the above A ⁇ 42/ In addition to the mutations related to the 40 ratio, among the mutations related to the phosphorylated tau/total tau ratio, the mutations described in Table 6 below (among the mutations described in Tables 2-1 to 2-9 above) , mutations that are particularly highly relevant to AD from the viewpoint of the phosphorylated tau / total tau ratio). It is more preferred to use SNP sets that further include.
  • each table list the rs number, the chromosome number where each SNP exists (indicated by X or Y in the case of sex chromosomes), and the position of each SNP on the chromosome. is doing.
  • information such as base sequences and diseases related to each SNP can be obtained, for example, by searching the NCBI SNP Database based on the rs number. Their information can be referenced by the Database and is incorporated herein by reference.
  • the position of each SNP on the chromosome corresponds to the assembly genome version GRCh37.
  • each SNP can be identified by referring to the base sequence identified by the rs number. and a new rs number is assigned, the rs number applicable herein includes the merged rs number and the other merged rs number.
  • the rs number described in this specification is a number assigned by merging multiple rs numbers, the applicable rs number in this specification includes other original rs numbers.
  • the base sequence indicated by each rs number related to SNP is indicated as a specific base sequence by referring to a database such as the NCBI SNP Database, but due to differences in race etc., other than the corresponding SNP in the base sequence
  • the base sequence in the portion may be altered.
  • the race and gender of the subject are not limited.
  • FIG. 1 is a diagram showing an example of the configuration of an information processing apparatus 100 according to the first embodiment.
  • the information processing device 100 includes, for example, a detection unit 110, a processing unit 120, and a storage unit .
  • the detection unit 110 detects an SNP that is a mutation in an Alzheimer's disease (AD)-related gene (hereinafter referred to as a first SNP) in a subject-derived genomic DNA sample (step 1).
  • AD Alzheimer's disease
  • Subject-derived genomic DNA samples can be cells or tissues collected from the subject's living body, and are not particularly limited as long as they contain nucleated cells. Examples include blood, cerebrospinal fluid, lymph, Hair etc. are mentioned. Among these, blood can be preferably used because of its low invasiveness, and blood-derived nucleated cells include, for example, peripheral blood mononuclear cells.
  • genomic DNA isolated from these samples by a conventional method may be directly used, or the isolated genomic DNA may be amplified and the amplified genomic DNA may be used.
  • genomic DNA there is no particular limitation on the method for extracting genomic DNA, and it can be extracted using a known method.
  • the phenol/chloroform method, the cetyltrimethylammonium bromide (CTAB) method, and the like can be mentioned.
  • CTCAB cetyltrimethylammonium bromide
  • a commercially available kit may be used for DNA extraction. Examples of such kits include Wizard Genomic DNA Purification Kit (manufactured by Promega) and the like.
  • the detection unit 110 is composed of a device used for normal genetic polymorphism analysis. Examples of such devices include DNA microarrays; conventional sequencers and next generation sequencers (NGS; Next Generation Sequencer); and nucleic acid amplification devices such as polymerase chain reaction (PCR) devices.
  • DNA microarrays DNA microarrays
  • NGS Next Generation Sequencer
  • PCR polymerase chain reaction
  • SNPs can be detected using known SNP detection methods using the devices exemplified above, such as direct sequencing, PCR, restriction fragment length polymorphism (RFLP), hybridization, TaqMan ( (registered trademark) PCR method (hereinafter the description of "registered trademark” is omitted), methods using mass spectrometry, etc. can be mentioned.
  • known SNP detection methods such as direct sequencing, PCR, restriction fragment length polymorphism (RFLP), hybridization, TaqMan (registered trademark) PCR method (hereinafter the description of "registered trademark” is omitted), methods using mass spectrometry, etc.
  • the direct sequencing method is performed by cloning the region containing the SNP into a vector or amplifying it by PCR and determining the base sequence of the region.
  • cloning can be performed by screening a cDNA library using an appropriate probe.
  • it can be cloned by amplifying by PCR reaction using appropriate primers and ligating into an appropriate vector.
  • it can be subcloned into another vector, but is not limited to these.
  • vectors examples include pBlue-Script SK (+) (manufactured by Stratagene), pGEM-T (manufactured by Promega), pAmp (manufactured by Gibco-BRL), p-Direct (manufactured by Clontech), pCR2.1-TOPO (manufactured by Invitrogene ) and other commercially available plasmid vectors, virus vectors, artificial chromosome vectors, and cosmid vectors can be used.
  • a known method can be used for determining the base sequence. Examples include, but are not limited to, manual sequencing using a radioactive marker nucleotide and automatic sequencing using a dye terminator. Based on the base sequence thus obtained, it is determined whether or not the sample has the SNP.
  • the PCR method is performed using oligonucleotide primers that hybridize only to sequences having SNPs (hereinafter sometimes referred to as "SNP detection primers"). Since a plurality of SNPs exist, a primer capable of detecting all SNPs may be used alone as the SNP detection primer, or two or more types of primers capable of detecting each SNP may be used in combination.
  • the primers are used to amplify the sample's DNA. A sample contains a SNP if the SNP detection primers generate a PCR product. If no PCR product was generated, it indicates that the sample is free of SNPs.
  • the region containing the SNP in the sample is first amplified by PCR. This PCR product is then cut with the appropriate restriction enzyme for the region containing the SNP.
  • the restriction enzyme-digested PCR products are separated by gel electrophoresis and visualized by ethidium bromide staining. The presence of SNPs in a sample can be detected by comparing the length of the fragment with a molecular weight marker and, as a control, the PCR product not treated with a restriction enzyme.
  • the hybridization method is a method for determining the presence or absence of SNPs in a sample based on the property of DNA in the sample to hybridize with complementary DNA molecules (eg, oligonucleotide probes).
  • complementary DNA molecules eg, oligonucleotide probes.
  • Various techniques for hybridization and detection such as colony hybridization, plaque hybridization, Southern blotting, and other known hybridizations, can be used for this hybridization method.
  • colony hybridization e.g., plaque hybridization, Southern blotting, and other known hybridizations
  • DNA Cloning 1 DNA Cloning 1: Core Techniques, A Practical Approach 2nd ed.” (Oxford University (1995); especially Section 2.10 for hybridization conditions
  • hybridization can also be detected using a DNA chip.
  • a SNP-specific oligonucleotide probe is designed and attached to a solid phase support. Then, the DNA in the sample is brought into contact with the DNA chip to detect hybridization.
  • the TaqMan PCR method uses SNP-specific TaqMan probes and Taq polymerase to simultaneously detect SNPs and amplify regions containing SNPs.
  • a TaqMan probe is an oligonucleotide of about 20 bases labeled with a fluorescent substance at the 5' end and a quencher at the 3' end, and is designed to hybridize to the SNP site of interest.
  • Taq polymerase has 5' to 3' nuclease activity.
  • the extension reaction from the forward primer side reaches the TaqMan probe hybridized to the template, the 5' to 3' nuclease activity of Taq polymerase cleaves the fluorescent substance bound to the 5' end of the TaqMan probe. . As a result, the liberated fluorescent substance is no longer affected by the quencher and emits fluorescence. Measurement of fluorescence intensity enables SNP detection.
  • a SNP typing method applying the MALDI-TOF/MS method may be combined with a primer extension method.
  • This method enables high-throughput analysis, and by the steps of 1) PCR, 2) purification of PCR products, 3) primer extension reaction, 4) purification of extension products, 5) mass spectrometry, and 6) genotyping.
  • PCR primers are designed so as not to overlap with the SNP site bases. It is then purified by enzymatic removal using exonuclease and shrimp alkaline phosphatase or by ethanol precipitation.
  • a primer extension reaction is then performed using a genotyping primer designed so that the 3' end immediately flanks the SNP site.
  • the PCR products are denatured at elevated temperature and excess genotyping primers are added and allowed to anneal.
  • ddNTP and DNA polymerase are added to the reaction system and subjected to thermal cycle reaction, an oligomer one base longer than the genotyping primer is produced. Oligomers one base longer generated in this extension reaction differ according to alleles due to the above design of genotyping primers.
  • the purified elongation reaction product is subjected to mass spectrometry and analyzed from the mass spectrum.
  • Other detection methods include a SNP typing method that allows high throughput, and a method that applies single-molecule fluorescence analysis.
  • MF20/10S manufactured by Olympus
  • MF20/10S is a system that employs this method.
  • complementary and non-complementary primers are used in an ultra-small area of about 1 femtoliter (1/1000 trillion liter). This is to measure and analyze the single-molecule-level translational diffusion time of fluorescent labeled primers amplified by the PCR method.
  • the DNA chip method is also one of the types of typing that allows high throughput.
  • a DNA chip has many types of DNA probes arrayed and immobilized on a substrate, and a labeled DNA sample is hybridized on the chip to detect fluorescent signals from the probes.
  • Snipper method An example of a SNP typing method that uses a gene amplification method other than the PCR method is the Snipper method.
  • This method is an SNP typing method that applies the RCA (rolling circle amplification) method, which is a DNA amplification method in which complementary strand DNA is synthesized while DNA polymerase moves over circular single-stranded DNA as a template.
  • the probe is an oligo DNA with a length of 80 bases or more and 90 bases or less, and contains sequences of 10 base lengths and 20 base lengths or less complementary to the vicinity of the 5' end and 3' end of the target SNP site at both ends, It is designed to anneal to the target DNA and become circular.
  • the 3' end of the probe is designed to have a sequence complementary to the target SNP site. If the 3' end of the probe is perfectly complementary to the target SNP site, the probe will be circularized, but if the 3' end of the probe is mismatched, the probe will not be circularized.
  • the probe also has a backbone sequence of 40 to 50 nucleotides in length and contains sequences complementary to two types of RCA amplification primers.
  • the UCAN method is a method that applies the ICAN method, an isothermal gene amplification method developed by Takara Bio.
  • the UCAN method uses DNA-RNA-DNA chimeric oligonucleotides (DRD) as primer precursors.
  • DRD DNA-RNA-DNA chimeric oligonucleotides
  • This DRD primer precursor is designed such that the DNA at the 3' end is modified so that replication of the template DNA by DNA polymerase does not occur, and the RNA portion binds to the SNP site.
  • the coexisting RNase H cleaves the RNA portion of the paired DRD primer only when the DRD primer and template are perfectly matched.
  • the modified DNA is removed from the 3' end of the primer and a new one is formed, so that the elongation reaction by the DNA polymerase proceeds and the template DNA is amplified.
  • RNase H does not cleave the DRD primer and DNA amplification does not occur.
  • the amplification reaction after the perfectly matched DRD primer precursor is cleaved by RNase H proceeds by the ICAN reaction mechanism.
  • the LAMP method is a gene isothermal amplification method developed by Eiken Chemical, which defines six regions of the target gene (F3c, F2c, F1c from the 3' end, B3, B2, B1 from the 5' end). , using four types of primers (FIP primer, F3 primer, BIP primer, B3 primer) for the six regions.
  • FIP primer, F3 primer, BIP primer, B3 primer For the purpose of typing, only the target SNP site (1 base) is sufficient between F1 and B1, and the FIP primer and BIP primer are designed so that the 1 base of the SNP is at the 5' end.
  • a DNA synthesis reaction occurs from the dumbbell structure, which is the origin structure of the LAMP method, and the amplification reaction proceeds continuously. When SNP is present, DNA synthesis reaction from dumbbell structure does not occur, and amplification reaction does not proceed.
  • Invader method is a method using two types of non-fluorescent labeled probes (allele probe, invader probe) and one type of fluorescent labeled probe (FRET probe) and endonuclease Cleavase without using nucleic acid amplification method.
  • Allele probes have a sequence complementary to the template DNA on the 3'-end side from the SNP site, and a sequence unrelated to the template DNA called a flap on the 5'-end side of the probe.
  • the invader probe has a complementary sequence on the 5' end side from the SNP site of the template DNA, and the portion corresponding to the SNP site has any base.
  • the FRET probe has a sequence complementary to the flap sequence on the 3' end side.
  • One 5' end is labeled with a fluorescent dye and a quencher, but the FRET probe is designed to form a double strand intramolecularly and is usually quenched.
  • the 3' end (arbitrary base portion) of the invader probe penetrates into the SNP site when the allele probe forms a double strand with the template DNA.
  • Cleavase recognizes the structure invaded by the base and cleaves the flap portion of the allele probe.
  • this released flap then binds to the complementary sequence of the FRET probe, the 3' end of the flap penetrates the intramolecular double-stranded portion of the FRET probe.
  • Cleavase recognizes the structure in which the base of the flap penetrates into the FRET probe, and cleaves the fluorescent dye of the FRET probe, as in the case of the allele probe and the invader probe. As the fluorochrome moves away from the quencher, fluorescence is generated. If the allele probe does not match the template DNA, the specific structure recognized by Cleavase is not formed, and the flap is not cleaved.
  • primers for SNP detection design the primers according to the region to be amplified and the typing method. For example, it is preferable to be able to fully amplify the region, and sequences can be designed based on the sequences near the ends of the region.
  • Techniques for designing primers are well known in the art, and primers that can be used in the method of the present embodiment satisfy conditions that allow specific annealing, such as length and base composition that allow specific annealing ( melting temperature).
  • the length of the region to be amplified is not limited as long as it does not interfere with typing, and may be increased or decreased as appropriate depending on the detection method.
  • the positional relationship between the primer and the SNP site can be freely designed according to the detection method, and the region containing the SNP to be detected (for example, a continuous base length of 50 bases or more and 500 bases or less). As long as you do so, you can design primers while taking into account the characteristics of your typing method.
  • the length that exhibits the function as a primer is preferably 10 to 100 bases, more preferably 15 to 50 bases, and even more preferably 15 to 30 bases.
  • Tm melting temperature
  • the probe When using a probe for SNP detection, design the probe so that it recognizes the SNP site.
  • the SNP site may be recognized anywhere in the probe according to the typing method, and may be recognized at the end of the probe depending on the typing method.
  • the SNP detection polynucleotide When the SNP detection polynucleotide is used as a probe, the length of the base sequence complementary to the genomic DNA is usually 15 to 200 bases, preferably 15 to 100 bases, and 15 to 50 bases. Although more preferred, it may be longer or shorter depending on the typing method.
  • SNPs which are mutations in AD disease-associated genes detected in genomic DNA samples derived from patients with AD.
  • the processing unit 120 based on a plurality of training data sets labeled with information on the onset of AD, SNPs, which are mutations in AD disease-associated genes detected in genomic DNA samples derived from patients with AD, are analyzed.
  • the learned machine learning model it is determined whether or not the subject develops AD based on the SNP detected by the detection unit 110 (that is, the “first SNP”) (step 2).
  • the SNP included in the training data set will be referred to as a "second SNP”.
  • the processing unit 120 includes, for example, an acquisition unit 121, a feature amount conversion unit 122, a determination unit 123, an output control unit 124, and a learning unit 125.
  • the constituent elements of the processing unit 120 are implemented by a processor such as a CPU (Central Processing Unit) or GPU (Graphics Processing Unit) executing a program stored in the storage unit 130, for example.
  • a processor such as a CPU (Central Processing Unit) or GPU (Graphics Processing Unit) executing a program stored in the storage unit 130, for example.
  • Some or all of the components of the processing unit 120 are implemented by hardware (circuitry) such as LSI (Large Scale Integration), ASIC (Application Specific Integrated Circuit), or FPGA (Field-Programmable Gate Array). It may be realized by cooperation of software and hardware.
  • the storage unit 130 is implemented by a storage device such as a HDD (Hard Disc Drive), flash memory, EEPROM (Electrically Erasable Programmable Read Only Memory), ROM (Read Only Memory), RAM (Random Access Memory), or the like.
  • the storage unit 130 stores model information 131 in addition to various programs such as firmware and application programs. The model information 131 will be described later.
  • FIG. 2A is a flowchart showing the flow of a series of runtime processes by the processing unit 120 according to the first embodiment. The processing of this flowchart may be performed repeatedly at a predetermined cycle, for example.
  • the acquisition unit 121 acquires the detection data of the first SNP, which is the mutation of the Alzheimer's disease-related gene, in the subject-derived genomic DNA sample from the detection unit 110 (step S100).
  • the acquired first SNP detection data can also be said to be genotype data of AD-related genes possessed by the subject (hereinafter sometimes referred to as "first SNP set” or "subject's genotype data”). .
  • the feature quantity conversion unit 122 converts the first SNP data acquired by the acquisition unit 121 into a feature quantity that can be input to the model (step S101).
  • the feature value here is, for example, a parameter indicating whether the subject's genotype data is homozygous (AA), homozygous (BB), or heterozygous (AB) for each SNP. .
  • the genotype is indicated by nucleotides such as "GG” indicating that both SNPs on homologous chromosomes are G (guanine), or "AG” indicating that one is G (guanine) and the other is A (adenine).
  • the genotype data of the subject is combined with the second SNP (AD-related gene possessed by AD patient genotype data (hereinafter sometimes referred to as “second SNP set” or “AD patient genotype data”)) into parameters that can be input to a model.
  • second SNP set AD-related gene possessed by AD patient genotype data
  • the conversion of the subject's genotype data into feature quantities can be performed, for example, by assigning a value to the subject's genotype data for each SNP included in the second SNP set. For example, for each SNP, a value (for example, 0, 1 or 2). Thereby, the subject's genotype data can be converted into a feature amount.
  • the value associated with each SNP is set to 0, 1, or 2, but the value associated with the SNP is not limited to 0, 1, or 2.
  • the value associated with the mating type can be determined for each SNP.
  • a SNP maps a value of 2 when the subject's genotype data is homozygous (AA), a value of 1 when heterozygous (AB), and a value of 1 when the subject is homozygous (BB).
  • the genotype data of the subject is heterozygous (AB)
  • the other SNPs are associated with a value of 2
  • a value of 0 may be associated when homozygous (BB).
  • the genotype data of the subject is homozygous (BB)
  • the value is associated with 2 when the heterozygous type (AB) is associated with the value 1, and when the subject is homozygous (AA)
  • a value of 0 may be associated.
  • the subject's genotype data can be converted into feature values. Values used for correspondence in the conversion to this feature quantity can be arbitrarily determined. For example, for each SNP, a genotype with high relevance to AD is associated with a value of 2, and each SNP is associated with a genotype with low relevance to AD with a value of 1 or 0. be able to.
  • the determination unit 123 inputs the feature amount converted from the first SNP data by the feature amount conversion unit 122 into the prediction model MDL indicated by the model information 131 (step S102).
  • the model information 131 is information (program or data structure) that defines a prediction model MDL for determining the risk of AD from the subject's genotype data.
  • Prediction model MDL uses arbitrary kernel functions such as logistic regression models, multilayer perceptrons, neural networks such as convolutional neural networks (CNN) and recurrent neural networks (RNN), Gaussian kernels, etc. It is implemented by various other models such as support vector machines, random forests modeled as regression trees, multiple regression analysis, models using hidden Markov models, etc., statistical models and probabilistic models. Moreover, it is also possible to employ a model that combines various models to perform a comprehensive determination.
  • the predictive model MDL may be a random forest containing multiple classifiers. As an example, the prediction model MDL will be described below as a random forest.
  • FIG. 2B is a diagram showing an example of the prediction model MDL according to the first embodiment.
  • the prediction model MDL includes, for example, N classifiers ML-1 to ML-N.
  • Each classifier WL is preliminarily learned to output a score indicating the likelihood that the subject will develop AD as a likelihood or probability when the feature amount converted from the data of the first SNP is input.
  • Each classifier WL is in parallel with each other.
  • a method of generating one learning model by combining a plurality of weak learners in this way is called ensemble learning.
  • the prediction model MDL normalizes the score of each classifier WL, which is a weak learner, and outputs the normalized score. Score normalization is shown in Equation (1).
  • the predictive model MDL may normalize the scores by dividing the sum of the scores of all classifiers WL by N, the sum of the classifiers WL.
  • the prediction model MDL is a combination of N classifiers WL as shown in FIG. 2B, it is not limited to this.
  • the prediction model MDL may be one classifier WL.
  • the determination unit 123 determines whether or not the score (normalized score) output by the prediction model MDL is greater than or equal to the threshold (step S103).
  • the determination unit 123 determines that the subject has a high probability of developing AD when the score is equal to or greater than the threshold (step S104), and determines that the subject has a low probability of developing AD when the score is less than the threshold. (Step S105).
  • the output control unit 124 outputs the result of determination by the determination unit 123 (for example, information indicating the probability of developing Alzheimer's disease) (step S106). For example, the output control unit 124 may transmit the determination result to an external terminal device (not shown) via a communication interface. is. Moreover, if the information processing apparatus 100 includes a display (not shown), the output control unit 124 may display the determination result on the display.
  • Training is a state in which the prediction model MDL used at runtime is learned.
  • FIG. 2C is a flowchart showing a series of training processes performed by the processing unit 120 according to the first embodiment.
  • the learning unit 120 generates a training data set for learning the prediction model MDL (step S200).
  • the training data set is a data set in which genotype data of AD-related genes possessed by healthy subjects or AD patients are labeled with information on AD onset of the subject (e.g., positive or negative onset of AD). be. If the second SNP set includes some unknown SNPs, the attributed genotype estimated using genotype imputation can be used.
  • genotype data of AD-related genes possessed by healthy subjects or AD patients For example, obtain genotype data of AD-related genes possessed by healthy subjects or AD patients.
  • the genotype data of AD-related genes possessed by healthy subjects are labeled with information (for example, a score of 0.0) indicating that they have not developed AD, and the genotype data of AD-related genes possessed by AD patients are labeled with Information indicative of developing AD (eg score of 1.0) is labeled.
  • the feature quantity conversion unit 122 transforms the genotype data of the AD-related genes included in the training data set into a feature quantity. (step S201).
  • the learning unit 125 converts a plurality of feature amounts converted from the genotype data of the AD-related genes in the training data set by the feature amount conversion unit 122 into training feature amounts (training samples) and verification feature amounts. (test sample), and the training feature quantity is input to the i-th classifier WL-i among the N classifiers WL included as weak learners in the prediction model MDL (step S202 ).
  • the learning unit 125 converts a plurality of feature values converted from the genotype data of the AD-related genes in the training data set, that is, the feature values of the population, into a feature value for training (training sample) and a feature value for verification ( Principal component analysis may be used when dividing into test samples). For example, the learning unit selects feature values for training from the feature values of the population based on the attribute information and genetic information of the healthy subjects or AD patients who provide the AD-related genes and the information that is the main component. (training samples) may be picked.
  • the attribute information of healthy subjects or AD patients may include information such as age and gender, for example.
  • the genetic information of healthy subjects or AD patients may include, for example, information on whether they have the APOE ⁇ 4 genotype or not, and other information.
  • a training feature quantity (training sample) selected based on the principal components is an example of a “specific training data set”.
  • the learning unit 125 acquires the output result, that is, the score si from the i -th classifier WL-i to which the training feature amount is input (step S203).
  • the learning unit 125 calculates an error (also referred to as a loss) between the score s i obtained from the i-th classifier WL-i and the score labeled with the training feature (step S204 ).
  • the learning unit 125 determines the parameters of the i-th classifier WL-i so that the error becomes small (step S205).
  • the learning unit 125 determines whether learning for the i-th classifier WL-i has been repeated a predetermined number of times E (step S206). By inputting the same feature amount as the training feature amount used for learning in the previous process to the i-th classifier WL-i, learning of the i-th classifier WL-i is repeated. At this time, the learning unit 125 stores the parameters updated by learning in the storage unit 130, and inputs the feature amount for training to the i-th classifier WL-i whose parameters have been initialized. As a result, E classifiers WL-i with different parameters are generated before learning for the i-th classifier WL-i reaches a predetermined number of times E.
  • the learning unit 125 inputs the feature amount for verification to each of the E i-th classifiers WL-i. (step S207).
  • the learning unit 125 selects the classifier WL-i with the highest prediction accuracy among the E i-th classifiers WL-i (step S208). For example, the learning unit 125 selects, among the E i-th classifiers WL-i, the classifier having the smallest error between the score s i obtained when the feature amount for verification is input and the score of the training data. Select WL-i.
  • the learning unit 125 determines whether all of the N classifiers WL included as weak learners in the prediction model MDL have been learned (step S209), and the learning of the N classifiers WL is still completed. If not, the process returns to S202, and the (i+1)th classifier WL-(i+1) is learned based on the training feature amount.
  • the information processing apparatus 100 performs training in which information indicating whether the onset of AD is positive or negative is labeled to the feature amount converted from the genotype data of the AD-related gene.
  • the predictive model MDL learned based on the data set the feature amount converted from the genotype data of the AD-related gene possessed by the subject is input, and based on the output result of the predictive model MDL in which the feature amount is input, the subject is predicted to develop AD, it is possible to accurately predict whether or not the subject will develop AD in the future.
  • AD risk in subjects who have not developed AD such as infants and young people.
  • a prediction model MDL including a plurality of classifiers WL realized by a machine learning model is used, a specific SNP in the genotype data of AD-related genes is positively correlated with the risk of AD. It can be expected to calculate the weighting that indicates that there is a score as a score. As a result, it is possible to predict AD risk in subjects who have not developed AD, such as infants and young people, at an early stage.
  • the training data set is labeled with a score indicating whether or not the genotype data of AD-related genes possessed by healthy subjects or AD patients will develop AD.
  • the training data set may be genotype data of AD-related genes possessed by healthy subjects or AD patients labeled with the age of onset of AD in addition to the scores described above.
  • the learning unit 125 uses a probability P1 of developing AD, a probability P2 of not developing AD, and a probability P2 of not developing AD.
  • the determination unit 123 predicts the age at which the subject develops AD based on the t element of the vector output by the prediction model MDL.
  • the label is not limited to the score indicating the presence or absence of onset of AD or the age of onset, but may include the attributes of the subject who provides the genotype data of the AD-related gene. Attributes may include, for example, various information such as gender, weight, height, lifestyle habits, presence or absence of illness, and family medical history. In addition, genetic information of known AD-related genotypes such as the APOE ⁇ 4 genotype may be included.
  • the information processing apparatus and information processing method of this embodiment can also be called an AD diagnosis support apparatus and diagnosis support method.
  • the present invention provides instructions described in the above information processing method, specifically: detecting a first SNP that is a mutation in an Alzheimer's disease-associated gene in a genomic DNA sample from a subject; and Based on a plurality of training data sets labeled with information on the onset of Alzheimer's disease for the second SNP, which is a mutation in the Alzheimer's disease-associated gene detected in a genomic DNA sample derived from a patient who developed Alzheimer's disease. Determining whether the subject develops Alzheimer's disease from the first SNP using a machine learning model trained in provides a processor configured to execute
  • Human cDNAs of reprogramming factors were introduced into human PBMC using episomal vectors (SOX2, KLF4, OCT4, L-MYC, LIN28, dominant-negative p53).
  • episomal vectors SOX2, KLF4, OCT4, L-MYC, LIN28, dominant-negative p53.
  • PBMCs were harvested and replated on dishes coated with laminin 511-E8 fragment (iMatrix 511, Nippi). The next day, the medium was changed to StemFit AK03. After that, the medium was changed every two days. Twenty days after transduction, iPS cell colonies were picked. iPS cells established from PBMCs were expanded for neural differentiation.
  • NANOG (1:100 dilution; Abcam, ab80892), TRA1-60 (1:400 dilution; CST#4746, Danvers, Mass.
  • MAP2 (1:100 dilution; Abcam, ab80892) Abcam ab5392
  • SATB2 (1:400 dilution; Abcam EPNCIR130A ab92446), Alexa488-conjugated antibody (1:400 dilution; Thermo fisher A11029), Alexa488-conjugated antibody (1:400 dilution; Thermo Fisher A11039), Alexa594-conjugated antibody (1:400 dilution; Thermo Fisher A21207).
  • Pathway analysis of identified genes was performed using commercially available Ingenuity Pathway Analysis (IPA, QIAGEN, https://www.qiagenbioinformatics.com/) software, The top networks were analyzed.
  • IPA Ingenuity Pathway Analysis
  • a ⁇ amyloid ⁇
  • 6E10 A ⁇ 3-Plex kit
  • this assay uses the 6E10 antibody to capture A ⁇ peptides and different C-terminal specifics of SULFO-TAG labels for detection by electrochemiluminescence using a Sector Imager 2400 (Meso Scale Discovery).
  • a specific anti-A ⁇ antibody was used.
  • GenomeStudio (Illumina) and quality control (Hardy-Weinberg equilibrium: p>1.0 ⁇ 10 ⁇ 6 ; minor allele frequency ⁇ 0.01; linkage disequilibrium-based variant pruning r2 ⁇ 0.8, window size: After genotyping using 100 kb, step size: 5), genotypes were imputed with minimac4 using the 1,000 Genomes Project Phase 3 as a reference panel. 7,349,481 SNPs exceeded the quality threshold after imputation (r2 ⁇ 0.3, minor allele frequency ⁇ 0.01).
  • the linear association between SNPs and the specific A ⁇ 42/40 accumulation rate of iPS cell-derived neurons was analyzed with plink1.9, and the age of onset, sex, and genotype of the APOE- ⁇ 4 allele were included as covariates in the linear regression model. .
  • the association analysis was set with p ⁇ 5 ⁇ 10 ⁇ 5 as the suggestive level and p ⁇ 5 ⁇ 10 ⁇ 8 as the significance level. No statistical methods were used to predetermine the sample size, but the sample size is similar to that reported in previous publications.
  • the genotypes of samples from the Alzheimer's Disease Neuroimaging Initiative (ADNI) 1/GO/2 dataset were collected (Illumina; Omni 2.5M BeadChip). Quality control and imputation were performed on the genotypic data under the same conditions. Imputed genotypes of 10,121,962 SNPs were filtered by 496 SNPs obtained from the genome-wide analysis. Genotypes of SNPs listed in the polygenic cell analysis (CDiP) list but not in the ADNI dataset were imputed with the mean genotype of AD patients. Next, the phenotype of the ADNI samples was predicted from the genotype. Predicted whether the sample belonged to a valid status for AD (positive) or not (negative).
  • ADNI Alzheimer's Disease Neuroimaging Initiative
  • Samples were independently classified as positive/negative according to four criteria based on results reported in the ADNI database.
  • SUVR normalized uptake ratio
  • the genotypic vectors of the ADNI samples were mapped to the principal component space derived from the genotypic matrix of in-hospital AD patients. A 10-fold cross-validation was performed.
  • the ADNI sample was divided into a training sample and a test sample.
  • a random forest classifier 100 estimators was trained on the training samples and the target variables (positive/negative for conditions like AD) were the genotype matrix and the covariates (age, gender, genotype for APOE- ⁇ 4). was predicted from the top three PCs of Prediction performance was assessed by the area under the curve (AUC) of the receiver operating characteristic (ROC) curve obtained from the test sample predictions. Prediction performance was compared to when the target variable was predicted only from covariates. The significance of AUC improvement was tested with the Wilcoxon signed-rank test (significance threshold: p ⁇ 0.05). The target variable corresponds to the "information on the onset of Alzheimer's disease" described above.
  • [Target gene knockdown] Six-well plates were seeded on day 5 with an initial density of 3,000,000 cells per well. Twenty-four hours after seeding (day 6), the medium was replaced with neurobasal medium containing 1 ⁇ M AccelSMARTpool siRNA (Horizon Discovery). To maximize the effect of Acell siRNA, iPS cell-derived neurons were cultured from day 6 to day 9 for 72 hours. 72 hours after the addition of siRNA (day 9), the culture medium was replaced with fresh neurobasal medium containing 1 ⁇ M AccelSMARTpool siRNA or 1 ⁇ M JNJ-40418677 (manufactured by Sigma-Aldrich), and harvested on day 11. , analyzed the A ⁇ phenotype.
  • ADNI Alzheimer's Disease Neuroimaging Initiative
  • NBDC National Bioscience Database Center
  • Example 1 In this study, a genome-wide analysis was performed using A ⁇ released from neurons in the cerebral cortex derived from iPS cells of the AD cohort as a pathological signature. CDiP was then performed to reveal complex pathological mechanisms in a neuronal-specific manner.
  • a ⁇ was selected as a pathological feature of neurons in the cerebral cortex because A ⁇ is the triggering event in the initiation of the long-term pathological cascade of AD and causes dementia.
  • a ⁇ 40 and A ⁇ 42 were quantified as protective and toxic A ⁇ , respectively, and the A ⁇ 42/40 ratio was quantified in the culture supernatant of neuronal cells in the SAD cortex.
  • the APP and PSEN1 genes which play a central role in the A ⁇ production pathway, are known to affect neurodevelopment and neuronal differentiation tendency from human iPS cells. Therefore, when assessing A ⁇ among iPS cells from different patients, it is important to maintain uniform purity of neuronal differentiation and normalize variations in the number of neurons per well.
  • the direct differentiation method used in this study yields uniform and highly pure cortical neurons, but variations in neuronal density between patients due to the stress of direct conversion from day 0 to day 5 and this variability affected the amount of A ⁇ .
  • Total protein concentration extracted from neurons across wells was used to normalize variations in neuron number per well. This is because changes in protein concentration linearly reflect the number of neurons per well of different independent neurons or patients.
  • CDiP demonstrated that the A ⁇ 42/40 ratio in single cell-type cultures of iPS cell-derived neurons was primarily influenced by APOE ⁇ 4 as well as other complex gene sets. Indicated. Therefore, we adjusted the APOE genotypes and performed CDiP (Fig. 5B), genotyped 24 SNPs and associated loci ("p-value ⁇ 5 x 10-8 " or "p-value ⁇ 5 x 10-5 A genetic locus containing more than 10 SNPs that are associated with altered A ⁇ 42/40 ratios were identified. (Fig. 5C and Tables 3-1 to 3-77). In Tables 3-1 to 3-77, “chr” means chromosome, "BETA” means partial regression coefficient, and "SE” means standard error. It is also used in the following tables with the same meaning.
  • loci and related genes Five loci and related genes were known to be associated with A ⁇ production, including CUL1, QRFP, CTNNA3, DAB1, and DCC. In addition, eight loci and associated genes, including MAGI1, TMTC1, TRPM1, KCNMA1, DAB1, CPXM2, ROBO2, and ANO3, have been reported as AD-related loci, or clinical biomarkers, for clinical GWAS. Twelve loci and related genes were novel as A ⁇ - or AD-related genes (Tables 5-1 to 5-2). In Tables 5-1 and 5-2, "EOAD” indicates early-onset Alzheimer's disease, “LOAD” indicates late-onset Alzheimer's disease, “CNV” indicates copy number variation, and “OR” indicates the odds ratio. means.
  • “yes” in the item “Brain” means high expression in the brain, “low” means low expression in the brain, and “nd” is the GTEx portal (https://gtexportal. org/home/) means there is no data.
  • the item “Brain cell-type” describes the top three cell types that showed high gene expression on the Brain RNA-Seq portal (https://www.brainrnaseq.org/). It is also used in the following tables with the same meaning.
  • p231-tau which is tau phosphorylated at the 231st threonine from the N-terminus, is a highly sensitive marker for diagnosing or tracking the progression of AD
  • the p231-tau/total tau ratio was quantified to apply the p231-tau ratio to CDiP.
  • APOE ⁇ 4 genotype, gender, and age at onset of AD did not correlate with the p231-tau ratio (FIGS. 6A, 6B, and 6C).
  • CDiP was performed using the p231-tau ratio as a trait with or without adjustment for APOE genotype (FIGS.
  • the protein encoded by CTNNA3 plays a role in cell-cell adhesion, and mutations in CTNNA3 cause familial arrhythmogenic right ventricular dysplasia caused by mishandling of electrolytes such as potassium and calcium.
  • the proteins encoded by KCNMA1 are composed of voltage- and calcium-sensitive potassium channels (KCa1.1) that regulate smooth muscle tone and neuronal excitability.
  • KCa1.1 is a known target of cromolyn and is interestingly tested in a phase III trial in AD.
  • ANO3-encoded proteins have been reported to function in endoplasmic reticulum-dependent calcium signaling, and ANO3 mutations cause familial dystonia type 24 through abnormal neuronal excitability.
  • CDiP uncovered a set of genotypes that in part contributed to the polygenic architecture behind the disease pathogenesis mechanisms of AD.
  • Example 2 AD onset prediction by polygene data set obtained from cell GWAS
  • Example 2 AD onset prediction by polygene data set obtained from cell GWAS
  • ADNI Alzheimer's Disease Neuroimaging Initiative
  • AV45-PET brain A ⁇ deposition
  • CSF cerebrospinal fluid
  • t-tau total tau
  • p - tau phosphorylated tau
  • AUC area under the curve
  • Example 3 (Discovery of rare variants by cell GWAS) To confirm further applicability of the system to real clinical data, we investigated whether the identified gene sets formed SAD. The associations of genes identified as rare variants in the present study were investigated. They are known to be minor, albeit infrequent, factors in the development of AD.
  • J-ADNI Japanese Alzheimer's Disease Neuroimaging Initiative
  • p is the p-value from the summation test
  • se is the approximate standard error associated with the genotype effect
  • cmafTotal is the gene's cumulative minor allele frequency
  • cmafUsed is The cumulative minor allele frequency of the SNPs used for analysis
  • nsnpsTotal means the number of SNPs in the gene
  • nsnpsUsed means the number of SNPs used in the analysis
  • nmiss means the number of missing SNPs. .
  • nmiss is the number of individuals who did not contribute to the analysis due to trials in which results for that SNP were not reported.
  • For genes with multiple SNPs they are summed across genes. It is also used in the following tables with the same meaning.
  • AD pathology may not only play pivotal roles in the pathogenesis of AD, but may also represent potential biomarkers and therapeutic target candidates.
  • other types of neuronal phenotypes in AD pathology can be applied to CDiPs, such as synaptic loss, neuronal cell death, drug response, vulnerability to environmental stress, etc. Can identify genetic background.
  • new combinations of variable cell types, such as glial cells and cell type-specific pathologies reveal new genetic architectures of molecular pathologies hidden in clinical GWAS.
  • AD is the sum of multiple cell-type pathologies.
  • single nuclear transcriptomes from autopsy AD brains provided information on gene expression in various cell types.
  • CDiP can interrogate isolated AD pathologies with cell-type specificity and can also model baseline conditions without confounding factors that can noise genome-wide studies.
  • a limitation of CDiP is that it is based on 2D monolayer cultures consisting of a single cell type. To understand the cellular interactions between different cell types, the combination of CDiP and mononuclear transcriptomes from autopsy brains of AD patients was presented in the present study to explore the polygenicity of AD. (Figs. 8B and 8C).
  • a ⁇ pathology is primarily based on neuronal polygenicity, whereas tau pathology may be composed exclusively of multiple non-neuronal cell types. It has been shown.
  • CDiP predicted AD real-world data, stratified rare variant-associated AD, and identified CTNNA3, ANO3, and KCNMA1 as potential therapeutic targets.
  • CDiP serves as a screening tool to associate pathological phenotypes with hidden genotypes.
  • it is also important to accumulate evidence using different modalities, such as mouse models and patient specimens, to accommodate the actual AD pathology, which is composed of different cell types and matures over decades.
  • CDiPs provide clues to understanding complex pathologies, consisting of the sum of polygenics and traits in disease target cells, paving the way for precision medicine.
  • the risk of developing AD in a subject can be predicted.
  • DESCRIPTION OF SYMBOLS 100 Information processing apparatus, 110... Detection part, 120... Processing part, 121... Acquisition part, 122... Feature-value conversion part, 123... Judgment part, 124... Output control part, 125... Learning part, 130... Storage part, 131 ... model information.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

情報処理方法は、被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する工程1と、アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する工程2と、を含む。

Description

情報処理方法、情報処理装置、及びプログラム
 本発明は、情報処理方法、情報処理装置、及びプログラムに関する。
 本願は、2021年4月13日に、米国に仮出願された米国特許第63/174,500号明細書に基づき優先権を主張し、その内容をここに援用する。
 アルツハイマー病(AD)は認知症を生じる神経変性疾患では最も患者が多く、2010年時点で世界に3000万人いるとされている。超高齢社会の到来とともにAD患者数は増え続け、根本的治療法がなければ、2030年には6000万人に達し、2050年には1億人を超えると推定されている。
 近年の生物学的及び遺伝学的研究の発展に伴い、認知症、中でもADの病態に関する分子生物学的な理解が進んできた。具体的には、ゲノムワイド関連解析(GWAS)により、多様なヒトの形質に関連する遺伝的背景を調査し、AD関連遺伝子として50以上の遺伝子座が特定されている(例えば、非特許文献1参照)。しかしながら、現時点ではADに対して限られた対症療法しかない。この背景には、ADは複数の遺伝子(ポリジーン)の複合的な作用によって発症すると考えられており、特にAD患者の95%を占める家族歴のない孤発性ADについては、病態の遺伝的な原因を探る有効なアプローチがないことが挙げられる。
Sims R et al., "The multiplex model of the genetics of Alzheimer’s disease.", Nature Neuroscience, Vol. 23, pp. 311-322, 2020.
 本発明は、上記事情に鑑みてなされたものであって、被験者におけるADの発症リスクを予測できる情報処理方法、情報処理装置、及びプログラムを提供する。
 発明者らは、上記目的を達成すべく鋭意研究を重ねた結果、孤発性AD患者から樹立したiPS細胞からなるiPSコホートを用いて、大脳皮質の神経細胞を作製した。次いで、ADの病態指標の一つであるアミロイドβ(Aβ)42/40比(Aβ42/40比)を表現型として、前記大脳皮質の神経細胞を用いたGWAS(cell GWAS)を行い、Aβ42/40比に関連する遺伝子座を探索した。さらに、特定されたAβ42/40比に関連する遺伝子座をポリジーンデータセットとして用いて、被験者のAD発症リスクを予測できることを見出し、本発明を完成するに至った。
 なお、本明細書では、上記手法、すなわち、iPS細胞から大脳皮質神経細胞を作製し、複雑なAD病態を細胞種及び病態ごとの表現型(病的形質)に分解し、その背景の遺伝子データからADの実際の病態を再構成する新技術を“Cellular dissection of polygenicity(CDiPと略記)”テクノロジーと呼称する。
 すなわち、本発明は、以下の態様を含む。
(1) 被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する工程1と、
 アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する工程2と、
を含む、情報処理方法。
(2) 前記機械学習モデルは、複数の分類器を含むランダムフォレストであり、
 各分類器は、前記複数のトレーニングデータセットのうち、前記アルツハイマー病を発症した患者の属性情報及び遺伝子情報の中の主成分情報を基に選択された特定のトレーニングデータセットを用いて学習される、(1)に記載の情報処理方法。
(3) 前記複数のトレーニングデータセットには、遺伝子型インピュテーションを用いて前記第2のSNPから推定された前記第2のSNPの帰属遺伝子型に対して、アルツハイマー病の発症に関する情報がラベル付けられたデータセットが含まれる、(1)又は(2)に記載の情報処理方法。
(4) 前記変異が表1-1~表1-77に記載された1種以上の変異である、(1)~(3)のいずれか一つに記載の情報処理方法。
Figure JPOXMLDOC01-appb-T000087
Figure JPOXMLDOC01-appb-T000088
Figure JPOXMLDOC01-appb-T000089
Figure JPOXMLDOC01-appb-T000090
Figure JPOXMLDOC01-appb-T000091
Figure JPOXMLDOC01-appb-T000092
Figure JPOXMLDOC01-appb-T000093
Figure JPOXMLDOC01-appb-T000094
Figure JPOXMLDOC01-appb-T000095
Figure JPOXMLDOC01-appb-T000096
Figure JPOXMLDOC01-appb-T000097
Figure JPOXMLDOC01-appb-T000098
Figure JPOXMLDOC01-appb-T000099
Figure JPOXMLDOC01-appb-T000100
Figure JPOXMLDOC01-appb-T000101
Figure JPOXMLDOC01-appb-T000102
Figure JPOXMLDOC01-appb-T000103
Figure JPOXMLDOC01-appb-T000104
Figure JPOXMLDOC01-appb-T000105
Figure JPOXMLDOC01-appb-T000106
Figure JPOXMLDOC01-appb-T000107
Figure JPOXMLDOC01-appb-T000108
Figure JPOXMLDOC01-appb-T000109
Figure JPOXMLDOC01-appb-T000110
Figure JPOXMLDOC01-appb-T000111
Figure JPOXMLDOC01-appb-T000112
Figure JPOXMLDOC01-appb-T000113
Figure JPOXMLDOC01-appb-T000114
Figure JPOXMLDOC01-appb-T000115
Figure JPOXMLDOC01-appb-T000116
Figure JPOXMLDOC01-appb-T000117
Figure JPOXMLDOC01-appb-T000118
Figure JPOXMLDOC01-appb-T000119
Figure JPOXMLDOC01-appb-T000120
Figure JPOXMLDOC01-appb-T000121
Figure JPOXMLDOC01-appb-T000122
Figure JPOXMLDOC01-appb-T000123
Figure JPOXMLDOC01-appb-T000124
Figure JPOXMLDOC01-appb-T000125
Figure JPOXMLDOC01-appb-T000126
Figure JPOXMLDOC01-appb-T000127
Figure JPOXMLDOC01-appb-T000128
Figure JPOXMLDOC01-appb-T000129
Figure JPOXMLDOC01-appb-T000130
Figure JPOXMLDOC01-appb-T000131
Figure JPOXMLDOC01-appb-T000132
Figure JPOXMLDOC01-appb-T000133
Figure JPOXMLDOC01-appb-T000134
Figure JPOXMLDOC01-appb-T000135
Figure JPOXMLDOC01-appb-T000136
Figure JPOXMLDOC01-appb-T000137
Figure JPOXMLDOC01-appb-T000138
Figure JPOXMLDOC01-appb-T000139
Figure JPOXMLDOC01-appb-T000140
Figure JPOXMLDOC01-appb-T000141
Figure JPOXMLDOC01-appb-T000142
Figure JPOXMLDOC01-appb-T000143
Figure JPOXMLDOC01-appb-T000144
Figure JPOXMLDOC01-appb-T000145
Figure JPOXMLDOC01-appb-T000146
Figure JPOXMLDOC01-appb-T000147
Figure JPOXMLDOC01-appb-T000148
Figure JPOXMLDOC01-appb-T000149
Figure JPOXMLDOC01-appb-T000150
Figure JPOXMLDOC01-appb-T000151
Figure JPOXMLDOC01-appb-T000152
Figure JPOXMLDOC01-appb-T000153
Figure JPOXMLDOC01-appb-T000154
Figure JPOXMLDOC01-appb-T000155
Figure JPOXMLDOC01-appb-T000156
Figure JPOXMLDOC01-appb-T000157
Figure JPOXMLDOC01-appb-T000158
Figure JPOXMLDOC01-appb-T000159
Figure JPOXMLDOC01-appb-T000160
Figure JPOXMLDOC01-appb-T000161
Figure JPOXMLDOC01-appb-T000162
Figure JPOXMLDOC01-appb-T000163
(5) 前記変異が表2-1~表2-9に記載された1種以上の変異を更に含む、(4)に記載の情報処理方法。
Figure JPOXMLDOC01-appb-T000164
Figure JPOXMLDOC01-appb-T000165
Figure JPOXMLDOC01-appb-T000166
Figure JPOXMLDOC01-appb-T000167
Figure JPOXMLDOC01-appb-T000168
Figure JPOXMLDOC01-appb-T000169
Figure JPOXMLDOC01-appb-T000170
Figure JPOXMLDOC01-appb-T000171
Figure JPOXMLDOC01-appb-T000172
(6) 被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する検出部と、
 アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する判定部と、
を備える、情報処理装置。
(7) コンピュータに、
 被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する工程1と、
 アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する工程2と、
を実行させるためのプログラム。
(8) (1)~(5)のいずれか一つに記載の情報処理方法を用いる、アルツハイマー病の発症リスクの予測方法。
 上記態様の情報処理方法、情報処理装置、及びプログラムによれば、被験者におけるADの発症リスクを予測することができる。発症リスクの予測により、ADの予防又は治療効果の改善に寄与することができる。さらに、ADの新たな治療標的を提供することができる。
第1実施形態に係る情報処理装置100の構成の一例を示す図である。 第1実施形態に係る処理部120によるランタイムの一連の処理の流れを示すフローチャートである。 第1実施形態に係る予測モデルMDLの一例を示す図である。 第1実施形態に係る処理部120によるトレーニングの一連の処理の流れを示すフローチャートである。 実施例1におけるアポリポプロテインE(APOE)ε4遺伝子型に対応したAβ40量を示すグラフである。遺伝子型がAPOE3/3である患者のn数=44、遺伝子型がAPOE3/4である患者のn数=44、遺伝子型がAPOE4/4である患者のn数=14であった。「N.S.」は有意差がない(P>0.05)であることを示す。 実施例1におけるAPOEε4遺伝子型に対応したAβ42量を示すグラフである。遺伝子型がAPOE3/3である患者のn数=44、遺伝子型がAPOE3/4である患者のn数=44、遺伝子型がAPOE4/4である患者のn数=14であった。「N.S.」は有意差がない(P>0.05)であることを示す。 実施例1におけるAPOEε4遺伝子型に対応したAβ42/40比を示すグラフである。遺伝子型がAPOE3/3である患者のn数=44、遺伝子型がAPOE3/4である患者のn数=44、遺伝子型がAPOE4/4である患者のn数=14であった。 実施例1におけるAPOEε4遺伝子型に対応したiPS細胞由来の神経細胞のタンパク質濃度を示すグラフである。遺伝子型がAPOE3/3である患者のn数=44、遺伝子型がAPOE3/4である患者のn数=44、遺伝子型がAPOE4/4である患者のn数=14であった。「N.S.」は有意差がない(P>0.05)であることを示す。 実施例1における認知機能障害の発症年齢に対応したAβ40量を示す散布図(N=102)である。 実施例1における認知機能障害の発症年齢に対応したAβ42量を示す散布図(N=102)である。 実施例1における認知機能障害の発症年齢に対応したAβ42/40比を示す散布図(N=102)である。 実施例1における性別に対応した、iPS細胞由来の神経細胞の培養上清中のAβ40量を示すプロットである。男性患者のn数=36、女性患者のn数=66であった。 実施例1における性別に対応した、iPS細胞由来の神経細胞の培養上清中のAβ42量を示すプロットである。男性患者のn数=36、女性患者のn数=66であった。 実施例1における性別に対応した、iPS細胞由来の神経細胞の培養上清中のAβ42/40比を示すプロットである。男性患者のn数=36、女性患者のn数=66であった。 実施例1におけるAPOEε4遺伝子型を考慮しないAβ42/40比に関連する遺伝子座を特定するための多遺伝子性の細胞分析(CDiP)のゲノムワイド関連解析のマンハッタンプロットである。x軸は染色体、y軸は試験された全てのSNPの-log10(p値)を示す。上の線は、ボンフェローニ補正された有意な閾値(p<5×10-8)を示す。 実施例1におけるAPOEε4遺伝子型を考慮したAβ42/40比に関連する遺伝子座を特定するためのCDiPのゲノムワイド関連解析のマンハッタンプロットである。x軸は染色体、y軸は試験された全てのSNPの-log10(p値)を示す。上の線は、ボンフェローニ補正された有意な閾値(p<5×10-8)を示す。 実施例1におけるAβ42/40比を用いたCDiPで特定された24個の遺伝子の経路分析の結果を示すグラフである。横軸はp値を示す。 実施例1におけるAPOEε4遺伝子型に対応した、リン酸化タウ(p231-タウ)/総タウ比を示すプロットである。遺伝子型がAPOE3/3である患者のn数=44、遺伝子型がAPOE3/4である患者のn数=44、遺伝子型がAPOE4/4である患者のn数=14であった。「N.S.」は有意差がない(P>0.05)であることを示す。 実施例1における性別に対応した、iPS細胞由来の神経細胞の培養上清中のp231-タウ/総タウ比を示すプロットである。男性患者のn数=36、女性患者のn数=66であった。 実施例1における認知機能障害の発症年齢に対応したp231-タウ/総タウ比を示す散布図(N=102)である。 実施例1におけるAPOEε4遺伝子型を考慮したp231-タウ/総タウ比に関連する遺伝子座を特定するためのCDiPのゲノムワイド関連解析のマンハッタンプロットである。x軸は染色体、y軸は試験された全てのSNPの-log10(p値)を示す。上の線は、ボンフェローニ補正された有意な閾値(p<5×10-8)を示す。 実施例1におけるAPOEε4遺伝子型を考慮しないp231-タウ/総タウ比に関連する遺伝子座を特定するためのCDiPのゲノムワイド関連解析のマンハッタンプロットである。x軸は染色体、y軸は試験された全てのSNPの-log10(p値)を示す。上の線は、ボンフェローニ補正された有意な閾値(p<5×10-8)を示す。 実施例1における特定された遺伝子のノックダウンによるAβ42/40比の変化を示すグラフである。x軸は、非siRNA処理のコントロールと比較したAβ42/40比の変化のレベルを示す。値は、平均値±標準偏差で示している。*はp<0.05、**はp、0.01、***はp<0.005、****はp<0.001である。 実施例1における特定された遺伝子のノックダウンによるAβ40量の変化を示すグラフである。x軸は、非siRNA処理のコントロールと比較したAβ40量の変化のレベルを示す。値は、平均値±標準偏差で示している。*はp<0.05、**はp、0.01、***はp<0.005、****はp<0.001である。 実施例1における特定された遺伝子のノックダウンによるAβ42量の変化を示すグラフである。x軸は、非siRNA処理のコントロールと比較したAβ42量の変化のレベルを示す。値は、平均値±標準偏差で示している。*はp<0.05、**はp、0.01、***はp<0.005、****はp<0.001である。 実施例1における特定された遺伝子のノックダウンによるタンパク質濃度の変化を示すグラフである。x軸は、非siRNA処理のコントロールと比較したタンパク質濃度の変化のレベルを示す。値は、平均値±標準偏差で示している。*はp<0.05、**はp、0.01、***はp<0.005、****はp<0.001である。 実施例1におけるアルツハイマー病の脳と認知症ではない対照の脳の間でのsiRNAがAβ42/40比を変化させた遺伝子でのニューロン中の発現量を比較したグラフである。 実施例1におけるアルツハイマー病の脳と認知症ではない対照の脳の間でのsiRNAがAβ42量を減少させた遺伝子でのニューロン中の発現量を比較したグラフである。 実施例1における個々の細胞型のトランスクリプトームデータを提供する6つのAD脳と6つのコントロール脳の単一細胞ベースのトランスクリプトームデータを利用して特定された、AD脳でより高い発現を示し、治療標的となり得る遺伝子を示す図である。 実施例2におけるAβ陽性患者及びAβ陰性患者と、発症年齢との関係を示す箱ひげ図である。Aβ陽性患者のn数=15、Aβ陰性患者のn数=4であった。 実施例2におけるAβ陽性患者及びAβ陰性患者と、ヒトiPS細胞から誘導された大脳皮質の神経細胞の培養上清中のAβ40量との関係を示すプロットである。Aβ陽性患者のn数=15、Aβ陰性患者のn数=4であった。 実施例2におけるAβ陽性患者及びAβ陰性患者と、ヒトiPS細胞から誘導された大脳皮質の神経細胞の培養上清中のAβ42量との関係を示すプロットである。Aβ陽性患者のn数=15、Aβ陰性患者のn数=4であった。 実施例2におけるAβ陽性患者及びAβ陰性患者と、ヒトiPS細胞から誘導された大脳皮質の神経細胞の培養上清中のAβ42/40比との関係を示すプロットである。Aβ陽性患者のn数=15、Aβ陰性患者のn数=4であった。 実施例2における共変量(年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型)(左側のグラフ)、又は、共変量とCDiPで特定された遺伝子型セット(右側のグラフ)を用いた脳のAβ沈着の予測結果を示すグラフである。 実施例2における共変量(年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型)(左側のグラフ)、又は、共変量とCDiPで特定された遺伝子型セット(右側のグラフ)を用いた脳脊髄液(CSF)中のAβ(1-42)量の予測結果を示すグラフである。 実施例2における共変量(年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型)(左側のグラフ)、又は、共変量とCDiPで特定された遺伝子型セット(右側のグラフ)を用いたCSF中の総タウ(t-タウ)量の予測結果を示すグラフである。 実施例2における共変量(年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型)(左側のグラフ)、又は、共変量とCDiPで特定された遺伝子型セット(右側のグラフ)を用いたCSF中のリン酸化タウ(p-タウ)量の予測結果を示すグラフである。
 本発明の実施の形態について説明する。以下の実施形態は、本発明を説明するための例示であり、本発明をこの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱しない限り、様々な形態で実施することができる。
<アルツハイマー病(AD)関連遺伝子の変異>
 発明者らは、孤発性AD患者から樹立したiPS細胞から誘導された大脳皮質の神経細胞を用いて、ADの病態指標の一つであるAβ42/40比を表現型として、GWAS(cell GWAS)を行い、後述する実施例に示すように、AD関連遺伝子の変異のうち、Aβ42/40比に関連する変異として、上記表1-1~表1-77に記載された変異を見出している。また、後述する実施例に示すように、上記表1-1~表1-77に記載された1種以上の変異を含むAD関連遺伝子の変異と、年齢、性別、及Aβの脳内蓄積に関わっているとされるAPOE4遺伝型を分析した場合と、上記表1-1~表1-77に記載された1種以上の変異を含むAD関連遺伝子の変異を分析せずに、年齢、性別、及Aβの脳内蓄積に関わっているとされるAPOE4遺伝型のみを分析した場合とを比較すると、上記表1-1~表1-77に記載された1種以上の変異を含むAD関連遺伝子の変異と、年齢、性別、及Aβの脳内蓄積に関わっているとされるAPOE4遺伝型を分析した場合の方が、予測精度の指標の一つであるAUCスコアがより高い結果が得られている。具体的には、孤発性AD患者のSNP情報を用いて、脳内Aβの蓄積が生じるかどうかの予測を、AUC=0.76±0.050の精度で実施可能であり、孤発性AD患者のSNP情報を用いて、脳脊髄液内Aβの異常検査値が生じるかどうかの予測を、AUC=0.73±0.059の精度で実施可能であった。これら、脳内Aβの蓄積及び脳脊髄液内Aβの異常検査値は、臨床的なADの診断とほぼ一致する。よって、本実施形態の情報処理装置及び情報処理方法を用いたAD発症リスクの予測は、AUCが約0.7(さらに詳細には、約0.73以上0.76以下)の精度で行うことができる。家族性AD(遺伝性AD)ではなく、孤発性ADでは、AUCが上記数値範囲となる高精度の予測はこれまでの方法ではありえなかった。これに対して、本実施形態の情報処理装置及び情報処理方法では、上記表1-1~表1-77に記載された1種以上の変異を含むSNPセットを分析してADのリスクを判定することで、精度が高い、又は予測能力が高いリスクの判定方法を提供することができる。つまり、本実施形態の情報処理装置及び情報処理方法は、AD発症リスクの予測装置及び予測方法ということができる。また、本実施形態の情報処理装置及び情報処理方法によれば、家族歴のない孤発性ADの疑いのある被験者も含む、被験者におけるADの発症リスクを予測することができる。
 さらに、ADのような複数の遺伝子によって発症する疾患では、共通する特性に基づいて患者をサブタイプに分ける層別化が、当該疾患の予防及び治療において非常に大きな意味を持つ。予防又は治療に有効な手段がサブタイプによって異なり得るからである。後述する実施例に示されるとおり、本実施形態の情報処理装置及び情報処理方法は、ADの層別化にも寄与しうる。これにより、精密医療にも寄与しうる。
 なお、本明細書における「アルツハイマー病(AD)のリスク」とは、ADの罹りやすさや罹りにくさ等のアルツハイマー病に罹る可能性をいう。「リスクを判定する」とは、例えば、現在又は将来においてADに罹る可能性をいくつかのレベルに分けて出力することや、数値により出力することを含む。ADのリスクの判定には、ADに罹りやすい傾向にあるのか、罹りにくい傾向にあるのかといった、疾患に対する遺伝的要因又は遺伝的感受性についての評価が含まれる。
 なお、ADのリスクを判定するにあたっては、ADのリスクの判定を受ける被験者が、ADのリスクの判定時において、実際にADに罹患しているか(発症しているか)否かは問わない。
 上記表1-1~表1-77に記載された変異のうち1種以上を用いることができるが、上記表1-1~表1-77に記載された変異は、ADとの関連性が従来認められていなかったSNPである。すなわち、ADはポリジーンの複合的な作用によって発症すると考えられており、上記表1-1~表1-77に記載された変異を個別に分析するよりも、上記表1-1~表1-77に記載された2種以上の変異を一まとまりのSNPセットとして分析することにより、ADのリスクをより高い精度で判定できる。よって、後述する表4に記載された全ての変異(上記表1-1~表1-77に記載された変異のうち、Aβ42/40比の観点から特にADへの関連性の高い変異)を含むSNPセットを用いることが好ましく、後述する表3-1~3-77に記載された変異のうち、p値が5×10-8未満である変異を含むSNPセットを用いることがより好ましく、表3-1~3-77に記載された全ての変異を含むSNPセットを用いることがさらに好ましい。
 また、発明者らは、後述する実施例に示すように、AD関連遺伝子の変異のうち、リン酸化タウ/総タウ比に関連する変異として、上記表2-1~表2-9に記載された変異を見出している。よって、上記表2-1~表2-9に記載された1種以上の変異を更に含むことができるが、ADはポリジーンの複合的な作用によって発症すると考えられていることから、上記Aβ42/40比に関連する変異に加えて、リン酸化タウ/総タウ比に関連する変異のうち、後述する表6に記載の変異(上記表2-1~表2-9に記載された変異のうち、リン酸化タウ/総タウ比の観点から特にADへの関連性の高い変異)を更に含むSNPセットを用いることが好ましく、上記表2-1~表2-9に記載された全ての変異を更に含むSNPセットを用いることがより好ましい。
 本明細書において各表に記載のSNPについて、rs番号と、各SNPが存在する染色体番号(性染色体の場合には、XかYで示す)と、各SNPの染色体上の位置と、を列記している。なお、各SNPに関する塩基配列や疾患などの情報は、例えば、rs番号に基づいてNCBI SNP Databaseを検索することで得られる。それらの情報は該Databaseにより参照可能であり、また、本明細書で援用する。なお、各SNPの染色体上の位置は、assembly genomeのバージョンGRCh37に対応するものである。
 なお、各SNPは、各表に示されているように、rs番号により特定される塩基配列を参照することによって特定可能であるが、本明細書において記載するrs番号が他のrs番号と併合され、新たなrs番号が付与された場合には、本明細書において該当するrs番号は、併合後のrs番号及び併合される他のrs番号を包含する。また、本明細書において記載するrs番号が複数のrs番号の併合により付与された番号である場合には、本明細書において該当するrs番号は、その他の元となるrs番号を包含する。
 また、SNPに関する各rs番号で示される塩基配列は、NCBI SNP Database等のDatabaseを参照することで特定の塩基配列として示されるが、人種の相違等によって、該塩基配列において該当するSNP以外の部分における塩基配列は変更されてもよい。
 本実施形態の情報処理方法、情報処理装置、及びプログラムにおいて、被験者の人種及び性別は限定されない。
 以下、本発明を適用した情報処理方法、情報処理装置、及びプログラムを、図面を参照して説明する。
<第1実施形態>
[全体構成]
 図1は、第1実施形態の情報処理装置100の構成の一例を示す図である。図1に示されるように、情報処理装置100は、例えば、検出部110と、処理部120と、記憶部130と、を備える。
(検出部)
 検出部110では、被験者由来のゲノムDNA試料おいて、アルツハイマー病(AD)関連遺伝子の変異であるSNP(以下、第1のSNPという)を検出する(工程1)。
 被験者由来のゲノムDNA試料は、被験者の生体から採取された細胞又は組織を用いることができ、有核細胞を含むものであれば特別な限定はないが、例えば、血液、脳脊髄液、リンパ液、毛髪等が挙げられる。このうち、侵襲性の低さから血液を好適に用いることができ、血液由来の有核細胞としては、例えば、末梢血単核細胞等が挙げられる。SNPの検出には、これらの試料から常法により単離したゲノムDNAを直接使用してもよく、単離したゲノムDNAを増幅して、増幅後のゲノムDNAを使用してもよい。
 ゲノムDNAの抽出方法としては、特別な限定はなく、公知の方法を用いて抽出することができる。例えば、フェノール/クロロホルム法、セチルトリメチルアンモニウムブロミド(CTAB)法等が挙げられる。DNAの抽出には、市販のキットを用いてもよい。当該キットとしては、例えば、Wizard Genomic DNA Purification Kit(Promega製)等が挙げられる。
 検出部110は、通常の遺伝子多型解析に用いられる装置で構成されている。このような装置としては、例えば、DNAマイクロアレイ;従来型のシーケンサーや次世代シーケンサー(NGS;Next Generation Sequencer);ポリメラーゼ連鎖反応(PCR)装置等の核酸増幅装置が挙げられる。
 SNPは、上記例示された装置による公知のSNP検出法を用いて検出することができ、例えば、直接配列決定法、PCR法、制限酵素断片長多型(RFLP)法、ハイブリダイゼーション法、TaqMan(登録商標) PCR法(以下、「登録商標」との記載を省略する)、質量分析法等を用いる方法が挙げられる。
 直接配列決定法は、SNPを含む領域を、ベクターにクローニングするか又はPCRで増幅し、当該領域の塩基配列を決定することにより行う。クローニングの方法としては、適切なプローブを用いてcDNAライブラリーからスクリーニングすることにより、クローニングすることができる。また、適切なプライマーを用いてPCR反応により増幅し、適切なベクターに連結することによりクローニングすることができる。さらに、別のベクターにサブクローニングすることもできるが、これらに限定されない。ベクターとしては、例えば、pBlue-Script SK(+)(Stratagene製)、pGEM-T(Promega製)、pAmp(Gibco-BRL製)、p-Direct(Clontech製)、pCR2.1-TOPO(Invitrogene製)等の市販のプラスミドベクター、ウイルスベクター、人工染色体ベクターやコスミドベクターを用いることができる。塩基配列の決定としては、公知の方法を用いることができ、例えば、放射性マーカーヌクレオチドを使用する手動式配列決定法や、ダイターミネーターを使用する自動配列決定法が挙げられるが、これらに限定されない。このようにして得られた塩基配列に基づき、試料がSNPを有するか否かを決定する。
 PCR法は、SNPを有する配列にのみハイブリダイズするオリゴヌクレオチドプライマー(以下、「SNP検出用プライマー」と称する場合がある)を用いて行う。複数のSNPが存在することから、SNP検出用プライマーは、全てのSNPを検出し得るプライマーを単独で用いてもよく、各SNPを検出し得るプライマーを2種以上組み合わせて用いてもよい。このプライマーを使用して検体のDNAを増幅する。SNP検出用プライマーがPCR産物を生成した場合には、試料はSNPを有することになる。PCR産物が生成されなかった場合には、試料にはSNPがないことが示される。
 RFLP法は、まず、試料中のSNPを含む領域をPCRで増幅する。続いてこのPCR産物を、SNPを含む領域に適する制限酵素で切断する。制限酵素により消化されたPCR産物は、ゲル電気泳動で分離し、エチジウムブロマイド染色で可視化する。当該断片長を、分子量マーカー、並びに、対照として、制限酵素処理していない上記PCR産物等と比較して、試料におけるSNPの存在を検出することができる。
 ハイブリダイゼーション法は、試料中のDNAが、それに対し相補的なDNA分子(例えば、オリゴヌクレオチドプローブ)とハイブリダイズする性質に基づき、試料におけるSNPの有無を決定する方法である。コロニーハイブリダイゼーション、プラークハイブリダイゼーション、サザンブロット等の公知のハイブリダイゼーション等のハイブリダイゼーション及び検出のための種々の技術を利用してこのハイブリダイゼーション法を行うことができる。ハイブリダイゼーション法の詳細な手順については、「Molecular Cloning、A Laboratory Manual 3rd ed.」(Cold Spring Harbor Press(2001);特にSection6-7)、「Current Protocols in Molecular Biology」(John Wiley&Sons(1987-1997);特にSection6.3-6.4)、「DNA Cloning 1:Core Techniques,A Practical Approach 2nd ed.」(Oxford University(1995);ハイブリダイゼーション条件については特にSection2.10)等を参照することができる。さらに、ハイブリダイゼーションはDNAチップを利用して検出することもできる。当該方法としては、SNPに特異的なオリゴヌクレオチドプローブを設計し、それを固相支持体に貼りつけたものを用いる。そして、試料中のDNAを当該DNAチップと接触させて、ハイブリダイゼーションを検出する。
 TaqMan PCR法は、SNPに特異的なTaqManプローブとTaqポリメラーゼを用い、SNPの検出とSNPを含む領域の増幅とを同時並行で行う方法である。TaqManプローブは、5’末端が蛍光物質、3’末端がクエンチャーで標識されている約20塩基前後のオリゴヌクレオチドであり、目的のSNP部位にハイブリダイズするよう設計されている。Taqポリメラーゼは5’→3’ヌクレアーゼ活性がある。これらのTaqManプローブ及びTaqポリメラーゼ存在下で目的のSNP部位を含む領域を増幅するよう設計されたPCRプライマーを用いて該SNP部位を含む領域を増幅すると、増幅と並行して、TaqManプローブが鋳型DNAの目的のSNP部位にハイブリダイズする。フォワードプライマー側からの伸長反応が、鋳型にハイブリダイズした、TaqManプローブに到達すると、Taqポリメラーゼの5’→3’ヌクレアーゼ活性により、TaqManプローブの5’末端に結合していた蛍光物質が切断される。その結果、遊離した蛍光物質はクエンチャーの影響を受けなくなり、蛍光を発生する。蛍光強度の測定により、SNP検出が可能となる。
 質量分析法を用いた方法としては、例えば、MALDI-TOF/MS法を応用したSNPタイピング方法として、プライマー伸長法と組み合わせた方法もあげられる。この方法はハイスループットな解析が可能であり、1)PCR、2)PCR産物の精製、3)プライマー伸長反応、4)伸長産物の精製、5)質量分析、6)ジェノタイプ決定、のステップにより解析する。まずPCRによって、目的とするSNP部位を含む領域をゲノムDNAから増幅する。PCRプライマーは、SNP部位塩基と重複しないように設計する。そして、エキソヌクレアーゼとエビのアルカリホスファターゼを用いて酵素的除去方法により精製するかエタノール沈殿法を用いて精製する。次に、3’末端がSNP部位に直接隣接するように設計したジェノタイピングプライマーを用いて、プライマー伸長反応を行う。PCR産物を高温で変性し、過剰のジェノタイピングプライマーを加えて、アニールさせる。ddNTPとDNAポリメラーゼを反応系に添加し、サーマルサイクル反応させると、ジェノタイピングプライマーよりも1塩基長いオリゴマーが生じる。この伸長反応で生じる1塩基長いオリゴマーは、ジェノタイピングプライマーの上記設計により、アリルに応じて異なる。精製した伸長反応産物について質量分析を行い、マススペクトルから解析する。
 その他の検出方法としては、ハイスループットが可能なSNPタイピング法として、1分子蛍光分析法を応用した方法等が挙げられる。例えば、MF20/10S(オリンパス製)は、当該方法を採用したシステムである。具体的には、共焦点レーザー光学系と高感度光検出器を用いて、約1フェムトリットル(1000兆分の1リットル)の超微小領域中で、相補的及び非相補的なプライマーを用いたPCR法によって増幅した蛍光ラベルプライマーの1分子レベルの並進拡散時間を計測及び解析するものである。
 また、DNAチップによる方法も、ハイスループットが可能なタイピングの1つである。DNAチップは、基板上に多種類のDNAプローブを整列して固定したもので、標識したDNA試料をチップ上でハイブリダイゼーションし、プローブによる蛍光シグナルを検出する。
 PCR法以外の遺伝子増幅法を利用したSNPタイピング方法の例として、Snipper法が挙げられる。当該方法は、環状一本鎖DNAを鋳型としてDNAポリメラーゼがその上を移動しながら相補鎖DNAを合成するDNA増幅方法であるRCA(rolling circle amplification)法を応用したSNPタイピング法である。プローブは80塩基長以上90塩基長以下のオリゴDNAで、標的SNP部位の5’末端及び3’末端近傍のそれぞれに相補的な10塩基長20塩基長以下の配列を両末端に含んでおり、標的DNAにアニールして環状になるように設計されている。また、プローブの3’末端が標的SNP部位に相補的配列となるよう設計されている。プローブの3’末端が標的SNP部位と完全に相補的であれば、プローブは環状化されるが、プローブの3’末端がミスマッチであるとプローブは環状化されない。またプローブには、40塩基長以上50塩基長以下のバックボーン配列があり、2種類のRCA増幅プライマーと相補的な配列が含まれる。
 PCR法以外の遺伝子増幅法を利用したSNPタイピング方法の他の例としては、例えば、UCAN法やLAMP法を利用したタイピング方法が挙げられる。
 UCAN法は、タカラバイオが開発した遺伝子等温増幅法であるICAN法を応用した方法である。UCAN法では、プライマー前駆体としてDNA-RNA-DNAキメラオリゴヌクレオチド(DRD)を用いる。このDRDプライマー前駆体は、DNAポリメラーゼによる鋳型DNAの複製が起こらないように、3’末端のDNAが修飾されており、SNPサイトにRNA部分が結合するように設計されている。このDRDプライマー前駆体を鋳型とインキュベートすると、DRDプライマーと鋳型が完全にマッチしている場合のみ、共存するRNase Hが対合したDRDプライマーのRNA部分を切断する。これにより、プライマー3’末端は修飾DNAが外れて新しくなるため、DNAポリメラーゼによる伸長反応が進み、鋳型DNAが増幅される。一方、DRDプライマーと鋳型DNAがマッチしない場合、RNase HはDRDプライマーを切断せず、DNA増幅も起こらない。パーフェクトマッチしたDRDプライマー前駆体がRNase Hによって切断された後の増幅反応は、ICAN反応メカニズムによって進行する。
 LAMP法は、栄研化学によって開発された遺伝子等温増幅法で、標的遺伝子の6箇所の領域(3’末端側からF3c、F2c、F1c、5’末端側からB3、B2、B1)を規定し、当該6領域に対する4種類のプライマー(FIPプライマー、F3プライマー、BIPプライマー、B3プライマー)を用いて増幅する。タイピングを目的とする場合は、F1-B1間は標的SNP部位(1塩基)のみでよく、FIPプライマー及びBIPプライマーを、その5’末端にSNPの1塩基がくるように設計する。SNPがない場合、LAMP法の起点構造であるダンベル構造からDNAの合成反応が起こり、増幅反応が連続的に進行する。SNPがある場合は、ダンベル構造からのDNA合成反応が起こらず、増幅反応は進行しない。
 インベーダー(Invader)法は、核酸増幅法を用いず、2種類の非蛍光標識プローブ(アレルプローブ、インベーダープローブ)と1種類の蛍光標識プローブ(FRETプローブ)及びエンドヌクレアーゼであるCleavaseを用いる方法である。アレルプローブは、鋳型DNAに対しSNP部位から3’末端側に相補的な配列があり、プローブの5’末端側にフラップという鋳型DNAと無関係な配列がある。インベーダープローブは、鋳型DNAのSNP部位から5’末端側に相補的な配列があり、SNP部位に相当する部分の塩基は任意の塩基がある。FRETプローブは、3’末端側にフラップ配列に相補的な配列がある。一方の5’末端側は蛍光色素及びクエンチャーで標識されているが、FRETプローブは分子内で2本鎖を形成するよう設計されており、通常は消光されている。これらを鋳型DNAと反応させると、アレルプローブが鋳型DNAと2本鎖を形成したときに、SNP部位にインベーダープローブの3’末端(任意塩基部分)が侵入する。Cleavaseは、当該塩基が侵入した構造を認識して、アレルプローブのフラップ部分を切断する。次に、この遊離したフラップがFRETプローブの相補配列と結合すると、フラップの3’末端がFRETプローブの分子内二本鎖部分に侵入する。Cleavaseは、上記アレルプローブとインベーダープローブの場合と同様に、このFRETプローブにフラップの塩基が侵入した構造を認識し、FRETプローブの蛍光色素を切断する。蛍光色素はクエンチャーから離れるため、蛍光が発生する。アレルプローブが鋳型DNAとマッチしない場合は、Cleavaseが認識する、上記特異的な構造が形成されないため、フラップは切断されない。
 SNPの検出にプライマーを用いる場合は、増幅する領域及びタイピング方法に即したプライマーとなるように設計する。例えば、上記領域を完全に増幅できることが好ましく、上記領域の両端付近の配列に基づいて配列を設計できる。プライマーの設計手法は当技術分野で周知であり、本実施形態の方法において使用可能なプライマーは、特異的なアニーリングが可能な条件を満たす、例えば特異的なアニーリングが可能な長さ及び塩基組成(融解温度)を有するように設計される。増幅する領域の長さは、タイピングに支障がない限り制限はないし、検出方法により適宜増減してよい。また、増幅される領域の一部にはSNP部位が含まれるが、増幅される領域内における当該部位の位置に制限はなく、検出方法(タイピング方法)にしたがって適切な位置に配置してよい。そのためプライマーの設計にあたり、プライマーとSNP部位との位置関係は、検出方法にあわせて自由に設計でき、検出しようとするSNPを含む領域(例えば、連続した50塩基長以上500塩基長以下)にハイブリダイズする限り、タイピング方法の特性を考慮しながら、プライマーを設計できる。プライマーとしての機能を発揮する長さとしては、10塩基以上100塩基以下が好ましく、15塩基以上50塩基以下がより好ましく、15塩基以上30塩基以下がさらに好ましい。また設計の際には、任意の核酸鎖の50%がその相補鎖とハイブリッドを形成する温度であるプライマーの融解温度(Tm)を確認することが好ましい。鋳型となるDNAとプライマーとが二本鎖を形成してアニーリングするためには、アニーリングの温度を最適化する必要があるが、その一方で、この温度をより低すぎると非特異的な反応がおこるため、好ましくないからである。Tmの確認には、公知のプライマー設計用ソフトウェアを利用することができる。
 SNPの検出にプローブを用いる場合は、プローブがSNP部位を認識するように設計する。プローブ設計において、SNP部位は、タイピング方法にあわせて、プローブ内のいずれかの場所で認識されればよく、タイピング方法によっては、プローブの末端で認識されてもよい。SNP検出用ポリヌクレオチドをプローブとする場合、ゲノムDNAに相補的な塩基配列の長さは、通常15塩基以上200塩基以下であり、15塩基以上100塩基以下が好ましく、15塩基以上50塩基以下がより好ましいが、タイピング方法によってはこれより長くても短くてもよい。
(処理部)
 処理部120では、ADを発症した患者由来のゲノムDNA試料において検出されたAD病関連遺伝子の変異であるSNPに対して、ADの発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、検出部110によって検出されたSNP(つまり「第1のSNP」)から、被験者がADを発症するか否かを判定する(工程2)。以下、トレーニングデータセットに含まれるSNPを「第2のSNP」と称して説明する。
 処理部120は、例えば、取得部121と、特徴量変換部122と、判定部123と、出力制御部124と、学習部125と、を備える。
 処理部120の構成要素は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等のプロセッサが記憶部130に格納されたプログラムを実行することにより実現される。また、処理部120の構成要素の一部又は全部は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、又はFPGA(Field-Programmable Gate Array)等のハードウェア(回路部;circuitry)により実現されてもよく、ソフトウェアとハードウェアの協働によって実現されてもよい。
(記憶部)
 記憶部130は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、RAM(Random Access Memory)等の記憶装置により実現される。記憶部130には、ファームウェアやアプリケーションプログラム等の各種プログラムの他に、モデル情報131が格納される。モデル情報131については後述する。
[ランタイムの処理フロー]
 以下、第1実施形態に係る処理部120によるランタイムの一連の処理の流れをフローチャートに即して説明する。ランタイムとは、既に学習された予測モデルMDLを利用する状態である。図2Aは、第1実施形態に係る処理部120によるランタイムの一連の処理の流れを示すフローチャートである。本フローチャートの処理は、例えば、所定の周期で繰り返し行われてよい。
 まず、取得部121は、検出部110から、被験者由来のゲノムDNA試料おける、アルツハイマー病関連遺伝子の変異である第1のSNPの検出データを取得する(ステップS100)。取得された第1のSNPの検出データは、被験者が有するAD関連遺伝子の遺伝子型データ(以下、「第1のSNPセット」又は「被験者の遺伝子型データ」と称する場合がある)ということもできる。
 次に、特徴量変換部122は、取得部121によって取得された第1のSNPのデータを、モデルに入力可能な特徴量に変換する(ステップS101)。ここでいう特徴量は、例えば、各SNPについて、被験者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれであるかを示すパラメータである。遺伝子型は、相同染色体のSNPが共にG(グアニン)であることを示す“GG”や、一方がG(グアニン)で、他方がA(アデニン)であることを示す“AG”等ヌクレオチドにより表記されることが一般的であるため、被験者の遺伝子型データを、ADを発症した患者由来のゲノムDNA試料において検出されたAD関連遺伝子の変異である第2のSNP(AD患者が有するAD関連遺伝子の遺伝子型データ(以下、「第2のSNPセット」又は「AD患者の遺伝子型データ」と称する場合がある))を用いるモデルに入力可能なパラメータに変換する。しかし、モデルが、このようなパラメータへの変換の必要がないものである場合には、上記変換は必要とされない。
 対象者の遺伝子型データの特徴量への変換は、例えば、第2のSNPセットに含まれるSNP1つ1つに関して、被験者の遺伝子型データに値を付すことにより行うことができる。例えば、各SNPについて、被験者の遺伝子型データがホモ接合型(AA)、ホモ接合型(BB)、又はヘテロ接合型(AB)のいずれに該当するのかに応じて、そのSNPに値(例えば、0、1又は2)を対応づける。これにより、被験者の遺伝子型データを特徴量に変換することができる。なお、以下では、各SNPに対応させる値を0、1又は2とした場合を例に説明するが、SNPに対応させる値は0、1又は2の3つの値に限られるものではない。
 接合型に対応づける値はSNPごとに決めることができる。例えば、あるSNPは、被験者の遺伝子型データがホモ接合型(AA)である場合に値2を対応付け、ヘテロ接合型(AB)である場合に値1を対応付け、ホモ接合型(BB)である場合に値0を対応付けるようにし、他のSNPは、被験者の遺伝子型データがヘテロ接合型(AB)である場合に値2を対応付け、ホモ接合型(AA)である場合に値1を対応付け、ホモ接合型(BB)である場合に値0を対応付けるようにしてもよい。その他、被験者の遺伝子型データがホモ接合型(BB)である場合に値2を対応付け、ヘテロ接合型(AB)である場合に値1を対応付け、ホモ接合型(AA)である場合に値0を対応付けるようにしてもよい。
 上記のように、被験者の遺伝子型データを特徴量に変換することができる。この特徴量への変換において対応付けに使用する値は、任意に決定することができる。例えば、各SNPについてADへの関連性が高い遺伝子型に対して値2を対応付けるようにし、且つ、各SNPについてADへの関連性が低い遺伝子型に対して値1又は0を対応付けるようにすることができる。
 次に、判定部123は、特徴量変換部122によって第1のSNPのデータから変換された特徴量を、モデル情報131が示す予測モデルMDLに入力する(ステップS102)。
 モデル情報131は、被験者の遺伝子型データから、ADのリスクを判定するための予測モデルMDLを定義した情報(プログラム又はデータ構造)である。
 予測モデルMDLは、ロジスティック回帰モデル、多層パーセプトロン、コンボリューショナルニューラルネットワーク(Convolutional Neural Network:CNN)及びリカレントニューラルネットワーク(Recurrent Neural Network:RNN)等のニューラルネットワーク、ガウシアンカーネル等の任意のカーネル関数を用いるサポートベクターマシーン、回帰木としてモデル化したランダムフォレスト、重回帰分析、隠れマルコフモデル等を利用したモデル、統計モデルや確率モデル等の種々の他のモデルによって実現される。また、種々のモデルを組み合わせて総合的な判定を行うモデルを採用することもできる。例えば、予測モデルMDLは、複数の分類器を含むランダムフォレストであってよい。以下、一例として、予測モデルMDLがランダムフォレストであるものとして説明する。
 図2Bは、第1実施形態に係る予測モデルMDLの一例を示す図である。予測モデルMDLには、例えば、N個の分類器ML-1~ML-Nが含まれる。各分類器WLは、第1のSNPのデータから変換された特徴量が入力されると、被験者がADを発症することの尤もらしさを示すスコアを尤度或いは確率として出力するように予め学習された弱学習器である。各分類器WLは、互いに並列関係にある。このように複数の弱学習器を組み合わせて一つの学習モデルを生成する手法は、アンサンブル学習と呼ばれる。
 例えば、予測モデルMDLは、弱学習器である各分類器WLのスコアを正規化し、その正規化したスコアを出力する。スコアの正規化を、数式(1)に示す。
Figure JPOXMLDOC01-appb-M000173
 式中Sは、正規化されたスコアを表し、siは、i番目の分類器WLのスコアを表している。スコアs及びSは、例えば、ADを発症することの確率P1と、ADを発症しないことの確率P2とのそれぞれを要素とする2次元のベクトル(=[P1,P2])である。数式(1)に示すように、予測モデルMDLは、全分類器WLのスコアの和を分類器WLの総計であるNで除算することで、スコアを正規化してよい。このようにアンサンブル学習を利用することで、後述するトレーニングにおいて利用しなかった未知(未学習)のデータに対するAD発症の予測精度を向上させることができる。
 なお、予測モデルMDLは、図2Bに示すように、N個の分類器WLの組み合わせであるものとしたがこれに限られない。例えば、予測モデルMDLは、一つの分類器WLであってもよい。
 図2Aのフローチャートの説明に戻る。次に、判定部123は、予測モデルMDLによって出力されたスコア(正規化されたスコア)が閾値以上であるのか否かを判定する(ステップS103)。
 判定部123は、スコアが閾値以上である場合、被験者がADを発症する蓋然性が高いと判定し(ステップS104)、スコアが閾値未満である場合、被験者がADを発症する蓋然性が低いと判定する(ステップS105)。
 次に、出力制御部124は、判定部123による判定結果(例えば、アルツハイマー病の発症の蓋然性を示す情報)を出力する(ステップS106)。例えば、出力制御部124は、通信インタフェースを介して外部の端末装置(図示せず)に判定結果を送信してよい通信インタフェースは、例えば、NIC(Network Interface Card)などのネットワークカードや無線通信モジュールである。また、情報処理装置100がディスプレイ(図示せず)を備えている場合、出力制御部124は、判定結果をディスプレイに表示させてもよい。
[トレーニングの処理フロー]
 以下、第1実施形態に係る処理部120のトレーニングの一連の処理の流れをフローチャートに即して説明する。トレーニングとは、ランタイムに利用される予測モデルMDLを学習させる状態である。図2Cは、第1実施形態に係る処理部120によるトレーニングの一連の処理の流れを示すフローチャートである。
 まず、学習部120は、予測モデルMDLを学習するためのトレーニングデータセットを生成する(ステップS200)。例えば、トレーニングデータセットは、健常者又はAD患者が有するAD関連遺伝子の遺伝子型データに対して、その対象者のAD発症に関する情報(例えば、AD発症陽性又は陰性)がラベル付けられたデータセットである。第2のSNPセットにおいて、不明のSNPが一部含まれる場合には、遺伝子型インピュテーションを用いて帰属遺伝子型が推定されたものを用いることができる。
 例えば、健常者又はAD患者が有するAD関連遺伝子の遺伝子型データを取得する。健常者が有するAD関連遺伝子の遺伝子型データには、ADを発症していないことを示す情報(例えばスコア0.0)がラベル付けられ、AD患者が有するAD関連遺伝子の遺伝子型データには、ADを発症することを示す情報(例えばスコア1.0)がラベル付けられる。
 このように、ラベル付けられた複数のAD関連遺伝子の遺伝子型データがトレーニングデータセットとして生成されると、特徴量変換部122は、トレーニングデータセットに含まれるAD関連遺伝子の遺伝子型データを特徴量に変換する(ステップS201)。
 次に、学習部125は、特徴量変換部122によってトレーニングデータセットのAD関連遺伝子の遺伝子型データから変換された複数の特徴量を、訓練用の特徴量(トレーニングサンプル)と、検証用の特徴量(テストサンプル)とに分け、訓練用の特徴量を、予測モデルMDLに弱学習器として含まれるN個の分類器WLの中の第i番目の分類器WL-iに入力する(ステップS202)。
 学習部125は、トレーニングデータセットのAD関連遺伝子の遺伝子型データから変換された複数の特徴量、つまり母集団の特徴量を、訓練用の特徴量(トレーニングサンプル)と、検証用の特徴量(テストサンプル)とに分ける際に、主成分分析を利用してよい。例えば、学習部は、AD関連遺伝子の提供元である健常者又はAD患者の属性情報及び遺伝子情報のなかで主成分となる情報を基に、母集団の特徴量の中から訓練用の特徴量(トレーニングサンプル)を選び出してよい。健常者又はAD患者の属性情報には、例えば、年齢や性別といった情報が含まれてよい。健常者又はAD患者の遺伝子情報には、例えば、APOEε4遺伝子型であるのかそうでないのかといった情報や、その他情報が含まれてよい。主成分を基に選出された訓練用の特徴量(トレーニングサンプル)は、「特定のトレーニングデータセット」の一例である。
 次に、学習部125は、訓練用の特徴量を入力した第i番目の分類器WL-iから出力結果、すなわちスコアsを取得する(ステップS203)。
 次に、学習部125は、第i番目の分類器WL-iから取得したスコアsと、訓練用の特徴量にラベル付けられたスコアとの誤差(損失ともいう)を算出する(ステップS204)。
 次に、学習部125は、誤差が小さくなるように第i番目の分類器WL-iのパラメータを決定する(ステップS205)。
 次に、学習部125は、第i番目の分類器WL-iに対する学習を所定回数E繰り返したか否かを判定し(ステップS206)、所定回数Eに達していない場合、S202に処理を戻し、前回の処理で学習に用いた訓練用の特徴量と同じ特徴量を、第i番目の分類器WL-iに入力することで、第i番目の分類器WL-iを学習することを繰り返す。この際、学習部125は、学習によって更新したパラメータを記憶部130に記憶させ、パラメータを初期化した第i番目の分類器WL-iに訓練用の特徴量を入力する。これによって、第i番目の分類器WL-iに対する学習が所定回数Eに達するまでに、互いにパラメータが異なるE個の分類器WL-iが生成される。
 一方、学習部125は、第i番目の分類器WL-iに対する学習を所定回数Eに達した場合、検証用の特徴量を、E個の第i番目の分類器WL-iのそれぞれに入力する(ステップS207)。
 次に、学習部125は、E個の第i番目の分類器WL-iのうち、最も予測精度の高い分類器WL-iを選択する(ステップS208)。例えば、学習部125は、E個の第i番目の分類器WL-iのうち、検証用の特徴量を入力したときに得られるスコアsとトレーニングデータのスコアとの誤差が最も小さい分類器WL-iを選択する。
 次に、学習部125は、予測モデルMDLに弱学習器として含まれるN個の分類器WLの全てについて学習したか否かを判定し(ステップS209)、まだN個の分類器WLの学習が済んでいない場合、S202に処理を戻し、訓練用の特徴量に基づいて、第i+1番目の分類器WL-(i+1)を学習する。
 一方、学習部125は、N個の分類器WLの全てについて学習した場合、本フローチャートの処理を終了する。
 以上説明した第1実施形態によれば、情報処理装置100が、AD関連遺伝子の遺伝子型データから変換された特徴量に、AD発症が陽性又は陰性であることを示す情報がラベル付けられたトレーニングデータセットに基づいて学習された予測モデルMDLに対し、被験者が有するAD関連遺伝子の遺伝子型データから変換された特徴量を入力し、特徴量を入力した予測モデルMDLの出力結果に基づいて、被験者がADを発症することを予測するため、被験者の将来のADの発症有無を精度よく予測することができる。
 一般的に、乳幼児や若年者等のADを発症していない対象者においてADリスクを予測することは困難である。これに対して、本実施形態では、機械学習モデルによって実現される複数の分類器WLを含む予測モデルMDLを用いるため、AD関連遺伝子の遺伝子型データにおいて特定のSNPがADのリスクと正の相関があることを表す重みづけを、スコアとして計算することが期待できる。この結果、乳幼児や若年者等のADを発症していない対象者におけるADリスクを早期に予測することができる。
 また、上述した第1実施形態によれば、予測モデルMDLに弱学習器として含まれる複数の分類器WLをアンサンブル学習するため、予測精度の高い予測モデルMDLを生成することができる。
<第1実施形態の変形例>
 以下、第1実施形態の変形例について説明する。上述した第1実施形態において、トレーニングデータセットは、健常者又はAD患者が有するAD関連遺伝子の遺伝子型データに対して、ADを発症するのか、或いはADを発症しないのかを表したスコアがラベル付けられたデータであるものとして説明したがこれに限られない。例えば、トレーニングデータセットは、健常者又はAD患者が有するAD関連遺伝子の遺伝子型データに対して、上述したスコアに加えて、更に、ADの発症年齢がラベル付けられたデータであってよい。学習部125は、このようなトレーニングデータセットを用いて、AD関連遺伝子の遺伝子型データが入力されると、ADを発症することの確率P1と、ADを発症しないことの確率P2と、ADの発症年齢tとのそれぞれを要素とする3次元のベクトル(=[P1,P2,t])を出力するように予測モデルMDLを学習する。判定部123は、予測モデルMDLによって出力されたベクトルのtの要素に基づいて、被験者がADを発症する年齢を予測する。
 また、ラベルは、ADの発症有無を示すスコアや発症年齢に限られず、AD関連遺伝子の遺伝子型データの提供元である対象者の属性が含まれていてもよい。属性には、例えば、性別、体重、身長、生活習慣、病気の有無、家族の病歴といった種々の情報が含まれてよい。また、APOEε4の遺伝子型等、公知のAD関連遺伝子型の遺伝子情報が含まれてもよい。このようなラベルが対応付けられたAD関連遺伝子の遺伝子型データを用いて予測モデルMDLを学習することで、更に予測精度の高い予測モデルMDLを生成することができる。この結果、ランタイム時に、AD関連遺伝子の遺伝子型データに加えて被験者の属性を予測モデルMDLに入力することで、更に被験者の将来のADのリスクを精度よく予測することができる。
 上記のようにして得られる判定結果は、ADの専門医がADを診断する際の補助としても用いられる。すなわち、本実施形態の情報処理装置及び情報処理方法は、ADの診断支援装置及び診断支援方法ということもできる。
<その他実施形態>
 一実施形態において、本発明は、上記情報処理方法に記載の指示、具体的には、
 被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出すること;及び、
 アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定すること;
を実行するように構成されたプロセッサを提供する。
 以下、実施例及び比較例等を挙げて本発明をさらに詳述するが、本発明はこれらの実施例等に限定されるものではない。
<方法>
[孤発性AD患者の末梢血細胞からのiPSコホートの樹立]
 本試験は、京都大学iPS細胞研究応用センターの倫理委員会により承認された(承認番号:CiRA19-05及びCiRA20-14)。ヒト末梢血単核細胞(PBMC)からのiPS細胞の樹立のために、アルツハイマー病(AD)患者のPBMCを、京都大学医学研究科の倫理委員会によって承認された研究プロジェクトに従って収集した(承認番号:R0091、G259、及びG0722)。書面によるインフォームドコンセントを、この試験のすべての参加者から得た。リプログラミング因子のヒトcDNAは、エピソームベクター(SOX2、KLF4、OCT4、L-MYC、LIN28、ドミナントネガティブp53)を用いてヒトPBMCに導入した。形質導入の数日後、PBMCを採取し、ラミニン511-E8フラグメント(iMatrix 511、ニッピ社製)でコーティングされた皿に再播種した。翌日、培地をStemFitAK03に交換した。その後、2日おきに培地を交換した。形質導入の20日後、iPS細胞コロニーをピックアップした。PBMCから確立されたiPS細胞を神経分化のために拡張培養した。
[ヒトiPS細胞から誘導された大脳皮質の神経細胞]
 直接転換技術を利用して、堅固で迅速な分化誘導法を確立した。テトラサイクリン誘導性プロモーター(tetO)下のヒトニューロゲニン2(NGN2)cDNAを、piggyBacトランスポゾンシステム及びLipofectamine LTX(Thermo Fisher Scientific社製)によりiPS細胞に形質転換した。tetO::NGN2を含むベクターを使用した。G418二硫酸塩(ナカライテスク社製)による抗生物質選択後、コロニーを選択し、NGN2の一時的な発現を誘導することによって神経細胞に効率的に分化できるサブクローンを、MAP2/DAPI 96%超の純度で選択した。
[核型分析及び遺伝子型決定]
 核型分析は、本研究所又はLSIメディエンス社が実施した。一塩基多型のジェノタイピングは、ゲノムDNAのPCR増幅によって実行し、直接シーケンスした(3100 Genetic Analyzer;Thermo Fisher社製)。APOE遺伝子はPCRによって増幅した(フォワードプライマーTCCAAGGAGCTGCAGGCGGCGCA(配列番号1);リバースプライマーACAGAATTCGCCCCGGCCTGGTACACTG(配列番号2))。PCR産物をHhaIで37℃、2時間消化した後、電気泳動を行ってバンドサイズを分析した。
[免疫細胞化学染色]
 細胞を室温(RT、25℃程度)で4v/v%パラホルムアルデヒド(pH7.4)で固定し、0.2v/v%TritonX-100を含むPBSTで透過処理した。非特異的結合を抑制するために、BlockingONE histo(ナカライテスク社製)でRT、60分間ブロッキング処理した。細胞を一次抗体とともに4℃で一晩インキュベートし、次に蛍光タグ付き二次抗体で標識した。DAPI(Thermo Fisher社製)を使用して核を標識した。
細胞の画像は、ハイコンテント共焦点顕微鏡IN Cell Analyzer 6000(GE Healthcare社製)で取得した。免疫細胞化学染色には次の一次抗体を使用した:NANOG(1:100希釈;Abcam社製、ab80892)、TRA1-60(1:400希釈;CST#4746、Danvers、MA)、MAP2(1:4,000希釈;Abcam社製 ab5392)、SATB2(1:400希釈;Abcam社製 EPNCIR130A ab92446)、Alexa488結合抗体(1:400希釈;Thermo fisher社製 A11029)、Alexa488結合抗体(1:400希釈;Thermo fisher社製 A11039)、Alexa594結合抗体(1:400希釈;Thermo fisher社製 A21207)。
[タンパク質濃度の定量化]
 10日目に、分化した神経細胞から総タンパク質のRIPA可溶性画分を抽出し、30μLのRIPAバッファーを添加して96ウェルプレートで培養し、12,000gで30分間遠心分離して上清を回収した。上清のタンパク質濃度は、Pierce BCAタンパク質アッセイキット(Thermo fisher社製)を使用して、キットのマニュアルに従って測定した。
[同定された遺伝子の経路分析]
 市販のIngenuityPathwayAnalysis(IPA、QIAGEN社製、https://www.qiagenbioinformatics.com/)ソフトウェアを使用して、230個の同定された遺伝子(p<5×10-5)の経路分析を実行し、上位のネットワークを分析した。
[アミロイドβ(Aβ)のエレクトロケミルミネッセンスアッセイ]
 8日目にすべての培地を100μLの新鮮な培地と交換した。馴化培地は、10日目に更なる分析のために採取した。培地中のAβ種は、細胞外ヒトAβについてヒト(6E10)Aβ3-Plexキット(Meso Scale Discovery社製)によって測定した。Aβ種の場合、このアッセイでは6E10抗体を使用してAβペプチドを捕捉し、Sector Imager 2400(Meso Scale Discovery社製)を使用したエレクトロケミルミネッセンスで検出するためにSULFO-TAG標識の異なるC末端特異的抗Aβ抗体を使用した。定量化されたAβ値(クローンあたりN=2ウェル)は、神経細胞の総タンパク質濃度を使用して調整され、細胞数の変化に起因するノイズを最小限に抑えて条件を比較した。
[タウタンパク質のエレクトロケミルミネッセンスアッセイ]
 iPS細胞由来の神経細胞から抽出されたRIPAライセート中のタウ種は、キットの説明書に従って、Phospho(Thr231)/Total Tau Kit(Meso Scale Discovery社製)によって測定した。定量化されたタウ値(クローンあたりN=2ウェル)は、神経細胞の総タンパク質濃度を使用して調整され、変更された細胞数に起因するノイズを最小限に抑えて条件を比較した。
[AD患者のSNPジェノタイピング及び多遺伝子性の細胞分析のためのゲノムワイド関連解析(GWAS)]
 キットのマニュアル(イルミナ社製)に従って、102人のAD患者サンプルすべてについてInfinium OmniExpressExome-8v1.4BeadChipで遺伝子型を決定した。アルゴリズムの問題をデータ形式の問題から分離するために、すべての遺伝子型データを、WGSデータからのバリアント呼び出しによって生成されるフォワードストランドGRCh37.p13方向に標準化した。GenomeStudio(イルミナ社製)と品質管理(ハーディー・ワインベルク平衡:p>1.0×10-6;マイナーアレル頻度≧0.01;連鎖不平衡ベースのバリアントプルーニングr2<0.8、ウィンドウサイズ:100kb、ステップサイズ:5)を使用して遺伝子型を決定した後、遺伝子型は、参照パネルとして1,000人ゲノムプロジェクトフェーズ3を使用してminimac4で帰属された。7,349,481個のSNPが、代入後の品質閾値を超えた(r2≧0.3、マイナーアレル頻度≧0.01)。SNPとiPS細胞由来の神経細胞のAβ42/40比蓄積率との線形関連をplink1.9で分析し、APOE-ε4対立遺伝子の発症年齢、性別、遺伝子型を線形回帰モデルの共変量として含めた。p<5×10-5を示唆レベルとして設定し、p<5×10-8を有意水準として関連分析を設定した。サンプルサイズを事前に決定するために統計的手法は使用しなかったが、サンプルサイズは以前の出版物で報告されたものと同様である。
[ADNIデータセットの臨床データの予測]
 大脳皮質の神経細胞におけるAβ42/40蓄積率の結果は、PLINK1.9を使用したLDベースの凝集(r2>0.2、ウィンドウサイズ=1Mb)によって処理された。独立したSNPの中で、ゲノムワイド解析で推奨される閾値レベル(p<5×10-5)を超えるものは496個のSNPであり、予測モデルの変数として使用された。選択された102のAD患者サンプルのSNP遺伝子型マトリックスは、元々0、1、又は2で構成されていたが、正規化され、主成分分析(PCA)によって分析された。
 アルツハイマー病ニューロイメージングイニシアチブ(ADNI)1/GO/2データセットからのサンプルの遺伝子型が収集された(Illumina社製;Omni 2.5MBeadChip)。品質管理とImputationは、同じ条件で遺伝子型データに対して実行された。10,121,962個のSNPの帰属遺伝子型は、ゲノムワイド解析から得られた496個のSNPによってフィルタリングされた。多遺伝子性の細胞分析(CDiP)リストにリストされているがADNIデータセットにはリストされていないSNPの遺伝子型は、AD患者の平均遺伝子型で補完された。次に、ADNIサンプルの表現型を遺伝子型から予測しました。サンプルがADとして妥当な状態に属するか(陽性)、そうでないか(陰性)を予測した。サンプルは、ADNIデータベースで報告された結果に基づく4つの基準に従って、独立して陽性/陰性に分類された。まず、AV45 PETデータからの標準化取込値比(SUVR、参照:小脳参照領域)(>1.1、陽性の閾値);第二に、CSF中のAβ(1-42)(<977pg/mL、陽性の閾値);第三に、CSF中のt-タウ/Aβ(1-42)(>0.27、陽性の閾値);第四に、CSF中のp-タウ/Aβ(1-42)(>0.025、陽性の閾値)。報告されたすべての結果は、ベースラインのADNIMERGEデータセットから取得された。遺伝子型データと表現型データの両方を含むサンプルが研究に含まれた(SUVR AV45:n=512;CSFAβ(1-42)、t-t-tau/Aβ(1-42)、p-tau/Aβ(1-42):n=581)。ADNIサンプルの遺伝子型ベクトルは、院内AD患者の遺伝子型マトリックスから導出された主成分空間にマッピングされた。10分割交差検定を実行した。
 ADNIサンプルは、トレーニングサンプルとテストサンプルに分割された。ランダムフォレスト分類器(100個の推定量)がトレーニングサンプルでトレーニングされ、ターゲット変数(ADのような条件が正/負)が遺伝子型マトリックスと共変量(年齢、性別、APOE-ε4の遺伝子型)の上位3つのPCから予測された。予測のパフォーマンスは、テストサンプルの予測から得られた受信者動作特性(ROC)曲線の曲線下面積(AUC)で評価された。予測パフォーマンスは、ターゲット変数が共変量からのみ予測された場合と比較された。AUC改善の有意性は、ウィルコクソン符号順位検定でテストされた(有意な閾値:p<0.05)。ターゲット変数は、上述した「アルツハイマー病の発症に関する情報」に相当する。
[標的遺伝子のノックダウン]
 6ウェルプレートにウェルあたり3,000,000細胞の初期密度の細胞を5日目に播種した。播種の24時間後(6日目)、培地を1μM AccellSMARTpool siRNA(Horizon Discovery社製)を含む神経基礎培地と交換した。Acell siRNAの効果を最大化するために、iPS細胞由来の神経細胞を6日目から9日目まで72時間培養した。siRNAを添加してから72時間後(9日目)、培養培地を新鮮な1μM AccellSMARTpool siRNA又は1μM JNJ-40418677(Sigma-Aldrich社製)を含む神経基礎培地に交換し、11日目に採取し、Aβ表現型を分析した。
[AD発症に関連するレアバリアントの分析]
 全エクソームシーケンスは、日本のADNIプロジェクトに参加しているAD患者255人と認知的に正常なコントロール152人から得られた407の血液由来ゲノムDNAサンプルで実行された。エキソンシーケンスは、Agilent社製のSureSelect Human All Exonキット(V6)を使用したハイブリダイゼーションによって濃縮され、ペアエンドリードケミストリーを使用してイルミナ社製のHiSeq4000でシーケンスされた。デフォルト設定でBWA-MEMバージョン0.7.15-r1140を使用して、ターゲット領域のショートリードシーケンスをヒトリファレンスゲノム(hg38)にマッピングした。その後の分析(読み取り処理、バリアント呼び出し、及びバリアントフィルタリング)は、GATK4ベストプラクティスの推奨事項に従って実行され、その後、snpEffバージョン4.3tを使用してバリアントアノテーションが実行された。全エクソームシーケンシングによって同定されたすべてのバリアントの中で、非同義、ナンセンス、スプライス部位、挿入又は欠失変異体に焦点を当てた。さらに、これを、公開されているデータベースを使用して、公開されているデータベースでMAF<0.05のバリアントに絞り込んだ:ExACリリース0.3(http://exac.broadinstitute.org/)、エクソーム用のgnomADリリース2.1.1、及びゲノム用のr.3.0(https://gnomad.broadinstitute.org/)、HGVDバージョン2.3(http://www.hgvd.genome.med.kyoto-u.ac.jp/)、並びに、TfoMMoバージョン8.3KJPN(https://jmorp。 megabank.tohoku.ac.jp)。J-ADNI(n=407)及びADNI(n=479)エクソームデータを使用して、RパッケージseqMetaバージョン1.6.7でBurdentestを使用してバリアントの遺伝子ベースの関連解析を実施した。
[データの可用性]
 本試験に使用されたデータは、アルツハイマー病ニューロイメージングイニシアチブ(ADNI)データベース(adni.loni.usc.edu)から取得された。ADNIは、プリンシパルインベスティゲーターのMichael W. Weiner、MDが率いる官民パートナーシップとして、2003年に発足した。ADNIの主な目標は、シリアル磁気共鳴画像法(MRI)、陽電子放出断層撮影(PET)、その他の生物学的マーカー、並びに、臨床的及び神経心理学的評価を組み合わせて、軽度認知障害(MCI)及び早期アルツハイマー病(AD)の進行を測定できるかどうかをテストすることであった。SNPアレイデータは、National Bioscience Database Center(NBDC)(https://humandbs.biosciencedbc.jp/en/、研究ID:hum0314.v1)で入手できる。
[コードの可用性]
 データ管理と分析のすべてのコードは、GitHub(https://github.com/HaruhisaInoue/iSNPs4ADNIpred)にオンラインでアーカイブされている。他の全てのコードは発明者らのサイトで公開されている。
[統計及び再現性]
 ADNIデータセットの臨床データの予測、及びAD発症に関連するレアバリアントの分析を除いて、以下のように統計分析を実施した。全てのデータは平均±S.D.として示されている。再現性を確認するために、2~3回の実験的複製を実施した。データの分散は正常であると想定されていたが、これは正式にはテストされていない。3つ以上のグループ間の平均の比較は、一元配置分散分析(ANOVA)と、それに続くTukeyの複数比較テスト又はUncorrected FisherのLSD(GraphPad Prism 7.0ソフトウェア(GraphPad社製)を使用した事後テスト)によって行われた)。0.05未満のp値は有意であると見なされた。
[実施例1]
 本試験では、ADコホートのiPS細胞から誘導された大脳皮質の神経細胞から放出されたAβを病理学的特性として使用して、ゲノムワイド解析を実施した。次いで、CDiPを実施して、神経細胞特異的な方法で複雑な病態メカニズムを明らかにした。
1.iPS細胞の樹立及びiPS細胞由来の神経細胞におけるAβ表現型の分析
 まず、神経細胞のAD病理を分析するために、孤発性AD(SAD)コホート(N=102)の患者から正常な核型を示すiPS細胞を樹立した。樹立したiPS細胞は、3つすべての胚葉を生成するインビトロでの能力と、ヒトESCと同様のX不活性特異的転写産物(XIST)を示した。
 ヒトNGN2遺伝子の強制発現により、すべてのiPS細胞クローンを大脳皮質の神経細胞に直接分化させた。この分化プロトコルでは、外因性NGN2は8日目以降十分に抑制され、Aβ表現型は8日目から14日目まで一定であった。複雑なADの病理は、GWAS特性の候補となる可能性のある、様々な種類の分子又はAβやタウ等の生物学的イベントで構成されている。AβはADの長期的な病理学的カスケードの開始におけるトリガーイベントであり、認知症を引き起こすため、大脳皮質の神経細胞の病理学的特性にAβを選択した。Aβ40とAβ42をそれぞれ保護的及び毒性のAβとして定量化し、SAD大脳皮質の神経細胞の培養上清中のAβ42/40比を定量化した。
 Aβ産生経路で中心的な役割を果たすAPP及びPSEN1遺伝子は、神経発達、及びヒトiPS細胞からの神経分化傾向に影響を与えることが知られている。したがって、異なる患者のiPS細胞間でAβを評価する場合、神経細胞への分化の均一な純度を維持し、ウェルあたりの神経細胞数の変動を正規化することが重要である。本試験で使用された直接分化法は、均一で高純度の大脳皮質の神経細胞が得られるが、0日目から5日目までの直接転換のストレスのために患者間の神経細胞密度の変動を引き起こし、また、この変動性はAβの量に影響を与えた。ウェルあたりの神経細胞数の変動を正規化するために、ウェル全体の神経細胞から抽出された総タンパク質濃度を使用した。タンパク質濃度の変化は、異なる独立した神経細胞又は患者のウェルあたりの神経細胞数を直線的に反映するためである。
 ゲノム情報との相関を確かめるために、ADの最も強い遺伝的リスクであるAPOE遺伝子型とAβ種の相関を分析したAPOEε4遺伝子型は、他のモダリティによって証明されるように、Aβ42/40比(図3C)と適度に相関し、Aβの量(図3A及び図3B)又はタンパク質濃度(図3D)とは相関しなかった。
 遺伝子組み換え技術を使用した以前の報告では、APOE4対立遺伝子が同一の遺伝的背景を持つiPS細胞由来の神経細胞のAβ表現型に影響を与えることも示されている。しかし、APOE3/3対4/4の異なるSAD集団におけるAβ表現型の変化(本試験では1.09倍の変化)は、ゲノム補正による変化(以前のレポートでは約1.2倍又は2倍の変化)よりも小さかった。(図3C)。
 また、大脳皮質の神経細胞における定量化されたAβ表現型と、発症年齢や性別等の臨床状態との相関関係を分析した。Aβ種の量と比率は、発症年齢(図4A、図4B、及び図4C)、性別(図4D、図4E、及び図4F)とは相関しなかった。
 これらの結果から、SADのAβ表現型がSADの多様なポリジーンアーキテクチャの影響を受けたことが示された。したがって、ADの病理学的特性についてSADの大脳皮質の神経細胞のAβを使用してゲノムワイド解析を実施した。
2.ゲノムワイド解析
 Aβの多遺伝子性を理解するために、病理学的特徴として大脳皮質の神経細胞のAβ42/40比を用いてゲノムワイド解析を実施した。統計分析はAPOEステータスに合わせて調整し、多重検定の誤検出率を適用した。全体的な結果としては、偶然に予想されたものからの大きな偏差を示さず(λ=0.9659)、集団の構造化による検定統計量のバイアス又はインフレの証拠がなかったことを意味した。APOE遺伝子型の影響を推定するために、最初はAPOE遺伝子型を調整せずにCDiPを実施した(図5A)。その結果、rs429358のp値(T/C、APOEε4の遺伝子座)は0.794であり、統計的に有意ではなかった。APOEε4は臨床ADのリスクが高いが、CDiPは、iPS細胞由来の神経細胞の単一細胞型培養におけるAβ42/40比が、APOEε4だけでなく他の複雑な遺伝子セットによって主に影響を受けることを示した。
 従って、APOE遺伝子型を調整してCDiPを実施し(図5B)、24のSNPの遺伝子型及び関連する遺伝子座(「p値<5×10-8」又は「p値<5×10-5である、10を超えるSNPを含む遺伝子座」)であって、変更されたAβ42/40比に関連しているものを特定した。(図5C及び表3-1~表3-77)。表3-1~表3-77中、「chr」は染色体を、「BETA」は偏回帰係数を、「SE」は標準誤差を意味する。以降の表においても同様の意味で使用される。
Figure JPOXMLDOC01-appb-T000174
Figure JPOXMLDOC01-appb-T000175
Figure JPOXMLDOC01-appb-T000176
Figure JPOXMLDOC01-appb-T000177
Figure JPOXMLDOC01-appb-T000178
Figure JPOXMLDOC01-appb-T000179
Figure JPOXMLDOC01-appb-T000180
Figure JPOXMLDOC01-appb-T000181
Figure JPOXMLDOC01-appb-T000182
Figure JPOXMLDOC01-appb-T000183
Figure JPOXMLDOC01-appb-T000184
Figure JPOXMLDOC01-appb-T000185
Figure JPOXMLDOC01-appb-T000186
Figure JPOXMLDOC01-appb-T000187
Figure JPOXMLDOC01-appb-T000188
Figure JPOXMLDOC01-appb-T000189
Figure JPOXMLDOC01-appb-T000190
Figure JPOXMLDOC01-appb-T000191
Figure JPOXMLDOC01-appb-T000192
Figure JPOXMLDOC01-appb-T000193
Figure JPOXMLDOC01-appb-T000194
Figure JPOXMLDOC01-appb-T000195
Figure JPOXMLDOC01-appb-T000196
Figure JPOXMLDOC01-appb-T000197
Figure JPOXMLDOC01-appb-T000198
Figure JPOXMLDOC01-appb-T000199
Figure JPOXMLDOC01-appb-T000200
Figure JPOXMLDOC01-appb-T000201
Figure JPOXMLDOC01-appb-T000202
Figure JPOXMLDOC01-appb-T000203
Figure JPOXMLDOC01-appb-T000204
Figure JPOXMLDOC01-appb-T000205
Figure JPOXMLDOC01-appb-T000206
Figure JPOXMLDOC01-appb-T000207
Figure JPOXMLDOC01-appb-T000208
Figure JPOXMLDOC01-appb-T000209
Figure JPOXMLDOC01-appb-T000210
Figure JPOXMLDOC01-appb-T000211
Figure JPOXMLDOC01-appb-T000212
Figure JPOXMLDOC01-appb-T000213
Figure JPOXMLDOC01-appb-T000214
Figure JPOXMLDOC01-appb-T000215
Figure JPOXMLDOC01-appb-T000216
Figure JPOXMLDOC01-appb-T000217
Figure JPOXMLDOC01-appb-T000218
Figure JPOXMLDOC01-appb-T000219
Figure JPOXMLDOC01-appb-T000220
Figure JPOXMLDOC01-appb-T000221
Figure JPOXMLDOC01-appb-T000222
Figure JPOXMLDOC01-appb-T000223
Figure JPOXMLDOC01-appb-T000224
Figure JPOXMLDOC01-appb-T000225
Figure JPOXMLDOC01-appb-T000226
Figure JPOXMLDOC01-appb-T000227
Figure JPOXMLDOC01-appb-T000228
Figure JPOXMLDOC01-appb-T000229
Figure JPOXMLDOC01-appb-T000230
Figure JPOXMLDOC01-appb-T000231
Figure JPOXMLDOC01-appb-T000232
Figure JPOXMLDOC01-appb-T000233
Figure JPOXMLDOC01-appb-T000234
Figure JPOXMLDOC01-appb-T000235
Figure JPOXMLDOC01-appb-T000236
Figure JPOXMLDOC01-appb-T000237
Figure JPOXMLDOC01-appb-T000238
Figure JPOXMLDOC01-appb-T000239
Figure JPOXMLDOC01-appb-T000240
Figure JPOXMLDOC01-appb-T000241
Figure JPOXMLDOC01-appb-T000242
Figure JPOXMLDOC01-appb-T000243
Figure JPOXMLDOC01-appb-T000244
Figure JPOXMLDOC01-appb-T000245
Figure JPOXMLDOC01-appb-T000246
Figure JPOXMLDOC01-appb-T000247
Figure JPOXMLDOC01-appb-T000248
Figure JPOXMLDOC01-appb-T000249
Figure JPOXMLDOC01-appb-T000250
 ゲノムワイド関連解析において最も高いSNPとして、2Bを含むDENNドメイン(DENND2B)のイントロンSNPである、染色体11のrs34033747が特定された(p値=1.91×10-9)(表4)。なお、表4中、「Allele」の内、左側は基本アレル/右側はマイナーアレル(変異型アレル)を、「Gene ID」はNCBIが定義する遺伝子一つ一つにあてがわれたIDを意味する。以降の表においても同様の意味で使用される。
Figure JPOXMLDOC01-appb-T000251
 CUL1、QRFP、CTNNA3、DAB1、及びDCCを含む5つの遺伝子座及び関連遺伝子が、Aβ産生に関連していることが知られていた。さらに、MAGI1、TMTC1、TRPM1、KCNMA1、DAB1、CPXM2、ROBO2、及びANO3を含む8つの遺伝子座及び関連遺伝子が、臨床GWASのAD関連遺伝子座、又は臨床バイオマーカーとして報告されている。12の遺伝子座及び関連遺伝子は、Aβ又はAD関連遺伝子として新規であった(表5-1~表5-2)。表5-1~表5-2中、「EOAD」は早発性アルツハイマー病を、「LOAD」は遅発性アルツハイマー病を、「CNV」はコピー数多型を、「OR」はオッズ比を意味する。また、項目「Brain」における「yes」は脳内での高発現を意味し、「low」は脳内での発現が低いことを意味し、「nd」はGTExポータル(https://gtexportal.org/home/)にデータがないことを意味する。また、項目「Brain cell-type」では、Brain RNA-Seqポータル(https://www.brainrnaseq.org/)で遺伝子の高発現を示した上位3つの細胞型を記載している。以降の表においても同様の意味で使用される。
Figure JPOXMLDOC01-appb-T000252
Figure JPOXMLDOC01-appb-T000253
 さらに、同定された遺伝子のほとんどは脳で発現され(GTExポータル、https://gtexportal.org/home/)、19個の遺伝子は神経細胞で高度に発現される(脳RNA-Seqポータル、https://www.brainrnaseq.org/)(表5-1~表5-2)。偏りのない経路分析により、「カルシウムシグナル伝達経路」が最上位の標準経路として特定された(p値=2.51×10-5)(図5C)。これらのネットワークは、Aβ代謝を変化させることが知られている。これらの結果から、上述のポリジーンアーキテクチャの分析によって特定されたSNP及び関連遺伝子が、AD病理の細胞型特異的特性として大脳皮質の神経細胞のAβ42/40比及びアルツハイマー病に寄与することが証明された。
 さらに、N末端から231番目のスレオニンがリン酸化されたタウであるp231-タウはADの診断又は進行の追跡のための高感度マーカーであることから、p231-タウ/総タウ比(p231-タウ比)を定量化して、CDiPにp231-タウ比を適用した。APOEε4遺伝子型、性別、及びADの発症年齢は、p231-タウ比と相関しなかった(図6A、図6B、及び図6C)。APOE遺伝子型の調整の有無にかかわらず、形質としてp231-タウ比を使用してCDiPを実施し(図6D、及び図6E)、SNP及び関連する遺伝子座を特定した(p値<5×10-5)(表6及び表7-1~表7-9)。最も低いp値を示したSNPは、炎症関連分子であるTNFAIP8遺伝子座のrs68888116(p=1.24×10-6)であった(表6)。表6中、「insATCT」は、ATCTCAG(A)12TTCTCTATCT(配列番号3)が挿入されていることを意味する。
Figure JPOXMLDOC01-appb-T000254
Figure JPOXMLDOC01-appb-T000255
Figure JPOXMLDOC01-appb-T000256
Figure JPOXMLDOC01-appb-T000257
Figure JPOXMLDOC01-appb-T000258
Figure JPOXMLDOC01-appb-T000259
Figure JPOXMLDOC01-appb-T000260
Figure JPOXMLDOC01-appb-T000261
Figure JPOXMLDOC01-appb-T000262
Figure JPOXMLDOC01-appb-T000263
3.治療標的遺伝子の同定
 Aβ表現型とCDiPで同定された24遺伝子との直接的な相互作用を証明するために、同定された遺伝子をノックダウンした場合のAβ種を定量化した(図7A、図7B、図7C、及び図7D)。Aβ産生の重要な成分であるアミロイド前駆体タンパク質(APP)又はβ部位APP切断酵素1(BACE1)の発現を抑制すると、予想通りAβの量が減少した(図7B、及び図7C)。CDiPで同定された24個の遺伝子のうち8個をノックダウンすると、Aβ42/40比が大幅に変化した(図7A)。特に、Aβ42/40比の低下が最も大きい上位3つの標的遺伝子であるCTNNA3、ANO3、及びCSMD1に焦点を当てた。Aβ量に関しては、CDiPで同定された24個の遺伝子のうち23個のノックダウンにより、Aβ42又はAβ40の量が変化した(図7B、及び図7C)。神経細胞の密度の変化はAβ42の量に影響を与える必要があるため、焦点を当てる遺伝子を選択する前に、siRNA処理後のタンパク質濃度を定量化した(図7D)。その結果、以前に報告されたように、QRFPR、INFLR1、ZNRF2、ROBO2、DCC、及びAPPのノックダウンにより総タンパク質濃度が低下することが確かめられた。従って、Aβ42量に影響を及ぼす候補遺伝子から、ZNRF2、INFLR1、DCC、及びAPPを除外した。その後、Aβ42量の減少が最も大きい上位3つの標的遺伝子であるZFPM2、TMTC1、及びKCNMA1に焦点を当てた。
 ノックアウト療法の潜在的なターゲットを絞り込むには、AD患者の脳の神経細胞で発現が上昇している遺伝子を選択する必要がある。AD患者の神経細胞における着目した遺伝子の発現状態を調べるために、6つのAD患者の脳と6つのコントロールの脳の大脳皮質の単一細胞ベースのトランスクリプトームデータを利用した。これは、ニューロン、アストロサイト、オリゴデンドロサイト前駆細胞、オリゴデンドロサイト、ミクログリア、及び内皮細胞を含む個々の細胞型のトランスクリプトームデータを提供している。特にニューロンにおける、Aβ42/40比に対するCTNNA3、ANO3、及びCSMD1、Aβ42に対するZFPM2、TMTC1、及びKCNMA1等の焦点を絞った遺伝子の平均発現をプロットした(図7E及び図7F)。その結果、CTNNA3、ANO3、及びKCNMA1の発現が、AD患者の脳でより高いことが明らかとなった。
 以上の結果から、Aβ42/40比に対するCTNNA3、及びANO3、並びに、Aβ42量に対するKCNMA1は、ADの潜在的な治療標的となる可能性があると結論付けた(図7G)。
 CTNNA3がコードするタンパク質は細胞間接着の役割を果たし、CTNNA3の変異は、カリウムやカルシウム等の電解質の取り扱いの誤りによって引き起こされる家族性不整脈源性右室異形成を引き起こす。
 KCNMA1がコードするタンパク質は、平滑筋緊張とニューロンの興奮性を調節する電圧及びカルシウム感受性カリウムチャネル(KCa1.1)で構成されている。KCa1.1はクロモリンの標的として知られており、興味深いことにADの第III相試験でテストされる。
 ANO3がコードするタンパク質は、小胞体依存性カルシウムシグナル伝達において機能することが報告されており、ANO3変異は、ニューロンの異常な興奮性を介して家族性ジストニア24型を引き起こす。
 これらの結果から、同定された治療標的は、カルシウムの取り扱い及び興奮性、Aβ調節の重要な経路に関与している可能性がある。
 要約すると、ADの複雑な細胞型を大脳皮質の神経細胞で分析し、神経細胞特異的なAβ及びタウの表現型をADの病理学的特性として設定することにより、ゲノムワイドな分析を実施した。その結果、CDiPにより、ADの疾患病態メカニズムの背後にあるポリジーンアーキテクチャに部分的に寄与する遺伝子型セットが明らかにされた。
 なお、上記で同定された24遺伝子のうち、11遺伝子はこれまでADのとの関係性が未報告の新規AD関連遺伝子である。これらの遺伝子がこれまで見いだせなかったのは、clinical GWASだけでは多様な交絡因子がノイズとなったためと考えられる。
[実施例2]
(cell GWASから得たポリジーンデータセットによるAD発症予測)
 次に、この研究でiPS細胞樹立のためにPBMCを提供した患者の脳におけるAβ沈着のPETイメージングからなるinvitroデータセットとリアルワールドデータとの類似性を評価した。大脳皮質の神経細胞における定量化されたAβ表現型と、ピッツバーグ化合物-B(PiB)-PETイメージングによって測定された脳のAβ沈着との相関関係を分析した。しかし、発症年齢もAβ表現型も脳のAβ沈着と相関していなかった(図8A、図8B、図8C、及び図8D)。
 これらの結果から、遺伝情報のない単純な定量化された疾患表現型は、リアルワールドデータを反映できないことを確認した。
 従って、これらの遺伝子型セットを使用して、独立したADコホートからリアルワールドビッグデータを予測できるかどうかを調べた。
 アルツハイマー病ニューロイメージングイニシアチブ(ADNI)のデータベースを利用した。これには、ゲノム全体の遺伝子型、脳Aβ沈着(AV45-PET)、脳脊髄液(CSF)中のAβ42量、CSF中の総タウ(t-タウ)量、CSF中のリン酸化タウ(p-タウ)量が含まれる。まず、年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型からなる共変量のみ、又は共変量と遺伝子型セットを使用して、脳のAβ沈着の陽性の予測を試みた。年齢、性別、及びAPOE-ε4対立遺伝子の遺伝子型からなる共変量のみ、又は共変量と特定された遺伝子型セットを使用して、脳のAβ沈着の陽性を予測する機械学習モデルを確立した。訓練されたモデルを使用して、脳のAβ沈着の予測を試みて、2つの異なるモデル間の曲線下面積(AUC)を比較した。共変量と遺伝子型セットによるAUC(AUC=0.76)は、共変量のみによるAUC(AUC=0.66)よりも統計的に高かった(図9A)。同様に、共変量と遺伝子型のセットは、共変量のみと比較して、CSF中のAβ42量の減少を有意に高い精度で予測できた(図9B)。ただし、CSF中のt-タウ量又はCSF中のp-タウ量を予測する場合、共変量と共変量及び遺伝子型セットのAUCの間に有意差はなかった(図9C及び図9D)。
 以上の結果から、CDiPによって特定された遺伝子型セットを使用して、ADの実際の臨床データを予測することができた。また、孤発性AD患者のSNP情報を用いて、脳内Aβの蓄積が生じるかどうかの予測を、AUC=0.76±0.050の精度で実施可能であった(図9A)。孤発性AD患者のSNP情報を用いて、脳脊髄液内Aβの異常検査値が生じるかどうかの予測を、AUC=0.73±0.059の精度で実施可能であった(図9B)。これら、脳内Aβの蓄積及び脳脊髄液内Aβの異常検査値は、臨床的なADの診断とほぼ一致するため、本実施形態の情報処理方法を用いた予測も概ねAUCが0.73以上0.76以下の精度と外挿してみなすことができる。
[実施例3]
(cell GWASによるレアバリアントの発見)
 システムの実際の臨床データへの更なる適用性を確認するために、同定された遺伝子セットがSADを形成したかどうかを調べた。今回の試験でレアバリアントとして同定された遺伝子の関連性を調べた。これらは、低頻度であるが、ADの発症におけるマイナーな要因であることが知られている。
 日本のアルツハイマー病ニューロイメージングイニシアチブ(J-ADNI)からのゲノムワイドなエクソームデータを使用して、同定された遺伝子座のレアバリアントを調べた。健康なドナー(N=152)とSADの患者(N=255)からのエクソームデータを調査することによって、Aβ42/40比に関連する、24の遺伝子座のレアバリアントを調査した。KCNMA1のレアバリアントは、ADとの関係を示した(p=0.032、オッズ比=1.45)(表8)。表8中において、「p」は総和検定からのp値を、「se」は遺伝子型の影響に関連するおおよその標準誤差を、「cmafTotal」は遺伝子の累積マイナーアレル頻度を、「cmafUsed」は分析に使用されたSNPの累積マイナーアレル頻度を、「nsnpsTotal」は遺伝子内のSNPs数を、「nsnpsUsed」は分析で使用されたSNPs数を、「nmiss」は欠落しているSNPs数を意味する。単一のSNPを持つ遺伝子の場合、「nmiss」は、そのSNPの結果が報告されなかった試験のため、分析に寄与しない個人の数である。複数のSNPを持つ遺伝子の場合、遺伝子全体で合計される。以降の表においても同様の意味で使用される。
Figure JPOXMLDOC01-appb-T000264
 異なるコホート及び異なる民族におけるレアバリアントの再現性を確認するために、メタ分析を実施して24の遺伝子座のレアバリアントを調査し、J-ADNIとUS-ADNIのメタ分析によってKCNMA1遺伝子座のレアバリアントを再度特定した(p=0.010、オッズ比=1.49)(表9)。
Figure JPOXMLDOC01-appb-T000265
 これらの結果から、同定された遺伝子セットが、SADの発症の素因を解明するために適用可能であることが示された。また、cell GWASで得られたADの遺伝的背景の理解により、臨床上は均質なAD患者群の中から遺伝情報に基づいて特定の集団を抽出でき、ADのより詳細な区分(すなわち、層別化)にもつながることが示された。
[考察]
 今回の試験では、リスクSNP、SNPが位置する遺伝子、及び大脳皮質の神経細胞でのAβ産生に影響を与える分子経路が特定された。実際に、CDiPによって同定された24の遺伝子のうち5つ、すなわちTMTC1、CTNNA3、KCNMA1、CPXM2、及びANO3は、疾患の発症又は脳のAβ沈着を伴う臨床データに基づく臨床ゲノムワイド研究の報告された結果と一致していた。(上記表5-1~表5-2参照)。この利点は、Aβ産生のリソースとして機能する主要な細胞型である大脳皮質の神経細胞の均一な集団を使用したという事実に起因する可能性がある。
 今回の試験で新たに同定された遺伝子(表4)は、ADの病因において極めて重要な役割を果たすだけでなく、潜在的なバイオマーカー及び治療標的の候補を表す可能性がある。今回提示したシステムを拡張するために、AD病理学における他の種類の神経表現型をCDiPに適用して、シナプス喪失、神経細胞死、薬物反応、環境ストレスに対する脆弱性等、各形質に固有の遺伝的背景を特定できる。さらに、グリア細胞や細胞型特異的病理等の可変細胞型の新しい組み合わせにより、臨床GWASで隠されていた分子病理の新しい遺伝的構造が明らかになる。
 最近の研究では、ADは多様な細胞型の病状の総和であるという概念が強調されている。今回の試験と同様のアイデアに基づいて、剖検AD脳からの単一核トランスクリプトームは、さまざまな細胞型の遺伝子発現に関する情報を提供した。しかし、剖検された脳サンプルに基づくそのようなアプローチは、何十年も変化し続けていたAD病理学の末期のスナップショットを撮ることができる。対照的に、CDiPは、細胞型特異性を備えた分離AD病理を調査でき、ゲノムワイド研究のノイズとなる可能性のある交絡因子なしでベースライン状態をモデル化することもできる。CDiPの制限は、CDiPが単一細胞型からなる2D単層培養に基づいていることである。さまざまな細胞型間の細胞相互作用を理解するために、CDiPとAD患者の剖検脳からの単一核トランスクリプトームの組み合わせは、今回の試験で提示されたADの多遺伝子性を調査するための最も重要なツールの2つである可能性がある(図8B及び図8C)。
 さらに、ニューロンを用いたCDiPは、Aβ表現型に関連するレアバリアントと潜在的な治療標的を特定した。一方、タウ表現型に関連するSNPは、より中程度の統計的に有意な相関を示した。Aβとタウのこの違いから、Aβの病理が主にニューロンの多遺伝子性に基づいているのに対し、タウの病理はニューロン以外の複数のタイプの細胞のみで構成されている可能性があることが示された。
 実際に、以前の報告では、炎症状態とミクログリア及びアストロサイトとの脳ネットワークがタウの病理を加速することが示されていた。さらに、APOEがAβ病理とは独立してタウ病理を調節することを示唆する臨床的証拠がある。ニューロンを用いたCDiPは、Aβとタウの病理との間の不連続性の1つの側面を示唆している可能性がある。
 将来的には、これらの細胞型特異的分析アプローチによって得られた遺伝的背景の統合された包括的な理解が、ADの複雑な病因のより良い理解につながることが期待される。
 今回の試験では、CDiPによって、ADのリアルワールドデータを予測し、レアバリアントが関連したADを層別化し、CTNNA3、ANO3、及びKCNMA1を潜在的な治療標的として特定した。CDiPは、病理学的表現型を隠れた遺伝子型と関連付けるためのスクリーニングツールとして役立つ。一方、さまざまな細胞型で構成され、数十年にわたって完成する実際のAD病理に適応するために、マウスモデルや患者標本等の様々なモダリティを使用して証拠を蓄積することも重要である。CDiPは、疾患標的細胞における多遺伝子性及び形質の合計からなる、複雑な病理を理解するための手がかりを提供し、精密医療への道を切り開く。
 本実施形態の情報処理方法、情報処理装置、及びプログラムによれば、被験者におけるADの発症リスクを予測することができる。
 100…情報処理装置、110…検出部、120…処理部、121…取得部、122…特徴量変換部、123…判定部、124…出力制御部、125…学習部、130…記憶部、131…モデル情報。

Claims (8)

  1.  被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する工程1と、
     アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する工程2と、
    を含む、情報処理方法。
  2.  前記機械学習モデルは、複数の分類器を含むランダムフォレストであり、
     各分類器は、前記複数のトレーニングデータセットのうち、前記アルツハイマー病を発症した患者の属性情報及び遺伝子情報の中の主成分情報を基に選択された特定のトレーニングデータセットを用いて学習される、請求項1に記載の情報処理方法。
  3.  前記複数のトレーニングデータセットには、遺伝子型インピュテーションを用いて前記第2のSNPから推定された前記第2のSNPの帰属遺伝子型に対して、アルツハイマー病の発症に関する情報がラベル付けられたデータセットが含まれる、請求項1又は2に記載の情報処理方法。
  4.  前記変異が表1-1~表1-77に記載された1種以上の変異である、請求項1又は2に記載の情報処理方法。
    Figure JPOXMLDOC01-appb-T000001
    Figure JPOXMLDOC01-appb-T000002
    Figure JPOXMLDOC01-appb-T000003
    Figure JPOXMLDOC01-appb-T000004
    Figure JPOXMLDOC01-appb-T000005
    Figure JPOXMLDOC01-appb-T000006
    Figure JPOXMLDOC01-appb-T000007
    Figure JPOXMLDOC01-appb-T000008
    Figure JPOXMLDOC01-appb-T000009
    Figure JPOXMLDOC01-appb-T000010
    Figure JPOXMLDOC01-appb-T000011
    Figure JPOXMLDOC01-appb-T000012
    Figure JPOXMLDOC01-appb-T000013
    Figure JPOXMLDOC01-appb-T000014
    Figure JPOXMLDOC01-appb-T000015
    Figure JPOXMLDOC01-appb-T000016
    Figure JPOXMLDOC01-appb-T000017
    Figure JPOXMLDOC01-appb-T000018
    Figure JPOXMLDOC01-appb-T000019
    Figure JPOXMLDOC01-appb-T000020
    Figure JPOXMLDOC01-appb-T000021
    Figure JPOXMLDOC01-appb-T000022
    Figure JPOXMLDOC01-appb-T000023
    Figure JPOXMLDOC01-appb-T000024
    Figure JPOXMLDOC01-appb-T000025
    Figure JPOXMLDOC01-appb-T000026
    Figure JPOXMLDOC01-appb-T000027
    Figure JPOXMLDOC01-appb-T000028
    Figure JPOXMLDOC01-appb-T000029
    Figure JPOXMLDOC01-appb-T000030
    Figure JPOXMLDOC01-appb-T000031
    Figure JPOXMLDOC01-appb-T000032
    Figure JPOXMLDOC01-appb-T000033
    Figure JPOXMLDOC01-appb-T000034
    Figure JPOXMLDOC01-appb-T000035
    Figure JPOXMLDOC01-appb-T000036
    Figure JPOXMLDOC01-appb-T000037
    Figure JPOXMLDOC01-appb-T000038
    Figure JPOXMLDOC01-appb-T000039
    Figure JPOXMLDOC01-appb-T000040
    Figure JPOXMLDOC01-appb-T000041
    Figure JPOXMLDOC01-appb-T000042
    Figure JPOXMLDOC01-appb-T000043
    Figure JPOXMLDOC01-appb-T000044
    Figure JPOXMLDOC01-appb-T000045
    Figure JPOXMLDOC01-appb-T000046
    Figure JPOXMLDOC01-appb-T000047
    Figure JPOXMLDOC01-appb-T000048
    Figure JPOXMLDOC01-appb-T000049
    Figure JPOXMLDOC01-appb-T000050
    Figure JPOXMLDOC01-appb-T000051
    Figure JPOXMLDOC01-appb-T000052
    Figure JPOXMLDOC01-appb-T000053
    Figure JPOXMLDOC01-appb-T000054
    Figure JPOXMLDOC01-appb-T000055
    Figure JPOXMLDOC01-appb-T000056
    Figure JPOXMLDOC01-appb-T000057
    Figure JPOXMLDOC01-appb-T000058
    Figure JPOXMLDOC01-appb-T000059
    Figure JPOXMLDOC01-appb-T000060
    Figure JPOXMLDOC01-appb-T000061
    Figure JPOXMLDOC01-appb-T000062
    Figure JPOXMLDOC01-appb-T000063
    Figure JPOXMLDOC01-appb-T000064
    Figure JPOXMLDOC01-appb-T000065
    Figure JPOXMLDOC01-appb-T000066
    Figure JPOXMLDOC01-appb-T000067
    Figure JPOXMLDOC01-appb-T000068
    Figure JPOXMLDOC01-appb-T000069
    Figure JPOXMLDOC01-appb-T000070
    Figure JPOXMLDOC01-appb-T000071
    Figure JPOXMLDOC01-appb-T000072
    Figure JPOXMLDOC01-appb-T000073
    Figure JPOXMLDOC01-appb-T000074
    Figure JPOXMLDOC01-appb-T000075
    Figure JPOXMLDOC01-appb-T000076
    Figure JPOXMLDOC01-appb-T000077
  5.  前記変異が表2-1~表2-9に記載された1種以上の変異を更に含む、請求項4に記載の情報処理方法。
    Figure JPOXMLDOC01-appb-T000078
    Figure JPOXMLDOC01-appb-T000079
    Figure JPOXMLDOC01-appb-T000080
    Figure JPOXMLDOC01-appb-T000081
    Figure JPOXMLDOC01-appb-T000082
    Figure JPOXMLDOC01-appb-T000083
    Figure JPOXMLDOC01-appb-T000084
    Figure JPOXMLDOC01-appb-T000085
    Figure JPOXMLDOC01-appb-T000086
  6.  被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する検出部と、
     アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する判定部と、
    を備える、情報処理装置。
  7.  コンピュータに、
     被験者由来のゲノムDNA試料において、アルツハイマー病関連遺伝子の変異である第1のSNPを検出する工程1と、
     アルツハイマー病を発症した患者由来のゲノムDNA試料において検出された前記アルツハイマー病関連遺伝子の変異である第2のSNPに対して、アルツハイマー病の発症に関する情報がラベル付けられた複数のトレーニングデータセットを基に学習された機械学習モデルを用いて、前記第1のSNPから、前記被験者がアルツハイマー病を発症するか否かを判定する工程2と、
    を実行させるためのプログラム。
  8.  請求項1に記載の情報処理方法を用いる、アルツハイマー病の発症リスクの予測方法。
PCT/JP2022/017576 2021-04-13 2022-04-12 情報処理方法、情報処理装置、及びプログラム WO2022220236A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CA3214838A CA3214838A1 (en) 2021-04-13 2022-04-12 Information processing method, information processing device, and program
CN202280028249.6A CN117136234A (zh) 2021-04-13 2022-04-12 信息处理方法、信息处理装置以及程序
EP22788161.2A EP4324922A1 (en) 2021-04-13 2022-04-12 Information processing method, information processing device, and program
JP2023514652A JPWO2022220236A1 (ja) 2021-04-13 2022-04-12

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US202163174500P 2021-04-13 2021-04-13
US63/174,500 2021-04-13

Publications (1)

Publication Number Publication Date
WO2022220236A1 true WO2022220236A1 (ja) 2022-10-20

Family

ID=83640074

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/017576 WO2022220236A1 (ja) 2021-04-13 2022-04-12 情報処理方法、情報処理装置、及びプログラム

Country Status (5)

Country Link
EP (1) EP4324922A1 (ja)
JP (1) JPWO2022220236A1 (ja)
CN (1) CN117136234A (ja)
CA (1) CA3214838A1 (ja)
WO (1) WO2022220236A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178167A1 (en) * 2018-03-13 2019-09-19 I2Dx, Inc. Electronic delivery of information in personalized medicine
WO2019199105A1 (ko) * 2018-04-13 2019-10-17 사회복지법인 삼성생명공익재단 알츠하이머성 치매가 발병될 가능성 평가방법
WO2020067386A1 (ja) * 2018-09-26 2020-04-02 味の素株式会社 軽度認知障害の評価方法、算出方法、評価装置、算出装置、評価プログラム、算出プログラム、記録媒体、評価システムおよび端末装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178167A1 (en) * 2018-03-13 2019-09-19 I2Dx, Inc. Electronic delivery of information in personalized medicine
WO2019199105A1 (ko) * 2018-04-13 2019-10-17 사회복지법인 삼성생명공익재단 알츠하이머성 치매가 발병될 가능성 평가방법
WO2020067386A1 (ja) * 2018-09-26 2020-04-02 味の素株式会社 軽度認知障害の評価方法、算出方法、評価装置、算出装置、評価プログラム、算出プログラム、記録媒体、評価システムおよび端末装置

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
"Current Protocols in Molecular Biology", 1987, JOHN WILEY&SONS
"DNA Cloning 1", 1995, OXFORD UNIVERSITY, article "Core Techniques, A Practical Approach"
"Molecular Cloning, A Laboratory Manual", 2001, COLD SPRING HARBOR PRESS, pages: 6 - 7
HIGUCHI, YO; IKEUCHI, TAKESHI: "The role of genetics in dementia prevention", GERIATRICS, vol. 2, no. 4, 1 January 2020 (2020-01-01), pages 441 - 446, XP009540578, ISSN: 2435-1881 *
IKEUCHI, TAKESHI: "4 Perspective on precision medicine in Alzheimer's disease", PRECISION MEDICINE, vol. 1, no. 3, 1 December 2018 (2018-12-01), pages 21 (255) - 25 (259), XP009540475, ISSN: 2434-3625 *
INOUE, HARUHISA; KONDO, TAKAYUKI: "Improving QOL in a super-aging society by developing Alzheimer's disease risk prediction technology 2018", RESEARCH PAPERS OF THE SUZUKEN MEMORIAL FOUNDATION, vol. 37, 1 January 2020 (2020-01-01), pages 61 - 64, XP009540573, ISSN: 2185-2561 *
KONDO TAKAYUKI, HARA NORIKAZU, KOYAMA SATOSHI, YADA YUICHIRO, TSUKITA KAYOKO, NAGAHASHI AYAKO, IKEUCHI TAKESHI, ISHII KENJI, ASADA: "Dissection of the polygenic architecture of neuronal Aβ production using a large sample of individual iPSC lines derived from Alzheimer’s disease patients", NATURE AGING, vol. 2, no. 2, 1 February 2022 (2022-02-01), pages 125 - 139, XP055977106, DOI: 10.1038/s43587-021-00158-9 *
LEE, SEONG-WHAN ; LI, STAN Z: "SAT 2015 18th International Conference, Austin, TX, USA, September 24-27, 2015", vol. 8213 Chap.10, 3 November 2013, SPRINGER , Berlin, Heidelberg , ISBN: 3540745491, article ARAÚJO GILDERLANIO S.; SOUZA MANUELA R.; OLIVEIRA JOÃO RICARDO; COSTA IVAN G. : "Random Forest and Gene Networks for Association of SNPs to Alzheimer’s Dis", pages: 104 - 115, XP047043142, 032548, DOI: 10.1007/978-3-319-02624-4_10 *
SIMS R ET AL.: "The multiplex model of the genetics of Alzheimer's disease", NATURE NEUROSCIENCE, vol. 23, 2020, pages 311 - 322, XP037055483, DOI: 10.1038/s41593-020-0599-5
THANH-TUNG NGUYEN;JOSHUA ZHEXUE HUANG;QINGYAO WU;THUY THI NGUYEN;MARK JUNJIE LI: "Genome-wide association data classification and SNPs selection using two-stage quality-based Random Forests", BMC GENOMICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 16, no. Suppl 2, 21 January 2015 (2015-01-21), London, UK , pages S5, XP021209050, ISSN: 1471-2164, DOI: 10.1186/1471-2164-16-S2-S5 *

Also Published As

Publication number Publication date
JPWO2022220236A1 (ja) 2022-10-20
EP4324922A1 (en) 2024-02-21
CA3214838A1 (en) 2022-10-20
CN117136234A (zh) 2023-11-28

Similar Documents

Publication Publication Date Title
Erwood et al. Saturation variant interpretation using CRISPR prime editing
US11788142B2 (en) Compositions and methods for discovery of causative mutations in genetic disorders
Glahn et al. Arguments for the sake of endophenotypes: examining common misconceptions about the use of endophenotypes in psychiatric genetics
Hoischen et al. Prioritization of neurodevelopmental disease genes by discovery of new mutations
Zilberman et al. Genome-wide analysis of DNA methylation patterns
Solomon The etiology of VACTERL association: Current knowledge and hypotheses
Holm et al. A rare variant in MYH6 is associated with high risk of sick sinus syndrome
Townsley et al. Massively parallel techniques for cataloguing the regulome of the human brain
Maia et al. Intellectual disability genomics: current state, pitfalls and future challenges
Shinozaki et al. New developments in the genetics of bipolar disorder
Ohnmacht et al. Missing heritability in Parkinson’s disease: the emerging role of non-coding genetic variation
García-Pérez et al. Epigenomic profiling of primate lymphoblastoid cell lines reveals the evolutionary patterns of epigenetic activities in gene regulatory architectures
Paris et al. Sex bias and maternal contribution to gene expression divergence in Drosophila blastoderm embryos
WO2020061072A1 (en) Method of characterizing a neurodegenerative pathology
Gokoolparsadh et al. Searching for convergent pathways in autism spectrum disorders: insights from human brain transcriptome studies
Spielmann et al. Computational and experimental methods for classifying variants of unknown clinical significance
Shen et al. Hybrid mice reveal parent-of-origin and cis-and trans-regulatory effects in the retina
Pagni et al. Non‐coding regulatory elements: Potential roles in disease and the case of epilepsy
Han et al. Transposable element profiles reveal cell line identity and loss of heterozygosity in Drosophila cell culture
Mo et al. Detection of lncRNA-mRNA interaction modules by integrating eQTL with weighted gene co-expression network analysis
Šerý et al. Perspectives in genetic prediction of Alzheimer’s disease
WO2015166912A1 (ja) 遺伝性疾患の検出方法
Han et al. Integrating brain methylome with GWAS for psychiatric risk gene discovery
WO2022220236A1 (ja) 情報処理方法、情報処理装置、及びプログラム
Wernerfelt et al. Arginine vasopressin 1a receptor (AVPR1a) RS3 repeat polymorphism associated with entrepreneurship

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22788161

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023514652

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 3214838

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 18554514

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2022788161

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022788161

Country of ref document: EP

Effective date: 20231113