WO2022131328A1 - 多型座位の信号の信頼性値の算出方法 - Google Patents
多型座位の信号の信頼性値の算出方法 Download PDFInfo
- Publication number
- WO2022131328A1 WO2022131328A1 PCT/JP2021/046513 JP2021046513W WO2022131328A1 WO 2022131328 A1 WO2022131328 A1 WO 2022131328A1 JP 2021046513 W JP2021046513 W JP 2021046513W WO 2022131328 A1 WO2022131328 A1 WO 2022131328A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- nucleic acid
- allele
- polymorphic
- component signal
- data set
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 373
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 611
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 571
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 571
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 238000000611 regression analysis Methods 0.000 claims abstract description 33
- 108700028369 Alleles Proteins 0.000 claims description 367
- 230000006870 function Effects 0.000 claims description 301
- 230000002068 genetic effect Effects 0.000 claims description 131
- 238000012360 testing method Methods 0.000 claims description 118
- 230000007717 exclusion Effects 0.000 claims description 102
- 210000000056 organ Anatomy 0.000 claims description 82
- 206010028980 Neoplasm Diseases 0.000 claims description 76
- 201000011510 cancer Diseases 0.000 claims description 75
- 240000002853 Nelumbo nucifera Species 0.000 claims description 54
- 235000006508 Nelumbo nucifera Nutrition 0.000 claims description 54
- 235000006510 Nelumbo pentapetala Nutrition 0.000 claims description 54
- 238000004364 calculation method Methods 0.000 claims description 46
- 230000001605 fetal effect Effects 0.000 claims description 38
- 230000035772 mutation Effects 0.000 claims description 35
- 238000000513 principal component analysis Methods 0.000 claims description 35
- 210000003754 fetus Anatomy 0.000 claims description 31
- 238000003860 storage Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 27
- 238000012544 monitoring process Methods 0.000 claims description 25
- 239000002773 nucleotide Substances 0.000 claims description 21
- 125000003729 nucleotide group Chemical group 0.000 claims description 20
- 238000005259 measurement Methods 0.000 claims description 19
- 239000002131 composite material Substances 0.000 claims description 16
- 238000007847 digital PCR Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 10
- 238000002493 microarray Methods 0.000 claims description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 8
- 238000010168 coupling process Methods 0.000 claims description 8
- 238000005859 coupling reaction Methods 0.000 claims description 8
- 201000010099 disease Diseases 0.000 claims description 8
- 238000012300 Sequence Analysis Methods 0.000 claims description 7
- 238000003753 real-time PCR Methods 0.000 claims description 7
- 125000003903 2-propenyl group Chemical group [H]C([*])([H])C([H])=C([H])[H] 0.000 claims description 5
- 238000004949 mass spectrometry Methods 0.000 claims description 5
- 241000282412 Homo Species 0.000 claims description 2
- 239000000470 constituent Substances 0.000 abstract 2
- -1 cffDNA Chemical class 0.000 abstract 1
- 239000000203 mixture Substances 0.000 abstract 1
- 239000000523 sample Substances 0.000 description 149
- 108020004414 DNA Proteins 0.000 description 37
- 210000004027 cell Anatomy 0.000 description 21
- 238000009826 distribution Methods 0.000 description 16
- 210000004369 blood Anatomy 0.000 description 15
- 239000008280 blood Substances 0.000 description 15
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 9
- 108091092259 cell-free RNA Proteins 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000011109 contamination Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 7
- 239000006185 dispersion Substances 0.000 description 6
- 230000008774 maternal effect Effects 0.000 description 6
- 210000002200 mouth mucosa Anatomy 0.000 description 5
- 102000054765 polymorphisms of proteins Human genes 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 210000002381 plasma Anatomy 0.000 description 4
- 240000007594 Oryza sativa Species 0.000 description 3
- 235000007164 Oryza sativa Nutrition 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003205 genotyping method Methods 0.000 description 3
- 230000035935 pregnancy Effects 0.000 description 3
- 238000009598 prenatal testing Methods 0.000 description 3
- 235000009566 rice Nutrition 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000007403 mPCR Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 238000002054 transplantation Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 206010000234 Abortion spontaneous Diseases 0.000 description 1
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000013566 allergen Substances 0.000 description 1
- 208000033571 alveolar capillary dysplasia with misalignment of pulmonary veins Diseases 0.000 description 1
- 238000002669 amniocentesis Methods 0.000 description 1
- 238000011394 anticancer treatment Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 230000030833 cell death Effects 0.000 description 1
- 230000035606 childbirth Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002299 complementary DNA Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000975 dye Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 125000005842 heteroatom Chemical group 0.000 description 1
- 230000003100 immobilizing effect Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000003018 immunosuppressive agent Substances 0.000 description 1
- 229940124589 immunosuppressive drug Drugs 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 208000015994 miscarriage Diseases 0.000 description 1
- 230000001338 necrotic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 208000004594 persistent fetal circulation syndrome Diseases 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 208000000995 spontaneous abortion Diseases 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6851—Quantitative amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/10—Signal processing, e.g. from mass spectrometry [MS] or from PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/686—Polymerase chain reaction [PCR]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2531/00—Reactions of nucleic acids characterised by
- C12Q2531/10—Reactions of nucleic acids characterised by the purpose being amplify/increase the copy number of target nucleic acid
- C12Q2531/113—PCR
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Definitions
- the present invention relates to data processing of analysis data such as SNPs.
- Non-Invasive Prenatal Paternity Test by analyzing fetal circulation cell-free DNA (Cell-free fetal DNA, cffDNA), which is a genetic substance derived from the fetus mixed in the blood circulation of the mother. NIPPT) can be performed (for example, Patent Document 1).
- a cancer test including a cancer screening test and an evaluation test of the progress of anticancer treatment can be mentioned.
- cancer cells are destroyed by immunity, cell death (apopulation) occurs by themselves, or circulating tumor cells (CTC) circulating in the blood are destroyed in the blood by some influence, the genomic DNA of the cancer cells becomes It will leak into the blood.
- the cfDNA derived from this cancer cell may be specially called ctDNA (circulating tumor DNA).
- ctDNA circulating tumor DNA
- cfDNA analysis technology monitoring of colonization of transplanted organs and the like can be mentioned.
- the success rate has been improved by improving immunosuppressive drugs, the problem of rejection is still a major problem for long-term colonization of transplanted organs.
- genomic DNA leaks into the blood from the cells constituting the transplanted organ.
- This cfDNA derived from transplanted organs (sometimes specifically called ddcfDNA) is expected as a biomarker for transplanted organ disorders.
- SNPs single nucleotide polymorphisms
- a method of selecting single nucleotide polymorphisms (SNPs) capable of personally identifying donors and recipients and quantifying a very small amount of ddcfDNA leaked into the recipient's blood using a next-generation sequencer or the like For example, Patent Document 3.
- SNPs single nucleotide polymorphisms
- Patent Document 3 since most of cfDNA is derived from the recipient's genomic DNA and the proportion of ddcfDNA contained is extremely small, the presence of ddcfDNA obtained by analysis of cfDNA is similar to the above-mentioned prenatal genetic test. There is a problem that it is extremely difficult to determine whether the signal suggesting the above is really derived from the genomic DNA of the transplanted organ or is noise.
- the problem to be solved by the present invention is a novel technique for evaluating the reliability of a signal indicating the presence of a secondary nucleic acid in the analysis data of a mixed nucleic acid sample containing a secondary nucleic acid such as cffDNA, ctDNA, and ddcfDNA in a minute proportion. Is to provide.
- the present invention that solves the above problems is as follows.
- a model for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-2, step A-3-1, and step A-4-1. How to create a function.
- Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
- a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
- Step A-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
- (A1) Secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid
- the secondary component signal intensity with respect to the total signal intensity caused by the specific polymorphic lous allele The secondary component signal intensity with respect to the total signal intensity caused by the specific polymorphic lous allele.
- Secondary component mixing rate which is the ratio of [Step A-3-1]
- the synthetic variable generated in the step A-2 is divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variable included in each category is included in each category.
- [Step A-4-1] Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable.
- the synthetic variable used for creating the model function in the steps A-3-1 and A-4-1 has the highest contribution rate among the one or more synthetic variables generated in the step A-2.
- step A-2 is a step of performing principal component analysis on a numerical group including at least the above (A1) and the above (A2) and generating one or more principal components as synthetic variables.
- the method according to any one of [1] to [3].
- the step A-2 is derived from the signal indicating the presence of an allele derived from the main nucleic acid and the secondary nucleic acid among the plurality of polymorphic loci among the data contained in the data set. 1 or 2 or more selected from the following (A3) to (A5), including at least the above (A1) and the above (A2), relating to the polymorphic sitting position detected separately from the signal indicating the presence of the allele.
- (A3) The signal intensity of the major component indicating the presence of one allele in a specific polymorphic lous derived from the major nucleic acid.
- the step A-2 is derived from the signal indicating the presence of an allele derived from the main nucleic acid and the secondary nucleic acid among the plurality of polymorphic loci among the data contained in the data set.
- a numerical group containing at least the above-mentioned (A1) and (A2) and further containing the following (A3) to (A5) relating to the polymorphic sitting position detected separately from the signal indicating the presence of the allele is linearly coupled.
- (A3) The signal intensity of the major component indicating the presence of one allele in a specific polymorphic lous derived from the major nucleic acid.
- the first-order homogeneous polynomial representing the composite variable is characterized in that the secondary component signal intensity or the secondary component mixing ratio is weighted to the maximum. The method described.
- step A-2 two or more synthetic variables are generated, and the composite variables are generated.
- step A-3-1 reliability values are assigned to each of the two or more synthetic variables.
- step A-4-1 two or more independent model functions having each of the two or more synthetic variables as explanatory variables are created.
- a method for creating a model function for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-3-2, and step A-4-2.
- Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
- a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
- Step A-3-2 Regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected among the plurality of polymorphic loci.
- the sub-component signal intensities indicating the presence of a specific polymorphic locus allele derived from the sub-nucleic acid are divided into a plurality of categories, and the ratio of the sub-component signal intensities included in each category is true.
- Step A-4-2 Regression analysis is performed on the sub-component signal strength included in each of the categories and the probability corresponding to the sub-component signal strength included in each category, and the sub-component signal strength is used as an explanatory variable and a reliability value.
- the process of finding a model function for calculating the reliability value which is the objective variable.
- a method for creating a model function for calculating a reliability value of a secondary component signal which comprises the following steps A-1, step A-3-3, and step A-4-3.
- Step A-1 A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary.
- a step of preparing a data set (provided that the authenticity of the signal is known) containing a signal indicating the presence of each allele in a plurality of polymorphic loci in nucleic acid.
- Step A-3-3 Regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected among the plurality of polymorphic loci.
- the sub-component mixing rate which is the ratio of the sub-component signal intensity to the total signal strength caused by the allele of a specific polymorphic sitting position, is divided into a plurality of sub-components, and the sub-components corresponding to the sub-component mixing rates included in each category are classified.
- Step A-4-3 Regression analysis was performed on the sub-component mixing rate included in each category and the probability corresponding to the sub-component mixing rate included in each category, and the sub-component mixing rate was used as an explanatory variable and a reliability value. The process of finding a model function for calculating the reliability value, which is the objective variable.
- the data set is data acquired by base sequence analysis.
- the data set is data acquired by digital PCR, and the data set is data obtained by digital PCR.
- the data set is the data acquired by the microarray, and the data set is the data acquired by the microarray.
- the major contributor is a mother
- the sub-contributor is a fetus in the womb of the mother
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother
- the step A. -1 , Step A - 2, Step A - 3-1 and Step A -4-1 are Step A 1-1, Step A 1-2, Step A 1-3-1 and Step A 1-4, respectively.
- Step A 1-1 A data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetal, wherein the primary nucleic acid and the secondary nucleic acids have a plurality.
- Step A 1-2 Among the data contained in the data set, among the plurality of polymorphic sitting positions, Homozygous in the mother, homozygous in the father, and a signal indicating the presence of an allele derived from the major nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are detected separately.
- the synthetic variables generated in the step A 1-2 are divided into a plurality of categories, and the ratio of the secondary component signal intensities corresponding to the synthetic variables included in each category is included in each category.
- the process of giving as a probability corresponding to a variable (However, for alleles that are homozygous for the mother, homozygous for the father, and atypical between the mother and the father.
- the sub-component signal is detected separately from the main component signal, the sub-component signal is regarded as true. If the sub-component signal is not detected in distinction from the main component signal, the sub-component signal is regarded as false.
- the sub-component signal is regarded as false.
- Step A 1-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
- the main contributor is a healthy person
- the sub-contributor is a cancer cell
- the steps A-1, step A-2, step A-3-1 and step A-4-1 are described.
- the method according to any one of [1] to [10], which is a step A 2-1 , a step A 2 -2-, a step A 2-3-1, and a step A 2-4-1, respectively.
- Step A 2-1 A plurality of nucleic acids containing the base sequence information of the polymorphic locus in which a cancer-related mutation is introduced in the polymorphic locus associated with cancer in a nucleic acid sample collected from a healthy person containing a major nucleic acid containing genetic information on the healthy person.
- Step A 2-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
- the synthetic variables generated in the step A 2-2 are divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variables included in each category is included in each category.
- the process of giving as a probability corresponding to a variable is the case where a nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is added to the mixed nucleic acid sample.
- the secondary component signal is regarded as true.
- Step A 2-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
- Step A 2'-1 Nucleotide sequence information of the single polymorphic locus in which a cancer-related mutation is introduced into a single polymorphic locus associated with cancer in a nucleic acid sample containing a major nucleic acid containing genetic information about a healthy person.
- Step A 2'- 2 Among the data contained in the data set, the single polymorphism in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are detected separately.
- A1' Secondary component signal intensity indicating the presence of the single polymorphic lous allele derived from the secondary nucleic acid.
- A2' Secondary component mixing ratio, which is the ratio of the secondary component signal strength to the total signal strength caused by the single polymorphic sitting allele.
- nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is added to the mixed nucleic acid sample.
- secondary component signal is detected for the nucleic acid fragment
- the secondary component signal is regarded as true. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is regarded as false.
- the nucleic acid fragment containing the base sequence information of the polymorphic locus into which the mutation has been introduced is not added to the mixed nucleic acid sample.
- the secondary component signal is regarded as false. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is true.
- Step A 2-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
- the major contributor is the recipient of the organ transplant
- the sub-contributor is the transplanted organ
- the steps A-1, step A-2, step A-3-1 and step A-4- 1 is any of [1] to [10], which is a process A 3-1, a process A 3 -2- , a process A 3 3-1 and a process A 3 4-1 respectively.
- [Step A 3-1 ] A data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a recipient and a secondary nucleic acid containing genetic information about a transplanted organ, which is a plurality of the primary nucleic acid and the secondary nucleic acid.
- a step of preparing a data set containing a signal indicating the presence of each allele in the polymorphic sitting position (however, the authenticity of the signal is known).
- Step A 3-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
- Step A 3 3-1 The synthetic variables generated in the step A 3-2 are divided into a plurality of categories, and the ratio of the secondary component signal strength corresponding to the synthetic variables included in each category is included in each category.
- the process of giving as a probability corresponding to a variable. However, for alleles that the recipient does not have and that the donor has homozygotes or heterozygotes.
- the sub-component signal is detected separately from the main component signal, the sub-component signal is regarded as true. If the sub-component signal is not detected in distinction from the main component signal, the sub-component signal is regarded as false.
- Step A 3-4-1 Regression analysis is performed on the synthetic variable included in each of the categories and the probability corresponding to the synthetic variable included in each category, and the reliability value is determined by using the synthetic variable as an explanatory variable and the reliability value as an objective variable. The process of finding a model function for calculation.
- the model function The model function obtained by the method according to any one of [1] to [26].
- a model function expressed by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3. can be,
- the explanatory variables are 1 or 2 or more numerical values selected from the following (B1) and (B2) included in the data set prepared in the following step B-1 and the synthetic variables obtained in the following step B-2.
- a method of calculating a reliability value which is characterized by being present.
- Step B-1 A data set obtained by measurement of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and containing or may contain a secondary nucleic acid containing genetic information about a secondary contributor, said primary nucleic acid and said secondary.
- Step B-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
- B1 A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- B2) The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
- the major contributor is the mother
- the sub-contributor is the fetus in the womb of the mother
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother, step B.
- [Step B 1-1 ] A data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetal, wherein the primary nucleic acid and the secondary nucleic acids have a plurality.
- Step B 1-2 The process of preparing a data set containing a signal indicating the presence of each allele in the polymorphic sitting position.
- Step B 1-2 Among the data contained in the data set, among the plurality of polymorphic sitting positions, Concerning a polymorphic locus in which a signal indicating the presence of an allele derived from the major nucleic acid and a signal indicating the presence of the allele derived from the secondary nucleic acid are homozygous in the mother and are detected separately.
- the plurality of polymorphic sitting positions are polymorphic sitting positions used in human individual identification.
- the method of [28] characterized in that it is a method of calculating a reliability value for non-invasive prenatal paternity testing.
- the major contributor is a test subject
- the sub-contributor is a cancer cell
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample collected from the test subject
- the step B- The method according to [27], wherein 1 and step B - 2 are step B 2-1 and step B 2-2, respectively.
- Step B 2-1 A data set obtained by measurement of a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about a subject to be tested and may contain a secondary nucleic acid containing genetic information about cancer cells, said primary nucleic acid and said secondary nucleic acid.
- Step B 2-2 In the step of preparing a data set containing a signal indicating the presence of each allele in a plurality of polymorphic sitting positions associated with cancer.
- Step B 2-2 Among the data included in the data set, the polymorphism in which the signal indicating the presence of a normal allele and the signal indicating the presence of a mutant allele are detected separately in the plurality of polymorphic loci is detected.
- the test subject has the mutant allyl as homozygous or heterozygous. Exclude data on type sitting, Among the data contained in the data set remaining after exclusion, a signal indicating the presence of a normal allele and a signal indicating the presence of a mutant allele are detected separately in the plurality of polymorphic loci.
- a numerical group including at least the above (B1) and the above (B2) is linearly connected to generate one or more synthetic variables with respect to the polymorphic locus.
- the major contributor is a recipient of an organ transplant
- the secondary contributor is a transplanted organ
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient
- the step B is The method according to [27], wherein -1 and step B - 2 are step B 3-1 and step B 3-2 , respectively.
- Step B 3-1 A data set obtained by measurement of a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about a recipient and may contain a secondary nucleic acid containing genetic information about a transplanted organ, in the primary nucleic acid and the secondary nucleic acid.
- Step B 3-2 The process of preparing a dataset containing signals indicating the presence of each allele in multiple polymorphic sitting positions.
- Step B 3-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included.
- the plurality of polymorphic sitting positions are polymorphic sitting positions used in human individual identification.
- the method according to [32] which is a method for calculating a reliability value for monitoring the colonization of a transplanted organ.
- a method for setting exclusion conditions which comprises steps C-2-1, step C-3-1, and step C-4-1.
- [Process C-1-1] A data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, the primary nucleic acid and the secondary nucleic acid. In the step of preparing a data set containing a signal indicating the presence of each allele in a plurality of polymorphic sitting positions (however, the authenticity of the signal is known).
- the major contributor is the mother
- the sub-contributor is the fetus in the womb of the mother
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother, or the major.
- the contributor is the recipient
- the by-contributor is the transplanted organ
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
- C1 A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- C2 The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
- [Process C-3-1] A step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in the step C-2-1.
- [Process C-4-1] The step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C1.
- (Exclusion condition C1) Of a dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ.
- Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ are obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele that is atypical between the recipient and the donor is present. Further, the data set in which the synthetic variable having the highest contribution rate is less than the threshold value set in the step C-3-1 is removed.
- a method for setting exclusion conditions which comprises steps C-2-2, step C-3-2, and step C-4-2.
- [Process C-1-2] A data set obtained by measurement of a mixed nucleic acid sample, comprising a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor, said primary nucleic acid and said secondary.
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
- the major contributor is the recipient
- the sub-contributor is the transplanted organ
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
- (C1) A secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- (C2) The secondary component mixing ratio, which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
- (C3) Noise obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allele of the specific polymorphic sitting position.
- [Process C-3-2] A step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in the step C-2-2.
- [Process C-4-2] The step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C2.
- Example condition C2 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele homozygous between the recipient and the donor is present. In addition, the data set in which the synthetic variable having the first or second highest contribution rate is less than the threshold set in the step C-3-2 is removed.
- the outliers are obtained when the reliability value is calculated by the method according to any one of [27] to [33].
- the method according to any one of [34] to [37] which is characterized in that it is a numerical value relating to the allele in the case where the nucleic acid is lost.
- step B-1 It is characterized in that the data set remaining after removing the data set corresponding to the exclusion condition C1 specified by the method described in [34] and / or the exclusion condition C2 specified by the method described in [35] is prepared. , [32] or [33].
- the model function The model function obtained by the method according to any one of [1] to [26].
- a model function expressed by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3. can be, One or more of the explanatory variables selected from the following (B1) and (B2) included in the data set prepared in the following step B 4-1 and the synthetic variables obtained in the following step B 4-2 .
- a method for calculating a reliability value which is characterized by being a numerical value.
- Step B 4-1 A dataset obtained by measurement of a circulating acellular nucleic acid sample taken from the mother, comprising a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus in the womb of the mother.
- Step B 4-2 From the data contained in the dataset, data on polymorphic loci having the mutant allyl as a heterozygotes in the mother among the plurality of polymorphic loci was excluded.
- a signal indicating the presence of an allele derived from the main nucleic acid and an allele derived from the secondary nucleic acid are shown in the plurality of polymorphic loci.
- B1 Secondary component signal intensity indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- the secondary component mixing ratio which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position.
- the model function represented by multiplication by multiplying each other by two or more model functions selected from the model function of any of the following equations 1 to 3 or the group consisting of the model functions represented by the following equations 1 to 3 is obtained.
- a reliability value calculation system including a recorded storage unit and a processing unit that executes the method according to any one of [27] to [33] and [40] to [42].
- a model function of the present invention for calculating the reliability value of a secondary component signal in the analysis data of a mixed nucleic acid sample containing a secondary nucleic acid such as cffDNA, ctDNA, ddcfDNA in a minute proportion.
- the reliability value of the secondary component signal in the analysis data of the mixed nucleic acid sample containing the secondary nucleic acid such as cffDNA, ctDNA, and ddcfDNA in a minute ratio is calculated. can do.
- the exclusion condition setting method of the present invention in order to narrow down the data of the explanatory variables to be input to the model function, it is possible to set the exclusion condition for determining what should be excluded from the data set.
- a sigmoid curve showing the model function f1 (x1) is shown.
- the "probability” on the vertical axis is the reliability value
- the "main component 1" on the horizontal axis is the first principal component obtained by principal component analysis.
- the white data points in the figure indicate the reliability value and the first principal component used in the regression analysis.
- a sigmoid curve showing the model function f2 (x2) is shown.
- the "probability” on the vertical axis is the reliability value
- the "fetal minor count” on the horizontal axis is the absolute value of the secondary component signal intensity.
- the white data points in the figure indicate the reliability value and the absolute value of the secondary component signal intensity used in the regression analysis.
- a sigmoid curve showing the model function f3 (x3) is shown.
- the vertical axis "probability” is the reliability value
- the horizontal axis "fetal minor frequency” is the secondary component contamination rate.
- the white data points in the figure indicate the reliability value and the secondary component contamination rate used in the regression analysis.
- It is a distribution map of the reliability value (Fidelity) calculated in Test Example 2.
- the left is a compilation of the reliability values for SNPs that are homozygous for each parent.
- the right is a compilation of reliability values for SNPs of the same type that parents have in homozygosity. It is a scatter diagram which plotted each principal component obtained by the principal component analysis prepared for examination of exclusion condition 1 on the y-axis, and the reliability value on the x-axis.
- a scatter plot showing the first principal component, the second principal component, the third principal component, the fourth principal component, and the fifth principal component on the y-axis It is a scatter diagram which plotted each principal component obtained by the principal component analysis prepared for the examination of exclusion condition 2 on the y-axis, and the reliability value on the x-axis. From the left, a scatter plot showing the first principal component, the second principal component, the third principal component, the fourth principal component, and the fifth principal component on the y-axis. It is a distribution map of the reliability value (Fidelity) calculated in Test Example 4. The left is a compilation of the reliability values for SNPs that are homozygous for each parent.
- the right is a compilation of reliability values for SNPs of the same type that parents have in homozygosity. It is a distribution map of the reliability value (Fidelity) calculated in Test Example 5. On the left, the reliability values for SNPs that are homozygous and homozygous for each other are tabulated. The right shows the ratio of the reliability values calculated in Test Example 2 and Test Example 5, which are different NGS target panel analyzes. It is a graph which aggregated the reliability value (Fidelity) for the SNPs genotype confirmed from the analysis of the child born in Test Example 6. The distribution map of the mother homo SNPs reliability values (Fidelity) was aggregated by number without considering the genotype of the father showing the truth about the existence of the secondary component signal.
- the left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
- the right is the reliability value for SNPs of the same type that parents have in homozygosity.
- 6 is a distribution diagram of reliability values calculated in Test Example 6 and Test Example 9.
- the left is a compilation of reliability values for SNPs that the mother has in homozygotes and that the newborn has in heterozygotes.
- the right is the reliability value for SNPs that the mother has by homozygosity and the newborn has by homozygosity.
- the method for creating a model function of the present invention includes step A-1, step A-2, step A-3-1 and step A-4-1 as essential steps. Hereinafter, they will be described in order.
- Step A-1 is a step of preparing a data set obtained by measuring a mixed nucleic acid sample.
- a "mixed nucleic acid sample” is a sample containing genetic information about a plurality of contributors. This information includes genetic information encoded by DNA as well as genetic information encoded by RNA. Examples of the mixed nucleic acid sample include samples containing cfDNA and cfRNA, and specific examples thereof include whole blood, plasma, serum and urine, and more preferably whole blood, plasma and serum.
- the mixed nucleic acid sample contains a major nucleic acid containing genetic information on the major contributor and a secondary nucleic acid containing genetic information on the secondary contributor.
- the abundance ratio of the major nucleic acid and the secondary nucleic acid in the mixed nucleic acid sample may vary depending on the status of the major contributor and the sub-contributor.
- the "major contributor” as used herein is the mother in the case of prenatal genetic testing, the subject to be tested in the case of cancer testing, and the recipient in the monitoring of transplanted organs.
- the “major contributor” refers to an individual from which a mixed nucleic acid sample has been obtained.
- the “major nucleic acid” is a nucleic acid containing genetic information regarding the major contributor.
- the major nucleic acids are the maternal genomic DNA or fragments thereof in the case of prenatal genetic testing or RNA (cfDNA or cfRNA derived from the maternal) which is a transcript from the maternal genomic DNA, and the subject to be tested in the case of cancer testing.
- RNA cfDNA or cfRNA derived from the test subject
- RNA cfDNA or cfRNA derived from the test subject
- RNA cfDNA or cfRNA derived from a recipient
- the "secondary contributor” corresponds to the fetus in the case of prenatal genetic testing, cancer cells in the case of cancer testing, and the transplanted organ in the monitoring of transplanted organs.
- the “secondary contributor” refers to an individual, tissue, or cell that exists in the body of the main contributor and has genetic information different from the original genetic information of the main contributor.
- the “secondary nucleic acid” is a nucleic acid containing genetic information regarding the secondary contributor. Secondary nucleic acids include fetal genomic DNA or fragments thereof in the case of prenatal genetic testing or RNA (cfDNA or cfRNA derived from the fetal) that is a transcript from fetal genomic DNA, and cancer cells in the case of cancer testing.
- Genome DNA or fragment thereof or RNA which is a transcript from the genomic DNA of cancer cells, and in the monitoring of the transplanted organ, the genomic DNA of the transplanted organ or a fragment thereof or the genomic DNA of the donor
- RNA cfDNA or cfRNA derived from a transplanted organ
- the mixed nucleic acid sample containing the main nucleic acid and the secondary nucleic acid may be artificial.
- a mixed nucleic acid sample may be prepared by spike (adding) a nucleic acid imitating a secondary nucleic acid into blood containing a major nucleic acid.
- the data set prepared in step A-1 includes a data set containing a signal indicating the presence of each allele in a plurality of polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
- the number of polymorphic sitting positions included in the data set is not particularly limited, and is preferably 5 or more, more preferably 10 or more, still more preferably 15 or more, still more preferably 18 or more.
- This data set is not particularly limited as long as it is obtained by an analytical means capable of distinguishing and detecting each allele in the polymorphic sitting position.
- the analytical means include analytical means capable of distinguishing and detecting single nucleotide substitutions (SNPs) in polymorphic loci.
- the analysis means include base sequence analysis used for detecting SNPs, digital PCR, microarray, real-time PCR, and the like.
- next-generation sequencer can be mentioned as a specific means for base sequence analysis.
- the next-generation sequencer is a sequencing method that enables large-scale parallel sequencing of clonally amplified molecules and single nucleic acid molecules.
- any NGS system may be adopted.
- pyrosequencing GS Junior (Roche), etc.
- synthetic sequencing using a reversible dye terminator MiSeq (Illumina), etc.
- sequencing by ligation SeqStudio Genetic Analyzer (Thermo, etc.)
- Ion Semiconductor Sequencing Ion Protein System (Thermo Fisher SCENTIFIC), etc.
- CMOS Complementary Metal Oxide Film Semiconductor Chip
- the sequence data read by the next-generation sequencer can be analyzed, and the number of reads of the allele having a specific sequence (specific SNPs) in the polymorphic locus can be interpreted as a signal indicating the existence of the allele.
- a barcode sequence (Unique Molecular Indicators (UMI), Unique Molecular Tag (UMT)) that enables individual identification of nucleic acid molecules is ligated to the nucleic acid fragment to be analyzed. If so, the count number of UMT that identifies the allele as having a specific sequence (specific SNPs) in the polymorphic locus can be interpreted as a signal indicating the presence of the allele.
- UMI Unique Molecular Indicators
- UMT Unique Molecular Tag
- Digital PCR is a method in which a sample is distributed to a large number of wells so that one nucleic acid molecule may or may not be contained in one well, and PCR is performed individually. In the wells containing the target sequence, PCR amplification proceeds and the fluorescence signal is detected, but in the wells containing no target sequence, PCR amplification does not proceed and the fluorescence signal is not detected. After PCR, the signal amplification “yes (+) / no ( ⁇ )” is discriminated in each well, and the number of “yes (+)” wells of the signal is calculated as the number of copies of the target.
- a probe such as a TaqManR probe or cycling probe
- a probe that can accurately discriminate mutations such as SNPs
- fluorescence is observed only in wells in which alleles having a specific sequence (specific SNPs) are amplified. ..
- a fluorescently labeled probe having a different emission wavelength for each allele, it is possible to detect different alleles existing in one polymorphic locus by the fluorescent color.
- the number of "some (+)" wells of a fluorescent signal corresponding to a particular allele can be interpreted as a signal indicating the presence of that allele.
- Microarrays use nucleic acids such as DNA, DNA fragments, cDNA, oligonucleotides, RNA or RNA fragments with known sequences as probes, and sequence hundreds to hundreds of thousands to solidify them to complement the probes. This is a method for detecting when a nucleic acid having a different sequence hybridizes, by using a fluorescent label. Microarrays that perform SNPs typing are also particularly referred to as SNP arrays. When multiple alleles are assumed in one lotus coition, it is possible to distinguish and detect each allele by immobilizing each allele separately. The fluorescence intensity at the point where a particular allele is immobilized can be interpreted as a signal indicating the presence of the allele.
- Real-time PCR is a method of monitoring and analyzing fluorescence generated in response to the amount of nucleic acid amplification by PCR in real time with a spectrofluorometer. It is preferable to combine real-time PCR with a probe (TaqManR probe, cycling probe, etc.) capable of accurately discriminating mutations such as SNPs. By designing a fluorescently labeled probe having a different emission wavelength for each allele, it is possible to detect different alleles existing in one polymorphic locus by the fluorescent color. When obtaining a data set by real-time PCR, it is preferable to adopt multiplex PCR from the viewpoint of improving measurement efficiency.
- Multiplex PCR is a method of amplifying a plurality of target sequences at one time in one reaction system using a plurality of sets of primers.
- the intensity of the fluorescent signal corresponding to a particular allele can be interpreted as a signal indicating the presence of that allele.
- Mass analysis is an analytical method that measures the mass of an ion or molecule by ionizing the molecule and measuring its mass-to-charge ratio (m / z). Originally, it is a method of measuring the mass of a molecule, but for nucleic acid molecules prepared under specific conditions (such as when PCR is performed using a specific primer or when a nucleic acid molecule is cleaved with a specific restriction enzyme). If the mass can be measured, the base sequence of the detected nucleic acid molecule can be identified by collating the mass with the database. For this reason, mass spectrometry is widely applied to genotyping. In mass spectrometry, the ionic strength at m / z peculiar to a base sequence containing a specific allele can be interpreted as a signal indicating the presence of the allele.
- the data set prepared in step A-1 needs to know the truth of the signal indicating the existence of the above-mentioned allele. That is, when a signal indicating the presence of a specific allele is detected, it is necessary to know whether or not the major nucleic acid or secondary nucleic acid containing the base sequence of the allele is contained in the mixed nucleic acid sample.
- process A-1 is a process of preparing a data set. Therefore, the step of nucleic acid analysis for primary acquisition of a dataset is not an essential element of the present invention.
- the practitioner of the present invention naturally includes a mode in which the above data set is prepared by primarily acquiring data by nucleic acid analysis. Not limited.
- a person other than the person other than the person who implements the present invention prepares the above data set by secondarily acquiring the data set initially acquired by nucleic acid analysis. include.
- Step A-2 is a step of performing principal component analysis on the data contained in the above-mentioned data set. Specifically, among the data included in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid among a plurality of polymorphic loci , And the polymorphic loci detected separately, are linearly coupled to the numerical groups containing the following (A1) and (A2) to generate one or more synthetic variables.
- the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid. It is easy to determine whether the signals indicating the presence of the two types of alleles detected separately from each other in the analysis of the mixed nucleic acid sample are derived from the primary nucleic acid or the secondary nucleic acid, respectively. In most cases, the circulating acellular nucleic acid sample contains more major nucleic acid than secondary nucleic acid, so that the secondary component signal intensity is inevitably weaker than the above-mentioned major component signal intensity. In such a case, the one with the weaker signal strength can be regarded as the secondary component signal strength.
- the ratio of the mother-derived nucleic acid to the fetal-derived nucleic acid in the latter half of pregnancy, and the ratio of the patient-derived nucleic acid to the cancer-derived nucleic acid when the cancer is advanced may be reversed from the normal case. That is, the amount of secondary nucleic acid in the circulating acellular nucleic acid sample may be equal to or greater than the amount of major nucleic acid.
- the genotype of the major contributor may be identified in advance by genotyping and compared with the analysis result of the mixed nucleic acid sample. This makes it possible to determine whether the signal indicating the presence of the two types of alleles detected separately from each other by the analysis of the mixed nucleic acid sample is derived from the main nucleic acid or the secondary nucleic acid, respectively.
- secondary component signal intensity all the numerical values reflecting the signal intensity indicating the presence of the allele of a specific polymorphic lous derived from the secondary nucleic acid.
- secondary component signal intensity the numerical value that directly expresses the signal strength
- the numerical value obtained by multiplying the numerical value by a constant, and all the numerical values that reflect the signal strength such as the power value and the root of the value are "secondary component signal strength”.
- the standardized numerical value of the original data of the secondary component signal strength is also included in the wording "secondary component signal strength". Details of standardization will be described later.
- the numerical value obtained by processing the original data of the secondary component signal strength based on the other detected parameters is also included in the wording "secondary component signal strength".
- Noise is mentioned as an "other parameter" used for processing the original data of the secondary component signal strength. The definition of noise is as described below.
- a numerical value obtained by subtracting the noise intensity or the average value thereof in a plurality of polymorphic lotus coitions to be analyzed from the original data of the secondary component signal intensity can also be treated as the "secondary component signal intensity".
- the parameter for obtaining the average value of the noise intensity may be the number of polymorphic lotuses in which noise is detected, or the number of all polymorphic lotus coitions analyzed.
- the average value of the noise intensity is uniformly subtracted from the original data of the secondary component signal intensity without distinguishing between the polymorphic lotus in which noise is detected and the polymorphic lotus in which noise is not detected.
- the embodiment may be in which the average value of the noise intensity is subtracted from the original data of the secondary component signal intensity only for the specific polymorphic lotus coition in which noise is detected.
- the embodiment may be in which the noise intensity detected for the specific polymorphic lotus is subtracted from the secondary component signal intensity of the specific polymorphic lotus where noise is detected.
- a numerical value obtained by dividing the secondary component signal intensity indicating the presence of the allele of the specific polymorphic lotus by the average value of the noise intensity in the plurality of polymorphic sitting positions is treated as the "secondary component signal intensity”. May be good. That is, it may be an embodiment that treats the numerical value represented by the following equation as "secondary component signal strength". (Secondary component signal strength) / (Average value of noise strength)
- step A-2 may be in a form in which only one kind of “secondary component signal intensity” is included, or two or more kinds of "secondary components". "Signal strength" may be included.
- the standardized numerical value of the original data of the secondary component mixing rate is also included in the wording "secondary component mixing rate". Details of standardization will be described later.
- the numerical value obtained by processing the original data of the secondary component mixing rate based on the other detected parameters is also included in the wording "secondary component mixing rate".
- Noise is mentioned as an "other parameter" used for processing the original data of the secondary component mixing rate. The definition of noise is as described below.
- the numerical value obtained by subtracting the ratio of the noise intensity to the total signal intensity (noise mixing rate) or the average value thereof in the plurality of polymorphic sitting positions to be analyzed from the original data of the secondary component mixing rate is also "secondary component". It can be treated as "mixing rate".
- the parameter for obtaining the average value of the noise mixing rate may be the number of polymorphic lotuses in which noise is detected, or the number of all polymorphic lotus coitions analyzed.
- the embodiment may be in which the average value of the noise mixing rate is subtracted from the original data of the secondary component mixing rate. Further, it may be an embodiment in which the noise mixing rate of the noise intensity detected for the specific polymorphic lotus is individually subtracted from the secondary component mixing rate of the specific polymorphic lotus where noise is detected.
- the value obtained by dividing the secondary component mixing rate of the specific polymorphic lotus by the average value of the noise intensities in the plurality of polymorphic sitting positions is treated as the "secondary component mixing rate". That is, it may be an embodiment in which the numerical value represented by the following formula is treated as the “secondary component mixing ratio”. (Secondary component mixing rate) / (Average value of noise intensity)
- step A-2 may be in a form in which only one kind of "secondary component mixing rate” is included, or two or more kinds of "secondary components". "Mixing rate” may be included.
- the numerical value group to be linearly combined in step A-2 may include numerical values other than the above-mentioned (A1) and (A2). That is, a linear combination is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus coition in addition to (A1) and (A2).
- the numerical values (A3) to (A5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (A3) to (A5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (A3) to (A5) may be included in the numerical group.
- the major component signal intensity is the intensity of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
- the major component signal intensity is the intensity of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
- the circulating acellular nucleic acid sample contains more major nucleic acid than secondary nucleic acid, so that the primary component signal intensity is inevitably weaker than the secondary component signal intensity described above. .. In such a case, the one with the stronger signal strength can be regarded as the main component signal strength.
- the ratio of the mother-derived nucleic acid to the fetal-derived nucleic acid in the latter half of pregnancy, and the ratio of the patient-derived nucleic acid to the cancer-derived nucleic acid when the cancer is advanced may be reversed from the normal case. That is, the amount of secondary nucleic acid in the circulating acellular nucleic acid sample may be equal to or greater than the amount of major nucleic acid.
- the genotype of the major contributor may be identified in advance by genotyping and compared with the analysis result of the mixed nucleic acid sample. This makes it possible to determine whether the signal indicating the presence of the two types of alleles detected separately from each other by the analysis of the mixed nucleic acid sample is derived from the main nucleic acid or the secondary nucleic acid, respectively.
- the numerical value obtained by multiplying the numerical value by a constant and all that reflect the signal strength such as the power value and the root of the value.
- the numerical value of is included in the "main component signal strength".
- the numerical group to be linearly combined in step A-2 may be in a form in which only one type of "main component signal strength” is included, or two or more types of "main component signal strength” are included. It may be included.
- main component mixing rate main component signal strength / total signal strength
- this signal is defined as “noise” in the present invention. That is, the noise is obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allergen of the specific polymorphic locus, and is obtained by subtracting the total signal strength- (main component signal). It can be expressed by the formula of "intensity + secondary component signal intensity)".
- the data set prepared in step A-1 is a set of data related to a plurality of polymorphic sitting positions. Therefore, needless to say, the data set prepared in step A-1 includes a plurality of sets of data including the above (A1) and (A2) and other numerical data relating to a specific polymorphic lotus coition. It will be.
- Standardized data [(original data)-(mean value)] / (sample standard deviation)
- a polymorphic locus detected by distinguishing between a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid refers to the presence of an allele derived from the major nucleic acid. It refers to a polymorphic locus in which the signal indicating the signal and the signal indicating the presence of an allele derived from the secondary nucleic acid are not mixed.
- the cfDNA of the cfDNA regardless of the father's genetic type.
- the signals of allele A and allele B derived from the genomic DNA of the mother are always detected.
- Either the allele A or allele B signal should contain a signal derived from the fetal cffDNA, but this cannot be distinguished from the signal derived from the mother's genomic DNA. Adding such data to the basis of analysis reduces the accuracy of the model function.
- the mutation is always included in ctDNA, so the signal derived from the test target and cancer. It will be mixed with cell-derived signals. Adding such data to the basis of analysis reduces the accuracy of the model function.
- the polymorphic locus targeted for data analysis is "a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid.” It is limited to "polymorphic sitting position detected separately”.
- the polymorphic locus to be analyzed in step A-2 is a polymorphic lous coition in which there is no possibility that a signal indicating the presence of an allele derived from a secondary nucleic acid is mixed with a signal indicating the presence of an allele derived from a major nucleic acid. It may be paraphrased as.
- one or more synthetic variables are generated by linearly combining the above-mentioned numerical groups.
- Principal component analysis can be preferably exemplified as a means of linear combination. It may be a synthetic variable generated by another means. Even if it is a synthetic variable generated by another means, it is preferable that this is a synthetic variable that can be generated by principal component analysis.
- the synthetic variables generated by the linear combination are represented by the following first-order homogeneous polynomials.
- n is an integer of 2 or more representing the number of types of numerical values included in the numerical value group to be linearly combined among the numerical values included in the data set.
- Xn is a numerical value included in the numerical value group that is the target of the linear combination.
- a1n is a coefficient that weights a numerical value that performs a linear combination.
- Z1 a11X1 + a12X2 + ... + a1nXn
- the secondary component signal intensity or secondary component mixing rate is maximally weighted.
- the number of synthetic variables that can be generated increases as the number of types of numerical values included in the numerical value group to be linearly combined increases.
- the number of synthetic variables generated in step A-2 is not particularly limited.
- the synthetic variable is generated by the linear combination of the numerical group including at least (A1) and (A2)
- the embodiment in which the synthetic variable is generated by the non-linear combination of the numerical group may be used.
- the nonlinear coupling refers to a power of each numerical value, a product of each numerical value, a quotient, a function having these numerical values as an exponent, and the like.
- the synthetic variable obtained by the linear combination of step A-2 has a correlation with the reliability value.
- a model function is created using this correlation, and the present invention has the following steps A-3-1 and A-4-1 as specific steps thereof.
- Step A-3-1 is a step of assigning a reliability value to the synthetic variable generated by the linear combination.
- the synthetic variables used in step A-3-1 are not particularly limited, but the synthetic variables that best reflect the numerical group that is the target of the linear combination are preferably mentioned.
- a synthetic variable showing the highest contribution rate to the numerical group targeted for the linear combination can be preferably exemplified. This corresponds to the first principal component in the principal component analysis.
- step A-3-1 first, the synthetic variables generated by the linear combination are divided into a plurality of parts. That is, the composite variable is divided into a plurality of variables according to the size of the numerical value.
- the classification method is not particularly limited. Although the divisions may be performed at equal intervals according to the size of the synthetic variables, it is preferable to divide them so that the generated synthetic variables are included in all of the divisions. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the size of the synthetic variable. This is because a sigmoid curve is obtained by performing a curve regression on the generated synthetic variables and probabilities.
- the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
- the ratio of the secondary component signal intensities corresponding to the synthetic variables included in each category is obtained. That is, the ratio of the synthetic variable corresponding to the true secondary component signal strength is obtained from all the synthetic variables included in each category. In the present specification, this ratio is referred to as "probability".
- the secondary component signal intensity suggests the presence of a specific allele present at the polymorphic locus in the secondary nucleic acid. As suggested by this secondary component signal intensity, if the specific allele is actually present in the secondary nucleic acid, this is regarded as "true”.
- Step A-4-1 In step A-4-1, regression analysis is performed on the synthetic variables included in each of the above-mentioned categories and the probabilities corresponding to the synthetic variables included in each category. As a result, a model function for calculating the reliability value is obtained, with the composite variable as the explanatory variable and the reliability value as the objective variable.
- Probability and "reliability value” are in a correspondence relationship.
- the parameter used to create the model function is called “probability”
- the parameter calculated by inputting the explanatory variable to the model function is called “reliability value”.
- the method of regression analysis in step A-4-1 is not particularly limited, but the least squares method can be preferably exemplified.
- the model function is a sigmoid function.
- the model function can be expressed by Equation 1 below.
- a model function for calculating the reliability value in the form of a sigmoid function having two parameters not limited to the case of the above equation 1.
- A1 and x01 correspond to the parametric variables in Equation 1.
- A1 is preferably 15.4 to 15.6, more preferably 15.5.
- x01 is preferably ⁇ 0.8 to ⁇ 0.6, and more preferably ⁇ 0.9.
- those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
- the model function obtained by the above method is extremely versatile. It can also be applied to the analysis of the data set primaryly acquired under the conditions different from the acquisition conditions of the data set prepared in the step A-1. For example, under the condition that there is a difference in sample amount and concentration, a difference in the analyzed polymorphic sitting position, and a difference in signal type (number of reads and UMT count) from the acquisition conditions of the data set prepared in step A-1.
- the model function can be applied to the calculation of the reliability value in the temporarily acquired data set. That is, when it is desired to calculate the reliability value for a data set acquired under another condition, it is not necessary to create a model function again for the other condition. Once the model function is created by the method of the present invention, it can be diverted to the analysis of the data set acquired under different conditions.
- model functions created based on datasets related to prenatal genetic testing can be diverted to analysis of datasets acquired in cancer testing and monitoring of transplant organ colonization.
- the types and numbers of the numerical values included in the numerical value group used for the linear connection used for creating the model function and the linear connection for generating the synthetic variable to be the input value to the model function were used. It is preferable that the types of numerical values included in the numerical value group and the number thereof are the same.
- the method of creating a model function based on the correlation between the composite variable and the reliability value has been described above, but the present invention is not limited to this, and the model function for calculating the reliability value using another index as the explanatory variable. Can be provided.
- the present invention also relates to a method for creating model functions f2 (x2) and f3 (x3), which will be described later. The method of creating each model function will be described in detail below.
- step A-1 the method of creating the model function f2 (x2) will be explained.
- This method comprises steps A-1, steps A-3-2 and steps A-4-2.
- the contents of step A-1 are as described above.
- step A-3-2 and step A-4-2 will be described.
- step A-3-2 first, the above-mentioned (A1) secondary component signal strength is divided into a plurality of parts. That is, (A1) the secondary component signal strength is divided into a plurality of parts according to the magnitude of the numerical value.
- the classification method is not particularly limited. Although the sub-component signal strength may be divided at equal intervals according to the magnitude of the sub-component signal strength, it is preferable to classify the sub-component signal strength so that all of the classifications include the sub-component signal strength. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the magnitude of the secondary component signal intensity. This is because a sigmoid curve is obtained by regressing the secondary component signal intensity and the reliability value by a curve.
- the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
- the ratio of the sub-component signal intensities corresponding to the sub-component signal intensities included in each category is obtained. That is, the ratio of the true secondary component signal strength is obtained from the numerical values of all the secondary component signal strengths included in each category. In the present specification, this ratio is referred to as "probability".
- the secondary component signal intensity suggests the presence of a specific allele present at the polymorphic locus in the secondary nucleic acid. As suggested by this secondary component signal intensity, if the specific allele is actually present in the secondary nucleic acid, this is regarded as "true".
- the probability of the secondary component signal strength in each category After obtaining the probability of the secondary component signal strength in each category, this is given as the probability corresponding to the secondary component signal strength included in each category. Specifically, the probability in the relevant category is assigned to the value of one secondary component signal strength representing each category. By this step, a scatter plot of the secondary component signal intensity and the probability can be created.
- Step A-4-2 In step A-4-2, regression analysis is performed on the secondary component signal strength included in each of the above-mentioned categories and the probability corresponding to the secondary component signal strength included in each category. As a result, a model function f2 (x2) for calculating the reliability value is obtained, with the secondary component signal strength as the explanatory variable x2 and the reliability value as the objective variable.
- the method of regression analysis in step A-4-2 is not particularly limited, but the least squares method can be preferably exemplified.
- the model function f2 (x2) is a sigmoid function and can be expressed by the following equation 2.
- the model function f2 (x2) acquired by the above method is extremely versatile, and once the model function f2 (x2) is created by the method of the present invention, it can also be used for analysis of a data set acquired under different conditions. Can be diverted. It can also be applied to the analysis of a data set obtained by a different type of inspection from the data set on which the model function f2 (x2) is created.
- Equation 2 A2 is preferably 1.8 to 2.0, more preferably 1.9. Further, x02 is preferably 2.5 to 2.7, and more preferably 2.6. In addition, those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
- This method comprises the following steps A-3-3 and steps A-4-3.
- step A-3-3 first, the above-mentioned (A2) by-component mixing ratio is classified into a plurality of portions. That is, (A2) the secondary component mixing rate is divided into a plurality of parts according to the magnitude of the numerical value.
- the classification method is not particularly limited. Although it may be classified at equal intervals according to the magnitude of the secondary component mixing rate, it is preferable to classify so that the secondary component mixing rate is included in all of the classifications. In a more preferable form, it is preferable to classify exponentially instead of linearly classifying according to the magnitude of the secondary component mixing ratio. This is because a sigmoid curve is obtained by regressing the secondary component mixing rate and the probability by a curve.
- the number of divisions is not limited, but is preferably 3 or more, more preferably 5 or more, still more preferably 7 or more, still more preferably 10 or more, still more preferably 12 or more, still more preferably 15 or more, and further. It is preferably divided into 18 or more categories.
- the secondary component contamination rate includes the secondary component signal intensity as the basis for its calculation, and suggests the presence of a specific allele present at the polymorphic lous coition in this secondary nucleic acid.
- the secondary nucleic acid signal intensity which is the basis for calculating the secondary component contamination rate, when the specific allele actually exists in the secondary nucleic acid, this is regarded as "true”.
- the probability of the sub-component mixing rate in each category is given as the probability corresponding to each sub-component mixing rate included in each category.
- the probability in the relevant category is assigned to the value of one secondary component mixing rate representing each category.
- Step A-4-3 a regression analysis is performed on the secondary component mixing rate included in each of the above-mentioned categories and the probability corresponding to the secondary component mixing rate included in each category.
- a model function f3 (x3) for calculating the reliability value is obtained, with the secondary component mixing rate as the explanatory variable x3 and the reliability value as the objective variable.
- the method of regression analysis in step A-4-3 is not particularly limited, but the least squares method can be preferably exemplified.
- the model function f3 (x3) is a sigmoid function and can be expressed by the following equation 3.
- A3 is preferably 9.3 to 9.5, more preferably 9.4.
- x03 is preferably 0.5 to 0.7, and more preferably 0.6.
- those corresponding to the above numerical values when rounded to the second decimal place shall be included in the numerical range specified here.
- model functions are useful for evaluating the reliability of the secondary component signal strength contained in the data set independently.
- a more useful model function can be created by multiplying the created multiple model functions with each other.
- step A-2 two or more synthetic variables are generated, and in step A-3-1, reliability values are given to each of the two or more synthetic variables.
- step A-4-1 two or more independent model functions having each of the two or more synthetic variables as explanatory variables are created. By multiplying these two or more model functions with each other, an embodiment of creating a model function represented by multiplication may be used.
- model functions selected from the following three model functions may be multiplied by each other to create a model function represented by multiplication.
- all of the following three model functions may be multiplied by each other to create a model function represented by multiplication.
- Equation 4 a model function created by multiplying the above-mentioned model functions f1 (x1), model function f2 (x2), and model function f3 (3) with each other is used. ..
- the primary contributor is the mother
- the secondary contributor is the fetus in the womb of the mother
- the mixed nucleic acid sample is a circulating acellular nucleic acid sample collected from the mother.
- Step A 1-1 is a step of preparing a data set obtained by measuring a circulating acellular nucleic acid sample.
- Circulating cell-free nucleic acid samples contain a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus.
- Circulating cell-free nucleic acid samples usually contain more primary nucleic acid than secondary nucleic acid. On the other hand, the content ratio may be reversed in the latter half of pregnancy.
- This dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
- a sitting position having single nucleotide polymorphisms (SNPs) used in human identification (HID) is preferably mentioned.
- the known SNPs used in HID are stored in a database, and a polymorphic sitting position with these SNPs can be arbitrarily selected.
- Steps A 1-2 show the presence of alleles that are homozygous in the mother, homozygous in the father, and derived from the major nucleic acid among the multiple polymorphic loci of the data contained in the dataset. This is a step of linearly binding at least the numerical values of (A1) and (A2) regarding the polymorphic locus detected by distinguishing between the signal shown and the signal indicating the presence of an allele derived from the secondary nucleic acid. .. Since the polymorphic loci are homozygous for the mother and homozygous for the father, it is unlikely that the signal from the maternal genomic DNA will contribute to both the primary component signal intensity and the secondary component signal intensity.
- Step A 1-3-1 is a step of assigning a reliability value to a synthetic variable generated by a linear combination, and all the explanations of Step A-3-1 described above are valid.
- the truth of the secondary component signal strength is determined as follows.
- the secondary component signal due to the allele derived from the father is homozygous by the mother. It should be detected separately from alleles. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as true. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as false. This means that the result that the secondary component signal was not detected is false.
- the alleles derived from the father are detected separately from the alleles that the mother has in the homozygosity. It is not possible. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as false. Further, when the sub-component signal is not detected separately from the main component signal, the sub-component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
- Step A 1-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
- model function f2 in which the secondary component signal strength is the explanatory variable x2
- model function f3 in which the secondary component mixing ratio is the explanatory variable x3. ..
- steps A-4-2 and A-4-3 are appropriate.
- a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
- the major contributor corresponds to a healthy person having a normal allele in a polymorphic sitting position where a mutation related to cancer is observed, and the secondary contributor corresponds to a cancer cell.
- the mixed nucleic acid sample contains the base sequence information of the polymorphic locus in which the mutation related to cancer is introduced into the nucleic acid sample collected from the healthy person containing the main nucleic acid containing the genetic information about the healthy person. It is artificially prepared by spike (adding) a secondary nucleic acid consisting of a plurality of nucleic acid fragments containing the nucleic acid. More specifically, a mixed nucleic acid sample artificially prepared by spiked a nucleic acid fragment containing a sequence of a mutant allele associated with cancer into a circulating acellular nucleic acid sample collected from a healthy person is preferable.
- the mixed nucleic acid sample may be prepared by spike an artificially synthesized nucleic acid fragment into a nucleic acid sample collected from a healthy person. Further, a mixed nucleic acid sample may be prepared by spiking a cancer cell line or a cancer tissue or a nucleic acid extract thereof on a nucleic acid sample collected from a healthy person.
- the mixed nucleic acid sample mimics a circulating acellular nucleic acid sample of a subject to be tested for cancer.
- the mixing ratio of the primary nucleic acid and the secondary nucleic acid in the mixed nucleic acid sample is not particularly limited, but it is preferable to adjust the mixed nucleic acid sample so that the primary nucleic acid is contained in a larger amount than the secondary nucleic acid. In other words, it is preferable to spike the secondary nucleic acid so that the signal resulting from a particular locus in the secondary nucleic acid is smaller than the signal resulting from the locus in the primary nucleic acid.
- the spiked secondary nucleic acid has a gene copy count of preferably less than 50%, more preferably 40% or less, still more preferably 30% or less, still more preferably 20% or less, still more preferably 10% with respect to the major nucleic acid. % Or less.
- the length of the nucleic acid fragment to be spiked is not particularly limited as long as it contains a mutation related to cancer, but preferably 50 to 500 bp, more preferably 100 to 300 bp, still more preferably 120 to 200 bp. It can be exemplified.
- nucleic acid fragment to be spiked a plurality of any known cancer-related single nucleotide substitution mutations can be selected.
- Steps A-1, A- 2 , A-3-1 and A-4-1 described in the item of " ⁇ 1-1>Overview" are the steps A2-1 and A in the present embodiment. It corresponds to 2-2 , step A 2-3-1 and step A 2-4-1. Hereinafter, each step will be described.
- Step A 2-1 is a step of preparing a data set containing data obtained by measuring a mixed nucleic acid sample in which the above-mentioned secondary nucleic acid is spiked.
- the data set prepared in step A 2-1 may also include data obtained by measuring a nucleic acid sample containing only the main nucleic acid without spiked secondary nucleic acids.
- the polymorphic loci preferably include loci with single nucleotide polymorphisms (SNPs) known to be associated with cancer. Cancer-related SNPs are stored in a database, and certain polymorphic loci with these SNPs can be arbitrarily selected.
- SNPs single nucleotide polymorphisms
- Step A 2-2 Among the data contained in the data set, among the plurality of polymorphic loci, a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are included. It is a step of performing linear coupling with respect to at least the numerical values (A1) and (A2) regarding the polymorphic sitting position detected separately.
- Step A 2-3-1 is a step of assigning a reliability value to the synthetic variable obtained by the linear combination, and all the explanations of step A-3-1 described above are valid.
- the truth of the secondary component signal strength is determined as follows.
- a secondary component signal should be detected for the nucleic acid fragment. Therefore, in this case, when the secondary component signal is detected for the nucleic acid fragment, the secondary component signal is true. If no secondary component signal is detected for the nucleic acid fragment, the secondary component signal is regarded as false. This means that the result that the secondary component signal was not detected is true.
- the secondary component signal should not be detected for the nucleic acid fragment. Therefore, in this case, when the secondary component signal is detected for the nucleic acid fragment, the secondary component signal is false. Further, in this case, when the secondary component signal is not detected for the nucleic acid fragment, the secondary component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
- Step A 2-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
- model function f2 (x2) in which the secondary component signal intensity is the explanatory variable x2
- model function f2 (x2) in which the secondary component mixing ratio is the explanatory variable x2. ..
- steps A-4-2 and A-4-3 are appropriate.
- a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
- a model function is created from a data set obtained from a cancer test.
- the feature of this embodiment is that a model function is created based on the data regarding a single polymorphic lotus coition. Specifically, it includes the following steps A 2'-1, step A 2'- 2 , and the above-mentioned steps A 2-3-1 and step A 2-4-1.
- Step A 2'-1 is a step of preparing a data set obtained by measuring a plurality of mixed nucleic acid samples in which the above-mentioned secondary nucleic acids are spiked at different content ratios.
- the difference from Step A 2-1 is that a plurality of mixed nucleic acid samples in which secondary nucleic acids are spiked at different content ratios are prepared.
- the above-mentioned step A 2-1 contains data on a plurality of polymorphic loci, in the dataset of step A2'-1, each allele in a single polymorphic locus in the primary nucleic acid and the secondary nucleic acid. It also differs in that it only needs to include a signal indicating the existence of. That is, step A 2'-1 is characterized in that while data on a single polymorphic locus may be prepared, data on a plurality of mixed nucleic acid samples having different content ratios of secondary nucleic acids are prepared.
- Step A 2'- 2 among the data contained in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid were detected separately. It is a step of linearly connecting numerical groups including at least the following (A1') and (A2') for a single polymorphic locus to generate one or more synthetic variables.
- A1' Secondary component signal intensity indicating the presence of the single polymorphic lous allele derived from the secondary nucleic acid.
- A2' Secondary component mixing ratio, which is the ratio of the secondary component signal strength to the total signal strength caused by the single polymorphic sitting allele.
- (A1') and (A2') are merely different in terms of expression because the data prepared in step A2' - 1 is data relating to a single polymorphic lotus coition, and their essence is the same. Is the same as (A1) and (A2) described above.
- step A 2 ′ -1 In the embodiment including step A 2 ′ -1, step A 2 ′ -2 and the above-mentioned step A 2-3-1 and step A 2-4-1, there is no general method for creating a calibration curve. It is useful for creating model functions from data acquired by microarrays, digital PCR, and base sequence determination means (particularly next-generation sequencers).
- the main contributor corresponds to the recipient of organ transplantation
- the secondary contributor corresponds to the transplanted organ transplanted from the donor.
- the mixed nucleic acid sample in this embodiment contains a primary nucleic acid containing genetic information about the recipient and a secondary nucleic acid containing genetic information about the transplanted organ.
- the mixed nucleic acid sample contains more major nucleic acid than secondary nucleic acid.
- the genetic information about the transplanted organ is consistent with the genetic information about the donor.
- the mixed nucleic acid sample may be a sample obtained from the recipient after transplantation, specifically, a circulating acellular nucleic acid sample. Alternatively, it may be prepared by artificially mixing the main nucleic acid derived from the recipient obtained from the recipient and the secondary nucleic acid derived from the donor obtained from the donor or the transplanted organ.
- the number of copies of the secondary nucleic acid is preferably less than 50%, more preferably 40% or less with respect to the primary nucleic acid so that the signal caused by the primary nucleic acid is detected more strongly than the signal caused by the secondary nucleic acid. , More preferably 30% or less, still more preferably 20% or less, still more preferably 10% or less.
- Steps A-1, A-2, A-3-1 and A-4-1 described in the item of " ⁇ 1-1>Overview" are the steps A 3-1 and A in the present embodiment. It corresponds to 3-2, step A 3 3-1 and step A 3 4-1 . Hereinafter, each step will be described.
- Step A 3-1 is a step of preparing a data set obtained by measuring the mixed nucleic acid sample described above. This dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
- a sitting position having single nucleotide polymorphisms (SNPs) used in human identification (HID) is preferably mentioned.
- the known SNPs used in HID are stored in a database, and a polymorphic sitting position with these SNPs can be arbitrarily selected.
- a recipe is used.
- a signal is obtained indicating the presence of an allele that the ent does not have and that the donor has as a heterozygotes or homozygotes, this can be determined to be true.
- nucleic acid sample does not contain secondary nucleic acids derived from the donor, it is false when a signal is obtained indicating the presence of an allele that the recipient does not have but the donor has. Can be determined.
- Step A 3-2 among the data contained in the data set, a signal indicating the presence of an allele derived from the main nucleic acid and the presence of the allele derived from the secondary nucleic acid in the plurality of polymorphic loci are present.
- This is a step of linearly coupling at least the numerical values of (A1) and (A2) with respect to the polymorphic sitting position detected separately from the signal indicating.
- the secondary component signal intensity indicating the presence of another allele other than the specific allele may be indicated. Signals due to the recipient's allele cannot be mixed. In this case, the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are detected separately.
- Step A 3 3-1 is a step of assigning a reliability value to a synthetic variable generated by a linear combination, and all the explanations of step A-3-1 described above are valid.
- the truth of the secondary component signal strength is determined as follows.
- Alleles that the recipient does not have and that the donor has homozygous or heterozygous are distinguished from the alleles that the recipient has and are derived from the alleles that the donor has.
- the next component signal should be detected. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as true. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as false. This means that the result that the secondary component signal was not detected is false.
- the secondary component signal is not detected in distinction from the allele possessed by the recipient. Therefore, when the sub-component signal is detected separately from the main component signal for the allele, the sub-component signal is regarded as false. Further, when the sub-component signal is not detected in the allele to be distinguished from the main component signal, the sub-component signal is regarded as true. This means that the result that the secondary component signal was not detected is true.
- Step A 3-4-1 is a step of obtaining a model function, and all the above-mentioned explanations of step A-4-1 are valid.
- model function f2 in which the secondary component signal strength is the explanatory variable x2
- model function f3 in which the secondary component mixing ratio is the explanatory variable x3. ..
- steps A-4-2 and A-4-3 are appropriate.
- a plurality of created model functions may be multiplied by each other to create a model function represented by multiplication. The specific embodiment is as described above.
- the present invention also relates to a reliability calculation method.
- a reliability calculation method Asinafter, specific embodiments of the reliability calculation method of the present invention will be described. It should be noted that, of the contents of the above-mentioned description of the method for creating the model function, the part appropriate for the description of the method for calculating the reliability of the present invention will be omitted as appropriate.
- the reliability calculation method of the present invention is a reliability value calculation method for calculating a reliability value by inputting an explanatory variable thereof into a model function.
- the model function referred to here is two or more models selected from a group consisting of a model function obtained by the above method, a model function of any of equations 1 to 3, or a model function represented by equations 1 to 3. Examples include model functions that are multiplied by each other and represented by multiplication.
- the numerical values to be input to the model function are the explanatory variables in each model function. Specifically, a numerical value of 1 or 2 or more selected from the following (B1) and (B2) and the synthetic variables obtained in the following step B-2 included in the data set prepared in the following step B-1 is used. Enter it in the model function as an explanatory variable.
- the reliability calculation method of the present invention includes the following step B-1. If the numerical value to be input to the model function is a synthetic variable, the synthetic variable is generated by the following step B-2.
- step B-1 If the numerical value to be input to the model function is a synthetic variable, the synthetic variable is generated by the following step B-2.
- Step B-1 is a step of preparing a data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about a major contributor and a secondary nucleic acid containing genetic information about a secondary contributor.
- the mixed nucleic acid sample contains more major nucleic acid than secondary nucleic acid.
- the dataset then contains signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
- the method for acquiring the data set is not particularly limited. It may be acquired primarily by using the analysis means described later, or it may be acquired secondarily by a third party.
- the data set is not particularly limited as long as it is obtained by an analytical means capable of distinguishing and detecting each allele in the polymorphic sitting position. Examples of the analytical means include analytical means capable of distinguishing and detecting single nucleotide substitutions (SNPs) in polymorphic loci.
- SNPs single nucleotide substitutions
- analysis means examples include next-generation sequencers used for detecting SNPs, digital PCR, microarrays, multiplexing PCR, mass spectrometry, and the like. These specific contents are as explained in the item of " ⁇ 1> Method of creating a model function".
- the type of mixed nucleic acid sample is not limited. For example, it is obtained from a circulating acellular nucleic acid sample (cfDNA, cfRNA) obtained from the blood of a pregnant woman obtained for a prenatal genetic test, or from the blood of a test subject obtained for a cancer test. Preferable examples thereof include a circulating acellular nucleic acid sample (cfDNA, cfRNA) obtained from the blood of a recipient obtained for monitoring the colonization of a transplanted organ, and the like.
- a circulating acellular nucleic acid sample cfDNA, cfRNA
- cfDNA, cfRNA circulating acellular nucleic acid sample obtained from the blood of a recipient obtained for monitoring the colonization of a transplanted organ, and the like.
- the data set in the reliability calculation method of the present invention includes a signal indicating the existence of each allele in a plurality of polymorphic loci, and this "plurality of polymorphic loci" is the basis for creating a model function. It does not have to be the same as the "plurality of polymorphic sitting positions" used as, and the degree of overlap is not limited.
- the degree of overlap may be preferably 80% or less, more preferably 70% or less, based on the "plurality of polymorphic lotuses" used as the basis for creating the model function. , More preferably 60% or less, still more preferably 50% or less.
- the degree of overlap may be 0%, preferably 10% or more, or further, based on the "plurality of polymorphic lotus coitions" used as the basis for creating the model function. It may be preferably 20% or more, more preferably 30% or more, still more preferably 40% or more.
- Step B-2 among the data included in the data set, a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid among a plurality of polymorphic loci are shown. Is a step of linearly connecting numerical groups including the following (B1) and (B2) with respect to the polymorphic locus detected separately to generate one or more synthetic variables.
- the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- the above description (A1) is valid as it is.
- the numerical value group to be linearly combined in step B-2 may include numerical values other than the above-mentioned (B1) and (B2). That is, a linear combination is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus coition in addition to (B1) and (B2).
- the numerical values (B3) to (B5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (B3) to (B5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (B3) to (B5) may be included in the numerical group.
- the major component signal strength is the strength of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
- the above description (A3) is valid as it is.
- the data set prepared in step B-1 is a set of data related to a plurality of polymorphic sitting positions. Therefore, needless to say, the data set prepared in step B-1 includes a plurality of sets of data including the above (B1) and (B2) and other numerical data relating to a specific polymorphic lotus coition. It will be.
- Standardized data [(original data)-(mean value)] / (sample standard deviation)
- a polymorphic locus detected by distinguishing between a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid refers to the presence of an allele derived from the major nucleic acid. It refers to a polymorphic locus in which the signal indicating the signal and the signal indicating the presence of an allele derived from the secondary nucleic acid are not mixed.
- the cfDNA of the cfDNA regardless of the father's genetic type.
- the signals of allele A and allele B derived from the genomic DNA of the mother are always detected.
- Either the allele A or allele B signal should contain a signal derived from the fetal cffDNA, but this cannot be distinguished from the signal derived from the mother's genomic DNA. Such data is excluded from the analysis of the present invention.
- the mutation is always included in ctDNA, so the signal derived from the test target and cancer. It will be mixed with cell-derived signals. Such data is excluded from the analysis of the present invention.
- the polymorphic locus targeted for data analysis is "a signal indicating the presence of an allele derived from a major nucleic acid and a signal indicating the presence of an allele derived from a secondary nucleic acid.” It is limited to "polymorphic sitting position detected separately”.
- the polymorphic locus to be analyzed in step B-2 is a polymorphic lous coition in which there is no possibility that a signal indicating the presence of an allele derived from a secondary nucleic acid is mixed with a signal indicating the presence of an allele derived from a major nucleic acid. It may be paraphrased as.
- one or more synthetic variables are generated by linearly combining the above-mentioned numerical groups.
- Principal component analysis can be preferably exemplified as a means of linear combination. It may be a synthetic variable generated by another means. Even if it is a synthetic variable generated by another means, it is preferable that this is a synthetic variable that can be generated by principal component analysis.
- the number of synthetic variables that can be generated increases as the number of types of numerical values included in the numerical value group to be linearly combined increases.
- the number of synthetic variables generated in step B-2 is not particularly limited.
- the steps for calculating the reliability value by inputting the numerical values obtained as described above into the model function are the following steps B-3-1 to B-3-4.
- step B-3-1 the synthetic variable generated by the linear combination in step B-2 is input to the above-mentioned model function whose synthetic variable is the explanatory variable and the reliability value is the objective variable, and the reliability value is calculated. It is a process to do. It should be noted that the types and numbers of the numerical values included in the numerical value group used for the linear connection used for creating the model function and the linear connection for generating the composite variable to be the input value to the model function were used. It is preferable that the types of numerical values included in the numerical value group and the number thereof are the same.
- the present invention also relates to a method for calculating a reliability value, which comprises the above-mentioned step B-1 and the following step B-3-2.
- Step B-3-2 is a step of inputting the secondary component signal strength of (B1) into the above-mentioned model function f2 (x2) and calculating a reliability value.
- the reliability value of the data can be easily calculated by inputting the secondary component signal strength primaryly included in the data set into the model function f2 (x2).
- Step B-3-3 is a step of inputting the secondary component mixing ratio of the above (B2) into the above-mentioned model function f3 (x3) and calculating a reliability value.
- the reliability value of the data can be easily calculated by inputting the secondary component mixing rate into the model function f3 (x3).
- the present invention also relates to a method for calculating a reliability value, which comprises the above-mentioned step B-1 and the following step B-3'.
- a method for calculating a reliability value which comprises the above-mentioned step B-1 and the following step B-3'.
- Step B-3' a variable selected from the following three types of numerical values is input to a model function represented by multiplication, the variable being the explanatory variable and the reliability value being the objective variable, and reliability is obtained. This is the process of calculating the sex value.
- (I) The synthetic variable generated in the above step B-2.
- a polymorphism in which a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are separately detected is detected.
- a polymorphism in which a signal indicating the presence of an allele derived from the main nucleic acid and a signal indicating the presence of an allele derived from the secondary nucleic acid are separately detected is detected.
- the secondary component mixing ratio which is the ratio of the secondary component signal intensity to the total signal intensity caused by the allele of the specific polymorphic sitting position with respect to the sitting position.
- the model function represented by multiplication here is a model function represented by multiplication by multiplying two or more model functions selected from the following three model functions with each other as described above.
- -Model function created by process A-1, process A-2, process A-3-1 and process A-4-1-Created by process A-1, process A-3-2 and process A-4-2 Model functions created by process A-1, process A-3-3, and process A-4-3
- variables corresponding to the respective explanatory variables of f1 (x1), f2 (x2), and f3 (x3) are input to the model function represented by Equation 4, and the reliability value is calculated. do.
- the major contributor corresponds to the mother
- the secondary contributor corresponds to the fetus in the womb of the mother
- the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the mother.
- the process B- 1 , the process B - 2 and the process B - 3-1 described above correspond to the process B 1-1, the process B 1-2 and the process B 1-3-1 described below, respectively. do.
- Step B 1-1 is a step of preparing a data set obtained by measuring a circulating acellular nucleic acid sample containing a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus.
- the dataset is a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
- the plurality of polymorphic sitting positions referred to here are preferably polymorphic sitting positions used in human personal identification (HID).
- Step B 1-2 are a signal indicating the presence of an allele derived from the major nucleic acid that is homozygous in the mother among the multiple polymorphic loci of the data contained in the dataset, and the secondary nucleic acid.
- a signal indicating the presence of an allele derived from the above and a numerical group containing at least the above (B1) and the above (B2) for the polymorphic locus detected separately are linearly coupled to generate one or more synthetic variables. It is a process.
- the genotype of the polymorphic lotus in the pseudofather may be homozygous or heterozygous.
- Step B 1-3-1 is a step of inputting the synthetic variable generated in step B 1-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
- the major contributor corresponds to the test subject
- the secondary contributor corresponds to the cancer cell
- the mixed nucleic acid sample corresponds to the circulating acellular nucleic acid sample collected from the test subject.
- the steps B - 1, B- 2 and B-3-1 correspond to the steps B2-1, B2-2 and B2-3-1 described below, respectively.
- Step B 2-1 is a data set obtained by measuring a circulating acellular nucleic acid sample, which comprises a major nucleic acid containing genetic information about the subject to be tested and may contain a secondary nucleic acid containing genetic information about cancer cells. It is a step of preparing a data set containing a signal indicating the presence of each allele in a plurality of cancer-related polymorphic loci in the primary nucleic acid and the secondary nucleic acid.
- “may contain secondary nucleic acid” means a situation in which the possibility that the secondary nucleic acid is contained in the circulating acellular nucleic acid sample cannot be completely ruled out.
- Step B 2-2 among the data contained in the data set, a signal indicating the presence of a normal type allele and a signal indicating the presence of a mutant type allele are distinguished from each other in a plurality of polymorphic loci. It is a step of linearly connecting numerical groups including at least the above (B1) and the above (B2) with respect to the detected polymorphic locus to generate one or more synthetic variables.
- Normal-type alleles are alleles commonly found in healthy individuals who do not have cancer, and mutant-type alleles are alleles into which mutations that are considered to be related to cancer have been introduced.
- step B 2-2 from the data contained in the data set, among the plurality of polymorphic sitting positions, the polymorphic sitting position in which the mutant allele is homozygous or heterozygous in the test subject is concerned. It is preferable to exclude the data. By excluding the data on the polymorphic sitting position with the mutant allyl that is congenitally possessed by the test subject in this way, the secondary component signal is detected mixed with the main component signal derived from the test subject himself. Data is excluded. This improves the accuracy of the calculated reliability value.
- Step B 2-3-1 is a step of inputting the synthetic variable generated in step B 2-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
- the major contributor corresponds to the recipient of the organ transplant
- the secondary contributor corresponds to the transplanted organ
- the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the recipient.
- process B-1, process B - 2 and process B-3-1 correspond to process B 3-1, process B 3 -2- and process B 3 3-1 described below, respectively.
- Step B 3-1 is a step of preparing a dataset obtained by measuring a circulating acellular nucleic acid sample, which may contain a major nucleic acid containing genetic information about the recipient and a secondary nucleic acid containing genetic information about the transplanted organ. be.
- the dataset contains signals indicating the presence of each allele in multiple polymorphic loci in the primary and secondary nucleic acids.
- the plurality of polymorphic sitting positions referred to here are preferably polymorphic sitting positions used in human personal identification (HID).
- Step B 3-2 among the data included in the data set, among the plurality of polymorphic sitting positions, At least the above-mentioned (B1) and the above-mentioned (B2) regarding the polymorphic locus in which the signal indicating the presence of the allele derived from the main nucleic acid and the signal indicating the presence of the allele derived from the secondary nucleic acid are separately detected.
- This is a step of linearly combining numerical values including the above to generate one or more synthetic variables.
- Step B 3-3-1 is a step of inputting the synthetic variable generated in step B 3-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
- the major contributor corresponds to the mother
- the secondary contributor corresponds to the fetus in the womb of the mother
- the mixed nucleic acid sample corresponds to a circulating acellular nucleic acid sample collected from the mother.
- the process B-1, the process B - 2 and the process B-3-1 described above correspond to the process B 4-1 and the process B 4-2 and the process B 4 3-1 described below, respectively. do.
- Step B 4-1 is obtained by measuring a circulating acellular nucleic acid sample taken from the mother, including a major nucleic acid containing genetic information about the mother and a secondary nucleic acid containing genetic information about the fetus in the mother's womb. Prepare the data set to be used. The dataset contains signals indicating the presence of each allele in multiple disease-related polymorphic loci in the primary and secondary nucleic acids.
- Step B 4-2 first, among the plurality of polymorphic loci, the data regarding the polymorphic loci having the mutant allyl as a heterozygotes in the mother are excluded from the data contained in the data set.
- the signal indicating the presence of the allele derived from the main nucleic acid and the presence of the allele derived from the secondary nucleic acid are displayed in the plurality of polymorphic loci.
- One or more synthetic variables are generated by linearly combining the indicated signal and the numerical group containing at least the above (B1) and the above (B2) with respect to the polymorphic locus detected separately.
- Step B 4-3-1 is a step of inputting the synthetic variable generated in the step B-2 into a model function using the synthetic variable as an explanatory variable and calculating a reliability value.
- the reliability of a signal indicating the presence of a specific allele at a specific polymorphic lous coition in a secondary nucleic acid contained in a data set is determined. Can be evaluated.
- the reliability value of the signal indicating the presence of the allele is calculated to be low. There are cases where it ends up.
- the method of setting the exclusion condition of the present invention relates to a method of setting an exclusion condition for determining what should be excluded from the data set in order to narrow down the data of the explanatory variables to be input to the model function.
- the method for setting exclusion conditions of the present invention particularly relates to prenatal genetic testing.
- the reliability value of the secondary component signal intensity for the loci homozygous for each of the parents is preferably less than 0.8, more preferably less than 0.9, still more preferable. It is preferable to set the exclusion condition so as to exclude those having a value of less than 0.99, more preferably less than 0.999. Further, the reliability value of the secondary component signal intensities for the loci of the same type that the parents have in homozygosity is preferably 0.2 or more, more preferably 0.1 or more, and further preferably 0. It is preferable to set the exclusion condition so as to exclude those of 01 or more, more preferably 0.001 or more.
- Exclusion condition setting method (Embodiment 1)
- One embodiment of the method for setting the exclusion condition of the present invention includes the following steps C-1-1, step C-2-1, step C-3-1 and step C-4-1.
- the exclusion conditions set by the present embodiment can be applied to the method for calculating the reliability value for monitoring the colonization of the transplanted organ described above.
- Step C-1-1 prepares a data set obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information on a major contributor and a secondary nucleic acid containing genetic information on a secondary contributor.
- the dataset includes a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid. The authenticity of the signal is known.
- the single nucleotide polymorphic lotus used in human personal identification (HID) can be preferably exemplified.
- the major contributor, sub-contributor, and mixed nucleic acid sample correspond to any of the following.
- the major contributor is the mother, the sub-contributor is the fetus in the womb of the mother, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
- the major contributor is the recipient, the sub-contributor is the transplanted organ, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
- Process C-2-1 is the most contributory among the synthetic variables obtained by linearly connecting numerical groups including numerical values related to polymorphic loci that meet specific conditions in the data set prepared in step C-1-1. Is the process of generating high synthetic variables. The synthetic variable with the highest contribution rate corresponds to the first principal component when performing principal component analysis.
- step C-2-1 the allele is homozygous in the mother, homozygous in the father, and atypical between the mother and the father, or homozygous in the recipient.
- (C1) is the secondary component signal strength.
- the secondary component signal intensity is the intensity of the signal indicating the presence of a specific polymorphic lous allele derived from the secondary nucleic acid.
- the above description (A1) is valid as it is.
- (C2) is the secondary component mixing rate.
- (C3) is noise. Noise is a numerical value obtained by subtracting the main component signal strength and the secondary component signal strength from the total signal strength caused by the allele of a specific polymorphic lotus coition. As for the definition and the specific embodiment, the above description (A5) is valid as it is.
- the numerical value group to be linearly combined in step C-2-1 may include numerical values other than the above-mentioned (C1), (C2) and (C3). That is, linear coupling is performed on a numerical group including various measured values or calculated values related to the specific polymorphic lotus (C1), (C2) and (C3), as well as various measured values or calculated values related to the specific polymorphic lotus.
- the numerical values (C4) to (C5) that may be included in the numerical value group to be linearly combined will be described below. In addition, only one kind selected from the following (C4) to (C5) may be included in the numerical value group, or two or more kinds of numerical values arbitrarily selected may be included in the numerical value group. Further, all of (C4) to (C5) may be included in the numerical group.
- the major component signal strength is the strength of the signal indicating the presence of one allele of a specific polymorphic lous derived from the major nucleic acid.
- the above description (A3) is valid as it is.
- (C5) is the mixing rate of the main components.
- main component mixing rate main component signal strength / total signal strength
- the dataset is a set of data related to a plurality of polymorphic lotus coitions. Therefore, needless to say, the data set includes a plurality of sets of data including the numerical data of the above (C1-1) to (C5-1) relating to a specific polymorphic lotus coition. It is preferable that the numerical data included in the numerical group to be linearly combined is standardized.
- the types and numbers of numerical values included in the numerical group used for the linear combination used to create the model function, and the numerical group used for the linear combination to generate the synthetic variable in step C-2-1 are the same.
- Step C-3-1 is a step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable obtained by the linear combination in step C-2-1.
- the specific embodiment is not particularly limited.
- the outlier is a numerical value indicating an abnormal value when the reliability value is calculated by inputting to the model function created by the method of the present invention.
- the reliability value of the signal indicating the presence of the allele is preferably less than 0.6, more preferably. Can be treated as an outlier in the case where is calculated as less than 0.7, more preferably less than 0.8.
- the reliability value of the signal indicating the presence of the allele is preferably 0.4 or more, more preferably 0.
- a numerical value relating to the allele in the case where it is calculated as 3 or more, more preferably 0.2 or more, can be treated as an outlier.
- a numerical value separated from the average value of the composite variable by a value preferably 2 times or more, more preferably 3 times or more, further preferably 4 times or more, still more preferably 5 times or more of the standard deviation is treated as an outlier. You can also do it.
- step C-3-1 include the following methods. First, a tentative threshold value is set for the synthetic variable, and the following tentative exclusion condition C1 is set.
- (Tentative exclusion condition C1) Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ.
- this provisional exclusion condition C1 is applied to the data set to be analyzed, and the invention of the above-mentioned reliability value calculation method is applied to the data set remaining without being excluded, and the reliability value is calculated. It is tested whether or not the exception result is excluded from the result of this calculated reliability value. If the exception result is not excluded, or if the result of the reliability value that accurately reflects the fact is excluded excessively, the provisional exclusion condition is reset again, and the test is repeated in the same manner as above. Identify the optimal conditions.
- the process C-3-1 may include the process C-3-1-1 and the process C-3-1-2, which will be described later.
- step C-3-1-1 a synthetic variable generated by linear coupling in step C-2-1, (C1) secondary component signal strength, and (C2) are added to the model function created by the method of the present invention described above.
- This is a step of calculating a reliability value by inputting a necessary numerical value as an explanatory variable among the secondary component mixing rate and (C3) noise.
- the model function used for calculating the reliability value is not particularly limited as long as it is the model function described in the item of " ⁇ 1> Method of creating a model function".
- an explanatory variable is input to the model function represented by any of the above equations 1 to 4, and the reliability value is calculated.
- step C-3-1-2 a scatter diagram is created in which the synthetic variables generated by the linear combination in step C-2-1 and the reliability values calculated in step C-3-1-1 are plotted. do.
- a scatter diagram in which synthetic variables are plotted on the vertical axis and reliability values are plotted on the horizontal axis a set of data points distributed in the horizontal direction (direction in which the reliability values spread) (in other words, the dispersion of the values of the synthetic variables is small).
- a set of data points distributed in the direction in which the reliability value spreads (a set extending in the horizontal direction) is specified as an exclusion candidate.
- a set of data points (a set extending in the vertical direction) dispersed in the direction in which the composite variable spreads is specified as a non-exclusion candidate. Then, a threshold value is set for the value of the synthetic variable so as to exclude a part or all of the exclusion candidates.
- the ratio of excluded data points is preferably 50% or more, more preferably 60% or more, still more preferably 60% or more, of all the data points of the exclusion candidates (including the portion overlapping with the non-exclusion candidates).
- a threshold is set for the synthetic variable so that it is 70% or more, more preferably 80% or more, still more preferably 90% or more, still more preferably 95% or more.
- Step C-4-1 is a step of setting a condition to be excluded from the data set input to the model function for calculating reliability as the following exclusion condition C1.
- Example condition C1 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and atypical between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele that is atypical between the recipient and the donor is present. Further, the data set in which the synthetic variable having the highest contribution rate is less than the threshold value set in the step C-3-1 is removed.
- Exclusion condition setting method (Embodiment 2)
- One embodiment of the method for setting the exclusion condition of the present invention includes the following steps C-1-2 and C-2-2, and steps C-3-2 and C-4-2.
- Step C-1-2 prepares a dataset obtained by measuring a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the major contributor and a secondary nucleic acid containing genetic information about the secondary contributor. Is.
- the dataset includes a dataset containing signals indicating the presence of each allele in multiple polymorphic loci in the primary nucleic acid and the secondary nucleic acid. The authenticity of the signal is known.
- the single nucleotide polymorphic lotus used in human personal identification (HID) can be preferably exemplified.
- the major contributor, sub-contributor, and mixed nucleic acid sample correspond to any of the following.
- the major contributor is the mother, the sub-contributor is the fetus in the womb of the mother, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the mother.
- the major contributor is the recipient, the sub-contributor is the transplanted organ, and the mixed nucleic acid sample is a circulating acellular nucleic acid sample taken from the recipient.
- Step C-2-2 is the first or the first of the synthetic variables obtained by linearly connecting a group of numerical values including numerical values related to polymorphic loci that meet specific conditions in the data set prepared in step C-1-2.
- the second step is to generate a synthetic variable with the highest contribution rate.
- the synthetic variable with the highest contribution rate corresponds to the first principal component when performing principal component analysis.
- the synthetic variable with the second highest contribution rate corresponds to the second principal component when performing principal component analysis.
- step C-2-2 the allele that is homozygous in the mother, homozygous in the father, and homozygous between the mother and the father, or homozygous in the recipient, in the donor of the transplanted organ.
- Linear coupling is performed for at least the above-mentioned numerical groups including (C1), (C2) and (C3) relating to the polymorphic locus in which alleles that are homozygous and homozygous for the recipient and donor are present.
- the numerical group to be the target of the linear combination may include numerical values other than (C1), (C2) and (C3), and examples thereof include (C4) to (C5) described above.
- the above-mentioned description in step C-2-1 is appropriate for the specific embodiment of step C-2-2.
- the types and numbers of numerical values included in the numerical group used for the linear combination used to create the model function, and the numerical group used for the linear combination to generate the synthetic variable in step C-2-2 are the same.
- Step C-3-2 is a step of setting a threshold value for the value of the synthetic variable so as to exclude a part or all of the outliers of the synthetic variable generated by the linear combination in step C-2-2.
- the specific embodiment is not particularly limited. Regarding the definition of outliers, the above-mentioned explanation in step C-3-1 is valid.
- step C-3-2 include the following methods. First, a tentative threshold value is set for the synthetic variable, and the following tentative exclusion condition C2 is set.
- (Tentative exclusion condition C2) Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ.
- this provisional exclusion condition C2 is applied to the data set to be analyzed, and the invention of the above-mentioned reliability value calculation method is applied to the data set remaining without being excluded, and the reliability value is calculated. It is tested whether or not the exception result is excluded from the result of this calculated reliability value. If the exception result is not excluded, or if the result of the reliability value that accurately reflects the fact is excluded excessively, the provisional exclusion condition is reset again, and the test is repeated in the same manner as above. Identify the optimal conditions.
- the process C-3-2 may include the process C-3-2-1 and the process C-3-2-2, which will be described later.
- step C-3-2-1 the synthetic variables generated by the linear coupling in step C-2-2, (C1) secondary component signal strength, and (C2) are added to the model function created by the method of the present invention described above.
- This is a step of calculating a reliability value by inputting a necessary numerical value as an explanatory variable among the secondary component mixing rate and (C3) noise.
- the model function used for calculating the reliability value is not particularly limited as long as it is the model function described in the item of " ⁇ 1> Method of creating a model function".
- an explanatory variable is input to the model function represented by any of the above equations 1 to 4, and the reliability value is calculated.
- step C-3-2-2 a scatter plot is created by plotting the synthetic variables generated by the linear combination in step C-2-2 and the reliability values calculated in step C-3-2-1. do.
- a scatter diagram in which synthetic variables are plotted on the vertical axis and reliability values are plotted on the horizontal axis a set of data points distributed in the horizontal direction (direction in which the reliability values spread) (in other words, the dispersion of the values of the synthetic variables is small).
- a set of data points distributed in the vertical direction (in the direction in which the composite variables spread) and a set of data points distributed in the vertical direction in other words, the set of the values of the composite variables is large and the dispersion of the reliability values is large).
- a small set is observed.
- a set of data points (a set extending in the vertical direction) dispersed in the direction in which the composite variable spreads is specified as an exclusion candidate.
- a set of data points (a set extending in the horizontal direction) dispersed in the direction in which the reliability value spreads is specified as a non-exclusion candidate.
- a threshold value is set for the value of the synthetic variable so as to exclude a part or all of the exclusion candidates.
- the ratio of excluded data points is preferably 50% or more, more preferably 60% or more, still more preferably 60% or more, of all the data points of the exclusion candidates (including the portion overlapping with the non-exclusion candidates).
- a threshold is set for the synthetic variable so that it is 70% or more, more preferably 80% or more, still more preferably 90% or more, still more preferably 95% or more.
- Step C-4-2 is a step of setting the condition to be excluded from the data set to be input to the model function for calculating the reliability as the following exclusion condition C2.
- Example condition C2 Of the dataset obtained by analysis of a mixed nucleic acid sample containing a major nucleic acid containing genetic information about the mother or recipient and a secondary nucleic acid containing genetic information about the fetus or transplanted organ. Alleles that are homozygous in the mother, homozygous in the pseudo-father, and homozygous between the mother and the pseudo-father, or homozygous in the recipient and homozygous in the donor of the transplanted organ. And, it is obtained by linearly connecting a numerical group containing at least the above (C1), the above (C2) and the above (C3) with respect to the polymorphic locus in which the allele homozygous between the recipient and the donor is present. In addition, the data set in which the synthetic variable having the first or second highest contribution rate is less than the threshold set in the step C-3-2 is removed.
- the exclusion condition C1 and / or the exclusion condition C2 set by the above-mentioned exclusion condition setting method is set to the above " ⁇ 2-3> transplanted organ.
- the exclusion condition to be applied may be either one or both of the exclusion condition C1 and the exclusion condition C2.
- the types of numerical values included in the numerical value group to be linearly combined in step B 1-2 or step B 3-2 are preferably 10 or more, more preferably 20 or more, and further preferably 30 or more. In some cases, it is possible to calculate the reliability value with very high accuracy only by applying the exclusion condition C1.
- the present invention also relates to a program for causing a computer to execute one or more methods selected from the above-mentioned method for creating a model function, a method for calculating a reliability value, and a method for setting an exclusion condition.
- the processor in the computer operates according to the program of the present invention stored in the built-in storage device such as a hard disk device, it is selected from the above-mentioned model function creation method, reliability value calculation method, and exclusion condition setting method. Alternatively, it can be configured to perform more than one method.
- Storage medium also relates to a storage medium in which the above-mentioned program is recorded.
- the present invention also relates to a storage medium in which a model function created by the above method is recorded.
- Examples of the storage medium include a storage medium that can be read by a computer, such as a semiconductor memory, a hard disk, a magnetic storage medium, and an optical storage medium, without limitation.
- the present invention also relates to a reliability value calculation system including a storage unit in which the above-mentioned model function is recorded and a processing unit for executing the above-mentioned reliability value calculation method. ..
- a reliability value calculation system including a storage unit in which the above-mentioned model function is recorded and a processing unit for executing the above-mentioned reliability value calculation method. ..
- preferred embodiments of the reliability value calculation system of the present invention will be described.
- the processing unit is configured to process the data set to be appraised acquired by the analyzer.
- the processing unit reads and executes a program stored in the storage unit (a program that executes the above-mentioned reliability value calculation method) to realize data processing necessary for calculating the reliability value.
- It may be a device (which may be referred to as a calculator).
- the processing unit has an aspect as an execution subject of data processing. Examples of the processing unit include a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a DSP (Digital Signal Processor), and an FPGA (Field Programmable Gate Array).
- the processing unit may be a multi-core processor including two or more cores.
- the storage unit is a circuit configured to store and retain data and programs related to various data processing executed by the processing unit.
- the storage unit includes at least a non-volatile storage device and / or a volatile storage device.
- RAM Random Access Memory
- ROM Read Only Memory
- SSD Solid State Drive
- HDD Hard Disk Drive
- the storage unit is a general term for various storage devices such as a main storage device and an auxiliary storage device.
- the program may be stored in the storage unit in advance, or may be downloaded from a device (server or the like) connected via a communication circuit and stored in the storage unit.
- the reliability value calculation system of this embodiment includes an input unit for inputting the data set prepared in the above step B-1.
- the data set input to the input unit is provided to the processing unit.
- the processing unit reads out a program stored in the storage unit for executing the above-mentioned reliability value calculation method, and is included in the data set in the model function also stored in the storage unit according to the program. Enter the explanatory variables generated from the dataset to calculate the reliability value.
- the exclusion condition C1 and / or the exclusion condition C2 created by the above-mentioned setting method of the exclusion method is recorded in the storage unit.
- the reliability value calculation system of the present embodiment includes an input unit for inputting the data set prepared in the above step B-1.
- the data set input to the input unit is provided to the processing unit.
- the processing unit reads the above-mentioned exclusion condition C1 and / or exclusion condition C2 stored in the storage unit, applies the condition to the data set, and excludes data that is not suitable for calculating the reliability value.
- the processing unit reads out a program for executing the above-mentioned reliability value calculation method, and according to the program, is included in the data set remaining after applying the exclusion condition to the model function also stored in the storage unit, or the data. Enter the explanatory variables generated from the set to calculate the reliability value.
- NGS next-generation sequencer
- the first principal component is an index showing a high correlation with the reliability value.
- Each model function was created by the method described below. Although it is necessary to determine the authenticity of the secondary component signal strength in order to create the model function, the authenticity was determined based on the correct answer set according to the following rule. ⁇ If the genotype of the parents is homozygous and isomorphic, the fetal genotype is homozygous (secondary component signal intensity is false). If the genotype of the parent is homozygous and atypical, the fetal genotype is heterozygous (secondary component signal intensity is true)
- model function f1 (x1) The first principal component obtained by principal component analysis was divided into 20 according to its size. Next, the ratio (probability) of the secondary component signal intensities corresponding to the first principal component included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the first principal component included in each category. Regression analysis is performed on the first principal component and the reliability value obtained in this way using the least squares method, and a model function f1 (x1) with the first principal component as the explanatory variable and the reliability value as the objective variable is obtained. rice field. The contribution rate (R2) of the regression analysis was 0.99 or more, which was extremely good.
- FIG. 1 shows a sigmoid curve showing the model function f1 (x1). Further, the equation of the model function f1 (x1) is shown in the equation 5 below.
- model function f2 (x2) The absolute value of the secondary component signal intensity was divided into 20 according to its magnitude. Next, the ratio (probability) of the absolute value of the secondary component signal intensity included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the absolute value of the secondary component signal strength in each category. Regression analysis is performed on the absolute value of the secondary component signal intensity and the probability obtained in this way using the least squares method, and the model function f2 (with the absolute value of the secondary component signal intensity as the explanatory variable and the reliability value as the objective variable) ( x2) was obtained. The contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
- FIG. 2 shows a sigmoid curve showing the model function f2 (x2). Further, the equation of the model function f2 (x2) is shown in the equation 6 below.
- model function f3 (x3) The mixing rate of secondary components was divided into 20 according to their magnitude. Next, the ratio (probability) of the secondary component signal intensities corresponding to the secondary component mixing ratios included in each category was determined. Then, the probability in the relevant category was assigned to the representative value of the secondary component mixing rate included in each category. Regression analysis is performed on the secondary component contamination rate and probability obtained in this way using the least squares method, and a model function f3 (x3) with the secondary component contamination rate as the explanatory variable and the reliability value as the objective variable is obtained. rice field. The contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
- FIG. 3 shows a sigmoid curve showing the model function f3 (x3). Further, the equation of the model function f3 (x3) is shown in the equation 7 below.
- model function f (x1, x2, x3) Multiply f1 (x1), f2 (x2), f3 (x3) to create model function f (x1, x2, x3) represented by the following equation 4. did.
- ⁇ Test Example 2> Calculation of reliability value Using the model function f (x1, x2, x3) of Equation 4, the reliability of 200 sets of data used to create the model function is calculated and the results are verified. rice field. That is, the first principal component, the secondary component signal intensity absolute value, and the secondary component mixing rate for the lotus coition related to SNPs in the mixed nucleic acid sample are input to the model function f (x1, x2, x3), and the reliability value thereof is input. Calculated. In the calculation of the reliability value, the reliability value (Fidelity) was calculated for 8,148 SNPs excluding those in which the total value of (1) and (2) was less than 300.
- FIG. 4 shows a distribution map of the calculated reliability value.
- the left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
- the right is a compilation of the reliability values for SNPs of the same type that parents have in homozygosity (the correct answer for fetal genotype is homozygosity).
- the reliability of signals related to SNPs can be evaluated accurately.
- Exclusion condition 1 The above (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) to (1) Principal component analysis was performed on the parameters of 5). On the other hand, the reliability value was calculated by using the above model functions f (x1, x2, x3) based on the parameters (1) to (5) in which the principal component analysis was performed. Next, a scatter plot was created in which each principal component obtained by principal component analysis was plotted on the y-axis and the reliability value was plotted on the x-axis (FIG. 5).
- Exclusion condition 2 We investigated whether the exclusion conditions for SNPs of the same type that parents have in homozygosity can be set appropriately.
- the reliability value was calculated by using the above model functions f (x1, x2, x3) based on the parameters (1) to (5) in which the principal component analysis was performed.
- a scatter plot was created in which each principal component obtained by principal component analysis was plotted on the y-axis and the reliability value was plotted on the x-axis (FIG. 6).
- ⁇ Test Example 4> Reaggregation of reliability values The same procedure as in Test Example 1 after excluding the data related to SNPs corresponding to the exclusion conditions 1 and 2 set in Test Example 3 using the 200 test data set from the data set.
- the reliability value was calculated in (Number of remaining SNPs: 8,081).
- the distribution map of the calculated reliability value is shown in FIG. The left is a compilation of the reliability values for SNPs that are homozygous for each parent (the correct answer for fetal genotype is heterozygotes).
- the right is a compilation of the reliability values for SNPs of the same type that parents have in homozygosity (the correct answer for fetal genotype is homozygosity).
- the left side of FIG. 7 is a distribution diagram of reliability values for data after applying exclusion condition 1.
- the right side of FIG. 7 is a distribution diagram of reliability values for data after applying the exclusion condition 2.
- the number of exceptional cases was significantly excluded and the validity was improved.
- ⁇ Test Example 5 Verification of validity for different NGS target panels The following studies were conducted using a separately prepared 16-set data set to verify the validity of the present invention. It is the analysis result of the target panel of 132 SNPs different from the 184 SNPs target panel shown in Test Example 1.
- a set of data sets is the gene sequence test data by NGS, which is obtained by analyzing the oral mucosa sample of the mother, the oral mucosa sample of the father, the plasma sample of the mother, and the oral mucosa sample of the newborn.
- NGS is a target sequence performed on a polymorphic lotus coition with 132 known SNPs. That is, the prepared data set contains data on 2,112 (16 sets ⁇ 132) SNPs.
- the 132 SNPs analyzed in this test example do not completely overlap with the 184 SNPs analyzed in test examples 1 to 3, and the 71 SNPs are the same as the SNPs analyzed in test examples 1 to 3. Are different SNPs. From this data set, SNPs that both parents had as homozygotes were extracted and the reliability values of 531 SNPs were calculated.
- FIG. 8 shows a distribution map of reliability values calculated from the 16 test data sets.
- SNPs that are homozygous for each other the correct answer for fetal genotype is heterozygous
- SNPs that are homozygous for parents the correct answer for fetal genotype is homozygous
- 175 of the 176 SNPs showed a reliability value of 0.9 or more.
- Test Example 6 Verification of validity for SNPs whose authenticity of secondary component signals is unknown Among the 16 sets of data used in Test Example 5, the fidelity distribution of 951 SNPs that the mother has by homozygosity is inherited by the newborn. The types are tabulated as heterozygous and homozygous and summarized in FIG. In addition, all SNPs shown in FIG. 9 are a total of 300 or more of the fetal Count Major and the fetal Count minor.
- the estimated fetal genotype using the parental genotype was consistent with the genotype of the offspring confirmed after birth.
- 99.6% of neonatal homo SNPs (573 SNPs out of 575 SNPs) showed a low fidelity of 0.2 or less, and 99.4% of neonatal hetero SNPs (374 SNPs of 376 SNPs) showed a high fidelity of 0.8 or more. ..
- Part 2 Creation of model function (Part 2) From the same data set as that used in Test Example 1, only those relating to the polymorphic sitting position homozygous for both mother and father were extracted. Principal component analysis was performed on the 13 factors shown in Table 1 below included in this extracted data set. Table 1 shows the eigenvectors for the first principal component obtained as a result of principal component analysis.
- the contents of (1) to (5) are as described in Test Example 1.
- the data including "major” is the data related to the main component signal
- the data including "minor” is the data related to the secondary component signal.
- the data including "count” is the data related to the signal strength
- the data including "freq” or "frequency” is the data related to the ratio of the signal strength. That is, the numerical value including both “minor” and “count” as the notation of the variable in Table 1 corresponds to the "secondary component signal strength” in the present invention. Further, the numerical value including both “minor” and “frequ” or "frequency” as the notation of the variable in Table 1 corresponds to the "secondary component mixing ratio” in the present invention.
- (7) in Table 1 is a numerical value obtained by dividing the secondary component signal intensity indicating the presence of the allele in the specific polymorphic lotus by the average value of noise in the plurality of polymorphic lotus coitions.
- (9) in Table 1 shows the subcomponent mixing ratio, which is the ratio of the subcomponent signal intensity to the total signal intensity caused by the allele of the specific polymorphic lous coition, for the noise in the plurality of polymorphic loci. It is a value divided by the average value.
- a model function f1 (x1) having the first principal component x1 as an explanatory variable and a reliability value as an objective variable was created by the same procedure as in Test Example 1. ..
- the contribution rate (R 2 ) of the regression analysis was 0.99 or more, which was extremely good.
- Part 2 Principal component analysis was performed on the 13 factors shown in Table 1 contained in the same data set as that used in Test Example 1.
- the first principal component, the absolute value of the signal intensity of the secondary component and the mixing rate of the secondary component obtained by the principal component analysis are input to the model function f (x1, x2, x3) created in Test Example 7, and the reliability value is set.
- FIG. 10 shows a distribution map of reliability values calculated by performing principal component analysis on 5 factors or 13 factors. As shown in FIG. 10, even in this test example, extremely accurate results were obtained with almost no exceptional results. From this result, the validity and high accuracy of the model function created in Test Example 7 were proved.
- Part 2 The same data set as that prepared in Test Example 6 was prepared, and principal component analysis was performed on the 13 factors shown in Table 1 included in the data set.
- the first principal component, the absolute value of the signal intensity of the secondary component and the mixing rate of the secondary component obtained by the principal component analysis are input to the model function f (x1, x2, x3) created in Test Example 7, and the reliability value is set.
- FIG. 11 shows a distribution map of reliability values calculated by performing principal component analysis on 5 factors or 13 factors. As shown in FIG. 11, even when the genotype of the father indicating the truth or falsehood of the presence of the secondary component signal was not known in this test example, extremely accurate results were obtained with almost no exceptional results. From this result, the validity and high accuracy of the model function created in Test Example 7 were proved.
- the present invention can be applied to prenatal genetic testing, cancer screening testing, transplant organ colonization monitoring, infectious disease testing, and forensic medicine.
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Pathology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
Description
1つの方法としては、出産まで待ち、子と擬父のゲノムDNAを解析してこれらを比較する方法が挙げられる。しかし、子の出生前にその実父を知りたいというニーズは多い。出生前に親子関係を鑑別する方法としては、絨毛診断や羊水穿刺によって回収した遺伝物質を解析する方法が挙げられるが、これらは侵襲性であり、流産リスクがあるという問題がある。
これらの知見を組合せ、血中を循環するcfDNAを抽出し、癌に関連する変異が生じる多型座位を解析することで癌検査が可能となる。
ただ、cfDNAの大部分は検査対象者自身の正常型のゲノムDNAに由来し、癌細胞由来のcfDNAが含まれる割合は極微小である。そのため、上記の出生前遺伝学的検査と同様に、cfDNAの解析により得られた癌に関連する変異の存在を示唆する信号が、本当に癌細胞のゲノムDNAに由来するものなのか、それともノイズであるのかを判別することが極めて困難であるという問題がある。
ただ、cfDNAの大部分はレシピエントのゲノムDNAに由来し、ddcfDNAが含まれる割合は極微小であるため、上記の出生前遺伝学的検査と同様に、cfDNAの解析により得られたddcfDNAの存在を示唆する信号が、本当に移植臓器のゲノムDNAに由来するものなのか、それともノイズであるのかを判別することが極めて困難であるという問題がある。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(A1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度
(A2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
[工程A-3-1]
前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
[工程A-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
(A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
(A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
(A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
(A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
(A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
(A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
前記工程A-3-1において、前記2つ以上の合成変数のそれぞれについて、信頼性値の付与を行い、
前記工程A-4-1において、前記2つ以上の合成変数のそれぞれを説明変数とする互いに独立した2以上のモデル関数を作成し、
さらに、前記2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備えることを特徴とする、[1]~[9]の何れかに記載の方法。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-2]
前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度を複数に区分し、各区分に含まれる前記副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分信号強度に対応する確率として付与する工程。
[工程A-4-2]
前記各区分に含まれる前記副次成分信号強度と、前記各区分に含まれる前記副次成分信号強度に対応する確率について回帰分析を行い、前記副次成分信号強度を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-3]
前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である副次成分混入率を複数に区分し、各区分に含まれる前記副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分混入率に対応する確率として付与する工程。
[工程A-4-3]
前記各区分に含まれる前記副次成分混入率と、前記各区分に含まれる前記副次成分混入率に対応する確率について回帰分析を行い、前記副次成分混入率を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[11]に記載の方法で作成したモデル関数と、
[12]に記載の方法で作成したモデル関数と、
からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
[11]に記載の方法で作成したモデル関数、及び/又は、[12]に記載の方法で作成したモデル関数と、
を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
[11]に記載の方法で作成したモデル関数と、
[12]に記載の方法で作成したモデル関数と、
を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。
前記副次成分信号強度が、配列タグのカウント数、リード数、イオン濃度又は電気信号であることを特徴とする、[1]~[18]の何れかに記載の方法。
前記副次成分信号強度が、蛍光が観察されたウェル数であることを特徴とする、[1]~[18]の何れかに記載の方法。
前記副次成分信号強度が、蛍光強度であることを特徴とする、[1]~[18]の何れかに記載の方法。
[工程A1-1]
母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A1―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A1-3-1]
前記工程A1-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を偽とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。)
[工程A1-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[工程A2-1]
前記健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する多型座位において癌関連変異が導入された前記多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した混合核酸サンプルの測定により得られるデータを含むデータセットであり、
前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A2-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A2-3-1]
前記工程A2-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A2-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[工程A2´-1]
健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する単一の多型座位において癌関連変異が導入された前記単一の多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した、前記副次核酸の含有割合が互いに異なる複数の混合核酸サンプルの測定により得られるデータを含むデータセットであり、
前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A2´-2]
前記データセットに含まれるデータのうち、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された前記単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
(A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
[工程A2-3-1]
前記工程A2´-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A2-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
[工程A3-1]
レシピエントに関する遺伝情報を含む主要核酸と、移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A3-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A3-3-1]
前記工程A3-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。(但し、レシピエントが有していないアレルであって、かつ、ドナーがホモ接合若しくはヘテロ接合で有しているアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
レシピエント及びドナーの何れもが有していないアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、前記副次成分信号を偽とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、前記副次成分信号を真とする。)
[工程A3-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。
前記モデル関数が、
[1]~[26]の何れかに記載の方法で求めた前記モデル関数、
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B-1]
主要寄与体に関する遺伝情報を含む主要核酸を含み、副次寄与体に関する遺伝情報を含む副次核酸を含む若しくは含み得る混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
[工程B1-1]
母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B1―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
非侵襲的出生前親子鑑定のために信頼性値を算出する方法であることを特徴とする、[28]に記載の方法。
[工程B2-1]
検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B2―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成することを特徴とする、[30]に記載の方法。
[工程B3-1]
レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B3-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
移植臓器の定着のモニタリングのために信頼性値を算出する方法であることを特徴とする、[32]に記載の方法。
[工程C-1-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである、又は
前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-1]
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程。
(C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
(C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[工程C-3-1]
前記工程C-2-1における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-1]
信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程。
(除外条件C1)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。
[工程C-1-2]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであるか、
又は
前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-2]
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程。
(C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
(C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[工程C-3-2]
前記工程C-2-2における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-2]
信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程。
(除外条件C2)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。
前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が0.8未満として算出されてしまう場合における当該アレルに関する数値、及び/又は
前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が0.2以上として算出されてしまう場合における当該アレルに関する数値であることを特徴とする、[34]~[37]の何れかに記載の方法。
[34]に記載の方法で特定した除外条件C1及び/又は[35]に記載の方法で特定した除外条件C2に該当するデータセットを除去した後に残ったデータセットを用意することを特徴とする、[32]又は[33]に記載の方法。
前記モデル関数が、
[1]~[26]の何れかに記載の方法で求めた前記モデル関数、
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
前記説明変数が、以下の工程B4-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B4-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B4-1]
母親に関する遺伝情報を含む主要核酸と、前記母親の胎内にいる胎児に関する遺伝情報を含む副次核酸と、が含まれる、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B4―2]
前記データセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外し、
除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
が記録された記憶媒体。
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
が記録された記憶部と、[27]~[33]及び[40]~[42]の何れかに記載の方法を実行する処理部と、を備える、信頼性値算出システム。
前記処理部は、[40]に記載の方法を実行することを特徴とする、[46]に記載の信頼性値算出システム。
以下、本発明のモデル関数の作成方法の実施形態について詳述する。「<1-1>概要」の項目においては、本発明のモデル関数の作成方法の概要説明を加え、「<1-2>出生前遺伝学的検査」の項目においては出生前遺伝学的検査への応用例についての具体的な説明を加え、「<1-3>癌検査」の項目においては癌検査への応用例について具体的な説明を加え、「<1-4>移植臓器の定着のモニタリング」の項目においては、移植臓器の定着のモニタリングへの応用例について具体的な説明を加える。
本発明のモデル関数の作成方法は、工程A-1、工程A-2、工程A-3-1及び工程A-4-1を必須工程として含む。以下、順に説明する。
工程A-1は、混合核酸サンプルの測定により得られるデータセットを用意する工程である。
「混合核酸サンプル」とは、複数の寄与体に関する遺伝情報を含むサンプルである。この情報とはDNAにコードされた遺伝情報の他、RNAにコードされた遺伝情報を含む。
混合核酸サンプルとしては、cfDNA、cfRNAを含むサンプルが挙げられ、具体的には、全血、血漿、血清、尿が挙げられ、より好ましくは全血、血漿、血清が挙げられる。
また、「主要核酸」とは前記主要寄与体に関する遺伝情報を含む核酸である。主要核酸には、出生前遺伝学的検査の場合には母親ゲノムDNA若しくはその断片又は母親ゲノムDNAからの転写物であるRNA(母親由来のcfDNA又はcfRNA)、癌検査の場合には検査対象者のゲノムDNA若しくはその断片又は検査対象者のゲノムDNAからの転写物であるRNA(検査対象者由来のcfDNA又はcfRNA)、移植臓器のモニタリングにおいてはレシピエントのゲノムDNA若しくはその断片又はレシピエントのゲノムDNAからの転写物であるRNA(レシピエント由来のcfDNA又はcfRNA)が該当する。
また、「副次核酸」とは前記副次寄与体に関する遺伝情報を含む核酸である。副次核酸には、出生前遺伝学的検査の場合には胎児ゲノムDNA若しくはその断片又は胎児ゲノムDNAからの転写物であるRNA(胎児由来のcfDNA又はcfRNA)、癌検査の場合には癌細胞のゲノムDNA若しくはその断片又は癌細胞のゲノムDNAからの転写物であるRNA(癌細胞由来のcfDNA又はcfRNA)、移植臓器のモニタリングにおいては移植臓器のゲノムDNA若しくはその断片又はドナーのゲノムDNAからの転写物であるRNA(移植臓器由来のcfDNA又はcfRNA)が該当する。
分析手段としては、例えば、SNPsの検出に使用される塩基配列解析、デジタルPCR、マイクロアレイ、リアルタイムPCRなどが挙げられる。
次世代シーケンサーによって読み込んだ配列データを解析し、多型座位における特定の配列(特定のSNPs)を有するアレルのリード数を、当該アレルの存在を示す信号として解釈することができる。
また、次世代シーケンサーに供するライブラリーの調製段階において、核酸分子を個別に識別可能にするバーコード配列(Unique Molecular Identifiers(UMI),Unique Molecular Tag(UMT))を解析対象の核酸断片に連結させた場合、多型座位における特定の配列(特定のSNPs)を有するアレルであることを特定するUMTのカウント数を当該アレルの存在を示す信号として解釈することができる。
本発明における分析手段として次世代シーケンサーを採用する場合、あらかじめ既知である多型座位を特異的に増幅するターゲットシーケンス法を採用することが好ましい。
デジタルPCRにSNPsなどの変異を精度よく判別可能なプローブ(TaqManRプローブやサイクリングプローブなど)を組み合わせれば、特定の配列(特定のSNPs)を有するアレルが増幅されたウェルのみで蛍光が観察される。アレルごとに異なる発光波長を有する蛍光標識プローブを設計すれば、一つの多型座位に存在する異なるアレルを蛍光色によってそれぞれ区別して検出することができる。特定のアレルに対応する蛍光シグナルの「ある(+)」ウェル数を当該アレルの存在を示す信号として解釈することができる。
一つの座位に複数のアレルが想定される場合、各アレルを別個に固相化することで、これらを区別して検出することが可能となる。特定のアレルが固相化されたポイントにおける蛍光強度を当該アレルの存在を示す信号として解釈することができる。
リアルタイムPCRによりデータセットを得ようとする場合、測定効率を向上させる観点からマルチプレックスPCRを採用することが好ましい。マルチプレックスPCRは、複数組のプライマーを使用し、複数のターゲット配列を一つの反応系中で一度に増幅する方法である。
リアルタイムPCRにおいては、特定のアレルに対応する蛍光シグナルの強度を当該アレルの存在を示す信号として解釈することができる。
質量分析においては、特定のアレルを含む塩基配列に特有のm/zにおけるイオン強度を当該アレルの存在を示す信号として解釈することができる。
工程A-2は、上述のデータセットに含まれるデータについて主成分分析を行う工程である。具体的には、前記データセットに含まれるデータのうち、複数の多型座位の中で、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する。
混合核酸サンプルの分析で互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか確認することは容易である。
循環無細胞核酸サンプルにおいては、ほとんどの場合、副次核酸よりも主要核酸の方が多く含まれるため、必然的に副次成分信号強度は、上述の主要成分信号強度よりも弱くなる。このような場合にはその内の信号強度が弱い方を副次成分信号強度とみなすことができる。
一方、例えば妊娠後期における母親由来核酸と胎児由来核酸の比率、また、癌が進行している場合の患者由来核酸と癌由来核酸の比率は、通常の場合と逆転していることがある。つまり、循環無細胞核酸サンプルにおける副次核酸の量が主要核酸の量と同等又はそれ以上となる場合があり得る。このような特殊な場合には、ジェノタイピングによって主要寄与体の遺伝型を予め特定しておき、混合核酸サンプルの分析結果と比較すればよい。これによって、混合核酸サンプルの分析によって互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか判断できる。
また、ノイズが検出された特定の多型座位についてのみ、副次成分信号強度の元データから前記ノイズ強度の平均値を差し引く実施形態としてもよい。
また、ノイズが検出された特定の多型座位の副次成分信号強度から、当該特定の多型座位について検出されたノイズ強度を差し引く実施形態としてもよい。
つまり以下の式で表される数値を「副次成分信号強度」として扱う実施形態としてもよい。
(副次成分信号強度)/(ノイズ強度の平均値)
また、ノイズが検出された特定の多型座位についてのみ、副次成分混入率の元データから前記ノイズ混入率の平均値を差し引く実施形態としてもよい。
また、ノイズが検出された特定の多型座位の副次成分混入率から、当該特定の多型座位について検出されたノイズ強度のノイズ混入率を個別に差し引く実施形態としてもよい。
つまり以下の式で表される数値を「副次成分混入率」として扱う実施形態としてもよい。
(副次成分混入率)/(ノイズ強度の平均値)
以下に線形結合の対象となる数値群に含めてもよい数値(A3)~(A5)について説明を加える。なお、以下に掲げる(A3)~(A5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(A3)~(A5)の全てを前記数値群に含めてもよい。
上述の通り循環無細胞核酸サンプルにおいては、ほとんどの場合、副次核酸よりも主要核酸の方が多く含まれるため、必然的に主要成分信号強度は、上述の副次成分信号強度よりも弱くなる。このような場合にはその内の信号強度が強い方を主要成分信号強度とみなすことができる。
一方、例えば妊娠後期における母親由来核酸と胎児由来核酸の比率、また、癌が進行している場合の患者由来核酸と癌由来核酸の比率は、通常の場合と逆転していることがある。つまり、循環無細胞核酸サンプルにおける副次核酸の量が主要核酸の量と同等又はそれ以上となる場合があり得る。このような特殊な場合には、ジェノタイピングによって主要寄与体の遺伝型を予め特定しておき、混合核酸サンプルの分析結果と比較すればよい。これによって、混合核酸サンプルの分析によって互いに区別されて検出された2種類のアレルの存在を示す信号が、それぞれ主要核酸と副次核酸のどちらに由来するのか判断できる。
上記(A2)の説明と同様の理由により、当該割合を直接的に表す数値の他、当該数値に定数を乗じた数値や、当該数値の累乗値及び累乗根など当該信号強度を反映する全ての数値が「主要成分混入率」に含まれる。工程A-2において線形結合の対象となる数値群には、1種類の「主要成分混入率」のみが含まれている形態であってもよいし、2種以上の「主要成分混入率」が含まれていてもよい。
生物学的、遺伝学的または試験系上の理由から、ある特定の一塩基多型座位において塩基「A」または塩基「G」を示す信号は観察され得るが、塩基「T」及び塩基「C」を示す信号は観察し得ない状況を考える。このような状況としては、特定の一塩基多型座位において父親が「A」をホモ接合で保有し、母親が「G」をホモ接合で保有する場合における、胎児の前記特定の一塩基多型を観察する状況が例として挙げられる(当該特定の一塩基多型座位において胎児が「T」及び「C」を保有していることは通常考えられない)。このような状況において、本来は観察し得ない塩基である「T」及び「C」を示す信号が観察された場合、この信号を「ノイズ」であると本発明では定義する。
つまり、ノイズは、特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるものであり、「信号強度総和-(主要成分信号強度+副次成分信号強度)」の数式で表すことができる。
標準化データ=[(元データ)-(平均値)]/(標本標準偏差)
Z1=a11X1+a12X2+・・・+a1nXn
本発明の好ましい実施形態では、合成変数を表す1次斉次多項式において、副次成分信号強度又は副次成分混入率が最大に重みづけされる。
工程A-3-1は、線形結合により生成された合成変数に信頼性値を割り当てる工程である。
工程A-3-1に供する合成変数は特に限定されないが、線形結合の対象となった数値群を最もよく反映する合成変数が好ましく挙げられる。言い換えると線形結合の対象となった数値群に対して最も高い寄与率を示す合成変数が好適に例示できる。これは主成分分析における第1主成分に相当するものである。
区分の方法は特に制限されない。合成変数の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに生成された合成変数が包含されるように区分することが好ましい。さらに好ましい形態では、合成変数の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、生成した合成変数と確率を曲線回帰するとシグモイド曲線となるからである。
なお、副次成分信号強度は、副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
工程A-4-1においては、上述した各区分に含まれる合成変数と、各区分に含まれる合成変数に対応する確率について回帰分析を行う。これにより合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める。
モデル関数はシグモイド関数となる。合成変数が主成分分析における第1主成分である場合、モデル関数は以下の式1で表すことができる。
つまり、別の条件で取得されたデータセットについて信頼性値の算出をしたい場合に、当該別の条件について改めてモデル関数を作成する必要が無い。いったん本発明の方法によりモデル関数を作成しておけば、別条件で取得されたデータセットの解析にも転用できる。
工程A-3-2においては、まず上述の(A1)副次成分信号強度を複数に区分する。つまり、(A1)副次成分信号強度をその数値の大きさに応じて複数に区分する。
区分の方法は特に制限されない。副次成分信号強度の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに副次成分信号強度が包含されるように区分することが好ましい。さらに好ましい形態では、副次成分信号強度の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、副次成分信号強度と信頼性値を曲線回帰するとシグモイド曲線となるからである。
なお、副次成分信号強度は、副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
工程A-4-2においては、上述した各区分に含まれる副次成分信号強度と、各区分に含まれる副次成分信号強度に対応する確率について回帰分析を行う。これにより副次成分信号強度を説明変数x2、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数f2(x2)を求める。工程A-4-2における回帰分析の手法は特に限定されないが、最小二乗法が好ましく例示できる。
モデル関数f2(x2)はシグモイド関数となり、以下の式2で表すことができる。
工程A-3-3においては、まず上述の(A2)副次成分混入率を複数に区分する。つまり、(A2)副次成分混入率をその数値の大きさに応じて複数に区分する。 区分の方法は特に制限されない。副次成分混入率の大きさに応じて等間隔に区分をしてもよいが、各区分の全てに副次成分混入率が包含されるように区分することが好ましい。
さらに好ましい形態では、副次成分混入率の大きさに応じて直線的に区分をするのではなく、指数的に区分をすることが好ましい。なぜならば、副次成分混入率と確率を曲線回帰するとシグモイド曲線となるからである。
なお、副次成分混入率はその算出根拠として副次成分信号強度を含むが、この副次核酸における当該多型座位に存在する特定のアレルの存在を示唆するものである。この副次成分混入率の算出根拠である副次核酸信号強度による示唆通り、実際に副次核酸に当該特定のアレルが存在する場合には、これを「真」とする。
工程A-4-3においては、上述した各区分に含まれる副次成分混入率と、各区分に含まれる副次成分混入率に対応する確率について回帰分析を行う。これにより副次成分混入率を説明変数x3、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数f3(x3)を求める。工程A-4-3における回帰分析の手法は特に限定されないが、最小二乗法が好ましく例示できる。
モデル関数f3(x3)はシグモイド関数となり、以下の式3で表すことができる。
・工程A-1、工程A-2、工程A-3-1及び工程A-4-1によって作成したモデル関数
・工程A-1、工程A-3-2及び工程A-4-2によって作成したモデル関数
・工程A-1、工程A-3-3及び工程A-4-3によって作成したモデル関数
次いで出生前遺伝学的検査より得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
「<1-1>概要」の項目において説明した工程A-1、工程A-2、工程A-3-1及び工程A-4-1は、本実施形態における工程A1-1、工程A1-2、工程A1-3-1及び工程A1-4-1に相当する。以下、各工程について説明する。
工程A1-1は、循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。循環無細胞核酸サンプルには、母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸が含まれている。通常、循環無細胞核酸サンプルには、主要核酸が副次核酸よりも多く含まれる。一方、妊娠後期にはその含有比率が逆転することもある。
工程A1-2は、データセットに含まれるデータのうち、複数の多型座位の中で、母親においてホモ接合であり、父親においてホモ接合であり、かつ、主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
母親においてホモ接合であり、父親においてホモ接合である多型座位に絞っているため、主要成分信号強度と副次成分信号強度の両方に母親ゲノムDNA由来の信号が寄与することはあり得ない。
工程A1-3-1は、線形結合により生成した合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を真とする。
また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。これは、副次成分信号が非検出であったという結果が偽であるということである。
したがって、前記アレルについて主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を偽とする。
また、主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
工程A1-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
次いで癌検査より得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
より具体的には、健常人から採取された循環無細胞核酸サンプルに、癌に関連する変異型のアレルの配列を含む核酸断片をスパイクして人工的に調製した混合核酸サンプルが好ましく挙げられる。
混合核酸サンプルは、健常人より採取した核酸サンプルに、人工的に合成した核酸断片をスパイクすることで調製してもよい。
また、健常人より採取した核酸サンプルに、癌細胞株若しくは癌組織、又はその核酸抽出物をスパイクすることで混合核酸サンプルを調製してもよい。
したがって、スパイクする副次核酸は主要核酸に対して、遺伝子のコピー数として好ましくは50%未満、より好ましくは40%以下、さらに好ましくは30%以下、さらに好ましくは20%以下、さらに好ましくは10%以下とする。
工程A2-1は、上述した副次核酸がスパイクされた混合核酸サンプルの測定により得られるデータを含むデータセットを用意する工程である。
なお、工程A2-1において用意するデータセットには、副次核酸がスパイクされておらず主要核酸のみを含む核酸サンプルの測定により得られるデータも含まれていてもよい。
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
工程A2-3-1は、線形結合により得られた合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
したがって、この場合、該核酸断片について副次成分信号が検出された場合、当該副次成分信号は真とする。
また、該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。これは、副次成分信号が非検出であったという結果が真であるということである。
したがって、この場合、該核酸断片について副次成分信号が検出されたとき、当該副次成分信号は偽とする。
また、この場合、該核酸断片について副次成分信号が検出されなかったとき、当該副次成分信号は真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
工程A2-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
具体的には、以下の工程A2´-1、工程A2´-2及び上述の工程A2-3-1及び工程A2-4-1を含む。以下詳述するが、上述した他の実施形態についての説明が妥当する事項については説明を省略する。
工程A2´-1は、上述した副次核酸が互いに異なる含有割合でスパイクされた複数の混合核酸サンプルの測定により得られるデータセットを用意する工程である。工程A2-1との違いは、副次核酸が互いに異なる含有割合でスパイクされた複数の混合核酸サンプルを用意する点にある。
また、上述した工程A2-1は複数の多型座位に関するデータが含まれる一方、工程A2´-1のデータセットにおいては、主要核酸及び副次核酸における、単一の多型座位における各アレルの存在を示す信号が含まれていればよい点でも相違する。
つまり、工程A2´-1は、単一の多型座位に関するデータを用意すればよい一方、副次核酸の含有割合が互いに異なる複数の混合核酸サンプルに関するデータを用意する点に特徴がある。
工程A2´-2は、データセットに含まれるデータのうち、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
(A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
(A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
次いで移植臓器の定着のモニタリングより得られたデータセットからモデル関数の作成を行う実施形態について説明する。なお、「<1-1>概要」の項目において説明した事項は本実施形態にも妥当する。そのため、説明が重複する部分については適宜省略しながら本実施形態について説明する。
なお、混合核酸サンプルは、移植後のレシピエントから取得したサンプル、具体的には循環無細胞核酸サンプルであってもよい。
または、レシピエントから取得したレシピエント由来の主要核酸と、ドナー又は移植臓器から取得したドナー由来の副次核酸を人工的に混合することで調製してもよい。この場合、主要核酸に起因する信号が副次核酸に起因する信号よりも強く検出されるように、主要核酸に対して副次核酸をコピー数として好ましくは50%未満、より好ましくは40%以下、さらに好ましくは30%以下、さらに好ましくは20%以下、さらに好ましくは10%以下の割合で混合する。
工程A3-1は、上述した混合核酸サンプルの測定により得られるデータセットを用意する工程である。
このデータセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。多型座位としては、ヒト個人識別(Human Identification,HID)で用いられる一塩基多型(SNPs)のある座位が好ましく挙げられる。HIDで用いられる既知のSNPsはデータベース化されており、これらのSNPsのある多型座位を任意に選択することができる。
工程A3-2は、データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)の数値について、線形結合を行う工程である。
具体的には、ある多型座位において、レシピエントが特定のアレルをホモ接合として有している場合には、当該特定のアレル以外の別のアレルの存在を示す副次成分信号強度には、レシピエントのアレルに起因する信号が混じることはあり得ない。この場合には、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号は区別して検出される。
工程A3-3-1は線形結合により生成された合成変数に信頼性値を割り当てる工程であり、上述した工程A-3-1の説明内容が全て妥当する。なお、副次成分信号強度の真偽については以下の通り判別する。
したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を真とする。
また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。これは、副次成分信号が非検出であったという結果が偽であるということである。
したがって、前記アレルについて、主要成分信号と区別されて副次成分信号が検出された場合、当該副次成分信号を偽とする。
また、前記アレルについて、主要成分信号と区別されて副次成分信号が検出されなかった場合、当該副次成分信号を真とする。これは、副次成分信号が非検出であったという結果が真であるということである。
工程A3-4-1はモデル関数を求める工程であり、上述した工程A-4-1の説明内容が全て妥当する。
また、本実施形態においても、作成した複数のモデル関数を互いに乗じて、乗算で表されるモデル関数を作成してもよい。その具体的な実施形態は上述した通りである。
本発明は信頼性の算出方法にも関する。以下、本発明の信頼性の算出方法の具体的な実施態様について説明する。なお、上述したモデル関数の作成方法の説明の内容のうち本発明の信頼性の算出方法の説明に妥当する部分については適宜省略する。
以下、工程B-1、工程B-2及び工程B-3-1を備える実施形態について説明する。
工程B-1は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該混合核酸サンプルには、主要核酸が副次核酸よりも多く含まれる。そして、当該データセットには、主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。
データセットは、多型座位における各アレルを区別して検出できる分析手段によって得られたものであれば特に限定されない。当該分析手段としては、好ましくは多型座位における一塩基置換(SNPs)を区別して検出できる分析手段が挙げられる。
工程B-2は、前記データセットに含まれるデータのうち、複数の多型座位の中で、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
以下に線形結合の対象となる数値群に含めてもよい数値(B3)~(B5)について説明を加える。なお、以下に掲げる(B3)~(B5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(B3)~(B5)の全てを前記数値群に含めてもよい。
標準化データ=[(元データ)-(平均値)]/(標本標準偏差)
工程B-3-1は、工程B-2における線形結合により生成した合成変数を、その合成変数を説明変数、信頼性値を目的変数とする上述したモデル関数に入力し、信頼性値を算出する工程である。なお、モデル関数の作成のために用いた、線形結合に供した数値群に含まれる数値の種類及びその個数と、モデル関数への入力値とする合成変数を生成するための線形結合に供した数値群に含まれる数値の種類及びその個数は、一致していることが好ましい。
工程B-3-2は、前記(B1)の副次成分信号強度を、上述したモデル関数f2(x2)に入力し、信頼性値を算出する工程である。データセットに一次的に含まれる副次成分信号強度をモデル関数f2(x2)に入力するという操作で簡便にデータの信頼性値を算出することができる。
[工程B-3-3]
工程B-3-3は、前記(B2)の前記副次成分混入率を、上述したモデル関数f3(x3)に入力し、信頼性値を算出する工程である。副次成分混入率をモデル関数f3(x3)に入力するという操作で簡便にデータの信頼性値を算出することができる。
[工程B-3´]
工程B-3´は、以下の3種の数値から選ばれる変数を、その変数を説明変数とし、かつ、信頼性値を目的変数とする、乗算で表されるモデル関数に入力して、信頼性値を算出する工程である。
(i)上記工程B-2で生成した合成変数。
(ii)前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(iii)前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
・工程A-1、工程A-2、工程A-3-1及び工程A-4-1によって作成したモデル関数
・工程A-1、工程A-3-2及び工程A-4-2によって作成したモデル関数
・工程A-1、工程A-3-3及び工程A-4-3によって作成したモデル関数
まず、非侵襲的出生前親子鑑定のために信頼性値を算出する方法について説明する。本項目においては上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
そして、上で説明した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B1-1、工程B1-2及び工程B1-3-1に相当する。
工程B1-1は、母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットは、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットである。
ここでいう前記複数の多型座位は、ヒト個人識別(HID)で用いられる多型座位であることが好ましい。
工程B1―2は、データセットに含まれるデータのうち、複数の多型座位の中で、母親においてホモ接合であり、かつ、主要核酸に由来するアレルの存在を示す信号と、副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。なお、擬父における前記多型座位の遺伝型は、ホモ接合であってもヘテロ接合であってもよい。
工程B1-3-1は、工程B1-2で生成した合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
次に癌検査のために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
工程B2-1は、検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程である。
ここで「副次核酸を含み得る」とは、循環無細胞核酸サンプルに副次核酸が含まれる可能性を完全に否定できない状況のことをいう。
工程B2―2は、データセットに含まれるデータのうち、複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
正常型のアリルとは癌に罹患していない健常人において通常みられるアレルのことであり、変異型のアリルとは癌に関連があるとされる変異が導入されたアリルのことをいう。
工程B2-3-1は、工程B2-2で生成した合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
次に移植臓器の定着のモニタリングのために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
また、上述した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B3-1、工程B3-2及び工程B3-3-1に相当する。
工程B3-1は、レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、主要核酸及び副次核酸における、複数の多型座位における各アレルの存在を示す信号が含まれる。 ここでいう複数の多型座位は、ヒト個人識別(HID)で用いられる多型座位であることが好ましい。
工程B3-2は、データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存
在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び
前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程である。
工程B3-3-1は、工程B3-2で生成した合成変数を、その合成変数を説明変数と
するモデル関数に入力し、信頼性値を算出する工程である。
次に疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法について説明する。本項目においても上記<2>に記載した事項が妥当するため、説明が重複する部分については適宜省略する。
そして、上で説明した工程B-1、工程B-2及び工程B-3-1は、それぞれ以下に説明する工程B4-1、工程B4-2及び工程B4-3-1に相当する。
工程B4-1では、母親に関する遺伝情報を含む主要核酸と、母親の胎内にいる胎児に関する遺伝情報を含む副次核酸とを含む、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットを用意する。当該データセットには、主要核酸及び副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号が含まれる。
工程B4―2では、まずデータセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外する。
工程B4-3-1は、前記工程B-2で生成した前記合成変数を、その合成変数を説明変数とするモデル関数に入力し、信頼性値を算出する工程である。
上述した信頼性値の算出方法によれば、データセットに含まれる副次核酸における特定の多型座位における特定のアレルの存在を示す信号の信頼性(Fidelity)を評価することができる。
ただ、上述した信頼性値の算出方法は、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が低く算出されてしまうケースがある。反対に副次核酸に由来する特定のアレルが混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が高く算出されてしまうケースがある。このような例外結果は、分析対象となるデータセットに外れ値が含まれていることに起因する。これらの例外結果を除外することができれば、より高精度に信頼性値の算出が可能となる。
本発明の除外条件の設定方法は、モデル関数に入力すべき説明変数のデータを絞るため、データセットのうち除外すべきものを判定する除外条件を設定する方法に関する。本発明の除外条件の設定方法は、特に出生前遺伝学的検査に関するものである。
また、父母がそれぞれホモ接合で有している互いに同型の遺伝子座についての副次成分信号強度の信頼性値が、好ましくは0.2以上、より好ましくは0.1以上、さらに好ましくは0.01以上、さらに好ましくは0.001以上のものを除外するように、除外条件を設定することが好ましい。
本発明の除外条件の設定方法の一つの実施形態は、以下の工程C-1-1、工程C-2-1、工程C-3-1及び工程C-4-1を備える。本実施形態により設定する除外条件は、上述した移植臓器の定着のモニタリングのために信頼性値を算出する方法に適用することができる。
工程C-1-1は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットが含まれる。なお、前記信号の真偽は既知である。
(i)前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである。
(ii)前記主要寄与体がレシピエントであり、前記副次寄与体が前記移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。
工程C-2-1は、工程C-1-1で用意したデータセットのうち特定の条件に当てはまる多型座位に関する数値を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程である。最も寄与率が高い合成変数とは、主成分分析を行う場合には第1主成分が該当する。
移植臓器のドナーにおいてホモ接合であり、かつ、レシピエントとドナーとで異型であるアレルの存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群について線形結合を行う。
以下に線形結合の対象となる数値群に含めてもよい数値(C4)~(C5)について説明を加える。なお、以下に掲げる(C4)~(C5)から選ばれる1種のみを前記数値群に含めてもよいし、任意に選択された2種以上の数値を前記数値群に含めてもよい。また、(C4)~(C5)の全てを前記数値群に含めてもよい。
なお、線形接合の対象となる数値群に含まれる数値データは標準化されていることが好ましい。
工程C-3-1は、工程C-2-1における線形結合により得られた合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程である。その具体的な態様は特に限定されない。
具体的には、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が、好ましくは0.6未満、より好ましくは0.7未満、さらに好ましくは0.8未満として算出されてしまう場合における当該アレルに関する数値を外れ値として扱うことができる。
また、副次核酸に由来する特定のアレルが混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が、好ましくは0.4以上、より好ましくは0.3以上、さらに好ましくは0.2以上として算出されてしまう場合における当該アレルに関する数値を外れ値として扱うことができる。
まず、前記合成変数について仮の閾値を設定し、以下の仮の除外条件C1を設定する。
(仮の除外条件C1)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、仮の閾値未満に該当するデータセットは除去する。
工程C-3-1-1は、上述した本発明の方法により作成したモデル関数に、工程C-2-1における線形結合により生成した合成変数、(C1)副次成分信号強度、(C2)副次成分混入率及び(C3)ノイズのうち説明変数として必要な数値を入力して、信頼性値を算出する工程である。
信頼性値の算出に用いるモデル関数は、「<1>モデル関数の作成方法」の項目で説明したモデル関数であれば特に限定されない。好ましくは上述の式1~4の何れかで表されるモデル関数に説明変数を入力して、信頼性値を算出する。
次いで工程C-3-1-2では、工程C-2-1における線形結合により生成した合成変数と、工程C-3-1-1で算出した信頼性値と、をプロットした散布図を作成する。例えば、縦軸に合成変数、横軸に信頼性値をプロットした散布図においては、横方向(信頼性値が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散は小さく、信頼性値の値の分散が大きい集合)と、縦方向(合成変数が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散が大きく、信頼性値の値の分散が小さい集合)が観察される。
このうち、信頼性値が広がる方向に分散するデータポイントの集合(横方向に延びる集合)を除外候補として特定する。
一方、合成変数が広がる方向に分散するデータポイントの集合(縦方向に延びる集合)を非除外候補として特定する。
そして、除外候補の一部又は全部を除外するように前記合成変数の値に閾値を設定する。
工程C-4-1は、信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程である。
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。
本発明の除外条件の設定方法の一つの実施形態は、以下の工程C-1-2及び工程C-2-2、工程C-3-2及び工程C-4-2を備える。
工程C-1-2は、主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの測定により得られるデータセットを用意する工程である。当該データセットには、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットが含まれる。なお、前記信号の真偽は既知である。
(i)前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである。
(ii)前記主要寄与体がレシピエントであり、前記副次寄与体が前記移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。
工程C-2-2は、工程C-1-2で用意したデータセットのうち特定の条件に当てはまる多型座位に関する数値を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程である。一番目に寄与率が高い合成変数とは、主成分分析を行う場合には第1主成分が該当する。二番目に寄与率が高い合成変数とは、主成分分析を行う場合には第2主成分が該当する。
工程C-3-2は、工程C-2-2における線形結合により生成された合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程である。その具体的な態様は特に限定されない。外れ値の定義については、上述した工程C-3-1における説明が妥当する。
まず、前記合成変数について仮の閾値を設定し、以下の仮の除外条件C2を設定する。
(仮の除外条件C2)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、仮の閾値未満に該当するデータセットは除去する。
工程C-3-2-1は、上述した本発明の方法により作成したモデル関数に、工程C-2-2における線形結合により生成した合成変数、(C1)副次成分信号強度、(C2)の副次成分混入率及び(C3)ノイズのうち説明変数として必要な数値を入力して、信頼性値を算出する工程である。
信頼性値の算出に用いるモデル関数は、「<1>モデル関数の作成方法」の項目で説明したモデル関数であれば特に限定されない。好ましくは上述の式1~4の何れかで表されるモデル関数に説明変数を入力して、信頼性値を算出する。
次いで工程C-3-2-2では、工程C-2-2における線形結合により生成した合成変数と、工程C-3-2-1で算出した信頼性値と、をプロットした散布図を作成する。例えば、縦軸に合成変数、横軸に信頼性値をプロットした散布図においては、横方向(信頼性値が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散は小さく、信頼性値の値の分散が大きい集合)と、縦方向(合成変数が広がる方向)に分散するデータポイントの集合(言い換えると合成変数の値の分散が大きく、信頼性値の値の分散が小さい集合)が観察される。
このうち、合成変数が広がる方向に分散するデータポイントの集合(縦方向に延びる集合)を除外候補として特定する。
一方、信頼性値が広がる方向に分散するデータポイントの集合(横方向に延びる集合)を非除外候補として特定する。
そして、除外候補の一部又は全部を除外するように合成変数の値に閾値を設定する。
工程C-4-2は、信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程である。
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸とを含む、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。
本発明は、上述の除外条件の設定方法により設定した除外条件C1及び/又は除外条件C2を上記「<2-3>移植臓器の定着のモニタリングのために信頼性値を算出する方法」における工程B2-1で用意するデータセットに適用して、除外されずに残ったデータセットについて、それぞれの信頼性値の算出方法の発明を適用し、信頼性値を算出する方法にも関する。
本発明は、上述したモデル関数の作成方法、信頼性値の算出方法、除外条件の設定方法から選ばれる1又は2以上の方法をコンピュータに実行させるためのプログラムにも関する。コンピュータ内のプロセッサがハードディスク装置等の内蔵記憶装置に格納された本発明のプログラムに従って動作することにより、上述したモデル関数の作成方法、信頼性値の算出方法、除外条件の設定方法から選ばれる1又は2以上の方法を実行するように構成することができる。
本発明は上述のプログラムを記録した記憶媒体にも関する。また、本発明は、上述した方法で作成されたモデル関数が記録された記憶媒体にも関する。記憶媒体としては、半導体メモリ、ハードディスク、磁気記憶媒体、光記憶媒体等、コンピュータにより読み出しが可能な記憶媒体が制限なく挙げられる。
本発明は、上述のモデル関数が記録された記憶部と、上述の信頼性値の算出方法を実行する処理部と、を備える、信頼性値算出システムにも関する。以下、本発明の信頼性値算出システムの好ましい実施形態について説明する。
本実施形態では、入力部に入力した前記データセットは前記処理部に供される。前記処理部は記憶部に記憶された上述の除外条件C1及び/又は除外条件C2を読み出し、当該条件をデータセットに適用して、信頼性値の算出に適さないデータを除外する。処理部は、上述の信頼性値の算出方法を実行するためのプログラムを読み出し、当該プログラムに従って、同じく記憶部に記憶されたモデル関数に除外条件適用後に残った前記データセットに含まれる又は前記データセットから生成される説明変数を入力して信頼性値を算出する。
母親の口腔粘膜サンプル(母親の遺伝情報のみを含む)、父親の口腔粘膜サンプル(父親の遺伝情報のみを含む)及び、母親plasmaサンプル(母親及び、胎児の微量遺伝子を含む)を分析した次世代シーケンサー(NGS)による遺伝子配列検査データを1組のデータセットとし、全200組のデータセットを用意した。NGSは既知の184個のSNPsのある多型座位についてターゲットシーケンスを行ったものである。データセットには、36,800個(200組×184個)のSNPsに関するデータが含まれている。
(1)主要成分信号強度絶対値[胎児Count Major]
(2)副次成分信号強度絶対値[胎児Count minor]
(3)主要成分の混入率(=(1)/シグナル強度総和)[胎児Freq. Major]
(4)副次成分の混入率(=(2)/シグナル強度総和)[胎児Freq. minor]
(5)ノイズ(=シグナル強度総和-[(1)+(2)])[胎児error]
*(標準化データ)=[(生データ)-(平均値)]/(標本標準偏差)
・父母の遺伝型がホモ且つ同型なら、胎児遺伝型はホモ(副次成分信号強度は偽)
・父母の遺伝型がホモ且つ異型なら、胎児遺伝型はヘテロ(副次成分信号強度は真)
主成分分析により得られた第1主成分をその大きさに応じて20に区分した。次に、各区分に含まれる第1主成分に対応する副次成分信号強度のうちこれが真であった割合(確率)を求めた。そして各区分に含まれる第1主成分の代表値に、当該区分における確率を割り当てた。こうして得た第1主成分と信頼性値について最小二乗法を用いて回帰分析を行い、第1主成分を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f1(x1)を得た。回帰分析の寄与率(R2)は0.99以上と極めて良好であった。
図1にモデル関数f1(x1)を示すシグモイド曲線を示す。また、下の式5にモデル関数f1(x1)の式を示す。
副次成分信号強度絶対値をその大きさに応じて20に区分した。次に、各区分に含まれる副次成分信号強度絶対値のうちこれが真であった割合(確率)を求めた。そして各区分における副次成分信号強度絶対値の代表値に、当該区分における確率を割り当てた。こうして得た副次成分信号強度絶対値と確率について最小二乗法を用いて回帰分析を行い、副次成分信号強度絶対値を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f2(x2)を得た。回帰分析の寄与率(R2)は0.99以上と極めて良好であった。
図2にモデル関数f2(x2)を示すシグモイド曲線を示す。また、下の式6にモデル関数f2(x2)の式を示す。
副次成分の混入率をその大きさに応じて20に区分した。次に、各区分に含まれる副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合(確率)を求めた。そして各区分に含まれる副次成分混入率の代表値に、当該区分における確率を割り当てた。こうして得た副次成分混入率と確率について最小二乗法を用いて回帰分析を行い、副次成分混入率を説明変数、信頼性値(Fidelity)を目的変数とするモデル関数f3(x3)を得た。回帰分析の寄与率(R2)は0.99以上と極めて良好であった。
図3にモデル関数f3(x3)を示すシグモイド曲線を示す。また、下の式7にモデル関数f3(x3)の式を示す。
f1(x1)、f2(x2)、f3(x3)を乗じて、以下の式4で表されるモデル関数f(x1,x2,x3)を作成した。
式4のモデル関数f(x1,x2,x3)を用いて、当該モデル関数の作成に使用した200セットのデータの信頼性を算出し結果の検証を行った。すなわち、混合核酸サンプルにおけるSNPsに係る座位についての第1主成分、副次成分信号強度絶対値、副次成分混入率をモデル関数f(x1,x2,x3)に入力し、その信頼性値を算出した。なお、信頼性値の算出においては、(1)と(2)の合計値が300未満のものは除外した8,148SNPsに対して信頼性値(Fidelity)を計算した。
左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はヘテロ接合)。
右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はホモ接合)。
図4左(父母ホモ・異型)の集計においては、計算された信頼性値は0.19未満の値を示すものが分布し、一定数の例外事例が確認された。また、図4右(父母ホモ・同型)の集計においては、0.9以上の値を示すものが分布し、一定数の例外事例が確認された。
胎児遺伝型の正解がヘテロ接合であるにも関わらず算出された信頼性値が低いもの(例えば信頼性値0.1未満)、また胎児遺伝型の正解がホモ接合であるにも関わらず算出された信頼性値が高いもの(例えば信頼性値0.9以上)などの例外結果を除外するため、以下の方法で除外条件の詳細検討を行った。
父母がそれぞれホモ接合で有している互いに異型のSNPs(正解の胎児遺伝型はヘテロ接合)に関する混合核酸サンプルの分析により得られたSNPs(全3,196個)について、上記(1)~(5)のパラメータに対して主成分分析を行った。
一方で、主成分分析を行った(1)~(5)のパラメータに基づき上記モデル関数f(x1,x2,x3)を利用して信頼性値を算出した。
次いで、主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図を作成した(図5)。データの分散が最大であった第1主成分の散布図に示すように、x軸方向に延びるデータポイントの集合とy軸方向に延びるデータポイントの集合の2つが見られる。このうちのx軸方向に延びるデータポイントの集合を除外すべき外れ値であるものとして第1主成分につき-1.9の位置に閾値を設定した。この閾値に基づき以下の除外条件1を設定した。
(除外条件1)
データセットのうち、父母がそれぞれホモ接合で有している互いに異型のSNPsについての上記(1)~(5)の第1主成分が-1.9未満のものは除外する。
父母がそれぞれホモ接合で有している互いに同型のSNPsに関する除外条件の適切な設定ができるか否か検討を行った。
父母がそれぞれホモ接合で有している互いに同型のSNPs(正解の胎児遺伝型はホモ接合)に関する混合核酸サンプルの分析により得られたSNPs(全4,952個)について、上記(1)~(5)のパラメータに対して主成分分析を行った。
一方で、主成分分析を行った(1)~(5)のパラメータに基づき上記モデル関数f(x1,x2,x3)を利用して信頼性値を算出した。
次いで、主成分分析により得られた各主成分をy軸、信頼性値をx軸にプロットした散布図を作成した(図6)。
データの分散が最大であった第1主成分の散布図に示すように、x軸方向に延びるデータポイントの集合とy軸方向に延びるデータポイントの集合の2つが見られる。このうちのy軸方向に延びるデータポイントの集合を除外すべき外れ値であるものとして第1主成分につき6の位置に閾値を設定した。この閾値に基づき以下の除外条件2を設定した。
(除外条件2)
データセットのうち、父母がそれぞれホモ接合で有している互いに同型のSNPsについての上記(1)~(5)の第1主成分が6以上のものは除外する。
200テストデータセットを用いた試験例3において設定した除外条件1、2に該当するSNPsに関するデータをデータセットから除外したうえで、試験例1と同手順で信頼性値を算出した(残ったSNPsの数:8,081)。
算出した信頼性値(Fidelity)の分布図を図7に示す。
左は父母がそれぞれホモ接合で有している互いに異型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はヘテロ接合)。
右は父母がそれぞれホモ接合で有している互いに同型のSNPsに関する信頼性値を集計したものである(胎児遺伝型の正解はホモ接合)。
本発明の妥当性を検証するため別途準備した16組データセットを用いて以下の検討を行った。試験例1に示した184SNPsターゲットパネルとは異なる、132SNPsのターゲットパネルの解析結果である。
母親の口腔粘膜サンプル、父親の口腔粘膜サンプル、母親plasmaサンプル及び新生児の口腔粘膜サンプルを分析したNGSによる遺伝子配列検査データを1組のデータセットとし、試験例1~3とは別途16組のデータセットを用意した。NGSは既知の132個のSNPsのある多型座位についてターゲットシーケンスを行ったものである。すなわち、用意したデータセットには、2,112個(16組×132個)のSNPsに関するデータが含まれている。
なお、本試験例で解析する132個のSNPsは、試験例1~3で解析した184個のSNPsに完全に重複するものではなく、71個のSNPsは試験例1~3で解析したSNPsとは別のSNPsである。
このデータセットのうち、父母ともにホモ接合として有するSNPsを抽出し531個のSNPsの信頼性値を算出した。
左は父母がそれぞれホモ接合で有している互いに異型のSNPs(胎児遺伝型の正解はヘテロ接合)と、父母がそれぞれホモ接合で有している互いに同型のSNPs(胎児遺伝型の正解はホモ接合)に関する信頼性値を集計したものである。
父母がそれぞれホモ接合で有している互いに異型のSNPsについては、176個のSNPs中175個で0.9以上の信頼性値を示した。また、父母がそれぞれホモ接合で有している互いに同型のSNPsについては、355個のSNPs中0.5以上の信頼性値を示すSNPが1個だけ存在した。
200テストデータセット(184SNPsのターゲットパネル)から算出されたモデル関数を、16テストデータセット(132ターゲットパネル)の解析に用いたが同様のFidelity分布図が得られた。
これらの結果より、本発明のFidelity算出方法は同じ試験システムを用いる場合、ターゲットパネルの種類に関係なく正確であることが確認された。
試験例5で用いた16セットのデータの内、母がホモ接合で有している951SNPsのFidelity分布を新生児遺伝型がヘテロとホモに集計し図9にまとめた。
なお、図9で示した全てのSNPsは胎児Count Majorと胎児Count minorの合計300以上である。
これらの結果より、本発明の妥当性が確認された。
試験例1で使用したものと同一のデータセットについて、母親及び父親ともにホモ接合である多型座位に関するものだけを抽出した。この抽出したデータセットに含まれる以下の表1に示す13因子について主成分分析を行った。表1に主成分分析の結果得られた第1主成分に関する固有ベクトルを示す。
すなわち、表1における変数の表記として「minor」及び「count」の両方が含まれる数値は、本発明でいう「副次成分信号強度」に該当する。
また、表1における変数の表記として「minor」及び「freq」若しくは「frequency」の両方が含まれる数値は、本発明でいう「副次成分混入率」に該当する。
また、表1の(9)は、前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率を、複数の多型座位におけるノイズの平均値により割った数値である。
このf1(x1)と上述のf2(x2)及びf3(x3)を乗じて、上記式4で表されるモデル関数f(x1,x2,x3)を作成した。
試験例1で使用したものと同一のデータセットに含まれる表1に示す13因子について主成分分析を行った。主成分分析によって得られた第1主成分、副次成分信号強度絶対値及び副次成分混入率を試験例7で作成したモデル関数f(x1,x2,x3)に入力し、信頼性値を算出した。5因子、又は13因子について主成分分析を行い算出した信頼性値(Fidelity)の分布図を図10に示す。
図10に示すように、本試験例でも、例外的結果がほぼ見られない極めて精度の高い結果が得られた。この結果より、試験例7で作成したモデル関数の妥当性と精度の高さが証明された。
試験例6で用意したものと同一のデータセットを用意しデータセットに含まれる表1に示す13因子について主成分分析を行った。主成分分析によって得られた第1主成分、副次成分信号強度絶対値及び副次成分混入率を試験例7で作成したモデル関数f(x1,x2,x3)に入力し、信頼性値を算出した。5因子、又は13因子について主成分分析を行い算出した信頼性値(Fidelity)の分布図を図11に示す。
図11に示すように、本試験例で副次成分信号存在に対する真偽を示す父の遺伝型が分からない場合も、例外的結果がほぼ見られない極めて精度の高い結果が得られた。この結果より、試験例7で作成したモデル関数の妥当性と精度の高さが証明された。
Claims (47)
- 以下の工程A-1、工程A-2、工程A-3-1及び工程A-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(A1)及び(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(A1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度
(A2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
[工程A-3-1]
前記工程A-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
[工程A-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 前記合成変数が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行うことで生成し得る合成変数であることを特徴とする、請求項1に記載の方法。
- 前記工程A-3-1及び工程A-4-1においてモデル関数の作成のために用いる前記合成変数が、工程A-2において生成した1以上の合成変数のうち、最も寄与率が高い合成変数であることを特徴とする、請求項2に記載の方法。
- 前記工程A―2が、少なくとも前記(A1)及び前記(A2)を含む数値群について主成分分析を行い、1つ以上の主成分を合成変数として生成する工程であることを特徴とする、請求項1~3の何れか一項に記載の方法。
- 前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含み、さらに以下の(A3)~(A5)から選ばれる1又は2以上を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、請求項1~4の何れか一項に記載の方法。
(A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
(A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
(A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。 - 前記工程A-2が、前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び(A2)を含み、さらに以下の(A3)~(A5)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程であることを特徴とする、請求項1~5の何れか一項に記載に記載の方法。
(A3)前記主要核酸に由来する、特定の多型座位の一のアレルの存在を示す主要成分信号強度。
(A4)前記特定の多型座位のアレルに起因する信号強度総和に対する前記主要成分信号強度の割合である、主要成分混入率。
(A5)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。 - 前記回帰分析が最小二乗法であることを特徴とする、請求項1~6の何れか一項に記載の方法。
- 前記合成変数を表す1次斉次多項式において、副次成分信号強度又は副次成分混入率が最大に重みづけされることを特徴とする、請求項1~7の何れか一項に記載の方法。
- 前記工程A-2において線形結合する数値群に含まれる数値は、標準化された数値であることを特徴とする、請求項1~8の何れか一項に記載の方法。
- 前記工程A-2において、2つ以上の合成変数を生成し、
前記工程A-3-1において、前記2つ以上の合成変数のそれぞれについて、信頼性値の付与を行い、
前記工程A-4-1において、前記2つ以上の合成変数のそれぞれを説明変数とする互いに独立した2以上のモデル関数を作成し、
さらに、前記2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備えることを特徴とする、請求項1~9の何れか一項に記載の方法。 - 以下の工程A-1、工程A-3-2及び工程A-4-2を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-2]
前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度を複数に区分し、各区分に含まれる前記副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分信号強度に対応する確率として付与する工程。
[工程A-4-2]
前記各区分に含まれる前記副次成分信号強度と、前記各区分に含まれる前記副次成分信号強度に対応する確率について回帰分析を行い、前記副次成分信号強度を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 以下の工程A-1、工程A-3-3及び工程A-4-3を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A-3-3]
前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、特定の多型座位のアレルに起因する信号強度総和に対する副次成分信号強度の割合である副次成分混入率を複数に区分し、各区分に含まれる前記副次成分混入率に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記副次成分混入率に対応する確率として付与する工程。
[工程A-4-3]
前記各区分に含まれる前記副次成分混入率と、前記各区分に含まれる前記副次成分混入率に対応する確率について回帰分析を行い、前記副次成分混入率を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 前記モデル関数が、シグモイド関数であることを特徴とする、請求項1~12の何れか一項に記載の方法。
- 前記モデル関数が、2個の媒介変数を有するシグモイド関数であることを特徴とする、請求項1~13の何れか一項に記載の方法。
- 請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
請求項11に記載の方法で作成したモデル関数と、
請求項12に記載の方法で作成したモデル関数と、
からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。 - 請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
請求項11に記載の方法で作成したモデル関数、及び/又は、請求項12に記載の方法で作成したモデル関数と、
を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。 - 請求項1~10の何れか一項に記載の方法で作成したモデル関数と、
請求項11に記載の方法で作成したモデル関数と、
請求項12に記載の方法で作成したモデル関数と、
を互いに乗じ、乗算で表されるモデル関数を作成する工程を備える、モデル関数の作成方法。 - 前記多型座位が、一塩基多型を含む座位であることを特徴とする、請求項1~17の何れか一項に記載の方法。
- 前記データセットが、塩基配列解析、デジタルPCR、マイクロアレイ、リアルタイムPCR又は質量分析により取得されたデータであることを特徴とする、請求項1~18の何れか一項に記載の方法。
- 前記データセットが塩基配列解析により取得されたデータであり、
前記副次成分信号強度が、配列タグのカウント数、リード数、イオン濃度又は電気信号であることを特徴とする、請求項1~18の何れか一項に記載の方法。 - 前記データセットがデジタルPCRにより取得されたデータであり、
前記副次成分信号強度が、蛍光が観察されたウェル数であることを特徴とする、請求項1~18の何れか一項に記載の方法。 - 前記データセットがマイクロアレイにより取得されたデータであり、
前記副次成分信号強度が、蛍光強度であることを特徴とする、請求項1~18の何れか一項に記載の方法。 - 前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A1-1、工程A1-2、工程A1-3-1及び工程A1-4-1であることを特徴とする、請求項1~11の何れか一項に記載の方法。
[工程A1-1]
母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A1―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A1-3-1]
前記工程A1-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を偽とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を真とする。)
[工程A1-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 前記主要寄与体が健常人であり、前記副次寄与体が癌細胞であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A2-1、工程A2-2、工程A2-3-1及び工程A2-4-1であることを特徴とする請求項1~10の何れか一項に記載の方法。
[工程A2-1]
前記健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する多型座位において癌関連変異が導入された前記多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した混合核酸サンプルの測定により得られるテータを含むデータセットであり、
前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A2-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A2-3-1]
前記工程A2-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A2-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 以下の工程A2´-1、工程A2´-2、工程A2´-3-1及び工程A2´-4-1を含むことを特徴とする、副次成分信号の信頼性値を算出するためのモデル関数の作成方法。
[工程A2´-1]
健常人に関する遺伝情報を含む主要核酸を含有する健常人より採取した核酸サンプルに、癌に関連する単一の多型座位において癌関連変異が導入された前記単一の多型座位の塩基配列情報を含む複数の核酸断片からなる副次核酸を添加することで人工的に調製した、前記副次核酸の含有割合が互いに異なる複数の混合核酸サンプルの測定により得られるデータを含むデータセットであり、
前記主要核酸における正常型のアレルの存在を示す信号と、前記副次核酸における前記変異を含むアレルの存在を示す信号と、を含むデータセットを用意する工程。
[工程A2´-2]
前記データセットに含まれるデータのうち、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された前記単一の多型座位に関する、少なくとも以下の(A1´)及び(A2´)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(A1´)前記副次核酸に由来する前記単一の多型座位のアレルの存在を示す副次成分信号強度。
(A2´)前記単一の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率
[工程A2-3-1]
前記工程A2´-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。
(但し、前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加した場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は真とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は偽とする。
前記変異が導入された前記多型座位の塩基配列情報を含む核酸断片を混合核酸サンプルに添加していない場合であって、
該核酸断片について副次成分信号が検出された場合には、当該副次成分信号は偽とし、
該核酸断片について副次成分信号が検出されなかった場合には、当該副次成分信号は真とする。)
[工程A2-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - 前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記工程A-1、工程A-2、工程A-3-1及び工程A-4-1が、それぞれ工程A3-1、工程A3-2、工程A3-3-1及び工程A3-4-1であることを特徴とする、請求項1~10の何れか一項に記載の方法。
[工程A3-1]
レシピエントに関する遺伝情報を含む主要核酸と、移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
[工程A3-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(A1)及び前記(A2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
[工程A3-3-1]
前記工程A3-2で生成された合成変数を複数に区分し、各区分に含まれる前記合成変数に対応する副次成分信号強度のうちこれが真であった割合を各区分に含まれる前記合成変数に対応する確率として付与する工程。(但し、レシピエントが有していないアレルであって、かつ、ドナーがホモ接合若しくはヘテロ接合で有しているアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、当該副次成分信号を真とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、当該副次成分信号を偽とする。
レシピエント及びドナーの何れもが有していないアレルについて、
主要成分信号と区別されて前記副次成分信号が検出された場合、前記副次成分信号を偽とし、
主要成分信号と区別されて前記副次成分信号が検出されなかった場合、前記副次成分信号を真とする。)
[工程A3-4-1]
前記各区分に含まれる前記合成変数と、前記各区分に含まれる前記合成変数に対応する確率について回帰分析を行い、前記合成変数を説明変数、信頼性値を目的変数とする、信頼性値を算出するためのモデル関数を求める工程。 - モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
前記モデル関数が、
請求項1~26の何れか一項に記載の方法で求めた前記モデル関数、
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
前記説明変数が、以下の工程B-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B-1]
主要寄与体に関する遺伝情報を含む主要核酸を含み、副次寄与体に関する遺伝情報を含む副次核酸を含む若しくは含み得る混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
- 前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B1-1及び工程B1-2であることを特徴とする、請求項27に記載の方法。
[工程B1-1]
母親に関する遺伝情報を含む主要核酸と、胎児に関する遺伝情報を含む副次核酸と、を含む循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B1―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、
前記母親においてホモ接合であり、かつ、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。 - 前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
非侵襲的出生前親子鑑定のために信頼性値を算出する方法であることを特徴とする、請求項28に記載の方法。 - 前記主要寄与体が検査対象者であり、前記副次寄与体が癌細胞であり、前記混合核酸サンプルが前記検査対象者から採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B2-1及び工程B2-2であることを特徴とする、請求項27に記載の方法。
[工程B2-1]
検査対象者に関する遺伝情報を含む主要核酸を含み、癌細胞に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、癌に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B2―2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。 - 前記工程B2-2において、前記データセットに含まれるデータから、前記複数の多型座位の中で、検査対象者において変異型のアリルをホモ接合又はヘテロ接合として有している多型座位に関するデータを除外し、
除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、正常型のアレルの存在を示す信号と、変異型のアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成することを特徴とする、請求項30に記載の方法。 - 前記主要寄与体が臓器移植のレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルであり、前記工程B-1及び工程B-2が、それぞれ工程B3-1及び工程B3-2であることを特徴とする、請求項27に記載の方法。
[工程B3-1]
レシピエントに関する遺伝情報を含む主要核酸を含み、移植臓器に関する遺伝情報を含む副次核酸を含み得る、循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B3-2]
前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも前記(B1)及び前記(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。 - 前記複数の多型座位が、ヒト個人識別で用いられる多型座位であり、
移植臓器の定着のモニタリングのために信頼性値を算出する方法であることを特徴とする、請求項32に記載の方法。 - 請求項27~33の何れか一項に記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-1、工程C-2-1、工程C-3-1及び工程C-4-1を備えることを特徴とする除外条件の設定方法。
[工程C-1-1]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルである、又は
前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-1]
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、最も寄与率が高い合成変数を生成する工程。
(C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
(C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。[工程C-3-1]
前記工程C-2-1における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-1]
信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C1として設定する工程。
(除外条件C1)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで異型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで異型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び(C3)を含む数値群を線形結合させて得られた、最も寄与率が高い合成変数が、前記工程C-3-1で設定した前記閾値未満に該当するデータセットは除去する。 - 請求項27~33の何れか一項に記載の方法による信頼性値の算出に適さないデータを除外するための除外条件を設定する方法であり、以下の工程C-1-2及び工程C-2-2、工程C-3-2及び工程C-4-2を備えることを特徴とする除外条件の設定方法。
[工程C-1-2]
主要寄与体に関する遺伝情報を含む主要核酸と、副次寄与体に関する遺伝情報を含む副次核酸と、が含まれる、混合核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、複数の多型座位における各アレルの存在を示す信号を含むデータセット(但し、前記信号の真偽は既知である)を用意する工程。
(但し、前記主要寄与体が母親であり、前記副次寄与体が前記母親の胎内にいる胎児であり、前記混合核酸サンプルが前記母親から採取された循環無細胞核酸サンプルであるか、
又は
前記主要寄与体がレシピエントであり、前記副次寄与体が移植臓器であり、前記混合核酸サンプルが前記レシピエントから採取された循環無細胞核酸サンプルである。)
[工程C-2-2]
前記母親においてホモ接合であり、父親においてホモ接合であり、かつ、前記母親と前記父親とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも以下の(C1)、(C2)及び(C3)を含む数値群を線形結合させて得られる合成変数のうち、一番目又は二番目に寄与率が高い合成変数を生成する工程。
(C1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(C2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
(C3)前記特定の多型座位のアレルに起因する信号強度総和から、前記主要成分信号強度及び前記副次成分信号強度を差し引いて求められるノイズ。
[工程C-3-2]
前記工程C-2-2における前記線形結合により得られた前記合成変数の外れ値の一部又は全部を除外するように前記合成変数の値に閾値を設定する工程。
[工程C-4-2]
信頼性を算出するためのモデル関数に入力するデータセットから除外すべき条件を以下の除外条件C2として設定する工程。
(除外条件C2)
母親又はレシピエントに関する遺伝情報を含む主要核酸と、胎児又は移植臓器に関する遺伝情報を含む副次核酸と、が含まれる混合核酸サンプルの分析により得られたデータセットのうち、
母親においてホモ接合であり、擬父においてホモ接合であり、かつ、前記母親と前記擬父とで同型であるアレル、又は
前記レシピエントにおいてホモ接合であり、前記移植臓器のドナーにおいてホモ接合であり、かつ、前記レシピエントと前記ドナーとで同型であるアレル、の存在する多型座位に関する、少なくとも前記(C1)、前記(C2)及び前記(C3)を含む数値群を線形結合させて得られた、一番目又は二番目に寄与率が高い合成変数が、前記工程C-3-2で設定した前記閾値未満に該当するデータセットは除去する。 - 前記多型座位が、ヒト個人識別で用いられる一塩基多型座位であることを特徴とする、請求項34又は35に記載の方法。
- 移植臓器の定着のモニタリングのための方法であることを特徴とする、請求項34~36の何れか一項に記載の方法。
- 前記外れ値は、請求項27~33の何れか一項に記載の方法によって信頼性値を算出したときに、
前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれているにも関わらず、当該アレルの存在を示す信号の信頼性値が0.8未満として算出されてしまう場合における当該アレルに関する数値、及び/又は
前記副次核酸に由来する特定のアレルが前記混合核酸サンプルに含まれていないにも関わらず、当該アレルの存在を示す信号の信頼性値が0.2以上として算出されてしまう場合における当該アレルに関する数値であることを特徴とする、請求項34~37の何れか一項に記載の方法。 - 前記外れ値は、前記合成変数の平均値から、その標準偏差の2倍以上離れた数値であることを特徴とする、請求項34~38の何れか一項に記載の方法。
- 前記工程B-1において、
請求項34に記載の方法で特定した除外条件C1及び/又は請求項35に記載の方法で特定した除外条件C2に該当するデータセットを除去した後に残ったデータセットを用意することを特徴とする、請求項32又は33に記載の方法。 - モデル関数にその説明変数を入力することで、信頼性値を算出する信頼性値の算出方法であり、
前記モデル関数が、
請求項1~26の何れか一項に記載の方法で求めた前記モデル関数、
以下の式1~3の何れかのモデル関数、又は
以下の式1~3で表されるモデル関数からなる群から選択される2以上のモデル関数を互いに乗じ、乗算で表されるモデル関数
であり、
前記説明変数が、以下の工程B4-1で用意するデータセットに含まれる以下の(B1)、(B2)及び以下の工程B4-2で求めた合成変数から選ばれる1又は2以上の数値であることを特徴とする、信頼性値の算出方法。
[工程B4-1]
母親に関する遺伝情報を含む主要核酸と、前記母親の胎内にいる胎児に関する遺伝情報を含む副次核酸と、が含まれる、前記母親から採取された循環無細胞核酸サンプルの測定により得られるデータセットであり、前記主要核酸及び前記副次核酸における、疾患に関連する複数の多型座位における各アレルの存在を示す信号を含むデータセットを用意する工程。
[工程B4―2]
前記データセットに含まれるデータから、前記複数の多型座位の中で、母親において変異型のアリルをヘテロ接合として有している多型座位に関するデータを除外し、
除外後に残った前記データセットに含まれるデータのうち、前記複数の多型座位の中で、前記主要核酸に由来するアレルの存在を示す信号と、前記副次核酸に由来するアレルの存在を示す信号と、が区別して検出された多型座位に関する、少なくとも以下の(B1)及び(B2)を含む数値群を線形結合させ、1つ以上の合成変数を生成する工程。
(B1)前記副次核酸に由来する特定の多型座位のアレルの存在を示す副次成分信号強度。
(B2)前記特定の多型座位のアレルに起因する信号強度総和に対する前記副次成分信号強度の割合である副次成分混入率。
- 疾患リスクを評価する非侵襲的出生前検査のために信頼性値を算出する方法であることを特徴とする、請求項41に記載の方法。
- 請求項1~42の何れか一項に記載の方法をコンピュータに実行させるためのプログラム。
- 請求項43に記載のプログラムを記録した記録媒体。
- 前記記憶部に、請求項34に記載の方法で作成された除外条件C1及び/又は請求項35に記載の方法で作成された除外条件C2が記録されており、
前記処理部は、請求項40に記載の方法を実行することを特徴とする、請求項46に記載の信頼性値算出システム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020227044153A KR20230012033A (ko) | 2020-12-16 | 2021-12-16 | 다형 좌위 신호의 신뢰성 값의 산출 방법 |
EP21906688.3A EP4266315A1 (en) | 2020-12-16 | 2021-12-16 | Method for calculating reliability value of signal of polymorphism loci |
JP2022521759A JP7121440B1 (ja) | 2020-12-16 | 2021-12-16 | 多型座位の信号の信頼性値の算出方法 |
US18/001,544 US20230227897A1 (en) | 2020-12-16 | 2021-12-16 | Method for calculating the fidelity of the signal of polymorphic genetic loci |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-208554 | 2020-12-16 | ||
JP2020208554 | 2020-12-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022131328A1 true WO2022131328A1 (ja) | 2022-06-23 |
Family
ID=82059580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/046513 WO2022131328A1 (ja) | 2020-12-16 | 2021-12-16 | 多型座位の信号の信頼性値の算出方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230227897A1 (ja) |
EP (1) | EP4266315A1 (ja) |
JP (1) | JP7121440B1 (ja) |
KR (1) | KR20230012033A (ja) |
WO (1) | WO2022131328A1 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014502845A (ja) | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
JP2016034282A (ja) * | 2011-02-24 | 2016-03-17 | ザ チャイニーズ ユニバーシティー オブ ホンコンThe Chinese University Of Hongkong | 多胎妊娠の分子検査 |
JP2016061514A (ja) * | 2014-09-19 | 2016-04-25 | 株式会社ケーヒン・サーマル・テクノロジー | エバポレータおよびこれを用いた車両用空調装置 |
JP2017094805A (ja) | 2015-11-19 | 2017-06-01 | 株式会社デンソー | 車両制御装置 |
JP2020529648A (ja) | 2017-06-20 | 2020-10-08 | イルミナ インコーポレイテッド | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101806663B1 (ko) | 2016-02-11 | 2017-12-11 | 주식회사 로브아이 | 레이더 및 비디오 카메라 일체형 교통정보 측정시스템 |
-
2021
- 2021-12-16 KR KR1020227044153A patent/KR20230012033A/ko active Search and Examination
- 2021-12-16 JP JP2022521759A patent/JP7121440B1/ja active Active
- 2021-12-16 WO PCT/JP2021/046513 patent/WO2022131328A1/ja unknown
- 2021-12-16 US US18/001,544 patent/US20230227897A1/en active Pending
- 2021-12-16 EP EP21906688.3A patent/EP4266315A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014502845A (ja) | 2010-12-22 | 2014-02-06 | ナテラ, インコーポレイテッド | 非侵襲性出生前親子鑑定法 |
JP2016034282A (ja) * | 2011-02-24 | 2016-03-17 | ザ チャイニーズ ユニバーシティー オブ ホンコンThe Chinese University Of Hongkong | 多胎妊娠の分子検査 |
JP2016061514A (ja) * | 2014-09-19 | 2016-04-25 | 株式会社ケーヒン・サーマル・テクノロジー | エバポレータおよびこれを用いた車両用空調装置 |
JP2017094805A (ja) | 2015-11-19 | 2017-06-01 | 株式会社デンソー | 車両制御装置 |
JP2020529648A (ja) | 2017-06-20 | 2020-10-08 | イルミナ インコーポレイテッド | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム |
Also Published As
Publication number | Publication date |
---|---|
US20230227897A1 (en) | 2023-07-20 |
JP7121440B1 (ja) | 2022-08-18 |
KR20230012033A (ko) | 2023-01-25 |
JPWO2022131328A1 (ja) | 2022-06-23 |
EP4266315A1 (en) | 2023-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220246234A1 (en) | Using cell-free dna fragment size to detect tumor-associated variant | |
CN104254618B (zh) | 母体血浆中胎儿dna分数的基于大小的分析 | |
ES2441807T3 (es) | Diagnóstico de aneuploidía cromosómica fetal utilizando secuenciación genómica | |
Brettschneider et al. | Quality assessment for short oligonucleotide microarray data | |
AU2018375008B2 (en) | Methods and systems for determining somatic mutation clonality | |
CN103459614B (zh) | 胎儿性染色体的非侵入性产前基因分型 | |
KR20190077097A (ko) | 서열 변이체 호출을 위한 검증 방법 및 시스템 | |
CN107849612A (zh) | 比对和变体测序分析管线 | |
EP3476946A1 (en) | Quality evaluation method, quality evaluation apparatus, program, storage medium, and quality control sample | |
JP2020530261A (ja) | 未知の遺伝子型の寄与体からのdna混合物の正確な計算による分解のための方法 | |
JP2020529648A (ja) | 既知又は未知の遺伝子型の複数のコントリビューターからのdna混合物の分解及び定量化のための方法並びにシステム | |
CN110914456A (zh) | 检测胎儿染色体异常的方法 | |
EA038117B1 (ru) | Мультиплексный параллельный анализ целевых геномных областей с целью неинвазивного пренатального тестирования | |
Ross et al. | Batch-effect detection, correction and characterisation in Illumina HumanMethylation450 and MethylationEPIC BeadChip array data | |
CN109996894A (zh) | 用于单基因疾病的基于通用单倍型的非侵入性产前测试 | |
WO2022131328A1 (ja) | 多型座位の信号の信頼性値の算出方法 | |
Haverty et al. | Limited agreement among three global gene expression methods highlights the requirement for non-global validation | |
Chong et al. | SeqControl: process control for DNA sequencing | |
US20220170010A1 (en) | System and method for detection of genetic alterations | |
US20220380841A1 (en) | Methods and Kits using Internal Standards to Control for Complexity of Next Generation Sequencing(NGS) Libraries | |
WO2022168195A1 (ja) | 遺伝情報解析システム、及び遺伝情報解析方法 | |
Medlow et al. | Analytical validation of a prognostic prostate cancer gene expression assay using formalin fixed paraffin embedded tissue | |
Youssef et al. | High-Resolution Genotyping of Formalin-Fixed Tissue Accurately Estimates Polygenic Risk Scores in Human Diseases | |
JP2006215809A (ja) | アレイに基づく比較ハイブリダイゼーション・データの分析方法及びシステム | |
Öztürk | Investigation of the effects of MAS5, RMA and gcRMA preprocessing methods on an affymetrix zebrafish genechip® dataset using statistical and network parameters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ENP | Entry into the national phase |
Ref document number: 2022521759 Country of ref document: JP Kind code of ref document: A |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21906688 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 20227044153 Country of ref document: KR Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
ENP | Entry into the national phase |
Ref document number: 2021906688 Country of ref document: EP Effective date: 20230717 |