TW202400808A - 偵測突變以用於癌症篩選分析 - Google Patents
偵測突變以用於癌症篩選分析 Download PDFInfo
- Publication number
- TW202400808A TW202400808A TW112132531A TW112132531A TW202400808A TW 202400808 A TW202400808 A TW 202400808A TW 112132531 A TW112132531 A TW 112132531A TW 112132531 A TW112132531 A TW 112132531A TW 202400808 A TW202400808 A TW 202400808A
- Authority
- TW
- Taiwan
- Prior art keywords
- candidate
- dna
- cancer
- mutations
- plasma
- Prior art date
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 607
- 230000035772 mutation Effects 0.000 title claims abstract description 523
- 201000011510 cancer Diseases 0.000 title claims abstract description 397
- 238000012106 screening analysis Methods 0.000 title 1
- 206010069754 Acquired gene mutation Diseases 0.000 claims abstract description 107
- 230000037439 somatic mutation Effects 0.000 claims abstract description 107
- 108020004414 DNA Proteins 0.000 claims description 601
- 238000012163 sequencing technique Methods 0.000 claims description 319
- 239000012634 fragment Substances 0.000 claims description 218
- 238000000034 method Methods 0.000 claims description 151
- 108700028369 Alleles Proteins 0.000 claims description 79
- 210000004027 cell Anatomy 0.000 claims description 57
- 239000012472 biological sample Substances 0.000 claims description 40
- 238000002360 preparation method Methods 0.000 claims description 34
- 239000000470 constituent Substances 0.000 claims description 30
- 230000011987 methylation Effects 0.000 claims description 30
- 238000007069 methylation reaction Methods 0.000 claims description 30
- 238000004422 calculation algorithm Methods 0.000 claims description 25
- 108010033040 Histones Proteins 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 22
- 230000004048 modification Effects 0.000 claims description 22
- 238000012986 modification Methods 0.000 claims description 22
- 102000053602 DNA Human genes 0.000 claims description 19
- 210000004881 tumor cell Anatomy 0.000 claims description 12
- 238000013467 fragmentation Methods 0.000 claims description 5
- 238000006062 fragmentation reaction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 abstract description 86
- 238000012216 screening Methods 0.000 abstract description 79
- 230000008774 maternal effect Effects 0.000 abstract description 76
- 210000003754 fetus Anatomy 0.000 abstract description 35
- 230000000869 mutational effect Effects 0.000 abstract description 29
- 238000012544 monitoring process Methods 0.000 abstract description 11
- 238000001356 surgical procedure Methods 0.000 abstract description 8
- 238000007726 management method Methods 0.000 abstract description 6
- 238000002560 therapeutic procedure Methods 0.000 abstract description 6
- 238000002512 chemotherapy Methods 0.000 abstract description 4
- 238000002626 targeted therapy Methods 0.000 abstract description 4
- 230000010102 embolization Effects 0.000 abstract description 3
- 238000010362 genome editing Methods 0.000 abstract description 3
- 238000009169 immunotherapy Methods 0.000 abstract description 3
- 230000003527 anti-angiogenesis Effects 0.000 abstract 1
- 238000001914 filtration Methods 0.000 description 156
- 238000012360 testing method Methods 0.000 description 88
- 239000000523 sample Substances 0.000 description 82
- 238000004458 analytical method Methods 0.000 description 73
- 239000002773 nucleotide Substances 0.000 description 70
- 210000001519 tissue Anatomy 0.000 description 70
- 230000001605 fetal effect Effects 0.000 description 69
- 125000003729 nucleotide group Chemical group 0.000 description 69
- 238000003752 polymerase chain reaction Methods 0.000 description 53
- 241000701044 Human gammaherpesvirus 4 Species 0.000 description 50
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 50
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 46
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 45
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 45
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 43
- 201000010099 disease Diseases 0.000 description 42
- 238000009826 distribution Methods 0.000 description 32
- 238000003199 nucleic acid amplification method Methods 0.000 description 28
- 230000035945 sensitivity Effects 0.000 description 28
- 230000003321 amplification Effects 0.000 description 27
- 210000000349 chromosome Anatomy 0.000 description 24
- 108090000623 proteins and genes Proteins 0.000 description 24
- 238000001574 biopsy Methods 0.000 description 21
- 238000001712 DNA sequencing Methods 0.000 description 19
- 230000008859 change Effects 0.000 description 17
- 210000004369 blood Anatomy 0.000 description 16
- 239000008280 blood Substances 0.000 description 16
- 210000000056 organ Anatomy 0.000 description 16
- 210000001124 body fluid Anatomy 0.000 description 15
- 239000010839 body fluid Substances 0.000 description 15
- 210000000265 leukocyte Anatomy 0.000 description 15
- 230000008775 paternal effect Effects 0.000 description 15
- 210000002966 serum Anatomy 0.000 description 15
- 230000001186 cumulative effect Effects 0.000 description 14
- 150000007523 nucleic acids Chemical group 0.000 description 14
- 210000002826 placenta Anatomy 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 210000004700 fetal blood Anatomy 0.000 description 13
- 210000003954 umbilical cord Anatomy 0.000 description 13
- 238000012408 PCR amplification Methods 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 12
- 238000013459 approach Methods 0.000 description 12
- 210000000601 blood cell Anatomy 0.000 description 12
- 230000035935 pregnancy Effects 0.000 description 12
- 230000004536 DNA copy number loss Effects 0.000 description 11
- 238000012350 deep sequencing Methods 0.000 description 11
- 230000001965 increasing effect Effects 0.000 description 11
- 238000011282 treatment Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000003350 DNA copy number gain Effects 0.000 description 9
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 9
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 9
- 238000010276 construction Methods 0.000 description 9
- 230000002068 genetic effect Effects 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 9
- 108091093088 Amplicon Proteins 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 102000039446 nucleic acids Human genes 0.000 description 8
- 108020004707 nucleic acids Proteins 0.000 description 8
- 238000004088 simulation Methods 0.000 description 8
- 210000002700 urine Anatomy 0.000 description 8
- 230000007067 DNA methylation Effects 0.000 description 7
- 230000002759 chromosomal effect Effects 0.000 description 7
- 230000007423 decrease Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- 230000003169 placental effect Effects 0.000 description 7
- 238000009598 prenatal testing Methods 0.000 description 7
- 238000007480 sanger sequencing Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000012317 liver biopsy Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 108091029430 CpG site Proteins 0.000 description 5
- 230000001973 epigenetic effect Effects 0.000 description 5
- 239000012530 fluid Substances 0.000 description 5
- 230000036210 malignancy Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004393 prognosis Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 206010003445 Ascites Diseases 0.000 description 4
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 4
- 206010061818 Disease progression Diseases 0.000 description 4
- 230000032683 aging Effects 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 4
- 238000003556 assay Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000031018 biological processes and functions Effects 0.000 description 4
- 238000005119 centrifugation Methods 0.000 description 4
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000005750 disease progression Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 210000003734 kidney Anatomy 0.000 description 4
- 210000004910 pleural fluid Anatomy 0.000 description 4
- 102000054765 polymorphisms of proteins Human genes 0.000 description 4
- 238000003753 real-time PCR Methods 0.000 description 4
- 210000003296 saliva Anatomy 0.000 description 4
- 238000002604 ultrasonography Methods 0.000 description 4
- 208000005676 Adrenogenital syndrome Diseases 0.000 description 3
- 206010006223 Breast discharge Diseases 0.000 description 3
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 3
- 206010008723 Chondrodystrophy Diseases 0.000 description 3
- 208000008448 Congenital adrenal hyperplasia Diseases 0.000 description 3
- 206010010356 Congenital anomaly Diseases 0.000 description 3
- 208000002250 Hematologic Neoplasms Diseases 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 3
- 230000001594 aberrant effect Effects 0.000 description 3
- 208000008919 achondroplasia Diseases 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 231100000357 carcinogen Toxicity 0.000 description 3
- 239000003183 carcinogenic agent Substances 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 230000001684 chronic effect Effects 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000007847 digital PCR Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 230000009033 hematopoietic malignancy Effects 0.000 description 3
- 208000006454 hepatitis Diseases 0.000 description 3
- 231100000283 hepatitis Toxicity 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 210000005228 liver tissue Anatomy 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000036438 mutation frequency Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000001959 radiotherapy Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000002271 resection Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 238000000528 statistical test Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000009385 viral infection Effects 0.000 description 3
- MJEQLGCFPLHMNV-UHFFFAOYSA-N 4-amino-1-(hydroxymethyl)pyrimidin-2-one Chemical compound NC=1C=CN(CO)C(=O)N=1 MJEQLGCFPLHMNV-UHFFFAOYSA-N 0.000 description 2
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 2
- 230000007018 DNA scission Effects 0.000 description 2
- 206010061819 Disease recurrence Diseases 0.000 description 2
- 206010016654 Fibrosis Diseases 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 2
- 238000000585 Mann–Whitney U test Methods 0.000 description 2
- PJKKQFAEFWCNAQ-UHFFFAOYSA-N N(4)-methylcytosine Chemical class CNC=1C=CNC(=O)N=1 PJKKQFAEFWCNAQ-UHFFFAOYSA-N 0.000 description 2
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 2
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 208000036142 Viral infection Diseases 0.000 description 2
- 208000036878 aneuploidy Diseases 0.000 description 2
- 231100001075 aneuploidy Toxicity 0.000 description 2
- 238000011122 anti-angiogenic therapy Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000032823 cell division Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 230000007882 cirrhosis Effects 0.000 description 2
- 208000019425 cirrhosis of liver Diseases 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000001839 endoscopy Methods 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000007031 hydroxymethylation reaction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 238000002595 magnetic resonance imaging Methods 0.000 description 2
- 201000001441 melanoma Diseases 0.000 description 2
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 2
- 108091027963 non-coding RNA Proteins 0.000 description 2
- 102000042567 non-coding RNA Human genes 0.000 description 2
- 238000011275 oncology therapy Methods 0.000 description 2
- 230000009054 pathological process Effects 0.000 description 2
- 210000005059 placental tissue Anatomy 0.000 description 2
- 238000003793 prenatal diagnosis Methods 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 102220076183 rs796052896 Human genes 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000007790 scraping Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000008093 supporting effect Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000003612 virological effect Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- JCLFHZLOKITRCE-UHFFFAOYSA-N 4-pentoxyphenol Chemical compound CCCCCOC1=CC=C(O)C=C1 JCLFHZLOKITRCE-UHFFFAOYSA-N 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 108010077544 Chromatin Proteins 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 108091035707 Consensus sequence Proteins 0.000 description 1
- 108091029461 Constitutive heterochromatin Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 230000030933 DNA methylation on cytosine Effects 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 230000004543 DNA replication Effects 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 206010013952 Dysphonia Diseases 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 108060006698 EGF receptor Proteins 0.000 description 1
- 102000009024 Epidermal Growth Factor Human genes 0.000 description 1
- 101800003838 Epidermal growth factor Proteins 0.000 description 1
- 206010015108 Epstein-Barr virus infection Diseases 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 208000018478 Foetal disease Diseases 0.000 description 1
- 108700023863 Gene Components Proteins 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 208000034951 Genetic Translocation Diseases 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 102100036263 Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Human genes 0.000 description 1
- 208000031220 Hemophilia Diseases 0.000 description 1
- 208000009292 Hemophilia A Diseases 0.000 description 1
- 208000032843 Hemorrhage Diseases 0.000 description 1
- 108010034791 Heterochromatin Proteins 0.000 description 1
- 208000010473 Hoarseness Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001001786 Homo sapiens Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Proteins 0.000 description 1
- 101000914514 Homo sapiens T-cell-specific surface glycoprotein CD28 Proteins 0.000 description 1
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 208000024556 Mendelian disease Diseases 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 108010047956 Nucleosomes Proteins 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 238000010222 PCR analysis Methods 0.000 description 1
- 208000037273 Pathologic Processes Diseases 0.000 description 1
- 208000006994 Precancerous Conditions Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 102000007066 Prostate-Specific Antigen Human genes 0.000 description 1
- 108010072866 Prostate-Specific Antigen Proteins 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000008938 Rhabdoid tumor Diseases 0.000 description 1
- 206010041067 Small cell lung cancer Diseases 0.000 description 1
- 108700042075 T-Cell Receptor Genes Proteins 0.000 description 1
- 102100027213 T-cell-specific surface glycoprotein CD28 Human genes 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 206010047486 Virilism Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 201000006083 Xeroderma Pigmentosum Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 208000033571 alveolar capillary dysplasia with misalignment of pulmonary veins Diseases 0.000 description 1
- 238000002669 amniocentesis Methods 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 210000001742 aqueous humor Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000021028 berry Nutrition 0.000 description 1
- 210000000941 bile Anatomy 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 108091008324 binding proteins Proteins 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 210000005013 brain tissue Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 231100000481 chemical toxicant Toxicity 0.000 description 1
- 210000004252 chorionic villi Anatomy 0.000 description 1
- 210000003483 chromatin Anatomy 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 238000002052 colonoscopy Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 231100000599 cytotoxic agent Toxicity 0.000 description 1
- 229940127089 cytotoxic agent Drugs 0.000 description 1
- 239000002254 cytotoxic agent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000779 depleting effect Effects 0.000 description 1
- UREBDLICKHMUKA-CXSFZGCWSA-N dexamethasone Chemical compound C1CC2=CC(=O)C=C[C@]2(C)[C@]2(F)[C@@H]1[C@@H]1C[C@@H](C)[C@@](C(=O)CO)(O)[C@@]1(C)C[C@@H]2O UREBDLICKHMUKA-CXSFZGCWSA-N 0.000 description 1
- 229960003957 dexamethasone Drugs 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000741 diarrhetic effect Effects 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 229940116977 epidermal growth factor Drugs 0.000 description 1
- 230000004076 epigenetic alteration Effects 0.000 description 1
- 230000008995 epigenetic change Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 208000001780 epistaxis Diseases 0.000 description 1
- 235000019441 ethanol Nutrition 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 231100000562 fetal loss Toxicity 0.000 description 1
- 210000000232 gallbladder Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 210000004392 genitalia Anatomy 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 210000003780 hair follicle Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000007407 health benefit Effects 0.000 description 1
- 210000003958 hematopoietic stem cell Anatomy 0.000 description 1
- 210000004458 heterochromatin Anatomy 0.000 description 1
- 230000006195 histone acetylation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000012678 infectious agent Substances 0.000 description 1
- 230000004968 inflammatory condition Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003426 interchromosomal effect Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000009607 mammography Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 238000007479 molecular analysis Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 206010051747 multiple endocrine neoplasia Diseases 0.000 description 1
- 231100000219 mutagenic Toxicity 0.000 description 1
- 230000003505 mutagenic effect Effects 0.000 description 1
- 210000001989 nasopharynx Anatomy 0.000 description 1
- 210000005155 neural progenitor cell Anatomy 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 238000007826 nucleic acid assay Methods 0.000 description 1
- 210000001623 nucleosome Anatomy 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 210000003300 oropharynx Anatomy 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 210000001819 pancreatic juice Anatomy 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 210000004303 peritoneum Anatomy 0.000 description 1
- 208000004594 persistent fetal circulation syndrome Diseases 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 230000020978 protein processing Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013643 reference control Substances 0.000 description 1
- 230000009711 regulatory function Effects 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
- 230000001718 repressive effect Effects 0.000 description 1
- 210000005000 reproductive tract Anatomy 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011896 sensitive detection Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 210000004927 skin cell Anatomy 0.000 description 1
- 208000000587 small cell lung carcinoma Diseases 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 239000003440 toxic substance Substances 0.000 description 1
- 239000003053 toxin Substances 0.000 description 1
- 231100000765 toxin Toxicity 0.000 description 1
- 108700012359 toxins Proteins 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 229940121358 tyrosine kinase inhibitor Drugs 0.000 description 1
- 239000005483 tyrosine kinase inhibitor Substances 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 210000003708 urethra Anatomy 0.000 description 1
- VBEQCZHXXJYVRD-GACYYNSASA-N uroanthelone Chemical compound C([C@@H](C(=O)N[C@H](C(=O)N[C@@H](CS)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CS)C(=O)N[C@H](C(=O)N[C@@H]([C@@H](C)CC)C(=O)NCC(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(=O)N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O)C(C)C)[C@@H](C)O)NC(=O)[C@H](CO)NC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CO)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H](NC(=O)[C@H](CC=1NC=NC=1)NC(=O)[C@H](CCSC)NC(=O)[C@H](CS)NC(=O)[C@@H](NC(=O)CNC(=O)CNC(=O)[C@H](CC(N)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@H](CS)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)CNC(=O)[C@H](CC(O)=O)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@H](CO)NC(=O)[C@H]1N(CCC1)C(=O)[C@H](CS)NC(=O)CNC(=O)[C@H]1N(CCC1)C(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC(N)=O)C(C)C)[C@@H](C)CC)C1=CC=C(O)C=C1 VBEQCZHXXJYVRD-GACYYNSASA-N 0.000 description 1
- 238000010451 viral insertion Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
實施例係關於精確偵測癌症患者及癌症篩選個體之血漿(或其他含有無細胞(cell-free) DNA之樣品)中之體細胞突變。此等分子標記之偵測可用於癌症患者之篩選、偵測、監測、管理及預後。舉例而言,可由鑑定之體細胞突變測定突變負荷,且該突變負荷可用於篩選任何或各種類型之癌症,其中可不需要關於個體之腫瘤或可能癌症的先前知識。實施例可用於指導癌症療法(例如靶向療法、免疫療法、基因組編輯、手術、化學療法、栓塞(embolization)療法、抗血管生成療法)之用途。實施例亦關於藉由分析具有來自胎兒之無細胞DNA之母體樣品來鑑定該胎兒中之新生(de novo)突變。
Description
實施例係關於精確偵測癌症患者及癌症篩選個體之血漿(或其他含有無細胞(cell-free) DNA之樣品)中之體細胞突變。此等分子標記之偵測可用於癌症患者之篩選、偵測、監測、管理及預後。舉例而言,可由鑑定之體細胞突變測定突變負荷,且該突變負荷可用於篩選任何或各種類型之癌症,其中可不需要關於個體之腫瘤或可能癌症的先前知識。實施例可用於指導癌症療法(例如靶向療法、免疫療法、基因組編輯、手術、化學療法、栓塞(embolization)療法、抗血管生成療法)之用途。實施例亦關於藉由分析具有來自胎兒之無細胞DNA之母體樣品來鑑定該胎兒中之新生(de novo)突變。
已顯示腫瘤源DNA存在於癌症患者之無細胞血漿/血清中(Chen等人 Nat Med 1996; 2: 1033-1035)。大多數現行方法係基於對已知與癌症相關之突變進行的直接分析(Diehl等人 Proc Natl Acad Sci USA 2005; 102: 16368-16373;Forshew等人 Sci Transl Med 2012; 4: 136ra68)。然而,對欲分析之一組預定突變進行的此類直接分析(例如藉由分析血漿DNA)在篩選癌症時的準確度較低。
此外,使用一組預定突變進行之此類直接分析對腫瘤之基因組成的瞭解有限。因此,通常採用手術活體檢查以便對腫瘤進行定序,從而獲得關於腫瘤之基因資訊。手術之需要性會增加風險及成本。另外,為了發現腫瘤之位置,在可進行手術活體檢查之前需要昂貴的掃描技術。
因此需要提供對癌症進行廣泛篩選、偵測或評估的新穎技術,尤其以非侵入方式進行的新穎技術。
實施例係關於精確偵測癌症患者及癌症篩選個體之血漿(或其他含有無細胞(cell-free) DNA之樣品)中之體細胞突變。此等分子標記之偵測可用於癌症患者之篩選、偵測、監測、管理及預後。舉例而言,可由經鑑定之體細胞突變測定突變負荷,且該突變負荷可用於篩選任何或各種類型之癌症,其中可不需要關於個體之腫瘤或可能癌症的先前知識。實施例可用於指導癌症療法(例如靶向療法、免疫療法、基因組編輯、手術、化學療法、栓塞(embolization)療法、抗血管生成療法)之用途。實施例亦關於藉由分析具有來自胎兒之無細胞DNA之母體樣品來鑑定該胎兒中之新生(de novo)突變。
其他實施例係關於與本文所描述之方法相關的系統及電腦可讀媒介。
可參考以下實施方式及附圖來獲得對本發明實施例之性質及優點的較好理解。
相關申請案之交叉參考本申請案主張2015年2月10日申請之名稱為「偵測癌症(Detecting Cancer)」之美國臨時申請案第62/114,471號及2015年12月22日申請之名稱為「偵測新生突變(Detecting De Novo Mutations)」之美國臨時申請案第62/271,196號之優先權且為該等申請案之PCT申請案,該等申請案之全部內容出於所有目的以引用之方式併入本文中。
本申請案亦係關於Lo等人(代理人案號80015-012010US)之2013年3月13日申請之名稱為「用於癌症偵測之血漿DNA之突變分析(Mutational Analysis Of Plasma DNA For Cancer Detection)」之共同擁有的美國專利公開案第2014/0100121號;及Lo等人(代理人案號80015-013010PC)之2013年9月20日申請之名稱為「自血漿非侵入性測定胎兒或腫瘤之甲基化組(Non-Invasive Determination Of Methylome Of Fetus Or Tumor From Plasma)」的PCT專利公開案第WO2014/043763號,該等公開案之揭示內容以全文引用的方式併入本文中用於所有目的。
術語 術語「
生物樣品」係指自個體(例如人類、患有癌症之個體、懷疑患有癌症之個體、待進行癌症篩選之個體、妊娠女性或其他生物體)取得的任何樣品。生物樣品可包括無細胞DNA,其中之一些可來源於健康細胞且一些來源於腫瘤細胞。無細胞DNA可發現於血液或其組分(例如血漿或血小板)或其衍生物(例如血清)或其他體液中,例如尿液、來自泌尿生殖道之其他體液、汗水、胸膜液、腹水、腹膜液、唾液、淚液、乳頭溢液、腦脊髓液、眼內液、羊膜液及子宮頸灌洗液。非體液實例為大便樣品,其可與腹瀉液混合。對於一些該等樣品,生物樣品可非侵入地獲得。在一些實施例中,生物樣品可用作組成樣品。
如本文所用,術語「基因座(
locus)」或其複數形式「基因座(
loci)」為在不同個體之基因組之間或在個別內之不同細胞之間(例如腫瘤細胞與健康細胞之間)具有變異的任何長度之核苷酸(或鹼基對)的位置或地址。
如本文中所用,術語「
隨機定序」係指其中在將程序定序之前所定序之核酸片段尚未具體鑑定或預定的定序。不需要序列特異性引子來靶向特異性基因基因座。在一個實施例中,添加銜接子至片段之末端,且使用於定序之引子連接至銜接子。因此,任何片段都可用相同引子定序,並且因此定序可為隨機的。可使用隨機定序進行大規模平行定序。
如本文中所用,術語「序列標籤」(亦稱為序列讀取)係指由核酸分子之任何部分或全部定序之核苷酸串。舉例而言,定序標籤可為由核酸片段定序之短核苷酸串(例如約30)、在核酸片段之兩個末端處的短核苷酸串或存在於生物樣品中之全部核酸片段之定序。核酸片段為較大核酸分子之任何部分。片段(例如基因)可與較大核酸分子之其他部分分開地存在(即不連接)。
「
序列變異體」(亦稱作變異體)對應於與參考基因組之差異,該參考基因組可為生物體之組成基因組或親本基因組。序列變異體之實例包括單核苷酸變異體(SNV)及包括兩種或兩種以上核苷酸之變異體。SNV之實例包括單核苷酸多形現象(SNP)及點突變。作為實例,突變可為「新生突變」(例如胎兒之組成基因組之新突變)或「體細胞突變」(例如腫瘤之突變)。野生型對偶基因與組成基因組中之對偶基因對應。若個體在該基因座處為異型接合,則組成基因組可含有兩個野生型對偶基因。野生型序列變異體與組成基因組中之特定位置處的序列對應。若個體在該基因座處為異型接合,則組成基因組可含有兩個野生型序列變異體。
「
體細胞突變」係指出生後產生之組織或細胞突變。由於DNA複製中之誤差或由於曝露於致癌物或其他環境因素,生物體隨著年齡增長累積更多突變。通常,每個細胞每次細胞分裂人類獲得一個突變。然而單獨地,該等突變以極低濃度存在於組織中,因為此等突變為非純系的。然而,腫瘤相關突變以選殖方式擴增且以較高分率濃度存在於腫瘤組織中。癌症中不同突變之分率濃度可由於腫瘤異質性而不同。此意謂腫瘤通常由許多不同純系組成且各純系具有其自身的突變圖譜。
「
癌症相關變化」或「
癌症特異性變化」包括(但不限於)癌症衍生之突變(包括單核苷酸突變、核苷酸之刪除或插入、基因或染色體區段之刪除、易位、反轉)、基因、基因區段或染色體區段擴增、病毒相關序列(例如病毒游離基因體及病毒插入)、異常甲基化圖譜或腫瘤特異性甲基化標記、異常無細胞DNA尺寸概況、異常組蛋白修飾標記及其他表觀遺傳修飾及為癌症相關或癌症特異性的無細胞DNA片段之末端之位置。
「
資訊性癌症 DNA 片段」與具有或攜帶癌症相關或癌症特異性變化或突變中之任何一或多者的DNA片段對應。「
資訊性胎兒 DNA 片段」與攜帶在親本之基因組中之任一者中未發現之突變的胎兒DNA片段對應。「
資訊性 DNA 片段」可指上述類型之DNA片段中之任一者。
術語「
定序深度」係指基因座經與基因座比對之序列讀段涵蓋之次數。基因座可與核苷酸一樣小,或與染色體臂一樣大,或與整個基因組一樣大。定序深度可表示為50x、100x等,其中「x」係指基因座經序列讀段涵蓋之次數。定序深度亦可應用於多個基因座,或整個基因組,在此情況下x可分別指基因座或整個基因組定序之平均次數。超深定序可指定序深度中至少100x。
術語「
定序寬度」係指已分析之特定參考基因組(例如人類)或該基因組之一部分的分率。分率之分母可為重複掩蔽基因組,且因此100%可對應於所有參考基因組減去掩蔽之部分。基因組之任何部分可經掩蔽,且因此可將分析集中於參考基因組之任何特定部分。廣泛定序可指例如藉由鑑定與參考基因組之該部分比對之序列讀段分析至少0.1%基因組。
「
徹底定序」係指自樣品(例如血漿)中之幾乎所有實際上可分析之臨床相關或生物學相關核酸片段獲得分子資訊。由於樣品製備步驟、定序庫製備步驟、定序、鹼基識別及比對中之限制,樣品中並非所有血漿核分子(例如DNA或RNA)將為可分析或可定序的。
「
可分析 DNA 分子」係指已成功地通過所有分析步驟以藉由任何適合之方式(包括定序)分析及偵測之任何DNA分子。「
可定序 DNA 分子」係指已成功地通過所有分析步驟以在生物資訊上定序及偵測之任何DNA分子。因此,徹底定序可指經實施以使得將有限血漿樣品中之許多臨床相關或生物相關DNA分子(例如資訊性DNA片段)轉型成可定序分子之能力最大化的程序。在使用此等程序產生可定序DNA分子之定序庫之後,可將所有或一部分庫定序。若實際上完全消耗來自有限樣品之可定序DNA分子以獲得序列資訊,則此行為可稱為「
全部模板定序」,其與徹底定序之一個譜對應。
樣品之「
突變負荷」為基於量測了多少個突變的量測值。突變負荷可以各種方式測定,諸如突變之原始數目、每鹼基數之突變密度、鑑定為具有突變之基因組區域之基因座的百分比、在特定量(例如體積)之樣品中觀測到的突變數目及與參考資料相比或自上一評估起的成比例或成倍增加。「
突變負荷評估」係指量測樣品之突變負荷。
篩選測試之「
陽性預測值 ( PPV )」係指由測試鑑定之真陽性(TP)之數目,其表示為由測試分類之真陽性及假陽性(FP)之總和之比例,例如TP/(TP+FP)。「
陰性預測值 ( NPV )」係指由測試鑑定之真陰性(TN)之數目,其表示為由測試分類之真陰性及假陰性(FN)之總和之比例,例如TN/(TN+FN)。
術語「
組成基因組」(亦稱為CG)由基因組內基因座處之共同核苷酸組成,且因此可以視為共同序列。CG可涵蓋個體之整個基因組(例如人類基因組),或僅涵蓋部分基因組。組成基因組(CG)可獲自細胞之DNA以及無細胞DNA(例如如可見於血漿中)。理想地,共同核苷酸應指示,基因座對於一個對偶基因是同型接合的或對於兩種對偶基因是異型接合的。異型接合基因座通常含有兩個對偶基因,其為基因多形現象之成員。作為一個實例,確定基因座是否為異型接合之準則可為兩個對偶基因之臨限值,該等對偶基因各自以至少預定百分比(例如30%或40%)之比對至基因座之讀段而出現。若一種核苷酸以足夠百分比(例如70%或70%以上)出現,則可將基因座確定為在CG中同型接合的。儘管一個健康細胞之基因組可由於在細胞分裂期間自發出現之隨機突變而不同於另一健康細胞之基因組,但當使用此類共同核苷酸時CG不應不同。一些細胞可具有具基因組重組之基因組,例如B及T淋巴細胞,諸如分別包括抗體及T細胞受體基因。該等大規模差異仍將為血液中之全部有核細胞群體的相對小群體,且因此該等重組將不影響以足夠取樣(例如定序深度)測定血細胞之組成基因組。其他細胞類型(包括口腔細胞、皮膚細胞)、毛囊或各種正常身體組織之活檢體亦可充當CG之來源。
術語「
組成 DNA」係指反映個體出生時所具有之基因組成的任何來源之DNA。隨機突變會在細胞分裂期間出現。不同於癌症相關突變,隨機突變沒有純系擴增。因此,獲自組成DNA之共同序列的CG反映個體出生時所具有之基因組成。對於個體,可獲得組成DNA之「組成樣品」之實例包括健康血細胞DNA、口腔細胞DNA、髮根DNA、唾液DNA及來自皮膚刮下物之DNA。從此等健康細胞之DNA可界定出個體之CG。可以各種方式將細胞鑑定為是健康的,例如當已知個體未患有癌症或樣品係獲自不大可能含有癌性或癌變前細胞的組織(例如當懷疑肝癌時,為髮根DNA)時。作為另一實例,當患者未罹癌時,可取得血漿樣品,且將所確定的組成DNA針對後續血漿樣品(例如一年或更久後)的結果進行比較。在另一實施例中,含有< 50%腫瘤DNA之單一生物樣品可用於推斷組成基因組及腫瘤相關之基因變化。在此類樣品中,腫瘤相關之單核苷酸突變之濃度將比CG中異型接合SNP之各對偶基因的濃度低。此類樣品可與下文描述之用以測定樣品基因組之生物樣品相同。
術語「
樣品基因組」(亦稱為SG)為已比對至基因組(例如人類基因組)之位置的一批序列讀段。樣品基因組(SG)不為共同序列,但包括可在僅足夠數目之讀段(例如至少2或3,或較高截止值)中出現之核苷酸。若對偶基因出現足夠次數且其不為CG之一部分(即不為共同序列之一部分),則對偶基因可指示「單核苷酸突變」(亦稱為SNM)。亦可偵測其他類型之突變,例如包括兩種或兩種以上核苷酸之突變(諸如影響微衛星或簡單串聯重複多形現象中之串聯重複單元數目之彼等)、染色體易位(其可為染色體內或染色體間)及定序反轉。
術語「
參考基因組」(亦稱為RG)係指單倍體或二倍體基因組,可將來自生物樣品及組成樣品之序列讀段與其比對及比較。對於單倍體基因組,各基因座處僅存在一個核苷酸。對於二倍體基因組,可鑑定出異型接合基因座,此類基因座具有兩個對偶基因,其中任一對偶基因可允許匹配以與基因座比對。
術語「
癌症等級」可指是否存在癌症、癌症之階段、腫瘤之尺寸、癌症對治療之反應及/或癌症之嚴重性或進展之其他量度。突變負荷可用於確定癌症等級。癌症愈晚期,突變負荷將愈高。癌症等級可為數字或其他字符,諸如字母或其他符號。等級可為零。癌症等級亦包括與突變或多個突變相關的癌變前或癌前期病狀(狀態)。可以各種方式使用癌症等級。舉例而言,篩選可檢查已知先前未患癌症之某人是否存在癌症。評估可研究已診斷有癌症之某人。若具有癌症之暗示特徵(例如症狀或其他陽性測試)或具有癌症之風險因素(例如習慣,諸如抽菸或飲酒或病毒感染(例如肝炎病毒感染)之病史)之某人患有癌症,則偵測可意謂「篩選」或可意謂檢查。
如本文所用,術語「
分類」係指與樣品之特定特性相關之任何數字或其他字符。舉例而言,「+」符號(或詞「陽性」)可表示將樣品分類為具有特定癌症等級。分類可為二元(例如陽性或陰性)或具有更多分類等級(例如1至10或0至1之標度)。術語「
截止值」及「
臨限值」係指使用於操作之預定數字。臨限值可為高於或低於特定分類適用之值。截止值可參考或不參考樣品或個體之特徵預定。舉例而言,可基於測試個體之年齡或性別選擇截止值。可在測試資料輸出後及基於測試資料輸出選擇截止值。舉例而言,當樣品之定序達到某一深度時可使用某些截止值。
具體實施方式
鑑定生物體之生物樣品中之突變(例如由於癌症或在胎兒中)受定序誤差及其他困難之普遍妨礙。實施例提供藉由分析生物體之無細胞DNA分子(片段)來精確鑑定生物體中之突變之技術。對於非侵入性獲得之樣品之胎兒分析,胎兒之無細胞DNA分子將在妊娠女性之亦含有無細胞DNA分子之母體樣品(例如母體血漿)中。可鑑定大量真實突變(與假陽性相反)或可使用某些定序技術(例如定序庫之無PCR製備)及某些過濾準則實質上增強偵測之真實突變之比例。
當使用足夠定序深度及定序寬度時,可測定個體之突變負荷之精確量測值,藉此允許評估個體中之癌症等級。以下針對用於癌症偵測、監測及預測之基於DNA之腫瘤標記(例如在血漿中)之要求描述理論基礎及實務實施。
I. 癌症之突變標記許多癌症不具有用於鑑定該癌症存在或極可能存在於個體中之明確突變或其他標記。且即使此類標記確實存在,一般存在很少對於特定癌症獨特的此類已知標記。因此,可難以在血漿或具有無細胞DNA之其他此類樣品(其中此類突變標記濃度將不高)中偵測癌症。一個例外為鼻咽癌(NPC)患者中之埃-巴二氏病毒(Epstein-Barr virus;EBV) DNA。因此,在中國在大部分NPC個案中可在NPC腫瘤細胞之細胞核中發現EBV DNA (Tsang等人 Chin J Cancer 2014; 33: 549-555)。此外,可在NPC患者之血漿中發現EBV DNA (Lo等人 Cancer Res 1999; 59: 1188-1191)。
此實例用於說明獲得足夠資料以使用一組之點突變篩選癌症以便篩選特定類型之癌症中的困難。此實例進一步說明偵測血漿中之許多突變以達到癌症篩選之敏感度的需要。
A. NPC 患者中之 EBV DNANPC與EBV感染緊密相關。在中國南方,可在幾乎所有NPC患者之腫瘤組織中發現EBV基因組。衍生自NPC組織之血漿EBV DNA已發展為NPC之腫瘤標記(Lo等人 Cancer Res 1999; 59: 1188-1191)。已顯示此腫瘤標記適用於NPC之監測(Lo等人 Cancer Res 1999; 59: 5452-5455)及預測(Lo等人 Cancer Res 2000; 60: 6878-6881)。已顯示使用即時PCR之血漿EBV DNA分析適用於無症狀個體中早期NPC之偵測且可潛在地適用於篩選NPC (Chan等人 Cancer 2013;119:1838-1844)。在此先前研究中,用於血漿EBV DNA分析之即時PCR分析靶向EBV基因組之
BamHI-W-片段。在各EBV基因組中存在
BamHI-W-片段之約六至十二個重複且在各NPC腫瘤細胞中存在約50個EBV基因組(Longnecker等人 Fields Virology, 第5版,第61章 「Epstein-Barr virus」;Tierney等人 J Virol. 2011; 85: 12362-12375)。換言之,在各NPC腫瘤細胞中將存在PCR標靶之約300-600個(例如約500個)複本。每腫瘤細胞之此大量標靶可解釋為何在早期NPC之偵測中血漿EBV DNA如此敏感。
B. EBV DNA 之 靶向定序如以上實例中所說明,血漿EBV DNA之即時PCR分析之高敏感性與各NPC腫瘤基因組中PCR標靶之多個複本之存在有關。因此吾人推論將試圖在癌症患者之血漿中偵測的腫瘤相關標靶之數目之進一步增加將進一步增加血漿DNA分析之敏感性及臨床效用。NPC患者之血漿中之EBV DNA分子主要為180 bp以下之短片段(Chan等人 Cancer Res 2003; 63: 2028-2032)。由於EBV基因組之尺寸為約172 kb,各EBV基因組將斷裂成約1,000個血漿DNA片段。因此,NPC腫瘤細胞中之50個EBV基因組將斷裂成約50,000個血漿DNA片段且釋放至NPC患者之循環中。
吾人推論將靶向之此等50,000個腫瘤衍生EBV DNA片段愈多,將能夠實現之偵測EBV相關癌症之敏感性愈高。吾人可偵測5%、10%、20%、25%、30%、40%、50%、75%、90%或99% EBV基因組以用於分析。吾人可旨在靶向可在生物資訊上與人類基因組區分的EBV基因組之部分。
藉由偵測血漿中之如此大量的EBV基因組標靶提供之偵測之高敏感性在接受治癒意圖放射線療法之患者之疾病復發偵測中尤其重要。接受治癒意圖放射線療法之患者之復發NPC之偵測率次於未治療NPC之偵測率(Leung等人 Clin Cancer Res 2003; 9: 3431-3134)。使用靶向
BamHI-W-片段之即時EBV DNA PCR的兩組癌症之整體偵測率分別為62.5%及96.4%。此等高偵測率說明任何篩選技術中對較高量之需要。高度相關標靶中之此類較高量通常不可用於其他癌症。
血漿中大量EBV基因組標靶(或如稍後描述之推斷突變)之偵測將預期增加前一組之偵測率。此方法之另一效用將為用於篩選NPC。對於篩選,可偵測早期癌症尤其重要。高度敏感之血漿EBV DNA偵測系統將允許此目標。如稍後所說明,實施例可提供高度敏感之偵測而不需要使用預定突變或其他分子標記。
II. 篩選癌症篩選癌症中之問題為可能不知道個體可能患有或易患有何種癌症。另一問題為個體可能易患一種以上癌症。因此,實施例可自個體之生物樣品鑑定突變,藉此不需要僅篩選預定組之突變。如何自樣品中之無細胞DNA精確鑑定突變之細節在稍後章節中描述。現在描述癌症篩選之方法及困難。
在生物樣品(例如血漿)中鑑定突變後,突變可用於癌症篩選。術語篩選一般係指經由進行一些形式之評估的主動行為鑑定疾病。評估工具可包括評估人員之人口統計概況、進行血液測試、其他體液(例如尿液、腹水、胸膜液、腦脊髓液)之測試、在組織活檢體上之測試、內窺鏡檢查(例如結腸鏡檢查)及成像測試(例如經由磁共振成像、電腦斷層攝影術、超音波檢查或正電子發射斷層攝影法)。可使用評估模態之組合,例如可使用多個樣品且可組合結果以提供最終評估。
A. 不同階段之篩選及概率評估疾病篩選可一般在不同疾病階段應用,即(但不限於)一級、二級及三級篩選。一級篩選係指在症狀發作之前鑑定疾病且有時稱作無症狀篩選。一級篩選可在一般群體或具有使其處於待篩選疾病之增加的風險下的特徵之所選群體上進行。舉例而言,吸菸者處於小細胞肺癌之增加的風險下。慢性HBV攜帶者處於HCC之增加的風險下。二級篩選係指當個體呈現症狀及將需要在一組假定診斷之間進行區分時鑑定疾病。三級篩選係指疾病進展、疾病階段或嚴重性增加(例如癌轉移之發展)或疾病再發之早期鑑定。在疾病篩選或癌症篩選之每個階段,目的為鑑定或不包括疾病或疾病進展之存在,通常在疾病以症狀形式自身呈現之自然病程之前,因為在此稍後時間治療選項可損壞或較不有效。
篩選行為為概率評估。一般而言,篩選之目的為排除(亦即不包括)或納入(亦即確認)假定診斷。評估為確定個體是否具有發展疾病之較高或較低機率(替代地稱為風險)、患有疾病或具有疾病進展。換言之,在各評估之後進行個體處於較高或較低風險下之分類。可需要連續階段之評估,且可進行重複測試。
B. EBV 實例EBV用作說明篩選之實例。與具有不同人口統計概況之人相比,中年中國南方男性具有罹患NPC之較高風險。血漿EBV DNA測試可隨後作為此個體之一級篩選工具應用。若血漿EBV DNA負荷低於用於區分患有NPC之個體之截止值,則此時將認為此個體具有較低患NPC之機率(Chan等人 Cancer 2013; 119: 1838-1844)。個體可選擇或經建議稍後(例如在一年或兩年之後)再次進行血漿EBV DNA測試。
若發現血漿EBV DNA負荷大於用於區分患有NPC之彼等者之截止值或顯示自個體自身先前值之漸進增加,則可認為此個體具有患NPC之較高風險。可建議此個體進行下一階段之測試以進一步納入或排除疾病,例如使用其他測試來確認疾病。舉例而言,可在2週或6週後進行另一血漿EBV DNA測試以評估血漿EBV DNA是否持續升高。視懷疑指數而定,可建議個體進行內窺鏡檢查以便在有及無進一步組織活體檢查及組織學評估之情況下視覺檢查鼻咽以確認NPC之存在。替代地,可進行成像(例如磁共振成像)以觀察腫瘤之存在或不存在。此等實例說明篩選能夠指定應進行哪些額外測試之益處。
相同測試可作為二級及三級篩選之工具應用。為了說明,血漿EBV DNA測試可用於評估呈現復發性流鼻血(亦即自鼻子流血)或聲音嘶啞(其為NPC之通常呈現之症狀)之個體之NPC的可能性。若測試結果顯示EBV DNA負荷大於用於區分有及無疾病之群體之截止值,則將認為此個體具有與患NPC之個體一樣高的機率,藉此確定癌症之較高等級(Lo等人 Cancer Res 1999; 59: 1188-1191)。為了進一步確認測試其可隨後經提及。另一方面,若血漿EBV DNA測試顯示比用於區分有及無疾病之群體的截止值低的EBV DNA負荷,則可認為NPC之機率較低,且可考慮其他假定診斷。
就三級篩選而言,藉由放射線療法進行治癒性治療之NPC個體可藉由血漿EBV DNA測試進行測試以便較早鑑定可能之NPC復發(換言之再發) (Lo等人 Cancer Res 1999; 59: 5452-5455;Lo等人 Cancer Res 2000; 60: 6878-6881)。若血漿EBV DNA水準增加至超過個體自身值之穩定治療後基線或超過用於鑑定有NPC復發之群體之截止值,則將認為NPC復發之概率較高。
C. 其他篩選測試及較佳特徵用於管理NPC之血漿EBV DNA測試之實例僅作為如何進行癌症或疾病篩選之一個說明提供。若可開發用於其他癌症之其他有效篩選測試或模態,則將為理想的。目前,用於其他癌症之篩選測試不存在或具有不佳效能概況。舉例而言,血清α-胎蛋白(AFP)為用於HCC評估之標記。然而,血清AFP顯示不佳敏感性及特異性。就敏感性而言,小於50%之HCC對於AFP為陽性。就特異性而言,其他肝臟發炎病狀可與血清AFP升高相關。
因此,血清AFP一般不用作無症狀低風險個體之一級篩選工具。若使用,則將存在HCC之許多假陰性及假陽性鑑定。替代地,其可應用於具有罹患HCC之較高懷疑指數之高風險個體。舉例而言,具有在肝臟超音波上顯示之低回音影像之慢性HBV攜帶者可進行血清AFP測試。若陽性,則其充當支持HCC之假定診斷的另一份證據。此外,若HCC之確認個案顯示為陽性或升高之血清AFP,則血清AFP可用作篩選HCC復發之治療後工具。
已作為各種公共健康倡議之一部分實施的癌症篩選工具之其他實例包括用於乳癌篩選之乳房攝影術、用於結腸直腸篩選之糞便隱血評估、用於前列腺癌篩選之血清前列腺特異性抗原測試及用於子宮頸癌篩選之子宮頸刮片評估。已實施許多篩選程序,因為一般認為疾病或疾病進展之較早鑑定將轉變為健康益處,諸如較長無疾病存活期、較高品質之生命年數及疾病管理方面之經濟節省。舉例而言,若可在早期或甚至在無症狀階段鑑定癌症,則可應用較簡單之治療模態或具有較少副作用之彼等模態。舉例而言,腫瘤可仍處於可考慮手術移除之階段。
一般而言,較佳為採用非侵入性且就篩選而言具有極少副作用之工具。侵入性模態或具有併發症之較高可能之彼等模態對於在評估期間疾病之測試前概率足夠高以證明面臨此等風險之個體保留。舉例而言,在具有HCC之極高懷疑指數之個體,諸如具有在肝臟超音波上顯示之低回音影像的慢性HBV攜帶者或肝硬化患者上進行肝活體檢查。
就篩選測試之效能概況而言,較佳為進行具有較高陽性預測值(PPV)或較高陰性預測值(NPV)之測試。任一種篩選指示之實際較佳效能概況視篩選目的而定。具有較高PPV之測試一般用於確認或「納入」疾病分類。具有較高NPV之測試一般用於不包括或「排除」疾病分類。一些測試具有較高PPV及NPV兩者。此等通常為可提供確定分類之測試,例如組織活體檢查隨後組織學檢查。
D. 鑑定腫瘤組織中用於篩選之癌症特異性標靶吾人可旨在偵測血漿DNA中源自癌細胞之基因組的任何癌症相關突變之存在以便偵測癌症。如以上在NPC中之EBV DNA的實例中所展現,使用血漿EBV DNA測試之NPC之較高臨床敏感性或偵測率與每個NPC細胞,偵測約500個癌症衍生之血漿DNA片段(例如300-600個)的能力有關。為了進一步增強測試之敏感性或進行一或多種其他篩選測試,可需要能夠偵測每個癌細胞,300個或300個以上癌症相關片段(例如400、500、600、800或1,000或1,000以上)。
具有NPC之多於500個癌症特異性標靶以及將此推廣至其他癌症及惡性病之一種可能方式將為分析一組個體特異性單核苷酸突變,或包括一個以上核苷酸之突變。為了鑑定此類個體特異性資訊,可進行癌症個體之腫瘤組織之大規模平行定序。個體之組成DNA可經定序作為鑑定腫瘤組織中之突變的參考。組成DNA可獲自個體之任何非惡性細胞,例如(但不限於)血細胞及口腔細胞。除單核苷酸突變以外,其他癌症特異性或癌症相關基因及表觀遺傳變化(例如異常複本數及異常甲基化)亦可用作癌症偵測之標靶。
此等變化可隨後在可含有腫瘤DNA之個體之生物樣品(例如血漿或血清,其兩者均含有無細胞DNA)中偵測到。在一個實施例中,目的為經由血漿DNA分析評估身體之突變負荷。對於此具體實施例,癌症特異性突變之偵測可用於在治療之後監測個體之進展,因為將需要獲得腫瘤組織以用於鑑定對個體具有特異性之癌症相關變化。癌症特異性變化之偵測可藉由對偶基因特異性PCR、使用大規模平行定序之擴增子定序(例如使用標籤擴增子深度定序(Forshew等人 Sci Transl Med 2012; 4: 136ra68))、質譜分析及微陣列分析或如本申請案之一些實施例中所描述之超深定序、徹底定序及全模板定序進行。
在一個實施例中,攜帶各癌症特異性變化之血漿DNA之量之總和(突變負荷之實例)可經測定且用於反映體內癌細胞之數目。後一資訊將適用於預測、監測及適用於評估對治療之反應。在其他實施例中,突變負荷可作為產物或癌症特異性標靶之量之加權平均值測定。
在一些實施例中,如下文所描述,突變負荷可例如在初始篩選期間在極少或無關於哪些突變可存在於樣品中之資訊的情況下測定。此外,在某一位置處之突變及野生型對偶基因之相對比例可用於推斷血漿樣品中腫瘤衍生DNA之分率濃度。
III. 用於癌症篩選之循環無細胞 DNA 突變負荷評估為了鑑定癌症突變且測定個體之突變負荷,實施例可分析具有循環無細胞DNA之樣品。腫瘤、癌症及惡性病已知將其DNA含量釋放至循環中(Bettegowda等人 Sci Transl Med 2014; 6: 224ra24)。因此,可在血漿及血清中偵測與腫瘤、癌症及惡性病相關之突變。此等突變亦可在其他體液中偵測,諸如(但不限於)尿液、其他泌尿生殖體液、子宮頸灌洗液、乳頭溢液、唾液、胸膜液、腹水及腦脊髓液(Togneri等人 Eur J Hum Genet 2016; doi: 10.1038/ejhg.2015.281;De Mattos-Arruda等人 Nat Commun 2015; doi: 10.1038/ncomms9839;Liu等人 J Clin Pathol 2013; 66 :1065-1069)。
由於細胞或無細胞DNA自與體液直接接觸之彼等器官直接排出至體液中,例如自尿道(例如自腎臟或膀胱)或生殖道(例如自前列腺)排出至尿液、經腎自血漿排出至尿液中、自腦排出至腦脊髓液、自胰臟排出至胰液中、自膽囊排出至膽汁中、自口咽排出至唾液、自乳腺細胞排出至乳頭溢液、自腹部器官排出至腹水或自肺排出至胸膜液,可在此等體液中偵測突變。此外,突變可在體液中偵測,因為其部分衍生自血漿之過濾。因此,可在體液中偵測血漿中之內含物,包括來自更遠離體液部位之其他器官的腫瘤衍生突變。
在血漿、血清及其他體液中偵測無細胞核酸中之突變對於癌症篩選測試之開發有吸引力,因為其提供相對非侵入性地且代替腫瘤活檢體之直接評估獲取腫瘤相關基因及基因組變化之方式。此外,在無細胞核酸群體中已偵測到幾乎所有形式之與腫瘤、癌症或惡性病相關的基因及基因組變化。本文提供癌症相關變化或癌症特異性變化之實例。癌症特異性一般係指來自癌細胞之變化,且癌症相關意謂由於解剖接近、生理相關、發育相關或對癌症存在之反應,變化可來自癌細胞或癌變前病變或其他組織。
由於腫瘤相關基因及基因組圖譜之非侵入性獲取(尤其自血漿及血清無細胞核酸測定),若作為篩選測試使用,則腫瘤相關圖譜可在較短時間間隔(例如數天或數週)內反覆量測以「納入」或「排除」疾病或歷經較長時間間隔(諸如每兩年、每年或每半年)。
血漿DNA分子天然以短DNA片段形式存在(Yu等人 Proc Natl Acad Sci USA 2014; 111: 8583-8588)。其通常< 200 bp長,且可在某些癌症相關位置斷裂,如以下更詳細論述。人類血漿中之大多數DNA分子來源於造血細胞當個體罹患非造血惡性病(尤其在較早階段期間)時,腫瘤衍生DNA與非腫瘤衍生之造血DNA之背景混合,成為血漿DNA的一小部分。血漿樣品中腫瘤衍生DNA之量可表達為總DNA之分率或癌細胞之基因組等效物或細胞等效物之數目。在造血惡性病之情況下,血漿中惡性病相關DNA之分率將預期大於在非造血惡性病之情況,亦可使用本申請案中所描述之相同實施例偵測。
在本申請案中,吾人描述只要腫瘤向體液貢獻DNA,即可一般應用於偵測任何癌症之方案(Bettegowda等人 Sci Transl Med 2014; 6: 224ra24)。原因為描述之實施例不視僅對於某種癌症類型典型之生物標記之偵測而定。用於區分有及無癌症之個體之分類流程係基於出於偵測任何癌症之目的亦可一般應用之突變負荷評估。
為了開發用於以較高臨床敏感性及特異性篩選其他癌症之測試,將需要偵測廣泛範圍及較大數目之突變的能力。存在證明此測試需要之若干原因。不同於EBV與NPC之關聯,大部分其他癌症不與可相對容易地與非癌症人類DNA區分之非人類基因標記相關。因此,為了開發用於非EBV相關癌症之篩選測試,測試將需要偵測其他種類之癌症相關變化。
A. 測試敏感性要求 ( 例如 寬度及深度 )基於以上計算,為了實現與用於NPC偵測之血漿EBV DNA測試相同的敏感性(Chan等人 Cancer 2013; 119: 1838-1844),測試將需要能夠偵測具有癌症相關變化之血漿DNA之至少約500個複本以便實現在循環中偵測一個腫瘤細胞之等效DNA含量。NPC資料用作模型系統以經由實現臨床敏感及特異性癌症篩選測試之原理推論。此可藉由偵測一種腫瘤相關變化之500個複本(諸如在血漿EBV DNA測試之情況下)或每500個不同腫瘤相關突變之一個複本,或組合,即一組<500個突變之多個複本實現。因為血漿DNA片段之長度一般< 200 bp,可假設任一種癌症相關變化之偵測將需要偵測具有此類變化之一個血漿DNA片段,稱為資訊性癌症DNA片段。
熟悉此項技術之一些彼等研究者因此開發偵測血漿中之某些突變之測試作為偵測癌症之方式。舉例而言,藉由數位聚合酶鏈反應(PCR)血漿偵測
表皮生長因子受體突變已用於偵測非小細胞肺癌(Yung等人 Clin Cancer Res 2009; 15: 2076-2084)。已產生包括數百種其他癌症相關突變(諸如在致癌基因及腫瘤抑制基因中)之組用於血漿DNA評估。理論上,此等測試應已實現用於接近與用於NPC之血漿EBV DNA測試一樣的效能的彼等其他癌症偵測之臨床敏感度。然而,實際上不為此情況。
1. 寬度
現在瞭解癌症為高度異質的。突變圖譜在不同器官之癌症之間極大地變化,在患有相同器官癌症之不同個體之間或甚至在同一個體之同一器官中之不同腫瘤病灶之間極大地變化(Gerlinger等人 N Engl J Med 2012; 366: 883-892)。因此,任一種腫瘤相關突變僅在任何癌症個體之較小子集中為陽性。舉例而言,癌症體細胞突變目錄(Catalogue of Somatic Mutations in Cancer;COSMIC)資料庫記載已在腫瘤組織中偵測之基因突變之範圍(cancer.sanger.ac.uk/cosmic)。
圖1顯示癌症中前28種最常鑑定之突變的表100。資料顯示任何給定器官之癌症之前28種最普遍突變之總和遠遠不為100%。亦值得注意的為不同突變可在圖1中所列之基因中之每一者的情況下出現。因此,若評估腫瘤中任一種特異性突變之發生率,則數目將極低。因為癌症突變之位置如此可變且不可預測,為了鑑定任一名癌症個體中之500種不同突變,可考慮首先分析腫瘤活檢體。經鑑定之突變隨後將用於告知何種血漿DNA分析將用於後續監測。然而,預先評估腫瘤活檢體之需要將妨礙吾人應用血漿DNA測試來進行一級或無症狀篩選。
如圖1中所示,僅一部分各腫瘤類型可展示前幾個突變中之任一者。資料表明大部分腫瘤不以COSMIC資料庫中所列之前幾個突變中之任一者為特徵。換言之,若基於前幾個突變之排他性偵測設計癌症篩選測試,則由於不存在此等突變,將偵測不到許多腫瘤。此等資料表明如由本申請案中之實施例所展現,偵測許多體細胞突變之需要對於實現對不同腫瘤通用且又可在大部分癌症群體中產生陽性發現之篩選測試為重要的。
因此,為了開發用於癌症偵測或一級篩選之血漿DNA測試,將需要在基因組內經由寬得多的搜尋空間搜尋以便收集足夠突變(例如相對於參考基因組(諸如組成基因組或親本基因組)之異常複本數及序列變異體)或其他癌症特異性或癌症相關變化(例如甲基化變化)以構成每個癌細胞500個癌症特異性血漿DNA片段之總和。注意圖1中所示之資料,假設在任一種腫瘤中發生之任一種充分記載之癌症相關突變之機率為1%,測試將需要靶向50,000個推定突變位點之偵測以便每種腫瘤偵測至少500個突變(基於泊松概率分佈(Poisson probability distribution))。將需要測試500,000種推定突變或癌症相關變化以便具有代表任一種腫瘤之至少5,000個突變或癌症相關變化。另一方面,若在任一種腫瘤中發生之任一種充分記載之癌症相關突變或變化之機率為0.1%,則將需要測試50,000個突變或變化以便具有代表任一種腫瘤之至少50個突變或變化。
因此,為了使癌症篩選測試之癌症偵測率或臨床敏感性最大化,測試將需要實現樣品中血漿DNA片段之廣泛調查以便鑑定具有任一種癌症相關變化或突變之足夠片段。調查之寬度可使用全基因組(genomewide)方法或涵蓋大部分基因組,例如足以涵蓋至少50,000個標靶之靶向方法實現。
2. 深度
調查之深度亦有關。視每種腫瘤之所偵測突變之數目而定,將需要偵測具有該突變之多個血漿DNA片段以達到指定臨限值,例如對於癌細胞之各基因組等效物,500個資訊性癌症DNA片段。舉例而言,若在特定腫瘤中僅鑑定出一個突變,則將需要涵蓋該突變之500個血漿DNA片段。另一方面,若50種不同突變存在於腫瘤中,則平均將需要偵測10個涵蓋彼等50個突變中之每一者的資訊性癌症DNA片段。
腫瘤DNA通常代表血漿中之較少DNA群體。此外,一些癌症相關變化在本質上為異型接合的(亦即每二倍體基因組具有一種變化)。因此,為了偵測每基因座,資訊性癌症DNA片段(亦即攜帶至少一種癌症相關變化之血漿DNA片段)之10個複本,將需要在具有20%腫瘤DNA分率之血漿樣品中分析來自該基因座之至少100個分子。因此,偵測涵蓋任何單突變位點之多個血漿DNA片段之能力視血漿樣品調查之深度而定。然而,在血漿樣品中僅存在有限數目之癌細胞基因組,其影響血漿DNA分析之所需深度及寬度兩者。
為了說明早期癌症之偵測,假設吾人旨在開發可偵測樣品中1%之腫瘤分率之測試或方案。假定每毫升血漿中通常存在1,000基因組等效物的DNA,在具有1%腫瘤DNA分率之一毫升樣品中將存在10細胞等效物的癌細胞DNA。此意謂即使可偵測樣品中之每個單一癌症特異性DNA片段,可用於偵測之任一癌症相關變化最多只有10基因組等效物。因此,即使具有特定突變存在於腫瘤中之先驗知識,其靶向偵測將僅提供最佳情況下10基因組等效物之信號,在1%分率濃度下其可缺乏對癌症之穩定偵測的分析敏感性。若待偵測之突變為異型接合的,則將僅存在5個顯示此突變之血漿DNA片段。
在1%腫瘤DNA分率之最佳情況下,將需要涵蓋至少1,000倍此突變位點處之分析深度以能夠偵測具有突變之血漿DNA之10基因組等效物。在此情況下,分析寬度將需要彌補每個突變位點所偵測之複本之相對較小數目。少量或甚至僅數百個突變位點之選擇性偵測不太可能能夠實現篩選測試偵測早期癌症所需之敏感性。
3. 其他問題
此外,在常規分析中,任一種分析之偵測效能遠遠不為最佳情況。舉例而言,在樣品處理步驟、DNA定序庫製備步驟及基於探針之標靶捕捉雜交過程期間可存在血漿DNA模板及資訊性癌症DNA片段之損失或減少。一些步驟可在不同突變中及在癌症與非癌症衍生之DNA之間以相對比例引入偏差。舉例而言,標靶定序庫、基因組DNA定序庫及擴增子定序之PCR擴增可引入GC偏差以及產生PCR重複。對於大規模平行DNA定序,定序片段之鑑定中之誤差可起因於在PCR擴增期間或在定序期間、在鹼基識別期間出現之定序誤差或由於比對誤差。最後,在可提供確信陽性讀段以用於偵測突變之前分析平台之信號偵測機制可具有偵測極限(例如可偵測信號可需要5個突變片段)。所有此等因素意謂實務上,可需要血漿DNA分析之寬度及深度要求甚至大於論述之理論理想情況。
本質上,論述至此表明癌症篩選測試之敏感性要求達到實務上可獲得何種分子分析平台之限制。生物學上,已報導惡性腫瘤所擁有之體細胞突變之數目在約1,000至數萬之間的範圍內(Lawrence等人 Nature 2013; 499: 214-218)。基於吾人之資料,視血漿樣品中腫瘤DNA之分率濃度而定,可在有限血漿樣品中剛好具有足夠資訊性癌症DNA片段(通常每次血液抽取將獲得< 10毫升血漿)以實現早期非侵入性癌症偵測。
因此,為了實際上實現癌症篩選測試之敏感性要求,將需要使可在各血漿樣品中獲得之癌症資訊內容最大化。在本申請案中,吾人描述可實現達到癌症篩選測試之敏感性要求所需要之有效寬度及深度的方法。在各種實施例中,進行超深及廣泛定序、詳盡或全模板定序。可進行無PCR之大規模平行定序以增加超深及廣泛定序、詳盡或全模板定序之成本效益。可經由單分子定序實現超深及廣泛定序、詳盡或全模板定序。
一些實施例可藉由組合偵測多種癌症特異性或癌症相關變化(例如單核苷酸突變)以及癌症特異性或癌症相關DNA甲基化標記(例如5-甲基胞嘧啶及羥甲基化之位置)、癌症特異性或癌症相關短血漿DNA分子、癌症特異性或癌症相關組蛋白修飾標記及癌症特異性或癌症相關血漿DNA末端位置增加可獲得之資訊性癌症DNA片段之數目。某些癌症特異性或癌症相關變化可在鑑定突變中用作過濾準則。
B. 特異性要求 ( 例如 過濾準則 )如上文所描述,需要偵測儘可能多的資訊性癌症DNA片段。然而,鑒於目前定序技術中存在之干擾(例如來自各種來源之誤差)之水準,可能難以精確偵測此等資訊性癌症DNA片段。
1. 經鑑定突變之特異性
為了實現較高PPV或較高NPV,癌症篩選測試將需要顯示高特異性概況。可在多種水準下實現高特異性。待偵測之突變及任何癌症相關變化之特異性將需要儘可能地對癌症具有特異性。此可藉由(但不限於)僅當存在基因或基因組標記為癌症相關之高置信度時將其評定為陽性來實現。此可藉由包括先前已在其他癌症中報導之標記來實現。舉例而言,可尤其集中於在基於個體之人口統計概況,個體易患之癌症類型中普遍的標記。或者可尤其注意與個體已曝露之突變誘發曝露相關的突變標記(Alexandrov等人 Nature 2013; 500: 415-421)。此亦可藉由使可錯誤鑑定為突變之定序及比對誤差之數目最小化來實現。此可藉由與一組健康對照之基因組圖譜比較來實現及/或可藉由與個人之自身組成DNA比較來實現。
此等準則可作為過濾準則應用以評估血漿DNA片段衍生自腫瘤及因此限定為資訊性癌症DNA片段之可能性。各過濾準則可單獨地、獨立地、共同地在相等加權或不同加權下或連續地以指定順序或條件性地視先前過濾步驟之結果而定使用。對於條件性使用,可使用基於貝氏(Bayesian)之方法,以及基於分類或決策樹之方法。單獨使用意謂僅任一種準則。獨立使用可涉及一種以上過濾準則,但各過濾準則不視另一過濾準則之應用而定(例如可進行並行應用),與以特定順序進行之連續應用相反。作為使用加權之共同使用之一實例,可使用機器學習技術。舉例而言,監督學習可使用具有已知分類之樣品之經量測突變負荷來訓練任何模型。來自許多個體(例如數百、數千或數百萬)之定序資料可用於訓練模型。此等已知樣品可以較簡單之形式用於測定自過濾準則測定之一或多個分數之臨限值以判定突變是否有效。
在一個實施例中,若血漿DNA片段滿足一些或所有準則,則可認為其為資訊性癌症DNA片段,而可將不滿足一些或所有之其他者認為非資訊性血漿DNA片段。在另一實施例中,視各血漿DNA片段如何強烈地滿足準則清單而定,可給與其作為資訊性癌症DNA片段之資訊量之加權。片段為腫瘤衍生之置信度愈高,加權愈高。在一個實施例中,可基於測試個體之臨床概況(例如性別、種族、癌症之風險因素(諸如抽菸或肝炎狀態)等)調節加權。
若DNA片段顯示一種以上癌症特異性變化,則可給與其資訊量或癌症特異性之較高加權。舉例而言,許多癌症為總體低甲基化的,尤其非啟動子區。已顯示血漿中癌症DNA比非癌症DNA短。腫瘤衍生血漿DNA片段傾向於在一些特定位置斷裂。因此,尺寸較短(例如<150 bp) (Jiang等人 Proc Natl Acad Sci USA 2015; 112: E1317-1325),一個或兩個末端落在癌症相關之末端位置上的血漿DNA片段顯示單核苷酸突變,且定位至非啟動子區,且具有將認為更可能與癌症相關之低甲基化CpG位點。低甲基化DNA之偵測可使用可將甲基-胞嘧啶與非甲基-胞嘧啶區分之亞硫酸氫鹽DNA轉化或直接單分子定序實現。在本申請案中,吾人描述用以增加資訊性癌症DNA片段之鑑定中之特異性的方法、方案及步驟。舉例而言,一或多種過濾準則可用於增加特異性。
2. 突變負荷之特異性
在另一水準上,癌症篩選測試之特異性可藉由評估在患有癌症之患者之血漿中可偵測之癌症相關變化之量(例如數目)是否反映與針對癌症所預期相匹配的突變負荷來實現。在一個實施例中,可比較血漿中之突變負荷與組成DNA中所量測之突變負荷(例如當相對於參考基因組測定突變負荷時)。在其他實施例中,可比較血漿中之突變負荷與在不同時間在個體或有癌症之已知預後(好或壞)或階段之癌症患者或健康無癌症群體之血漿中觀測到之突變負荷。參考群體可為年齡或性別或種族匹配的,因為已報導甚至在未顯示患有癌症之個體中,體內或組織中之突變負荷隨著年齡增加(Slebos等人 Br J Cancer 2008; 98: 619-626)。在本申請案中,吾人描述將進行血漿DNA分析以捕捉足夠突變負荷以增強癌症個體與健康群體之間的區分所需要的寬度和深度。因此,並非所有在血漿樣品中之DNA片段需要經偵測以實現癌症偵測(例如若樣品具有足夠突變資訊)。
在一個實施例中觀測之突變負荷是否暗示癌症可基於癌症特異性參考範圍。已報導不同器官之癌症傾向於具有預期範圍之突變負荷。數目可在1,000至數萬範圍內(Lawrence等人 Nature 2013; 499: 214-218)。因此,若血漿DNA癌症篩選測試顯示個體之突變負荷接近任何癌症組範圍內之數目的證據,則可作出癌症之高風險之分類(第VIII章之圖44、45A-45C及46A-46C)。在另一實施例中,若個體之血漿中之突變負荷顯著大於自無癌症之健康群體確定的參考範圍,則可作出癌症之分類。
顯著較高突變負荷之證據可基於統計分佈,例如對照參考資料之平均值之多於三個標準差,或對照參考資料之中值之多倍或大於對照參考資料之特定百分點(例如第99百分位數)或比對照參考資料之平均值、中值或第99百分位數大至少1或2或3個數量級。熟習此項技術者將能夠鑑定各種統計平均值以鑑定統計顯著增加之突變負荷。在另一實施例中,分類可考慮已顯示影響癌症篩選測試之敏感性及特異性概況的變數,諸如樣品之量測或推測或推斷的腫瘤DNA分率、定序深度、定序寬度及定序誤差率(第VIII章之圖44、45A-45C及46A-46C)。
可以各種方式測定突變負荷。突變負荷可表示為偵測之突變數。突變數可針對獲得之定序資料之量(例如表示為定序核苷酸之百分比或針對進行之量的定序偵測之突變密度)標準化。突變數亦可針對人類基因組之尺寸(例如表示為基因組之比例或基因組內每區域之密度)標準化。當進行突變負荷評估或突變負荷評估可隨時間整合時(例如與先前評估相比之絕對變化、變化百分比或倍數變化),可報導各場合之突變數。突變負荷可針對分析之樣品之量(例如血漿之體積)、獲自樣品之DNA之量或可分析或可定序DNA之量標準化。在一個實施例中,突變負荷可針對測試個體之生物特徵參數(例如體重、身高或身體質量指數)標準化。
在本申請案中,吾人描述血漿DNA分析用以捕捉足夠突變負荷以增強患有癌症之個體與無癌症之個體之間的區分,因此以實現有效突變負荷評估將需要的寬度及深度。
IV. 超深及廣泛定序如先前詳細地說明,需要超深及廣泛定序來實現癌症篩選測試或胎兒新生突變之有效鑑定需要的效能概況。在本申請案中,吾人顯示多個用於實現超深及廣泛定序之實施例。此等實施例包括(但不限於)徹底定序、全模板定序、無PCR定序、單分子定序(一種無PCR定序)及靶向定序。可使用方法之組合以實現所需深度及寬度。此類組合可整體上用於篩選程式,或用於篩選特定個體或個體之群組。
出於癌症篩選的目的,為了自血漿DNA定序偵測癌症相關突變,由於定序誤差,定序深度將影響區分真癌症突變與假陽性之能力。當血漿中之腫瘤DNA分率較低時將需要較高定序深度(圖4B)。使用動態截止值分析(在稍後章節中描述),當腫瘤DNA分率為2%時,200倍之定序深度將能夠偵測5.3%癌症相關突變。假設隨機定序誤差以0.3%之頻率出現,偵測之突變數將大於假陽性之預期數目。待搜尋之基因組之部分將視腫瘤組織中突變之預期數目而定。
欲搜尋之基因組之部分需要足夠大以獲得足夠欲偵測之突變數。此寬度參數將視所欲偵測腫瘤DNA分率之下限及所欲篩選之癌症類型而定。舉例而言,在黑素瘤中,突變之中值頻率為每1 Mb約10。換言之,在一個基因組中將有約30,000個突變。假設腫瘤DNA分率為2%且搜尋1/10之基因組,預期由血漿DNA定序在200x可偵測到約159個突變。另一方面,若類橫紋肌瘤(rhabdoid tumor)為欲篩選之標靶,則突變之中值頻率為每1 Mb僅0.2。因此,當腫瘤DNA分率為2%時,1/10之基因組之搜尋將產生約3個癌症突變。此數目不足以與定序誤差區分。
圖2為表格200,其顯示針對不同腫瘤DNA分率、定序深度、每個基因組之突變數及所搜尋之基因組分率偵測的預期突變數。基於動態截止值分析(或其他適合之過濾分析)及0.3%之定序誤差率,對於各情況,整個基因組之假陽性之預期數目< 10。因此,當可偵測突變之數目(例如基於深度及寬度)大於10時,實施例適用於將實際癌症突變與假陽性區分。
如表格200之資料中所示,欲分析之基因組之部分將視預期腫瘤分率及腫瘤中體細胞突變之頻率而定。在分析5%基因組之情況下,當腫瘤分率為10%、突變頻率每Mb為10且定序深度為200倍時,突變數遠大於假陽性之數目。使用模擬分析,吾等推斷即使當搜尋0.1%基因組時,偵測之突變數足以與隨機定序誤差區分。對於其他突變頻率及定序深度,可能需要分析較多部分之基因組,例如藉由序列讀段與參考基因組比對可分析1%、5%、10%及20%基因組。
出於癌症篩選的目的,不必需鑑定100%癌症相關突變。在一個實施例中,僅必須顯示與無癌症之參考對照群體中相比,特定個體具有在血漿(或其他生物樣品)中偵測之較高突變數。然而,為了使此策略高度精確,藉由突變負荷評估方案偵測之真實突變之比例將需要儘可能高(或假陽性之比例需要儘可能低),以使得藉由評估偵測之大量變異體反映癌症之存在。若不能實現此,則在樣品中偵測之大量推定突變可僅反映大量假陽性變異體且因此將不允許區分患有癌症之個體與無癌症之彼等個體。因此,本申請案中之實施例描述如何減少假陽性之偵測及如何增加真實突變之偵測以實現有效突變負荷評估。
超深及廣泛定序可藉由徹底定序或其他方式(例如多個靶向定序組之淺(非詳盡)定序)實現。淺定序可用於使PCR重複最小化,如此可獲得所需深度。可使用多個靶向定序組以提供遍及基因組之廣泛涵蓋率。
A. 徹底定序及全模板定序為了開發用於較早鑑定癌症及鑑定早期癌症之有效癌症篩選測試,將理想地自血漿樣品獲得儘可能多的癌症相關資訊。存在多個妨礙自血漿樣品獲得癌症相關資訊之能力的問題:(1)欲分析之樣品具有有限體積;(2)在早期癌症期間特定生物樣品中之腫瘤分率可能較低;(3)每一腫瘤可用於偵測之體細胞突變之總量為約1,000至10,000;及(4)分析步驟及技術方法將導致資訊內容損失。因此,應嘗試使適合於偵測之血漿樣品中之任何癌症相關資訊內容之損失最小化。
由於樣品製備步驟、定序庫製備步驟、定序、鹼基識別及比對中之限制,並非所有在樣品中之血漿DNA分子將可分析或可定序。徹底定序係指經實施以使得將有限樣品中之許多資訊性DNA分子(例如具有突變者)轉型成可分析或可定序分子之能力最大化的程序。可採用數種方法來實現徹底定序。
資訊性DNA群體之構成可基於測試對象變化。對於癌症測試,其將為資訊性癌症血漿DNA片段。對於產前測試,其將為母體血漿中之胎兒衍生DNA分子。對於移植監測,其將為移植受體之血漿中之供體衍生分子。對於偵測其他疾病,其將為衍生自具有病理學之器官或組織或細胞的彼等血漿DNA分子。對於偵測涉及突變之異常生物過程,其將為衍生自參與該過程之器官或組織或細胞(例如老化中之腦)的彼等血漿DNA分子。此等生物過程之實例可包括老化、突變之遺傳傾向(例如著色性乾皮病)、來自環境(例如輻射或UV曝露)之突變誘發影響或來自藥物(例如細胞毒性劑)之毒素及影響。至於樣品類型,對於測試尿液樣品中之DNA而言,其可為自循環系統(例如自血漿)經腎進入尿液樣品中之癌症DNA分子(Botezatu等人 Clin Chem 2000; 46: 1078-1084)。對於其他癌症,其可為自泌尿生殖道之癌症(例如自膀胱或腎臟)進入尿液樣品中之癌症DNA分子。
為了儘可能的詳盡,可採用以下方法中之任一者、所有或組合:(1)使用減少DNA損失或具有較高DNA庫轉化效率或定序效率之DNA製備方案;(2)藉由使用無PCR之DNA製備方案繞開PCR重複之問題;(3)藉由使用無PCR之DNA製備方案減少定序誤差;(4)藉由採用有效比對演算法(例如再比對策略)減少比對誤差。藉由採用一些或所有此等措施,可減少血漿DNA資訊內容之損失程度以及定序資源之浪費,以使得可更成本有效地實現超深及廣泛定序。
在應用徹底定序意圖之此等措施之後,癌症相關信號或資訊性癌症DNA片段之量可變得如此有效以致於來自僅一部分樣品之資訊已足以達到「納入」或「排除」癌症之分類。舉例而言,如來自HCC患者與來自臍帶血漿樣品之血漿樣品之間的突變負荷比較之稍後實例中所示,在75x深度下之資料已足以清楚地區分HCC個案與無癌症之新生兒之臍帶血漿。針對HCC血漿樣品產生220x之資料。但75x之資料已經足夠,因為使用徹底定序意圖之程序偵測之資訊性癌症DNA片段之數目已經足夠且具有用於癌症之陽性分類的足夠品質。
若實際上完全消耗來自有限樣品之可定序血漿DNA分子,則此行為可稱為「全模板定序」。此係指徹底定序之一個譜。舉例而言,所有血漿DNA庫自HCC個案定序以達到220x之深度。
亦可使用單分子定序器進行徹底定序(Cheng等人 Clin Chem 2015; 61: 1305-1306)。此等單分子DNA定序器之實例包括(但不限於)由Pacific Biosciences製造之使用單分子即時DNA定序技術之定序器(www.pacificbiosciences.com/)及奈米孔定序器(例如由Oxford Nanopore製造者(www.nanoporetech.com/))。多種此等單分子定序平台將允許直接自定序分子獲得表觀遺傳資訊(例如DNA甲基化模式) (Ahmed等人 J Phys Chem Lett 2014; 5: 2601-2607)。因為表觀遺傳畸變已在癌症中描述,具有此類表觀遺傳資訊將進一步增強癌症之篩選、偵測、監測及預測。舉例而言,下文描述基於甲基化之過濾技術。
藉此可自定序資料獲得表觀遺傳資訊之另一實施例為進行模板DNA之亞硫酸氫鹽轉化,隨後DNA定序。亞硫酸氫鹽轉化為藉此甲基化胞嘧啶將保持未改變,而未甲基化胞嘧啶將轉化成尿嘧啶之過程。在DNA定序期間後者將讀取為T殘基。亞硫酸氫鹽定序(甲基化感測定序之一種形式)可隨後在亞硫酸氫鹽轉化之模板DNA之定序庫上進行。可隨後使用熟習此項技術者已知之方法,例如Jiang等人 (PLoS One 2014; 9: e100360)之方法進行比對。
當無細胞DNA之定序用於癌症時,可組合許多類型之來自定序結果之分子資訊,即血漿中之病毒基因組序列(針對與病毒感染相關之癌症,例如對於NPC為EBV)、腫瘤相關單核苷酸變異體、異常複本數及表觀遺傳資訊(例如DNA甲基化(包括5-甲基胞嘧啶圖譜及羥甲基化)、組蛋白乙醯化/甲基化變化等)。此類資訊組合可使得分析更敏感、更具特異性及臨床上更相關。
B. 無 PCR 之 方案對於偵測測試個體之血漿(或含有無細胞DNA之其他樣品類型)中之任何癌症相關變化而言,偵測此類變化之概率應理論上隨著分析之DNA分子之數目之增加而增加。此處吾人使用假設實例來說明此原理。假設癌症個體中之20%血漿DNA衍生自腫瘤,且腫瘤在特定核苷酸位置具有點突變。突變僅在兩個同源染色體中之一者中出現。因此,涵蓋此特定核苷酸位置之10%血漿DNA將攜帶此突變。若吾人分析一個涵蓋此核苷酸位置之DNA分子,則偵測突變之概率將為10%。若分析十個涵蓋此核苷酸變化之血漿DNA分子,則偵測突變之概率將增加至65.1% (概率= 1 - 0.9
10)。若吾人將分析之分子數進一步增加至100,則偵測突變之概率將增加至99.99%。
當將大規模平行定序用於來自癌症個體之血漿DNA之分析時,此數學原理可應用於預測偵測癌症相關突變之概率。然而,用於將血漿定序之典型大規模平行定序平台(例如具有TruSeq庫製備套組之Illumina HiSeq2000定序系統),PCR擴增將在定序之前在模板DNA上進行。
擴增係指當與最初輸入核酸相比時,引起模板DNA之量增加(多於1倍)的過程。在本申請案中,擴增過程為在庫製備期間在DNA模板分析步驟(例如定序)之前進行的步驟。在擴增之情況下,可用於分析之模板DNA之量將增加。在一個實施例中,擴增可使用PCR進行,PCR涉及溫度之循環變化。在另一實施例中,擴增可使用等溫過程進行。在一些實施例中,吾人顯示擴增之模板DNA降低實現突變負荷評估之效率。在分析步驟期間出現之克隆擴增步驟,例如合成定序期間之橋式擴增,因為其不產生額外序列讀段或序列輸出,所以不屬於PCR擴增方案。
當使用PCR時,定序深度(亦即涵蓋特定核苷酸之序列讀段之數目)不直接反映分析了多少個涵蓋該特定核苷酸之血漿DNA分子。此係因為一個血漿DNA分子在PCR過程期間可產生多個複製,且多個序列讀段可來源於單個血漿DNA分子。此重複問題將在以下之情況下變得更重要:i)擴增定序庫之較高數目之PCR循環;ii)定序深度增加,及iii)最初血漿樣品中之少量DNA分子(例如較小體積之血漿)。
此外,PCR步驟引入其他誤差(Kinde等人 Proc Natl Acad Sci USA 2011; 108: 9530-9535),因為DNA聚合酶之保真度不為100%,且偶爾錯誤核苷酸將併入PCR子股中。若此PCR誤差出現在早期PCR循環期間,則將產生顯示相同誤差之子分子之純系。錯誤鹼基之分率濃度可在來自同一基因座之其他DNA分子中達到如此高之比例以致於誤差將曲解為胎兒衍生或腫瘤衍生突變。
此處,吾人推論使用無PCR方案用於大規模平行定序將允許更高效使用定序資源,且其可進一步增強自生物樣品獲得資訊。在一個實施例中,血漿樣品中之所有DNA分子將在大規模平行定序分析期間使用無PCR方案在定序分析中定序。一種可使用之無PCR之方案為Berry Genomics (investor.illumina.com/mobile.view?c=121127&v=203&d=1&id=1949110)開發之方案。亦可使用其他無PCR之方案,諸如Illumina (www.illumina.com/products/truseq-dna-pcr-free-sample-prep-kits.html)出售之方案。此處吾人使用實例來說明原理。
為了說明,吾人首先假設所有血漿DNA片段尺寸為150 bp,其與如上文所提及,血漿DNA片段一般小於200 bp一致。因此,各二倍體人類基因組將斷裂成4千萬個血漿DNA片段。因為在一毫升血漿中存在約1,000個二倍體人類基因組,所以在1 mL血漿中將存在400億個血漿DNA片段。若吾人將來自1 mL血漿之400億個DNA片段定序,則吾人將預期所有DNA分子將已定序。為了說明,若使用每次操作可產生20億讀段之Illumina HiSeq 2000系統,則將需要20次操作來實現此定序量,其可隨著較高產量平台而減少。
可使用例如(但不限於)數位PCR或即時PCR在定序分析之前測定血漿樣品中之總DNA濃度。總DNA濃度可用於確定將樣品中之所有可分析或可定序DNA分子定序所需要之定序量。在涉及其他程度之徹底定序的其他實施例中,可將血漿樣品中之多於20%、25%、30%、40%、50%、60%、75%、90%、95%或99% DNA分子定序,其皆為徹底定序之實例。
待定序之DNA分子之百分比的重要決定因素包括突變量、樣品中之腫瘤分率及DNA庫產率。定序庫中之潛在可定序分子之數目可基於庫之體積、濃度及轉化效率確定。定序所需要之DNA片段之數目可基於腫瘤分率之所需可偵測限制及腫瘤中突變之預期數目確定。基於此兩個數目,可確定待定序之庫之部分。
使用無PCR之方案用於徹底定序的優勢為吾人可直接推斷樣品中之任何標靶分子之絕對量,而非針對在相同反應中定序之其他參考標靶確定相對量。此係因為各序列讀取代表來自一個最初血漿DNA分子的資訊。事實上,若PCR擴增與超深及廣泛定序一起使用,則標靶分子相對於彼此之量將進一步遠離真實代表變動。原因係歸因於由於PCR擴增之PCR重複之產生以及歸因於其中一些基因組區域比其他者更好地擴增的擴增偏差。
定序庫之PCR擴增通常在大規模平行定序之大部分現有方案中進行,因為此步驟可增加定序庫中之分子之數目以使得可更容易地進行定序步驟。PCR重複(複製)為最初模板DNA分子之純系產物。PCR重複之存在阻礙超深及廣泛定序之實現。來自PCR複製之序列讀段之比例將隨著進行之定序之量(定序深度)增加。換言之,當更深入地進行定序時將存在獨特資訊內容之回報遞減。因此,PCR複製之定序將在許多情況下導致定序資源之浪費。此將最終意謂當與無PCR之方案相比時需要多得多的定序來達到基因組涵蓋之相同寬度及深度。因此,成本將高得多。事實上,在一些情況下,PCR重複之比例可如此高以致於實務上可能從未達到較佳涵蓋寬度及深度。
此對於熟習此項技術者為反直觀的。傳統地,進行PCR擴增(包括全基因組擴增)以自有限樣品提供更多遺傳物質以進行更多分子分析。吾人之資料顯示此類擴增步驟可產生相反效果。對於血漿DNA分析此為尤其反直觀的。
已知血漿DNA含有在低濃度下之低豐度DNA,對於由無細胞DNA構成之其他樣品亦為如此。因此,不應認為可在不擴增稀有量之DNA的情況下獲得更多資訊。事實上,在吾人之基於擴增之庫製備方案中,每4 mL血漿吾人通常獲得150至200 nM接附子接合之DNA庫。但如本申請案中之實例所示,僅自等量之血漿體積獲得2奈莫耳接附子接合之DNA庫。應想像此等低量將為獲得更多基因組資訊之障礙,且因此可誘導其在分析之前進行擴增步驟。此類擴增庫將產生顯著問題,因為很大比例之此類庫將由PCR重複組成。
此外,在此類擴增庫之情況下,不能實際上進行全模板定序以自4 mL血漿樣品獲得儘可能多的資訊(因為每次定序操作應用固定量之庫且將需要極端數目之操作來消耗庫)。如吾人之資料中所示,需要約20次Illumina定序操作來完全消耗吾人已經研究之HCC及妊娠個案之無PCR庫。若替代地使用PCR或基於擴增之庫構建方案,則將需要進行定序量之100倍,意謂約2000次操作。換言之,在擴增庫之情況下,產生將消耗一部分顯著定序力之重複分子。相比之下,2奈莫耳之來自無PCR方案之庫可容易地消耗,其等效於耗盡來自4 mL血漿樣品之可分析資訊。
能夠用完合理比例之4 mL血漿樣品為重要的。如在先前呈現之一些計算下所說明,在早期癌症期間血漿樣品中癌症DNA之基因組等效物之數目較低且需要能夠利用血漿樣品中儘可能多之此等癌症基因組等效物之偵測。假設能夠在使用無PCR之庫製備方案進行血漿DNA樣品之Illumina定序之10次操作的情況下實現癌症分類。此10次操作將消耗一半定序庫。此與使用來自一半血漿樣品(即2 mL)之可分析內容實現癌症分類相關。另一方面,在同一樣品之PCR擴增庫上進行之10次操作將等效於僅耗費0.5%庫(因為在PCR擴增方案之庫產率中一般存在100倍擴增)。此與使用來自僅0.02 mL之最初4 mL血漿樣品的可分析內容相關,且獲得之資料之量將不夠實現癌症分類。因此,反直觀地,使用在無PCR擴增之情況下產生之較少DNA庫,每固定量之定序可獲得更多癌症相關資訊。
熟習此項技術者已經顯示亦稱為PCR複製之PCR重複可用鑑定顯示相同起始及終止核苷酸座標之任何序列讀段的生物資訊程序移除。然而,如將在稍後章節中所示,吾人現在已鑑定血漿DNA片段末端位置不隨機,且因此將出現錯誤過濾。使用無PCR方案而不應用生物資訊步驟來過濾具有相同起始及終止核苷酸座標之序列讀段,吾人鑑定具有相同起始或終止座標或兩者之較小百分比之序列讀段(通常<5%)。此觀測結果為血漿DNA切割之非隨機性質之結果。實施例可併入癌症特異性末端位置之鑑定作為用以鑑定資訊性癌症DNA片段之過濾準則。採用無PCR之方案將促進此類分析及此準則之使用。此外,此亦意謂移除具有相同起始及終止核苷酸座標之序列讀段之先前實務事實上已移除了可使用之資訊性癌症DNA片段,導致來自血漿DNA樣品之癌症相關資訊內容損失。
Illumina定序平台之定序誤差率為約0.1%至0.3%定序核苷酸(Loman等人Nat Biotechnol 2012; 30: 434-439;Kitzman等人 Sci Transl Med 2012; 4: 137ra76)。一些其他定序平台之報導誤差率甚至更高。如已顯示,0.3%之定序誤差率並非不重要且已經對研究者以極高精確度鑑定血漿中之胎兒新生突變(Kitzman等人 Sci Transl Med 2012; 4: 137ra76)或癌症特異性體細胞突變產生障礙。對於超深及廣泛定序此誤差率甚至更相關。深度為200x之定序資料集中之0.3%誤差轉變為2億個誤差。
一部分此等定序誤差由PCR擴增步驟在定序前DNA庫製備步驟期間產生。藉由使用無PCR之方案用於庫製備,可減少此類誤差。此將使得定序更有成本效益,因為可在定序此等人工製品上花費較少試劑且在處理此等誤差上花費較少生物資訊時間。此外,真陽性胎兒新生突變及癌症衍生體細胞突變可在與另外若包括PCR擴增相比,較少假陽性中在較少定序深度下更特定地鑑定。事實上,對於其他研究者此等優勢尚未顯而易見(參見下一章)。
C. 有及無定序庫之預擴增的定序之結果吾人進行模擬分析來比較對於有及無用PCR之定序庫預擴增的方案,偵測血漿中之癌症相關突變所需要之定序的量。為了確定來自PCR複製(亦即將分子定序一次以上)之序列讀段之比例,吾人已使用以下假設:(1) 1 mL血漿中存在DNA之500個基因組等效物;(2) DNA自2 mL血漿以50%產率提取;(3) 40%之經提取DNA可成功地轉化成定序庫;(4)對於預擴增進行10個PCR循環且PCR效率為100%;(5)預擴增及未擴增庫之斷裂模式相同;(6)血漿DNA之長度為166 bp。
圖3為圖300,其顯示得自PCR複製之序列讀段之百分比與定序深度之間的關係。來自PCR複製之序列讀段之百分比隨著定序深度增加。在200x之定序深度下,44%之序列讀段將來自PCR複製。此等來自PCR複製之序列讀段將不提供額外資訊。
圖4A及4B顯示PCR及無PCR方案用於根據本發明之實施例偵測各種腫瘤DNA分率下之癌症個體之血漿中之癌症相關突變所需要的定序深度之間的比較。基於來自PCR複製之預測百分比,吾人進行模擬分析來確定偵測癌症個體之血漿中之癌症相關突變所需要之定序的量。進行模擬以涵蓋血漿中之1%至10%之腫瘤DNA分率。吾人假設30,000個突變存在於此個體中之癌細胞之基因組。
有PCR預擴增之方案將需要較高定序深度來偵測血漿中在任何腫瘤DNA分率下之癌症相關突變。所需要之定序深度之差將隨著腫瘤DNA分率之降低而按指數律成比例增加。在於血漿中10%之腫瘤DNA分率下,有及無PCR預擴增之方案分別需要37x及25x之定序深度。然而,在於血漿中2%之腫瘤DNA分率下,所需之各別定序深度將為368x及200x。
因此,使用無PCR之方案對於血漿中癌症相關變化之偵測高度有利,尤其當血漿中之腫瘤DNA分率較低時。若存在於血漿之腫瘤基因組內之突變之數目較低,則將需要較高定序深度。有及無擴增之方案所需要之深度之差將甚至較大,尤其當血漿樣品中之腫瘤DNA分率較低時。
D. 與習知「深度定序」之區別存在多種將用於實現超深及廣泛定序之徹底定序的使用與先前定序方法區分的特徵。在一個態樣中,稱為「深度定序」之一些先前定序方法將通常涉及例如藉由PCR擴增相關標靶序列。隨後,亦稱為擴增子之擴增DNA藉由定序來定序多次。此類方法之一個實例為標籤擴增子深度定序(Forshew等人 Sci Transl Med 2012; 4: 136ra68)。另一方面,徹底定序在無任何擴增步驟之情況下最有效地實施,因為隨後所有經偵測片段為最初片段且不為複製資料,藉此允許更大寬度及真實深度(與表觀深度相反)。藉由表觀深度,吾人係指其中一定比例之定序力在定序PCR重複中消耗之擴增定序庫之定序,且因此定序之資訊產率不與其深度相匹配。
因為深度定序通常使用擴增步驟,一定比例之定序力花費在定序PCR重複上。此等PCR重複之存在將使得極難以藉由擴增定序庫之深度定序來詳盡分析樣品內之每個模板DNA分子。多個組已描述提供關於重複率之資訊的方法,例如藉由將定序庫編條形碼(Kinde等人 Proc Natl Acad Sci USA 2011; 108: 9530-9535)。舉例而言,在Kinde等人描述之方法中,必須進行三個步驟:(i)將唯一識別符(UID)分配給各模板分子,(ii)擴增各獨特標籤模板分子以產生UID家族,及(iii)擴增產物之冗餘定序。相比之下,使用無PCR之庫用於徹底定序將避免由PCR重複所引起之問題,且Kinde等人描述之方法將不必需。
事實上,大部分先前實施之深度定序方法無法實現可在使用徹底定序之情況下實現的寬度。舉例而言,對於窄基因組區域擴增子定序通常實現較高深度。甚至在使用多工之情況下,涵蓋之基因組之總寬度受限制且遠遠不為全基因組。如本申請案中所說明,對於癌症篩選測試,接近全基因組涵蓋率對於涵蓋儘可能多的推定突變位點較佳。舉例而言,即使應用極端程度之多工擴增子定序,例如3百萬個擴增子,各涵蓋1,000個鹼基,PCR重複將變為如先前所描述之問題。
類似地,研究者已應用雜交捕捉來實現選擇性基因組區域之深度定序,稱為靶向定序。然而,捕捉方案通常涉及擴增步驟。當靶向區域之尺寸相對較小時,當在血漿DNA中進行靶向定序時將達到較大比例之PCR重複,約50%,甚至高達90% (New等人 J Clin Endocrinol Metab 2014; 99: E1022-1030)。在PCR重複之此等較高水準下,定序之有效深度減少。定序之寬度受標靶區域之尺寸限制。
此等觀測結果說明尚未激勵研究者實現同時廣泛及深之定序。然而,採用本申請案中所描述之徹底定序之原理,可改變靶向定序方案以確保在需要捕捉較大比例之人類基因組時將PCR重複率保持為最小值。舉例而言,可使用光擴增以製備標靶定序庫以將PCR重複保持為最小值。隨後,將需要藉由合併來自多個標靶組之資料實現分析寬度。然而,當顧及此等考慮時,靶向方法可能不比非靶向徹底定序方法更有成本效益。然而,可存在大部分基因組之標靶富集較佳的其他原因。舉例而言,若對於新生或體細胞突變之出現一個部分顯示群集,則可證明將徹底定序努力集中至基因組之重複或非重複區域的需要。舉例而言,可偏好將努力集中在基因組之異染色質而非常染色質區域上。
E. 用於胎兒分析血漿DNA之徹底定序可適用於非侵入性產前測試。胎兒DNA存在於妊娠女性之血漿中(Lo等人 Lancet 1997; 350: 485-487)且可用於胎兒之非侵入性產前測試(例如針對染色體非整倍體及單基因病症)。
迄今,藉由母體血漿DNA定序來偵測新生胎兒突變受當前一代大規模平行定序器之定序誤差率妨礙(Kitzman等人 Sci Transl Med 2012; 4: 137ra76及美國專利公開案US 2015/0105261 A1)。因此,使用先前報導之方法,數百萬之候選胎兒新生突變將在母體血漿中鑑定,但此等中之僅數幾十者將為真實突變,儘管併入生物資訊步驟以過濾潛在假陽性。
然而,使用母體血漿DNA之徹底定序,可克服此問題。使用無PCR之庫製備方法,在一個以上母體血漿DNA分子中鑑定之候選胎兒新生突變將具有為真實突變之較高機率。在其他實施例中,可設定更嚴格的分類準則,諸如同一突變在母體血漿樣品中鑑定多於2、3、4、5次或5次以上。
許多工作者已使用單分子定序(例如使用Helicos平台)用於母體血漿之非侵入性產前測試以便偵測胎兒染色體非整倍體(van den Oever等人 Clin Chem 2012; 58: 699-706及van den Oever等人 Clin Chem 2013; 59: 705-709)。然而,此類操作經由血漿中之一小部分分子之定序進行,且因此未實現深度及廣泛定序。
F. 徹底定序之其他應用在另一實施例中,可使用詳盡血漿甲基化組定序(methylomic sequencing)來鑑定衍生自體內不同器官之血漿DNA分子。此為可能的,因為體內之不同組織具有不同甲基化圖譜。經由去卷積之方法,可鑑定不同組織對血漿之相對貢獻(Sun等人 Proc Natl Acad Sci USA 2015; 112: E5503-5512)。
在血漿DNA之徹底定序之另一實施例中,可鑑定血漿DNA中與多個生理或病理過程相關之突變。在一個實施例中,此等過程包括與老化相關之彼等過程。在另一實施例中,此等過程包括與環境因素,例如污染、輻射、傳染媒劑物、有毒化學物質等相關之彼等過程。在此後一實施例中,不同過程可具有其自身突變標記(Alexandrov等人 Nature 2013; 500: 415-421)。
血漿核酸之徹底定序亦可應用於血漿中mRNA及非編碼RNA (例如微RNA及較長非編碼RNA)之定序。先前資料已顯示血漿轉錄組分析將允許來自各個組織之貢獻自血漿樣品去卷積(Koh等人 Proc Natl Acad Sci USA 2014; 111: 7361-7366)。血漿之詳盡轉錄組定序將進一步增強此類方法之穩固性及有用性。
V. 用於鑑定突變之過濾準則如上文在章節III.B中所描述,鑑定突變及使用此等突變之任何測試(例如使用突變負荷確定癌症等級)中之特異性可藉由將過濾準則應用於已比對一或多個具有突變之序列讀段的基因座來改良。作為癌症之一實例,較高特異性可藉由僅當存在基因或基因組標記為癌症相關之較高置信度時將其評定為陽性來實現。此可藉由使可錯誤鑑定為突變之定序及比對誤差之數目最小化(例如藉由與一組健康對照之基因組圖譜比較)來實現,及/或可藉由與個體之自身組成DNA比較來實現及/或可藉由與在早先時間個體之基因組圖譜比較來實現。
各種準則可作為過濾準則應用以評估DNA片段攜帶突變之可能性。各過濾準則可單獨地、獨立地、共同地在相等加權或不同加權下或連續地以指定順序或條件性地視先前過濾步驟之結果而定使用,如上文所描述。以下提供過濾準則之實例。
A. 動態截止值可使用一或多種動態截止值過濾準則來區分單核苷酸變異(即突變及多形現象)與歸因於定序誤差之核苷酸變化。視情況而定,突變可為「新生突變」(例如胎兒之組成基因組之新突變)或「體細胞突變」(例如腫瘤之突變)。可確定複數個基因座中之每一者的各種參數值,其中將各參數值與各別截止值比較。若參數值不滿足截止值,則可將基因座作為具有潛在突變捨棄。
為了鑑定癌症中之體細胞突變,可比較來自個體之組成DNA (例如白血球層)及血漿DNA之高深度定序資料以鑑定在血漿DNA中異型接合(AB)及在組成DNA中同型接合(AA)之位點。「A」及「B」分別表示野生型及突變型對偶基因。此處,吾人說明實施動態截止值策略以便突變偵測之一個實施例,其中使用二項及泊松分佈模型來計算三種參數。
關於第一參數,確定組成DNA中同型接合位點(AA)之精確度受定序誤差影響。定序誤差可藉由熟習此項技術者已知之許多方法估計。舉例而言,已估計Illumina HiSeq平台之定序誤差率(由「ε」表示)為0.003。假設定序計數遵循二項分佈,吾人將第一參數分數1計算為
分數1 = 1-pbinom(c, D, ε)。D表示定序深度,其等於「c」與「a」之總和。「c」係指涵蓋突變型對偶基因B之序列讀段之數目。「a」係指涵蓋野生型A對偶基因之序列讀段之數目。「pbinom」為二項累積分佈函數,其可寫成
其中
表示數學組合函數,亦即自定序深度D選擇突變型對偶基因i次之組合之數目,其可使用階乘進一步寫成
。分數1之值愈高,愈確信實際基因型為AA。可使用大於0.01之截止值。此參數可用於控制定序誤差之影響。
關於第二參數,存在組成基因組中之觀測野生型AA (同型接合)將歸因於SNP基因座之不足定序深度而自實際AB (異型接合)基因型錯誤識別的機率。為了使此類誤差之影響最小化,吾人將第二參數分數2計算為分數2 = ppois(b, D/2),其中「b」為涵蓋B對偶基因之定序計數之數目,且「ppois」為泊松累積分佈函數,其可寫成
其中
為每股之平均定序深度(亦即D/2);e為自然對數之底(約2.717828)。分數2之值愈低,愈確信實際基因型為AA。舉例而言,可使用<0.001、0.0001、10
- 10等之截止值。此參數可用於控制對偶基因或變異體漏失,其係指異型接合位點顯得像同型接合位點,因為一種對偶基因或變異體可不擴增,且因此此遺漏對偶基因或變異體漏失。以下某些資料使用score1 > 0.01及score2 < 0.001之截止值,其中score1及score2可用於保證白血球層為同型接合的。
關於第三參數,存在所觀測之突變型AB將歸因於定序誤差而自實際AA基因型錯誤識別的機率。為了使此類誤差之影響最小化,吾人將第三參數分數3計算為
分數3 =
,其中
表示數學組合函數,亦即自定序深度D選擇突變型對偶基因b次之組合之數目,其可使用階乘進一步寫成
;「
」表示定序誤差率,其在此實例中估計為0.003。分數3愈低,愈確信實際基因型為AB。舉例而言,可使用<0.001、0.0001、10
- 10等之截止值。
分數1及分數2可應用於組成性組織,且分數3可應用於混合物(腫瘤或血漿)。因此可進行組成性組織與混合物樣品之間的藉由調節分數1、分數2及分數3之結合分析以確定潛在突變。
視預期目的而定各分數之計算之不同臨限值可用於動態截止值。舉例而言,若在體細胞突變之鑑定中偏好較高特異性,則可使用分數3之較低值。類似地,若偏好偵測更多總和之體細胞突變,則可使用分數3之較高值。經鑑定體細胞突變之特異性可藉由使用其他過濾參數(例如如下文所描述)改良。亦可使用其他數學或統計模型,例如卡方分佈、伽馬分佈、常態分佈及其他類型之混合模型。方法可類似地應用於鑑定胎兒新生突變。
B. 再比對一或多種再比對過濾準則可減少定序及比對誤差在從定序資料偵測序列變異體中之影響,且因此亦可減少突變鑑定中之假陽性。現在描述使用再比對之各種實施例。
在初始(第一)比對程序中,定序讀段可例如藉由熟習此項技術者可獲得之任何比對技術(例如SOAP2 (Li等人 Bioinformatics 2009; 25: 1966-7))比對(定位)(mapping)至參考基因組(例如參考人類基因組)。在比對至基因座之後,可進行與基因組(例如參考基因組、個體之或與個體相關之組成基因組或個體之父母之基因組)之比較,以鑑定讀段中是否存在序列變異體。
攜帶推定變異體之序列讀段可經由使用獨立(第二)比對器(例如Bowtie2 (Langmead等人 Nat Methods 2012; 9: 357-9))與參考人類基因組再比對(再定位)。就匹配演算法之使用而言,獨立比對器與初始比對器不同。初始比對器及再比對器所使用之匹配演算法之實例可包括例如(但不限於)史密斯-沃特曼演算法(Smith-Waterman algorithm)、尼德曼-翁施演算法(Needleman-Wunsch algorithm)、哈希演算法及巴羅斯-惠勒變換(Burrows-Wheeler transformation)。再比對可鑑定及量化鑑定之突變之品質或確定性。獨立比對器亦可以其他方式不同於初始比對器,諸如報告有效比對之臨限值、插入/刪除及失配之罰分、所允許之失配之數目、用作比對之種子的核苷酸之數目。
在一些實施例中,可單獨或以組合形式使用以下再比對準則以將定位讀段鑑定為低品質序列讀段:(1)攜帶突變之序列讀段無法藉由獨立比對器重新獲得,該獨立比對器不是用該序列讀段比對的(定位);(2)當使用獨立比對器檢驗最初比對時,攜帶突變之序列讀段顯示不一致定位結果(例如與最初比對結果相比定位讀段置放至不同染色體);(3)使用獨立比對器,與相同基因組座標比對之攜帶突變之序列讀段展示比指定臨限值小之定位品質(例如定位品質≤ Q20 (亦即錯誤比對概率<1%)-其他臨限值實例可為0.5%、2%及5%錯誤比對概率;(4)序列讀段具有位於任一讀段末端(亦即5'或3'末端)之5 bp內之突變。此最後一個過濾規則可為重要的,因為定序誤差在序列讀段之兩個末端更普遍。定位品質是比對器內所界定之量度且詳載序列讀段錯誤比對之概率。不同比對器可使用不同量度。
若攜帶突變之序列讀段當中低品質序列讀段之比例大於某一臨限值(例如30%、35%、40%、45%或50%),則可捨棄候選突變位點。因此,若其餘序列讀段小於臨限值,則可自一組鑑定為在至少一些組織(例如腫瘤之組織或胎兒之組織)中具有突變之基因座捨棄基因座。
在先前操作,包括來自GATC (www.gatc-biotech.com)及來自MuTect演算法(Cibulskis等人 Nat Biotechnol 2013; 31: 213-219)之努力中,僅再比對潛在插入或刪除位點。彼等其他流程不使用來自不同比對器之資料重新計算序列讀段之品質分數。此外,尚未顯示重新計算之品質分數可用於過濾推定變異體或突變之目的。以下顯示資料以說明使用再比對程序之功效。
C. 突變分率熟習此項技術者是理解存在可用於量測母體血漿中之胎兒DNA之分率濃度或癌症個體之血漿中之腫瘤DNA之分率濃度的方法。因此,在一個實施例中,為了改良鑑定真實資訊性DNA片段之機率,只有分率計數等於或大於藉由另一方法量測之分率濃度的對偶基因或變異體才會被認為係真變異體或突變。分率濃度截止值稱為突變分率臨限值(M%)或僅稱為分率臨限值。其他實施方案可使用比量測之分率濃度低之臨限值,但所選臨限值可視量測值而定(例如在量測分率濃度之指定百分比內)。
在另一實施例中,甚至在不考慮量測之胎兒DNA分率或腫瘤DNA分率之情況下可採用其他值作為突變分率臨限值。若在突變鑑定中較高特異性較佳,則可使用較高M%作為截止值。若在突變鑑定中較高敏感性較佳,則可使用較低M%作為截止值。分率臨限值之實例包括5%、10%、15%、20%、25%及30%。
在另一實施例中,相鄰染色體區域內之推定突變之對偶基因分率的方差可提供關於來自區域之DNA片段為資訊性癌症DNA片段之可能性的資訊。舉例而言,相關相鄰染色體區域可為具有異常複本數之彼等區域。在具有複本數增加之區域中,將存在腫瘤衍生DNA之富集。因此,在具有增加之此等區域中與具有複本數損失之區域(由於在此等後面區域腫瘤衍生DNA之耗盡)相比,真實體細胞突變之對偶基因分率將預期較高。
與複本數損失區域相比,真實推定突變之對偶基因比率之範圍或方差將在複本數增加區域中較大。因此,不同M%可設定為具有複本數增加或損失之區域的過濾截止值以增加鑑定真實體細胞突變之可能性。指定觀測之血漿突變分率之方差的截止值亦可用於鑑定來源於更可能富集(對於具有複本數增加之區域)或耗盡(對於具有複本數損失之區域)腫瘤衍生DNA之染色體區域的DNA分子。隨後可作出關於DNA片段為資訊性癌症DNA片段之可能性的決策。
D.
尺寸過濾雖然血漿DNA一般以長度為< 200 bp之片段形式循環,胎兒衍生及腫瘤衍生之血漿DNA分子分別比背景非胎兒及非腫瘤DNA分子短(Chan等人 Clin Chem 2004; 50: 88-92及Jiang等人 Proc Natl Acad Sci USA 2015; 112: E1317-1325)。因此,較短尺寸可用作增加血漿DNA片段為胎兒或腫瘤衍生之可能性的另一特徵。因此,在一些實施例中,可應用DNA尺寸過濾準則。
可使用各種尺寸準則。舉例而言,攜帶突變型對偶基因及野生型對偶基因之DNA片段之間的中值尺寸之臨限值差可需要為至少某一鹼基數,其可表示為∆S。因此,∆S≥10 bp可用作尺寸過濾準則。其他尺寸臨限值之實例包括0 bp、1 bp、2 bp、3 bp、4 bp、5 bp、6 bp、7 bp、8 bp、9 bp、11 bp、12 bp、13 bp、14 bp、15 bp、16 bp、17 bp、18 bp、19 bp及20 bp。亦可使用其他統計測試,例如t-測試、曼-惠特尼U測試(Mann-Whitney U test)、柯爾莫哥羅夫-斯米爾諾夫測試(Kolmogorov-Smirnov test)等。p值可使用此等統計測試測定且與臨限值相比較以判定攜帶序列變異體之DNA片段與攜帶野生型對偶基因之彼等者相比是否將顯著較短。p值之臨限值之實例可包括(但不限於) 0.05、0.01、0.005、0.001、0.0005及0.0001。
因此,在一個實施例中,可獲得關於定序血漿DNA分子之尺寸資訊。或可使用包括將整個DNA分子定序之配對端定序進行此。對於後者,因為血漿DNA分子一般為166 bp以下,將整個DNA分子定序可使用許多短讀段大規模平行定序平台容易地進行。因為衍生自癌細胞之血漿DNA一般較短,而來自瘤周或非腫瘤組織之彼等者一般較長(Jiang等人 Proc Natl Acad Sci 2015; 112: E1317-1325),具有血漿DNA之尺寸資訊將進一步幫助將定序片段分類為可能衍生自癌細胞或非癌細胞。此資訊將進一步幫助癌症之篩選、偵測、預測及監測。
且因為母體血漿中之胎兒DNA比母體DNA短(Chan等人 Clin Chem 2004; 50: 88-92及Yu等人 Proc Natl Acad Sci USA 2014; 111: 8583-8588),當解釋來自詳盡血漿DNA定序之結果時亦可利用血漿DNA之尺寸資訊。因此,母體血漿中之較短片段具有較高之為胎兒衍生之機率。
E. 甲基化狀態DNA甲基化圖譜在不同組織之間不同。一些甲基化標記為相對組織特異性的。舉例而言,
SERPINB5之啟動子在胎盤中為低甲基化的(Chim等人 Proc Natl Acad Sci USA 2005; 102: 14753-14758)且
RASSF1A之啟動子在胎盤中為超甲基化的(Chiu等人 Am J Pathol 2007; 170: 941-950)。某些腫瘤抑制基因(包括
RASSF1A)之啟動子在癌症中為超甲基化的。然而,胎盤(Lun等人 Clin Chem 2013; 59: 1583-1594)及癌症組織(Chan等人 Proc Natl Acad Sci 2013; 110: 18761-18768)顯示為總體地低甲基化的,尤其在非啟動子區域中。
因為已顯示母體血漿中之胎兒DNA具有與母體衍生DNA不同的DNA甲基化模式,DNA甲基化資訊可幫助預測定序分子為母體或胎兒衍生之概率。在一個實施例中,因為胎盤為母體血漿中之胎兒DNA之主要來源且與母體血細胞DNA相比胎盤DNA為更低甲基化的(Lun等人 Clin Chem 2013; 59: 1583-1594),自母體血漿定序之低甲基化DNA片段更可能為胎兒衍生之片段。類似地,在一個實施例中,因為腫瘤DNA與血細胞DNA相比為更低甲基化的(Chan等人 Proc Natl Acad Sci 2013; 110: 18761-18768),含有自進行癌症測試之個體之血漿定序的推定(候選)突變的低甲基化DNA片段與不具有低甲基化之片段相比更可能為癌症相關或癌症特異性的。
甲基化狀態可以各種方式用於判定基因座是否展示突變。舉例而言,在認為具有突變之基因座為突變之前與該基因座比對之DNA片段可需要臨限量之甲基化密度。作為另一實例,可使用CpG位點之二元分數,例如在每個DNA片段僅存在一個CpG位點之情況下。若一個DNA片段不具有預期甲基化狀態,則可捨棄CpG位點。是否捨棄DNA片段可視其他過濾準則而定。舉例而言,若DNA片段足夠短,則可保留DNA片段。此為使用各種過濾準則以及不同權重或組合使用作為決策樹之一部分之實例。
血漿DNA之甲基化分析可藉由甲基化感測方法實現,包括亞硫酸氫鹽轉化、甲基化敏感限制酶消化或甲基-結合蛋白處理。所有此等甲基化感測方法可隨後為大規模平行定序、單分子定序、微陣列、數位PCR或PCR分析。此外,一些單分子定序方案可直接讀取DNA分子之甲基化狀態而無需藉由其他甲基化感測方法之預先處理(Ahmed等人 J Phys Chem Lett 2014; 5: 2601-2607)。
除胞嘧啶甲基化以外,存在其他形式之DNA甲基化,諸如(但不限於)羥基甲基胞嘧啶(Udali等人 Hepatology 2015; 62: 496-504)。大腦組織(Sherwani及Khan. Gene 2015; 570: 17-24)及黑素瘤(Lee等人 Lab Invest 2014; 94: 822-838)顯示較高比例之羥基甲基胞嘧啶。
F. 血漿 DNA 末端位置亦可進行基於末端核苷酸之座標或末端位置過濾潛在癌症特異性或癌症相關或胎兒突變。吾人已鑑定不為隨機且基於來源組織變化之DNA片段之末端位置。因此,末端位置可用於確定具有推定突變之序列讀段實際上來自胎兒組織或腫瘤組織的可能性。
最近,已顯示血漿DNA之斷裂模式為非隨機的(Snyder等人 Cell 2016; Cell 2016; 164: 57-68及PCT WO 2016/015058 A2)。血漿DNA斷裂模式受以下影響:已貢獻血漿DNA分子之細胞之基因組中之核小體定位、轉錄因子結合位點、DNA酶切割或超敏感位點、表現圖譜(Snyder等人 Cell 2016; 164: 57-68及PCT WO 2016/015058;Ivanov等人 BMC Genomics 2015; 16 Suppl 13:S1)及DNA甲基化圖譜(Lun等人 Clin Chem 2013; 59: 1583-1594)。因此,不同組織來源之細胞的斷裂模式不同。雖然存在顯示更頻繁片段之基因組區域,區域內之實際血漿DNA切割位點可仍為隨機的。
吾人假設不同組織與具有不同切割位點或末端位置之血漿DNA片段之釋放相關。換言之,甚至特異性切割位點為非隨機的。實際上,吾人顯示癌症患者中之血漿DNA分子顯示與無癌症之患者不同的末端位置。一些實施例可使用具有此等癌症相關末端位置之血漿DNA分子作為資訊性癌症DNA片段,或使用此類末端位置資訊作為過濾準則,例如與一或多種其他過濾準則一起。因此,在鑑定此等癌症相關血漿DNA末端位置之情況下,可將血漿DNA片段評定為資訊性癌症DNA片段或基於此類片段之末端位置之性質歸於差分加權。此類準則可用於評估片段源自癌症、某些器官或某些器官之癌症之可能性。
因此,若血漿DNA片段顯示推定突變以及癌症相關之末端位置,則其為資訊性癌症DNA片段之機率將高得多。各種實施例亦可考慮此類片段之狀態及其長度,或此等及其他參數之任何組合。因為血漿DNA片段具有兩個末端,可進一步改變加權以便藉由考慮其末端中之一者或兩者是否與癌症相關或來自與癌症相關之組織類型來將其鑑定為癌症衍生片段。增加單股DNA片段轉化成定序庫之可能性的庫製備方法之使用將增強此後一實施例之效率(關於此類庫製備方法之實例,參見Snyder等人 Cell 2016; 164: 57-68),如在下一章中所論述。在一個實施例中,基於末端位置之類似方法亦可用於偵測與其他病理學或生物過程相關之突變(例如歸因於老化過程之突變或歸因於環境突變誘發因子之突變)。
亦可使用類似方法來藉由將攜帶胎兒之妊娠女性之血漿中之DNA定序來鑑定胎兒之新生突變。因此,在對胎盤具有特異性或相對特異性之末端位置之鑑定之後,若母體血漿中之此類DNA片段亦攜帶胎盤特異性或胎盤富集末端位置,則可將較高加權歸於推定胎兒新生突變為真實突變。因為血漿DNA片段具有兩個末端,可進一步改變加權以便藉由考慮其末端中之一者或兩者是否與胎盤相關來將其鑑定為胎兒衍生片段。
為了說明此方法之可行性,分析HCC患者及妊娠女性之血漿DNA之定序資料。出於說明的目的,分析集中於8號染色體。相同方法可應用於全基因組或任何其他染色體或任何基因組區域或其組合。
確定在各定序血漿DNA片段之兩個末端處之末端核苷酸之座標。隨後,將8號染色體上在各核苷酸上終止之片段之數目計數。針對來自HCC個案及妊娠女性之血漿樣品中之每一者確定具有在其上終止之最高數目之DNA片段的前1百萬個核苷酸。
圖5為文氏圖,其根據本發明之實施例顯示HCC個案所特有、妊娠女性所特有或兩種個案共有之頻繁末端位置之數目。隨後鑑定作為兩種個案共有之頻繁終止位置的463,228個核苷酸之座標。對於HCC個案,共有之463,228個核苷酸減去前一百萬以獲得作為經鑑定HCC個案特有之頻繁終止位置的536,772個核苷酸之座標。類似地,共有之463,228個核苷酸減去妊娠個案之1百萬個最常見終止位置以獲得作為亦經鑑定妊娠女性特有之頻繁終止位置的536,772個核苷酸之座標。
具有恰好在536,772個HCC特定終止位置終止之末端核苷酸的血漿DNA片段將更可能衍生自腫瘤。相比之下,具有恰好在妊娠特定終止位置或兩種個案共有之位置終止之末端核苷酸的血漿DNA片段將不大可能衍生自腫瘤,其中妊娠特定終止位置潛在地較不可能且在任何使用權重之實施例中經給與較低加權。
因此,HCC個案特有之前幾個終止位置之清單可用於選擇癌症相關突變,且妊娠個案特有或由兩種個案共有之前幾個終止位置之清單可用於過濾出假陽性突變。類似程序可用於鑑定胎兒突變及過濾出假陽性突變以用於非侵入性產前測試。
一般而言,為了鑑定此等生物學相關血漿DNA末端位置,可將來自有不同疾病或流行病學背景或生理概況之個體群組之血漿DNA樣品與來自無此等疾病或背景或概況之另一組個體的樣品相比較。在一個實施例中,此等樣品中之每一者可深度地定序以使得可在各樣品內鑑定血漿DNA片段之常見末端位置。在另一實施例中,來自具有互補概況之個體群組之序列資料可合併在一起以便鑑定代表疾病或生理概況之常見末端位置。
此分析之目標為鑑定對於有疾病或生物學上相關概況之個體常見,但在無疾病或生物學上相關概況之個體中不常見的血漿DNA末端位置。舉例而言,比較可涉及有及無癌症之個體、有及無特定器官或組織之癌症之個體、妊娠及非妊娠個體、有及無某些妊娠相關或胎兒疾病之妊娠個體及不同年齡之個體。在已在一組參考樣品中鑑定之後組織特異性或疾病相關血漿DNA末端位置變成解釋測試樣品之參考集。
樣品中之各血漿DNA片段可單獨地詢問且基於末端位置指定可能性分數。某一末端位置之可能性分數可視相對於針對對照組終止之序列讀段之量,針對目標個體(例如癌症)在最後位置終止之序列讀段之量(例如序列讀段之百分比或藉由遍及樣品定序深度來標準化之其他值)之分離而定。較大分離將產生較高特異性,且因此可應用較高可能性分數。因此,可進行將具有特定末端位置之血漿DNA片段分類成可能疾病相關或不相關、胎兒或母體等。
替代地,源自同一區域之血漿DNA片段可共同地解釋,即在特定核苷酸處終止之頻率可藉由針對定序深度標準化來計算。以此方式,某些核苷酸可相對於基因組中之其他位置,鑑定為常見末端位置(例如僅基於特定類型之一種樣品之分析,儘管可使用更多樣品)。因此,可進行將具有特定末端位置之血漿DNA片段分類成可能疾病相關或不相關、胎兒或母體等。對於顯示具有此等生物學上相關血漿DNA末端位置之血漿DNA片段之較高頻率的基因座,可確定以下:此等基因座富集有生物學上相關DNA且包括此作為一組具有作為癌症相關或胎兒特異性或與其他疾病或生物過程相關之血漿DNA片段之較高可能性。可能性之水準可基於以與遍及不同組之比較類似之方式,相對於其他核苷酸,給定核苷酸之頻率多高,如上文所描述。
為了說明此方法之功效,直接自HCC患者之血漿DNA定序資料鑑定潛在的癌症相關突變。將存在於至少兩個血漿DNA片段之序列讀段中之單核苷酸變化認為潛在癌症相關突變。亦將腫瘤組織定序且將存在於腫瘤組織中之突變認為真癌症相關突變。
在8號染色體上,在不使用動態截止值分析的情況下自HCC患者之血漿DNA定序資料鑑定總共20,065個潛在突變。若序列變異體存在於至少兩個定序DNA片段中,則序列變異體將視為潛在突變。自腫瘤組織之定序結果鑑定884個真實體細胞突變。20,065個推定突變包括884個實際突變中之802個(91%)。因此,在提供4%之PPV之腫瘤組織中僅4%之推定突變為真實體細胞突變。
為了增強偵測體細胞突變之精確度,基於攜帶推定突變之序列讀段的末端核苷酸位置吾人使用以下過濾演算法。(1).對於任何推定突變,若存在至少一個攜帶突變且在HCC特定終止位置上終止之序列讀段,則對於下游突變分析突變將合格。(2).將移除攜帶推定突變但在任何妊娠特定終止位置或由兩種個案共有之位置上終止之序列讀段。僅當基於此演算法移除讀段之後存在兩個或兩個以上顯示同一突變之序列讀段時,對於下游突變分析突變才將合格。
應用以上陳述之1及2過濾演算法,獲得表1中之結果。基於攜帶推定突變之DNA片段之末端核苷酸之位置或末端位置應用不同過濾演算法之效果.
表 1藉由採用需要末端位置為HCC特定之三種演算法中之任一者或過濾出妊娠特定或共有位置之演算法,存在PPV之實質上改良。藉由應用兩種演算法,PPV增加至71%。
可鑑定各染色體或實際上另一基因組區域或實際上整個基因組之其他數目之HCC及妊娠相關末端位置,例如(但不限於) 50萬、2百萬、3百萬、4百萬、5百萬、6百萬、7百萬、8百萬、9百萬或1千萬。在各種實施例中,可在一或多個癌症患者群組中確定血漿DNA分子中之最常見之末端位置,各群組為一種癌症類型。此外,可確定無癌症個體之血漿DNA分子中的最常見末端位置。在一個實施例中,此等患有癌症之患者及無癌症之個體可進一步再分成具有不同臨床參數(例如性別、抽菸狀態、先前健康(例如肝炎狀態、糖尿病、體重)等)之組。
作為使用此類過濾準則之一部分,可使用統計分析來鑑定對於不同生理及病理學條件對於循環DNA具有為末端核苷酸或末端位置之較高概率的位置。統計分析之實例包括(但不限於)史都登氏(Student) t測試、卡方測試及基於二項分佈或泊松分佈之測試。對於此等統計分析,可使用不同p值截止值,例如(但不限於) 0.05、0.01、0.005、0.001及0.0001。亦可調節p值截止值以用於多個比較。
G. 單股定序在一個實施例中,定序可在各模板分子之兩個互補股上進行,稱為單股定序(Snyder等人 Cell 2016; 164: 57-68)。存在於兩股之定序讀段中之變異用於下游分析,而捨棄僅在一股之定序讀段中出現之變異,或至少可捨棄一個DNA片段之資料。此可進一步按指數律成比例減少血漿DNA分子之定序誤差。
因為血漿DNA片段之各股可獨立地分析,可以較高精度及精確度確定血漿DNA片段之末端位置或末端核苷酸座標。單股定序亦允許偵測以與雙股形式相反之單股形式循環之血漿DNA片段。藉由在分析中包括單股血漿DNA分子(例如經由使用將促進單股DNA分析之庫製備方案(Snyder等人 Cell 2016; 164: 57-68)),另一群潛在資訊性癌症DNA片段變得能夠偵測。
此外,使用有利於單股DNA之庫製備方案(例如參見Snyder等人 Cell 2016; 164: 57-68)亦將允許鑑定可用於基於末端位置之過濾準則的額外位置。舉例而言,若在比對兩股之兩個序列讀段之後,兩股不與同一組織特異性末端位置比對,則可給與序列讀段較低權重作為具有突變。
VI. 癌症患者之血漿中之體細胞突變偵測現在描述用於偵測進行癌症測試之個體中之體細胞突變的各種實例。顯示各種過濾準則之資料。且說明無PCR之效率。
A. 樣本製備自HCC患者獲得臨床樣本。在操作之前收集血液樣品。在腫瘤切除時收集HCC腫瘤活檢體及相鄰正常肝組織之活檢體。使用無PCR之庫製備方案自樣本製備DNA庫且使用Illumina HiSeq系列之大規模平行定序器定序。白血球層、腫瘤活檢體、相鄰正常肝組織之活檢體及血漿實現之定序深度分別為45x、45x、40x及220x之人類單倍體基因組。
1. 患者資訊
HCC患者為58歲大中國男性,其為無肝硬化之HBV攜帶者。腫瘤尺寸為18 cm。其於Department of Surgery, Prince of Wales Hospital 進行腫瘤切除,且在知情同意書之情況下招募。研究經Joint Chinese University of Hong Kong及New Territories East Cluster Clinical Research Ethics Committee批准。在手術之前在EDTA管中收集9 mL末梢血液。在腫瘤切除之後收集腫瘤組織及相鄰正常組織。
2. 樣品處理
藉由雙重離心方案(Chiu等人 Clin Chem 2001; 37: 1607-1613)處理所有血液樣品。簡言之,在4℃下在1,600 g下離心10分鐘之後,在4℃下在16,000 g下再離心血漿部分10分鐘以移除血細胞。在2,500 g下再離心血細胞部分,且移除任何殘餘血漿。分別用QIAamp DNA血液微型套組及QIAamp DSP DNA血液微型套組(Qiagen)之血液及體液方案提取來自血細胞及來自血漿之DNA。根據製造商之組織方案用QIAamp DNA微型套組(Qiagen)提取來自腫瘤及相鄰正常組織的DNA。
3. 血漿DNA之定量
自3.7 mL血漿提取DNA且在110微升水中溶離。DNA濃度為每微升0.629奈克(Qubit螢光計,Thermo Fisher Scientific),產生69 ng DNA。吾人隨後使用30 ng DNA用於庫構建。因為各3Mb基因組分成166個鹼基對(bp)的片段,應存在每基因組約1.81 × 10
7個血漿DNA片段。30 ng DNA應含有[(30 × 1,000)/3.3] × 1.81 × 10
7個片段= 1.64 × 10
11個總片段。
4. DNA庫構建
除五分之一索引配接器用於血漿DNA庫構建外,根據製造商之方案用TruSeq DNA無PCR之庫製備套組(Illumina)構建基因組DNA樣品及母體血漿樣品的DNA庫。存在三種基因組DNA樣品,即患者的白血球層DNA、腫瘤組織DNA及相鄰正常組織DNA。對於各基因組DNA樣品,將一微克DNA超音波處理成200 bp片段(Covaris)以用於庫構建。在20 μL庫中庫濃度在17至51 nM範圍內。
對於30 ng血漿DNA樣品(1.64 × 10
11個片段),庫產率為在20 μL庫中2,242 pM,其等於44,854阿莫耳(attomole),亦即2.70 × 10
10個166 bp血漿DNA片段。DNA至庫之轉化率為16.4%。此轉化水準遠遠大於吾人先前對其他DNA庫製備套組之經歷,其中僅約1%之輸入DNA可轉化成DNA庫。
5. DNA庫之定序
所有DNA庫在HiSeq 1500、HiSeq 2000或HiSeq 2500定序平台(Illumina)上定序持續75 bp × 2 (配對端)。吾人針對各基因組DNA庫將多個泳道定序。白血球層、腫瘤組織及相鄰正常組織DNA庫之定序深度分別為45x、45x及40x。吾人針對血漿DNA庫將30.7個泳道定序且獲得約44億個非重複定位配對端讀段。定序深度為220x。
為了計算在定序之後血漿DNA庫之重新獲得率,吾人將每個泳道在10 pM下之120 μl DNA庫定序作為輸入。輸入之片段之總數為120 × 10 × 30.7 × 6.02 × 10
23/ 10
18= 2.22 × 10
10個片段。在定序之後,吾人獲得4.40 × 10
9個片段。在定序之後DNA庫之重新獲得率為19.9%。
將血漿DNA序列比對或定位至參考人類基因組。定位至各1-Mb片段(二進位)作為一部分所有序列讀段之讀段之數目遍及基因組測定。將每1-Mb區段之比例或基因組代表與自一組健康對照獲得之血漿DNA定序資料相比較以鑑定如先前在美國專利公開案2009/0029377中所描述具有基因組代表之統計顯著增加或統計顯著減少的基因組區域。
圖6為顯示HCC患者之1-Mb區段之增加、減少或無變化的圖600。具有基因組代表之統計顯著增加之區域指示存在複本數增加,而具有基因組代表之統計顯著減少之區域指示存在複本數損失。具有基因組代表之統計顯著增加、減少或無顯著變化之二進位分別顯示為綠色、紅色及灰色點。藉由將顯示此等損失之連續基因組區段中之複本數損失之程度定量(例如如美國專利申請案14/994,023中所描述),血漿中腫瘤衍生DNA之分率濃度測定為15%。
B. 存在於腫瘤活檢體及相鄰組織中之突變隨後,吾人藉由與患者之白血球層定序資料比較來鑑定腫瘤活檢體中存在之體細胞突變。進行此分析以確定此特定腫瘤攜帶且充當吾人旨在於血漿DNA中偵測之突變之最高準則組的體細胞突變有多少個。對於在腫瘤活檢體中但未在白血球層DNA中偵測之任何對偶基因,吾人應用一系列過濾準則來鑑定體細胞突變。在一半序列資料,即110x中進行初始分析。
圖7顯示過濾方法700,其使用動態截止值、再比對及突變分率,及根據本發明之實施例自腫瘤活檢體鑑定所得之突變資料。如圖7中所示,吾等首先應用動態截止值策略以使假陽性單核苷酸變異體之偵測(其大多為定序誤差之結果)最小化。各方框中所示之數目表示在各步驟鑑定之推定突變之數目。
再比對策略隨後作為A級過濾準則應用於使用動態截止值策略鑑定之16,027個推定突變以進一步移除歸因於定序誤差及比對誤差之變異體。隨後,獨立地應用兩個不同分率濃度截止值。使用至少20%腫瘤DNA分率(M%)作為截止值(B級準則),鑑定12,083個體細胞突變。使用至少30%腫瘤DNA分率作為截止值(C級準則),鑑定11,903個體細胞突變。吾等認為此11,903個變異體為此腫瘤中存在之真實體細胞突變。該數目與每一腫瘤存在之突變之報導平均數目相容。
預期腫瘤衍生之血漿DNA分子比非腫瘤衍生之分子短。作為評估此等變異體是否為真實腫瘤衍生之體細胞突變之方式,吾等搜尋涵蓋此11,903個基因座之血漿DNA片段且評估此等片段之尺寸概況。
圖8顯示與鑑定為具有野生型對偶基因之血漿DNA片段之尺寸相比,HCC患者之鑑定為具有突變型對偶基因之血漿DNA片段之尺寸的圖800。此等經鑑定為具有突變之血漿DNA片段實際上比對於此等體細胞突變為非資訊性之其他血漿DNA片段短。此尺寸分析證實突變鑑定之功效,且亦證實使用尺寸作為過濾準則之能力。
圖9顯示過濾方法900,其使用動態截止值、再比對及突變分率,及根據本發明之實施例自相鄰正常肝活檢體鑑定所得之突變資料。如腫瘤活檢體所用,應用同一組準則以篩選相鄰正常肝活檢體之活檢體中之突變。如圖9中所示,當最終過濾基於需要至少20%腫瘤DNA分率(B級準則)時,僅鑑定203個突變。當最終過濾基於需要至少30%腫瘤DNA分率(C級準則)時,僅鑑定74個突變。
圖10A及10B顯示攜帶自相鄰正常肝活檢體鑑定之203個推定突變的血漿DNA片段之評估尺寸概況與其他非資訊性血漿DNA分子之尺寸概況的比較。圖10A顯示推定突變型對偶基因及野生型對偶基因之在一系列尺寸內之血漿DNA片段之頻率。圖10B顯示隨推定突變型對偶基因及野生型對偶基因之尺寸變化之血漿DNA片段之累積頻率。如圖10A及10B中所示,以尺寸頻率分佈曲線以及累積尺寸差異圖形式表示之兩組DNA之尺寸概況中不存在差異。此等分子之尺寸概況表明變異體可能為假陽性。
C. 血漿之突變分析隨後,吾人旨在應用各種過濾準則來鑑定血漿中之體細胞突變或資訊性癌症DNA片段。
圖11顯示過濾方法1100 (其使用動態截止值、再比對、突變分率及尺寸),及根據本發明之實施例自血漿鑑定之突變之所得資料。在圖11中,在各方框中顯示各過濾步驟之推定體細胞突變的數目。在自腫瘤活檢體鑑定之11,903個突變中在各過濾步驟重新獲得之真實體細胞突變之數目顯示為絕對數以及百分比。計算且亦顯示各過濾步驟之PPV。當B、C或D級準則與動態截止值及A級過濾組合使用時可實現超過85%之PPV。
圖12顯示過濾方法1200,及根據本發明之實施例使用較低突變分率截止值自血漿鑑定之突變之所得資料。圖12中之資料顯示當在B級或C級應用較低分率濃度截止值時可維持PPV,而重新獲得之真實體細胞突變之數目高得多。
D. 尺寸吾人隨後探索省略分率濃度截止值(B及C級)之影響。
圖13顯示過濾方法1300 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自血漿鑑定之突變之所得資料。圖13中所示之資料指示相同重新獲得率及PPV可使用動態截止值、再比對及尺寸要求(即對短DNA分子之偏好)實現,如亦使用突變分率過濾準則所實現。
圖14顯示與鑑定為具有野生型對偶基因之血漿DNA片段之尺寸相比,使用血漿鑑定為具有突變型對偶基因之血漿DNA片段之尺寸的圖1400。尺寸概況顯示使用過濾步驟鑑定之突變展示短DNA尺寸,如針對腫瘤衍生DNA所預期。
E. 增加定序深度吾人將血漿樣品之定序深度自110x進一步增加至220x。
圖15顯示過濾方法1500,及根據本發明之實施例使用增加之定序深度自血漿鑑定之突變之所得資料。過程1500使用一組與圖12中所示相同之過濾準則。在增加之定序深度(220x)之情況下,重新獲得之真實體細胞突變之比例高得多。在於B級過濾步驟偵測之10,915個突變中,93個突變位於外顯子中。僅一個突變,即
CTNNB1(c.C98G, P.S33C)之外顯子3中之非同義變化經報導為COSMIC資料庫中之前28個普遍癌症突變中之一者。
F. 突變分率圖11顯示當B級及C級截止值分別為20%及30%時,對PPV及重新獲得率之影響。若在突變鑑定中較高敏感性較佳,則可使用較低M%作為截止值。圖12顯示當B級截止值為5%且C級截止值為10%時,對PPV及重新獲得率之影響。
如上文所描述,突變分率之方差亦可用作過濾準則。吾人研究源自不同染色體區域之體細胞突變分率之血漿對偶基因分率。如圖6中所示,HCC患者之腫瘤展現染色體1p中之複本數損失及染色體1q中之複本數增加。吾人繪製整個染色體1p及染色體1q中突變分率之頻率分佈。
圖16為顯示具有各種突變分率值之基因座之數目(密度)的圖1600。如圖1600中所見,對於複本數增加區域(染色體1q)觀測到較高突變分率值且對於複本數損失區域(染色體1p)觀測到較低突變分率值。
吾人亦研究兩個區域中值之範圍及突變分率值之方差。
圖17A顯示在染色體臂1p及1q上之分佈的z分數。圖17B顯示染色體臂1p及1q上之表觀突變分率。與複本數損失區域(染色體1p)相比,在複本數增加區域(染色體1q)中值之分佈之z分數較高(圖17A)且實際值更可變(圖17B)。
此等資料表明可設定不同M%作為具有複本數增加或損失之區域之過濾截止值以增加鑑定真實體細胞突變之可能性。指定觀測之血漿突變分率之方差的截止值亦可用於鑑定來源於更可能富集(如對於具有複本數增加之區域)或耗盡(如對於具有複本數損失之區域)腫瘤衍生DNA之染色體區域的血漿DNA分子。隨後可作出關於DNA片段為資訊性癌症DNA片段之可能性的決策。
G. 較不嚴格準則吾人探索較不嚴格準則是否可用於動態截止值。在先前顯示之實例中,使用之動態截止值臨限值(分數3)係用於使體細胞突變之假陽性鑑定之變化最小化。對於動態截止值分析,當序列變異體存在於一定數目(N)之定序DNA片段中時序列變異體將取得候選突變之資格,其中數目(N)視定序之基因座之數目、搜尋空間中之核苷酸之數目及具有預測之假陽性率之概率而定。在先前實例中,預測之假陽性率設定為<10
- 10,且搜尋空間為全部基因組(3 × 10
9個核苷酸)。
圖18為表格1800,其根據本發明之實施例顯示根據各種突變分率的突變偵測預測敏感度及根據某些對偶基因計數截止值之定序深度。各列對應於不同定序深度。血漿中之截止值用於判定血漿中具有突變之DNA片段之數目是否足以視為突變。使用此等值,其餘行提供對於各種腫瘤百分比,血漿中之突變偵測之預測敏感度TP/(TP+FN)。白血球層亦經受截止以過濾白血球層中之定序誤差。在無此類過濾的情況下,實施例可錯誤包括基因座作為血漿中變異體偵測之同型接合位點,因為一些實施例僅偵測落在白血球層為同型接合之位置上的變異體。當使用較不嚴格動態截止值時表格1800中之資料充當解釋下一幅圖之基線資料。
吾人探索放寬臨限值以允許0.1%之假陽性偵測率之影響。
圖19為表格1900,其根據本發明之實施例顯示根據各種突變分率的突變偵測預測敏感度及在0.1%之假陽性偵測率下根據某些對偶基因計數截止值之定序深度。此資料顯示較不嚴格動態截止值之資料。
圖20顯示過濾方法2000,及根據本發明之實施例使用較不嚴格動態截止值自血漿鑑定之突變之所得資料。使用220x之定序深度。當使用較不嚴格動態截止值時,第一步驟之PPV自12%降低至3.3%。當與其他過濾步驟,即A、B、C及D級組合時,可在與基於嚴格動態截止值之演算法類似之PPV下實現真實體細胞突變之較高重新獲得率。
此等資料表明各過濾準則起不同作用。可藉由改變使用之臨限值之嚴格度來改變各準則之效用。在此實例中,較不嚴格動態截止值允許體細胞突變之更敏感鑑定。由於在過濾出假陽性中之其他準則之效用,維持整體流程之特異性。
隨後,吾人進一步評估動態截止值步驟之完全移除。替代地,應用固定截止值。舉例而言,若不存在於白血球層DNA中之異型接合對偶基因在血漿中可見至少特定數目之次數(例如1、2、3等),則吾人確定鑑定之推定突變的數目。吾人應用此分析來分析HCC患者以及定序至超過200x之母體血漿樣品之血漿DNA資料。不知道貢獻母體血漿樣品之母親患有癌症且因此在此樣品中鑑定之大部分推定突變可能為父系遺傳之胎兒特異性對偶基因或假陽性。
圖21為顯示胎兒及癌症情況之推定突變數之分佈的圖2100。豎軸與具有推定突變(突變對偶基因)之基因座之數目之計數對應。橫軸與基因座鑑定為具有突變所需要之DNA片段之數目對應。
兩種樣品均已使用無PCR之庫製備方案定序至類似深度。因此,定序誤差及比對誤差貢獻之假陽性突變在兩種樣品中應類似。應注意推定突變之數目隨著用作將突變分數之截止值的序列讀段之數目增加而減少。因為假陽性突變傾向於隨機出現且因此以較低對偶基因比率存在,可能假陽性隨著需要作為截止值之讀段之數目之漸進增加而經過濾出。
另一方面,可觀測到在癌症患者中鑑定之推定突變之數目開始分界且大於在妊娠女性之血漿中自約18個序列讀段及向前之截止值偵測的數目。此意謂HCC患者中之突變負荷大於母體血漿樣品中之父系遺傳胎兒對偶基因之數目。
吾人隨後將再比對(A級)過濾準則應用於同一數據集。
圖22為顯示當使用再比對時胎兒及癌症情況之推定突變數之分佈的圖2200。當不應用再比對時當與圖21中所示之資料相比時甚至在對應固定序列讀段截止數目下推定突變之總體數目實質上降低。HCC血漿與母體血漿之間推定突變之數目之分界甚至更明顯。此等資料表明再比對步驟為用於移除假陽性之強大方法。
吾人進一步評估尺寸過濾之值。同樣,動態截止值策略不用於此分析。替代地,顯示相同較小對偶基因之固定最小數目之序列讀段用作第一步驟以鑑定推定突變。
圖23為根據本發明之實施例顯示在無再比對的情況下各種尺寸截止值之PPV及重新獲得率的表格2300。如圖23中所示,僅使用固定截止值之體細胞突變鑑定之PPV為次優的。當在各固定截止值水準下使用不同尺寸截止值時,PPV改良。
圖24為根據本發明之實施例顯示在再比對之情況下各種尺寸截止值之PPV及重新獲得率的表格2400。對於圖24中所示之資料,在藉由固定截止值初始鑑定推定突變之後應用再比對。PPV實質上改良。隨後應用不同尺寸截止值以便進一步過濾,觀測到PPV之一些改良。
H. 偵測癌症中升高之突變負荷吾人使用針對來自HCC患者之血漿樣品及新生兒之臍帶血樣品之血漿所描述之過濾準則進行突變負荷評估。臍帶血樣品之組成基因組為臍帶血白血球層。臍帶血漿作為對照充分起作用,因為大部分嬰兒出生時無癌症且其尚未獲得體細胞突變或曝露於致癌物。
臍帶血漿使用無PCR之庫製備方案定序至75x。
圖25顯示過濾方法2500 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自臍帶血漿鑑定之突變之所得資料。圖25顯示當使用嚴格動態截止值,隨後圖中所示之A至D級準則時,在臍帶血漿中偵測之推定突變之數目。少數推定突變經鑑定。
圖26為根據本發明之實施例之利用方法2500測定之突變DNA片段及野生型對偶基因之尺寸分佈的圖2600。當吾人評估此等突變之尺寸概況時,其不尤其短,此不同於癌症衍生DNA。
隨後,吾人隨機挑選75x來自HCC樣品之血漿DNA序列資料以使得可進行類似評估。應用同一組過濾準則。在89%或89%以上之PPV下重新獲得約5,000至6,000個腫瘤衍生之突變。
圖27顯示過濾方法2700 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自HCC樣品之血漿鑑定之突變之所得資料。使用75x之定序深度。
圖28為根據本發明之實施例之利用方法2700測定之突變DNA片段及野生型對偶基因之尺寸分佈的圖2800。具有此等突變之血漿DNA片段實際上比非資訊性DNA片段短。
然而,注意到84%之在臍帶血漿中鑑定之推定突變在公開報導之單核苷酸多形現象位點上出現而此比例在HCC血漿樣品中僅為3%。吾人因此假設臍帶血漿中之公開報導之對偶基因可為運輸至胎兒循環中且在新生兒血液中保持可偵測之母體DNA分子(Lo等人 Clin Chem 2000; 46:1301-1309)。在自已知單核苷酸多形現象位點移除任何位點之後,臍帶血漿中之推定突變之數目減少至僅8 (圖29)而HCC血漿之資料保持基本上未改變(圖30)。
圖29顯示根據本發明之實施例使用基於SNP之過濾用於自臍帶血漿鑑定之突變的過濾方法2900。圖30顯示根據本發明之實施例使用基於SNP之過濾用於自HCC血漿鑑定之突變的過濾方法3000。併入過濾步驟以移除單核苷酸多形現象與E級過濾對應。因此,在臍帶血漿中偵測之推定突變(其大多為假陽性)之數目減小了84% (49個中8個)。另一方面,HCC樣品中之推定突變之數目僅減小了3%。
吾人之資料顯示使用無PCR之庫製備方案隨後超深及廣泛定序及併入一組描述之過濾準則,吾人能夠基於鑑定之推定突變的數目敏感地且特異性地鑑定癌症患者之血漿中之腫瘤衍生突變。在癌症患者之血漿中鑑定之突變負荷超過在對照非癌症臍帶血漿中觀測到之突變負荷3個數量級。因此,可作出癌症與非癌症之間的分類。
吾人進一步顯示總定序資料(220x)之子樣品(75x)對於實現癌症與非癌症之間的區分的目的已經足夠。如以下模擬資料(第VIII章之圖44、45A至45C及46A至46C中所示),雖然在此等實施例中需要超深及廣泛序列資料,寬度及深度之程度視血漿樣品中之腫瘤DNA分率及腫瘤擁有之能夠進行血漿DNA偵測之突變數而定。
I. 來源組織現在存在資料(Snyder等人 Cell 2016; 164: 57-68;PCT WO 2016/015058 A2;Ivanov等人 BMC Genomics 2015; 16增刊13:S1)表明此等體細胞突變之基因組位置可視腫瘤之來源組織而定顯示群集模式。文獻表明體細胞突變傾向於與具有特異性組蛋白修飾之基因組位置共定域。組蛋白修飾之組織特異性位置可經由公開資料庫,諸如Epigenomics Roadmap資料庫(www.roadmapepigenomics.org)獲得。
吾人經由Epigenomics Roadmap資料庫(www.roadmapepigenomics.org)獲得組蛋白修飾之組織特異性位置。在健康組織中,H3K4me1據報導與活性/平衡強化子區域相關。H3K27ac與活性強化子區域相關。H3K9me3與組成性異染色質高度相關。換言之,在健康組織中,H3K4me1及H3K27ac與在組織中具有活性基因表現之基因組區域相關而H3K9me3與基因組之抑制區域相關。然而,已在癌症中報導體細胞突變之數目更高度代表在抑制基因組區域中。迄今無資料報導血漿DNA中此類相關性之存在。
吾人進行每1-Mb分組三種組蛋白修飾中之每一者之數目與同一10Mb分組中體細胞突變之數目之間的Spearman相關性分析。
圖31為顯示組織與組蛋白修飾之相關性的表格3100。圖31使用SNV確定腫瘤預後之來源組織。對於肝組織組蛋白修飾模式獲得最強相關性係數。此與血漿DNA資料自HCC患者獲得之事實一致。因此,若分析另一測試樣品,則可鑑定源自與有關癌症之組蛋白修飾相關之基因座的血漿DNA片段。此等基因座將富集有癌症衍生之血漿DNA片段。因此,此等基因座之血漿DNA片段可分類為資訊性癌症DNA片段。亦可進行類似方法以便使用已知與胎兒組織(例如胎盤)相關之組蛋白修飾鑑定胎兒突變。
計算血漿中每兆鹼基之SNV密度與各種器官或組織中每兆鹼基之組蛋白標記密度之間的Spearman相關性。最高相關性將表明腫瘤之來源組織。
VII. 偵測胎兒中之新生突變以上大部分論述係關於癌症,但實施例亦可用於鑑定胎兒中之新生突變。
先天性突變可導致可在產前階段期間、在兒童期期間或生命後期顯現之疾病。先天性突變指存在於胎兒基因組中之突變。一些疾病能夠較早治療而其他可能與功能之顯著受損相關。因此,批准一些此等疾病之產前診斷。與基因、基因組或染色體異常相關之疾病之產前診斷可藉由在生育之前分析胎兒遺傳物質來進行。胎兒遺傳物質可藉由侵入性程序,諸如羊水穿刺術或絨毛膜取樣獲得。此等程序與胎兒流產之風險相關。因此,較佳地藉由非侵入性方法,包括經由分析存在於母體血漿中之無細胞胎兒核酸來進行產前評估。
大部分先天性突變自父母遺傳且導致遺傳疾病。在母體血漿中藉由循環無細胞胎兒DNA分析非侵入性偵測遺傳突變之方法先前已報導(美國專利公開案2009/0087847及2011/0105353)。可藉由知道或測試母系及/或父系突變確認推定胎兒突變。
然而,疾病亦由新生突變所引起。新生突變為存在於胎兒之組成基因組中之不自父親或母親遺傳的突變。新生突變占某些疾病(例如軟骨發育不全、多發性內分泌瘤)之疾病負荷之顯著比例。據估計各個體在組成基因組中具有約20至30個新生突變(Kong等人 Nature 2012; 488: 471-475)。若此等突變出現在將損害基因組之基因、表觀遺傳或調節功能之基因組區域,則其可引起疾病。目前不存在產前偵測新生突變之有效方法,除非已知先驗風險。若例如胎兒之超音波檢查揭露懷疑軟骨發育不全之特徵,則可產生新生突變之先驗懷疑。若父母均不攜帶軟骨發育不全之突變,則將在纖維母細胞生長因子受體3基因中搜尋新生突變。
對於由新生突變所引起之大部分其他疾病,通常不存在可產前偵測以表明研究何種基因之結構或物理徵象。目前不存在有效方法來產前偵測新生突變,因為在單倍型基因組之30億個核苷酸內搜尋30種此等變化如大海撈針。由於母親之進一步將胎兒新生突變稀釋5至10倍之背景血漿DNA,藉由循環無細胞胎兒DNA分析實現新生突變偵測與大得多的困難相關。此處吾人描述將允許經由在母體血漿中分析循環無細胞胎兒DNA來有效偵測胎兒新生突變之實施例。
A. 胎兒中新生突變之偵測之實例1. 家族資訊
有男性胎兒之單胎孕婦預定在妊娠之第38週剖腹產。在Department of Obstetrics and Gynaecology, Prince of Wales Hospital在知情同意之情況下招募家族。研究經Joint Chinese University of Hong Kong及New Territories East Cluster Clinical Research Ethics Committee批准。在進入期間收集20 mL母體血液及10 mL父體血液。在分娩之後收集胎盤組織樣品及3 mL臍帶血。
2. 樣品處理
所有血液樣品藉由如先前所描述(Chiu等人 Clin Chem 2001; 37: 1607-1613)之雙重離心方案處理。簡言之,在4℃下在1,600 g下離心10分鐘之後,在4℃下在16,000 g下再離心血漿部分10分鐘以移除血細胞。在2,500 g下再離心血細胞部分,且移除任何殘餘血漿。分別用QIAamp DNA血液微型套組及QIAamp DSP DNA血液微型套組(Qiagen)之血液及體液方案提取來自血細胞及來自母體血漿之DNA。根據製造商之組織方案用QIAamp DNA微型套組(Qiagen)提取來自胎盤之DNA。
3. 血漿DNA之定量
自5 mL母體血漿提取DNA。使用
ZFX/
Y數位PCR分析(Lun等人 Clin Chem 2008; 54: 1664-1672),
ZFX及
ZFY之濃度分別為1,038個複本/mL血漿及103個複本/mL血漿。吾人隨後使用血漿DNA之4.5 mL等效物以用於庫構建。假設各基因組分成166個鹼基對(bp)的片段,應存在每基因組約1.81 × 10
7個血漿DNA片段。4.5 mL血漿DNA應含有(1038+103) × 4.5 × 1.81 × 10
7個片段= 9.28 × 10
10個總片段。
4. DNA庫構建
除五分之一索引配接器用於血漿DNA庫構建外,根據製造商之方案用TruSeq DNA無PCR之庫製備套組(Illumina)構建基因組DNA樣品及母體血漿樣品的DNA庫。存在四份基因組DNA樣品,即母親之白血球層DNA、父親之白血球層DNA、臍帶血白血球層DNA及胎盤DNA。對於各基因組DNA樣品,將一微克DNA超音波處理成200 bp片段(Covaris)以用於庫構建。在20 μL庫中庫濃度在34至58 nM範圍內。對於來自4.5 mL血漿之母體血漿DNA樣品(9.28 × 10
10個片段),庫產率為在20 μL庫中2995 pM,其等於59,910阿莫耳,亦即3.61 × 10
10個166 bp血漿DNA片段。DNA至庫之轉化率為38.9%。
5. DNA庫之定序
所有DNA庫在HiSeq 1500、HiSeq 2000或HiSeq 2500定序平台(Illumina)上定序持續75 bp × 2 (配對端)。吾人針對各基因組DNA庫將多個泳道定序。母親、父親、臍帶及胎盤DNA庫之定序深度分別為40x、45x、50x及30x。所有母體血漿DNA庫用於定序。吾人用45個泳道耗盡庫,且獲得約57.4億至重複定位配對端讀段。定序深度為約255x。
為了計算血漿DNA庫之重新獲得率,吾人使用在2,995 nM下之16 μl DNA庫作為輸入(來自20 μL DNA庫之4 μL用於庫驗證及定量)。輸入之片段之總數為2,995 × 16 × 6.02 × 10
23/ 10
9= 2.89 × 10
10個片段。在定序之後,吾人獲得5.74 × 10
9個讀段(片段)。在定序之後DNA庫之重新獲得率為19.9%。在群產生及/或定序期間損失80%之輸入庫。吾人懷疑將需要5倍過量之庫作為輸入來實現定序流動細胞上群產生之高效率。隨後將洗掉過量庫片段,且僅形成群之彼等將定序。
在以上估計後,DNA至庫轉化率為38.9%,且在定序之後DNA庫之重新獲得率為19.9%。估計自血漿DNA片段至定序輸出片段,重新獲得率為7.7%。
B. 論述鑑定298,364個資訊性SNP位點,其中父親及母親均為同型接合,但具有不同對偶基因。因此,胎兒在此等位點為絕對異合子。99.8%之此等SNP位點在胎盤組織中確認為異型接合。吾人隨後測定母體血漿中之胎兒DNA分率。組合父系對偶基因之計數且將此表示為在此298,364個資訊性SNP位點中母系對偶基因之組合計數之比例,胎兒DNA分率估計為31.8%。吾人隨後測定此等資訊性SNP位點中之每一者處之胎兒分率。
圖32顯示在此等個別SNP位點量測之胎兒分率之頻率分佈。95%之位點展示大於20%之胎兒DNA分率。
圖33A顯示母體血漿中胎兒特異性DNA及共有DNA之尺寸分佈。圖33B顯示胎兒特異性及共有DNA片段之血漿DNA尺寸之累積頻率的圖。圖33C顯示表示為ΔF之累積頻率差。類似於先前報導之觀測結果(Lo等人 Sci Transl Med 2010; 2: 61ra91),母體血漿中之胎兒DNA分子展示與非胎兒特異性血漿DNA分子相比之較短尺寸。
為了測定存在於此胎兒之基因組中之新生突變,吾人尋找存在於胎盤DNA及臍帶血DNA中但不存在於母系基因組DNA中及不存在於父系基因組DNA中之DNA變異體,其大多為點突變或單核苷酸變異體。鑑定四十七個此等新生突變位點。吾人隨後搜尋在母體血漿中展示新生突變對偶基因之DNA分子。吾人隨後研究母體血漿中DNA分子之尺寸分佈。
圖34A顯示具有突變對偶基因之血漿DNA片段之尺寸分佈。圖34B顯示突變型對偶基因及野生型對偶基因之血漿DNA尺寸之累積頻率的圖。圖34C顯示表示為ΔF之累積頻率差。突變對偶基因之尺寸概況及ΔF值顯示與衍生自胎兒特異性對偶基因之彼等值非常類似(圖33A至33C)。其在母體血漿中之相對短尺寸提供彼等具有突變對偶基因之DNA分子為胎兒來源之支持性證據。
隨後,吾人研究用於自母體血漿DNA資料鑑定新生突變之方法之效用。在此方法中,吾人將需要獲得母系及父系基因組序列資訊。吾人隨後搜尋存在於母體血漿DNA分子中但不存在於母系及父系基因組DNA序列中之變異體。
圖35顯示過濾方法3500 (其使用動態截止值、再比對及突變分率及尺寸截止)及根據本發明之實施例自血漿鑑定之新生突變之所得資料。過濾方法3500可用於自母體血漿無細胞DNA資料鑑定新生突變。在此研究中,吾人使用全基因組血漿DNA定序資料,其使用無PCR之庫製備方案產生。
第一,吾人使用動態截止值來篩選血漿中之推定突變。動態截止值用於將人類基因組中假陽性之理論出現率控制在某一水準(例如每基因組一次)以下。在此動態截止值模型中可考慮兩種歸因於假陽性之來源。一種來源將為定序誤差,其偶然將引起一些位點在相同位置顯示相同核苷酸變化。此類型之假陽性之概率可根據給定定序誤差率之概率之倍增規則估計。定序誤差可自母親及父親均為同型接合且具有相同對偶基因資訊之位點推斷。在此情況下,估計定序誤差為0.3%。另一來源將為母親或父親中之異型接合SNP,由於替代對偶基因之採樣不足其錯誤識別為同型接合。
第二,為了使實際定序資料中之定序及比對誤差進一步最小化,吾人應用另一過濾演算法。攜帶突變之定序讀段將經由使用獨立比對器,例如Bowtie2 (Langmead等人 Nat Methods 2012; 9: 357-9)與人類參考基因組再比對(定位)。在一些實施例中,以下再比對準則可用於將定位讀段鑑定為低品質序列讀段:(1)攜帶突變之序列讀段無法藉由獨立比對器重新獲得;(2)當使用獨立比對器檢驗最初比對時攜帶突變之序列讀段顯示不一致定位結果(例如與最初比對結果相比定位讀段置放至不同染色體)。(3)與相同基因組座標比對之攜帶突變之序列讀段展示定位品質≤ Q20 (亦即未比對概率<1%);(4)序列讀段具有位於任一讀段末端(亦即5'或3'末端)之5 bp內之突變。此最後一個過濾規則是重要的,因為定序誤差在序列讀段之兩個末端更普遍發生。若攜帶突變之序列讀段當中,低品質序列讀段之比例大於某一臨限值(例如40%),則將捨棄候選突變位點。此再比對攜帶突變之定序讀段之步驟稱作A級過濾準則。
第三,僅超過某一臨限值之突變分率(M%)認為係更可能之真實突變,例如20% (B級過濾準則)及30% (C級過濾準則)。自資訊性SNP估計之胎兒DNA分率可用作參考以設定突變分率之合適臨限值。
第四,因為胎兒衍生DNA分子比彼等母體衍生DNA分子短,吾人已在D級過濾準則中進一步產生尺寸相關過濾參數。攜帶突變型對偶基因及野生型對偶基因之DNA片段之間的中值尺寸之最小差需要為至少某些鹼基對,表示為∆S,例如∆S≥10 bp。亦可使用其他統計測試,例如t-測試、曼-惠特尼U測試、柯爾莫哥羅夫-斯米爾諾夫測試等。吾人測定當應用各連續級之過濾時的重新獲得率及陽性預後值(PPV)。重新獲得率係基於在過濾之後偵測之47種已知新生突變體之比例。PPV指以在母體血漿無細胞DNA定序資料中偵測之所有非母系及非父系變異體之比例形式偵測之真實新生突變體之數目。假陽性新生變異體愈少,PPV愈高。假陽性可由於(且不限於)定序誤差及比對誤差而出現。藉由此方法實現之PPV實質上比先前由Kitzman等人(Sci Transl Med 2012; 137: 137ra76)報導之PPV好。將使用非無PCR之方案製備之母體血漿DNA庫定序至78x涵蓋率已引起鑑定2.5 × 10
7個假陽性,而真實新生突變僅為44。此研究之PPV僅為0.000176%。
作為顯示偵測之假定新生變異體或突變體為胎兒來源之一條確定證據,吾人比較使用不同級之過濾鑑定之新生變異體或突變體之尺寸概況。
圖36A顯示與野生型對偶基因相比,具有使用A級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36B顯示具有使用B級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36C顯示具有使用C級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36D顯示具有使用D級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。如圖36A至36D中所見,藉由D級演算法鑑定之變異體顯示最短尺寸分佈。
圖37顯示與使用不同級之過濾準則,即A、B、C及D鑑定之推定突變對應的ΔF值之概況。衍生自母親及父親均為同型接合但具有不同對偶基因之298,364種資訊性SNP的ΔF值用作參考,其表示胎兒衍生及母體衍生DNA片段之間的累積頻率之差。自D級過濾準則推斷之尺寸概況原來與自資訊性SNP位點推斷之ΔF值最類似,表明在準則D中鑑定之推定新生突變已富集有在胎盤/胎兒中呈現之更多真實突變。
圖38顯示母體血漿樣本及臍帶血中各種突變類型之頻率計數。在圖38中,在血漿中鑑定之突變類似於在臍帶血中開採之彼等突變。此等資料表明在母體血漿中偵測之突變存在於胎兒基因組中,如臍帶血資料所示。
圖39A顯示根據本發明之實施例的不同尺寸過濾之PPV%及重新獲得率之圖。圖39A顯示當不應用額外突變分率(M%)過濾時,改變尺寸過濾參數如何顯著影響PPV%及重新獲得率。圖39B顯示不同突變分率截止值之PPV%及重新獲得率之圖。圖39B顯示當不進行額外∆S過濾時,改變突變分率參數顯著影響PPV%及重新獲得率。
圖40A至40D顯示在不同突變分率截止值下各種尺寸過濾之PPV%及重新獲得率之圖。在M%之不同準則下改變尺寸過濾參數∆S協同影響PPV%及重新獲得率。
圖41為顯示在不同突變分率截止值下之重新獲得率及PPV%隨尺寸截止值變化之曲線的圖。系統圖揭露∆S、M%及PPV%、重新獲得率之間的相互作用。
C. 確認推定新生突變吾人旨在確認及驗證47種新生突變。設計引子以特異性擴增推定新生突變中之每一者,隨後進行父系、母系、胎盤及臍帶血基因組DNA之Sanger定序。結果顯示於圖I中,其顯示48種推定新生突變之新一代定序(NGS)及Sanger定序分析。NGS係指以上提及之大規模平行定序,且「Sanger seq」係指Sanger定序。對偶基因計數顯示於圓括號中以便說明。在臍帶血中但不在胎盤中偵測此等突變(TP5)中之一者。因為母體血漿中之胎兒DNA分子大多來源於胎盤,在母體血漿中將不可偵測臍帶血特異性突變。因此,僅其餘47種胎盤衍生突變對於驗證為相關的。
圖42及43顯示47種新生突變之表格。在圖42及43中,標靶突變之染色體位置顯示於第2列中。在第3列中,顯示在母體血漿中偵測之基因型。主要對偶基因置放在次要對偶基因之前。在第4列中,在突變位點中之每一者處顯示主要對偶基因之讀段與顯示次要對偶基因之讀段之比率經顯示。在後續列中,基於大規模平行定序或新一代定序(NGS)之結果與Sanger定序結果一起顯示。47種突變中之43種僅在胎盤DNA中偵測到但未在父體及母體DNA中偵測到。此意謂91%藉由母體血漿DNA定序鑑定之突變實際上為真實新生突變,且因此Sanger定序確認血漿、母體DNA、父體DNA、胎盤DNA之NGS資料。用於偵測突變TP45之Sanger定序反應失敗。突變TP21、TP30及TP44之分析顯示NGS與Sanger定序之間的不一致結果。
VIII. 用於自人類血漿中之無細胞 DNA 進行 癌症突變偵測之模擬分析使用由妊娠個案產生之定序資料,吾人選擇胎兒自其父親遺傳之3,000個單核苷酸變異體且假設其為由癌症患者中之癌症產生的體細胞突變。換言之,吾人分析母體血漿DNA定序資料,如同其為來自癌症患者之血漿樣品之無細胞DNA定序。吾人隨後確定若當應用D級過濾演算法時,血漿樣品僅定序至25x、50x及100x人類基因組涵蓋率,則將偵測多少個變異體及假陽性。在255x血漿DNA定序資料中隨機選擇分別25x、50x及100x定序資料。
圖44顯示47種新生突變及3,000種推測之體細胞突變之偵測的重新獲得率及PPV。用於表1中之數之D級過濾演算法包括:動態截止值、再比對、突變分率>20%及尺寸過濾10 bp。
吾人隨後藉由電腦模擬進行更廣泛分析。
圖45A至45C及46A至46C顯示在不同突變量下針對各種定序深度及腫瘤分率之模擬。在此組分析中,吾人模擬當吾人具有在25x至800x範圍內之血漿DNA定序深度,腫瘤分率濃度在1%至40%範圍內時且當腫瘤產生之體細胞突變之數目在3,000至30,000範圍內時的情況。所有分析係基於D級過濾演算法。
對於此等模擬中之每一者,偵測之體細胞突變之數目以及假陽性之數目顯示於圖45A至45C及46A至46C中。如圖45A至45C及46A至46C中所示,許多條件將允許與假陽性相比,偵測更多體細胞突變。此等條件將臨床上適用作「突變負荷測試」來評估在血漿DNA分子中存在之突變之負荷。當此水準大於參考範圍(例如與年齡匹配及/或性別匹配對照相比或與自身血細胞DNA相比)時,將懷疑為癌症。此方法將用作偵測癌症之篩選工具。
IX. 用於癌症之方法如上文所描述,實施例可提供精確鑑定測試之個體中之體細胞突變的方法。各種實施例可使用無擴增之定序、具有最少擴增(例如小於2%重複)之定序及各種過濾準則。突變之鑑定可用於確定癌症之等級,以及其他目的。
A. 鑑定突變圖47為說明根據本發明之實施例藉由分析人類個體之生物樣品來鑑定人類個體中之體細胞突變之方法4700的流程圖。生物樣品包括源自正常細胞及潛在地源自腫瘤細胞或與癌症相關之細胞的DNA片段,且生物樣品包括無細胞DNA片段。方法4700可至少部分由電腦系統進行,本文所描述之其他方法亦可如此。
在步驟4710,自欲分析之生物樣品獲得模板DNA片段。模板DNA片段包括無細胞DNA片段。在各種實施例中,來自腫瘤細胞或與癌症相關之細胞的無細胞DNA片段佔生物樣品中之無細胞DNA片段之小於50%、40%、30%、20%、15%、10%、5%或1%。生物樣品可為血漿或血清,或本文中提及之其他類型之樣品或另外包括無細胞DNA之樣品。
在步驟4720,使用模板DNA片段製備可分析DNA分子之定序庫。在一個實施例中,可分析DNA分子之定序庫之製備不包括模板DNA片段之DNA擴增之步驟。在另一實施例中,可進行一些擴增以使得的確出現一些水準之重複。但重複之水準可為極少的。在各種實施方案中,定序庫自模板DNA片段之重複率小於5%、小於2%或小於1%。定序庫中可分析DNA分子之數目可少於在庫製備之前最初存在於生物樣品中之模板DNA片段之數目。
在步驟4730,將可分析DNA分子之定序庫定序以獲得複數個序列讀段。如本文所描述,可使用各種類型之定序程序。可使用各種深度及寬度。作為另一實例,可進行單分子定序。且定序可為甲基化感測定序。
在步驟4740,在電腦系統上接收複數個序列讀段。序列讀段可以任何適合之方式或格式接收,例如經網路自定序機器或在儲存裝置上接收。自定序機器接收之資料可為用於確定鹼基識別之原始強度值。
在步驟4750,電腦可將複數個序列讀段與參考人類基因組比對以確定複數個序列讀段之基因組位置。在各種實施例中,可使用至少30x、35x、40x、50x、75x、100x、150x或200x之定序深度。經比對序列讀段可包含各種份額之參考人類基因組,諸如至少0.1%、1%、5%、10%及15%參考人類基因組。
在步驟4760,電腦系統可獲得人類個體對應之組成基因組的資訊。組成基因組可為人類個體之基因組或與人類個體對應之參考基因組。舉例而言,組成基因組可為指定之人類個體群體的參考基因組。
在步驟4770,電腦系統可將序列讀段與組成基因組比較以將過濾組之基因座鑑定為在人類個體之一些組織中具有體細胞突變。在一個態樣中,在過濾組之各基因座處,相對於組成基因組具有序列變異體之序列讀段之數目高於截止值,其中截止值大於一。截止值可為如本文所描述之動態截止值。截止值可為一種過濾準則且可應用其他者。過濾組可為潛在地使用各種過濾準則之所有過濾步驟之後的最終輸出。
在步驟4780,可使用其他過濾準則來將該過濾組之基因座鑑定為在人類個體之一些組織中具有體細胞突變。此類過濾準則在他處及下文描述。
在步驟4790,鑑定之體細胞突變可用於各種目的。目的之各種實例在以下提供。舉例而言,可測定突變負荷,且用於確定癌症等級。突變可用於設計其他測試,潛在地用於進一步評估患者,且用於確定患者之治療。
應用其他過濾準則之實例在下文以及本文中之其他章節中描述。其他過濾準則可用於將該過濾組之基因座鑑定為在人類個體之一些組織中具有體細胞突變。對於一些過濾準則,可分析鑑定為潛在地具有體細胞突變之一組候選基因座。候選基因座可已使用任何適合之準則,例如固定截止值、動態截止值或其他先前使用之過濾準則鑑定。因此,該組所得候選基因座可為應用另一過濾準則之輸出。
1. 再比對
對於再比對,可分析鑑定為潛在地具有體細胞突變之第一組候選基因座中之每一者。可在再比對程序中進一步分析使用第一比對程序與候選基因座比對且具有序列變異體之序列讀段中之每一者。可判定序列讀段是否使用第二比對程序與候選基因座比對,該第二比對程序使用與第一比對程序所用不同的匹配演算法,例如如第V.B章中所描述。當序列讀段使用第二比對程序與候選基因座再比對時,可確定第二比對程序之再比對之定位品質。
在確定第二比對之定位品質後,可將定位品質與品質臨限值相比較,以便判定序列讀段是否為低品質。可隨後基於定位品質與品質臨限值之比較判定是否捨棄序列讀段。判定可為可捨棄低於臨限值之讀段。在其他實施例中,可基於比較確定分數(例如權重),其中可進行與多個品質臨限值之比較以確定分數,例如各臨限值對應於不同再比對分數。分數可隨後以共同方式與來自一或多種其他過濾準則之分數一起使用以判定是否捨棄讀段。不論特定方式(及包括以上提供之實例),與定位品質大於品質臨限值相比,定位品質小於品質臨限值提供較高的捨棄序列讀段之可能性。
作為此過濾方法之一部分,獲得許多剩餘序列讀段。可將剩餘序列讀段之數目與候選臨限值相比較,候選臨限值可為最初用於鑑定候選基因座之相同臨限值。在關於序列讀段之類似可能性分析中,可基於剩餘序列讀段之數目與候選臨限值之比較來判定是否捨棄候選基因座。分析可基於與臨限值之比較為嚴格的,或使用如上文所提及之評分(加權)系統。無論如何,與剩餘序列讀段之數目大於候選臨限值相比,剩餘序列讀段之數目小於候選臨限值提供較高的捨棄候選基因座之可能性。可使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
2. 尺寸
關於尺寸分析,可分析一組候選基因座中之每一者。可確定具有序列變異體之第一組DNA片段與具有野生型對偶基因之第二組DNA片段之間的尺寸差。本文已描述此等尺寸分析。尺寸差可在兩組之尺寸分佈之任何統計值之間。舉例而言,可使用第一組DNA片段與第二組DNA片段之中值尺寸之差。作為另一實例,第一組與第二組之間的尺寸之累積頻率之最大值。任何尺寸值描述於美國專利公開案2011/0276277及2013/0237431中。
可將尺寸差與尺寸臨限值相比較,該尺寸臨限值可自已知有癌症或經分類之其他狀態之樣品確定。可隨後基於比較判定是否將候選基因座作為潛在突變捨棄。對於其他過濾準則,比較可嚴格地或作為分數使用。無論如何,與尺寸差大於尺寸臨限值相比,尺寸差小於尺寸臨限值提供較高的捨棄候選基因座之可能性。可使用剩餘候選基因座將該過濾組之基因座鑑定為在人類個體中具有體細胞突變。
3. 組蛋白修飾
關於組蛋白修飾,可鑑定已知與有關癌症之組蛋白修飾相關的一組區域。一組候選基因座中之每一者可藉由基於候選基因座是否在該組區域中之一者中判定是否捨棄候選基因座來分析。對於其他過濾準則,比較可嚴格地或作為分數使用。無論如何,與當候選基因座在該組區域中之一者中時相比,候選基因座不在該組區域中之一者中提供較高的捨棄候選基因座之可能性。可使用剩餘候選基因座將該過濾組之基因座鑑定為在人類個體中具有體細胞突變。
4. 突變分率
關於突變分率,可分析一組候選基因座中之每一者。可測定具有序列變異體之序列讀段之分率,且隨後與分率臨限值相比較。可隨後基於比較(例如使用分數或嚴格截止值)判定是否將候選基因座作為潛在突變捨棄。無論如何,與分率大於分率臨限值(例如5%、10%、20%或30%)相比,分率小於分率臨限值提供較高的捨棄候選基因座之可能性。可使用剩餘候選基因座將該過濾組之基因座鑑定為在人類個體中具有體細胞突變。
在一些實施例中,可基於生物樣品中腫瘤DNA之經量測分率濃度來確定分率臨限值。可針對複數個區域中之每一者量測生物樣品中腫瘤DNA之分率濃度(例如使用類似技術但用區域中之一或多個基因座特有之資料)。用於候選基因座之分率臨限值可為針對候選基因座所存在之區域量測之分率濃度。
在另一實施例中,異常區域可用以確定分率臨限值。可鑑定一或多個具有異常複本數之異常區域。用於異常區域中之候選基因座之分率臨限值可視異常區域是否展示複本數增加或複本數損失而定。較高臨限值可用於增加,且較低臨限值用於損失。
一或多個具有異常複本數之異常區域亦可用作判定是否捨棄序列讀段之一部分,以便確定相對於該過濾組之基因座中之每一者的組成基因組,具有序列變異體之序列讀段之數目。來自展示複本數增加之第一異常區域的第一序列讀段比來自展示複本數損失之第二異常區域的第二序列讀段更可能具有體細胞突變。
可藉由分析一組候選基因座鑑定一或多個異常區域。可計算相對於組成基因組之序列變異體之表觀突變分率。可針對複數個區域中之每一者確定候選基因座在異常區域中之表觀突變分率之方差。可將方差與方差臨限值相比較,其中展示複本數增加之異常區域具有大於臨限值之方差。
5. 甲基化狀態
關於甲基化狀態,定序為甲基化感測定序。可分析一組候選基因座中之每一者,其中分析與候選基因座比對且具有序列變異體之序列讀段中之每一者。對於序列讀段,可確定對應可分析DNA分子在一或多個位點(例如CpG位點)處之甲基化狀態。可基於甲基化狀態判定是否捨棄序列讀段。對於其他過濾準則,比較可嚴格地或作為分數使用。無論如何,與甲基化狀態為甲基化相比,甲基化狀態不為甲基化提供較高的捨棄序列讀段之可能性。
可將剩餘序列讀段之數目與候選臨限值相比較,該候選臨限值可與鑑定候選基因座所用相同(對於其他過濾準則之候選臨限值之其他使用亦如此)。在關於序列讀段之類似可能性分析中,可基於剩餘序列讀段之數目與候選臨限值之比較來判定是否捨棄候選基因座。分析可基於與臨限值之比較為嚴格的,或使用如上文所提及之評分(加權)系統。無論如何,與剩餘序列讀段之數目大於候選臨限值相比,剩餘序列讀段之數目小於候選臨限值提供較高的捨棄候選基因座之可能性。可使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
6. 血漿DNA末端位置
關於血漿DNA末端位置,可分析一組候選基因座中之每一者,其中分析與候選基因座比對且具有序列變異體之序列讀段中之每一者。對於序列讀段,可確定與序列讀段之末端所對準之位置對應的末端位置。可將末端位置與複數個癌症特異性或癌症相關末端位置相比較。基於比較判定是否捨棄序列讀段。與末端位置為癌症特異性或癌症相關末端位置相比,末端位置不為癌症特異性或癌症相關末端位置提供較高的捨棄序列讀段之可能性。剩餘數目之序列讀段可用於判定是否捨棄候選基因座。
7. 單股定序
可使用單股定序庫製備方法進行定序,該方法提供後續定序步驟以產生各模板DNA分子之兩股讀段。單股定序庫製備方法之一個實例描述於Snyder等人 Cell 2016; 164: 57-68中。可分析一組候選基因座中之每一者,其中分析與候選基因座比對之各對股讀段。可判定兩股是否皆具有序列變異體。可隨後基於兩股是否皆具有序列變異體來判定是否捨棄序列讀段。與僅一股讀段具有序列變異體相比,兩股皆不具有序列變異體提供較高的捨棄股讀段之可能性。剩餘數目之序列讀段可用於判定是否捨棄候選基因座。
B. 確定癌症等級圖48為說明根據本發明之實施例使用經鑑定體細胞突變來分析個體之生物樣品之方法4800的流程圖。
在步驟4810,鑑定體細胞突變。可如針對圖47之方法4700所描述鑑定體細胞突變。
在步驟4820,使用該過濾組之基因座中之基因座的量測定人類個體之突變負荷。在各種實施例中,突變負荷可以體細胞突變之原始數目、單位鹼基數之體細胞突變密度、基因組區域中鑑定為具有體細胞突變之基因座的百分比、在特定量之樣品中觀測到的體細胞突變數目或與參考負荷相比之增幅測定。
在步驟4830,將突變負荷與癌症臨限值相比較以確定癌症等級。可基於癌症患者與無癌症個體之間的區分確定癌症臨限值。熟習此項技術者將瞭解視所需敏感性及特異性而定可使用不同臨限值。如本文所示,實施例可用於測定可區分健康個體與患有癌症(例如HCC)者之突變負荷。
在步驟4840,當癌症等級指示存在腫瘤時,可確定癌症之來源組織。作為實例,可使用甲基化標記或組蛋白修飾或分析之DNA片段之末端位置分佈作出此類確定。
在使用組蛋白修飾之一個實施例中,測定參考人類基因組之第一複數個區段中之每一者的組蛋白修飾之第一量。可自可獲得的關於哪些基因座與相關組蛋白修飾相關之參考資訊測定此第一量。可測定參考人類基因組之第二複數個區段中之每一者的該過濾組之基因座之第二量。差異區段可隨後彼此相關。因此,可測定具有高於第一臨限值之第一量之組蛋白修飾及具有高於第二臨限值之第二量之該過濾組之基因座的第一組區段。兩個臨限值可相同。臨限值可確保基因組之區段為具有較高組蛋白修飾及大量體細胞突變之彼等區段。量及臨限值可為原始數目或密度(例如每兆鹼基)。
在步驟4850,可根據確定之癌症等級、經鑑定之突變及/或來源組織提供治療。舉例而言,可用特定藥物或化學療法靶向經鑑定之突變。來源組織可用於指導手術。且癌症等級可用於確定任何類型之治療(其亦可基於癌症等級確定)多具侵襲性。
C. 經鑑定突變之其他用途如上文所提及,突變之數目可用作測試個體患有癌症之指示。在一個實施例中,若偵測之突變之數目大於在無癌症個體中偵測之數目,則可將個體分類為具有較高的患有癌症之可能性。
突變組在鑑定後可用於通知設計更多靶向分析(基於以突變負荷形式表示之突變)以用於將來監測患者之癌症、以用於確認目的、以用於更精確量測目的或以用於連續量測目的(與重複徹底定序多次相比其將較便宜)。此等連續量測將適用於追蹤目的,例如看血漿中突變標籤之濃度是否增加(潛在地為不好的預後徵象)或降低(潛在地為良好預後徵象或癌症對所選治療有反應)。
以突變負荷形式偵測之特異性突變將為臨床醫師選擇相關療法或藥物(例如靶向療法)提供資訊。舉例而言,可使用酪胺酸激酶抑制劑來治療在表皮生長因子受體基因中具有特異性突變的癌症。
鑑定之突變譜可用於幫助鑑定腫瘤之部位,因為已發現自不同器官/組織產生之腫瘤具有不同突變圖譜(Polak等人 Nature 2015; 518: 360-364)。亦可提供關於與偵測之突變組有因果關係之環境曝露及致癌物的資訊(Alexandrov等人 Nature 2013; 500: 415-421)。鑑定之突變譜可用於幫助預後。舉例而言,一些突變可為尤其侵襲性或惰性之癌症之標記。
在產前測試的情況下,鑑定之突變組可用於通知設計更多靶向分析(基於以突變負荷形式表示之突變)以便特異性偵測母體血漿中之此等突變。此外,在產前測試的情況下,鑑定之突變組可用於通知臨床醫師對病例進行特別臨床管理之需要。作為一個實例,男性胎兒中偶發性血友病突變之偵測可指示若妊娠女性選擇繼續妊娠足月,在分娩程序期間需要預防措施(例如避免產鉗分娩)。作為另一實例,在無先天性腎上腺增生(CAH)之先前家族病史之家族中偵測到女性胎兒對CAH之突變同型接合或複合異型接合將警示臨床醫師需要對妊娠女性進行早期地塞米松治療,以便降低胎兒生殖器男性化之風險。
X. 胎兒分析之方法圖49為說明根據本發明之實施例藉由分析懷有胎兒之女性個體之生物樣品來鑑定胎兒之新生突變之方法4900的流程圖。生物樣品包括來自胎兒及女性個體之無細胞DNA片段。
在步驟4910,自欲分析之生物樣品獲得模板DNA片段。模板DNA片段包括無細胞DNA片段。步驟4910可以與圖47之步驟4710類似之方式進行。
在步驟4920,使用模板DNA片段製備可分析DNA分子之定序庫。步驟4920可以與圖47之步驟4720類似之方式進行。
在步驟4930,將可分析DNA分子之定序庫定序以獲得複數個序列讀段。步驟4930可以與圖47之步驟4730類似之方式進行。
在步驟4940,在電腦系統上接收複數個序列讀段。步驟4940可以與圖47之步驟4740類似之方式進行。
在步驟4950,電腦可將複數個序列讀段與參考人類基因組比對以確定複數個序列讀段之基因組位置。步驟4950可以與圖47之步驟4750類似之方式進行。
在步驟4960,電腦系統可獲得女性個體之母系基因組及胎兒之父親之父系基因組的資訊。資訊可包括在檢查突變存在之基因座處關於父母之基因型資訊。可經由如熟習此項技術者將已知之任何適合之技術獲得此類基因型資訊。
在步驟4970,電腦系統可將序列讀段與母系基因組及父系基因組比較以將過濾組之基因座鑑定為在胎兒中具有新生突變。在一個態樣中,在過濾組之各基因座處,具有序列變異體不在母系基因組中且不在父系基因組中之序列讀段之數目高於截止值,其中截止值大於一。
在步驟4980,可使用其他過濾準則來將該過濾組之基因座鑑定為在胎兒中具有新生突變。此類過濾準則在他處,例如在第IX章中描述。
在步驟4990,鑑定之新生突變可用於各種目的。此等目的之實例可見於第IX.C章中。
XI. 電腦系統本文中提及之任何電腦系統均可利用任何適合數目之子系統。此類子系統之實例顯示於圖50中電腦設備10中。在一些實施例中,電腦系統包括單一電腦設備,其中子系統可為電腦設備之組件。在其他實施例中,電腦系統可包括具有內部組件之多個電腦設備,其各自為一個子系統。電腦系統可包括桌上型及膝上型電腦、平板電腦、行動電話及其他行動裝置。
顯示於圖50中之子系統經由系統匯流排75互連。顯示額外子系統,諸如印表機74、鍵盤78、儲存裝置79、耦接至顯示器配接器82之監測器76及其他。耦接至I/O控制器71上之周邊裝置及輸入/輸出(I/O)裝置可藉由此項技術中已知之多種手段(諸如輸入/輸出(I/O)端口77 (例如,USB、FireWire
®))連接至電腦系統。舉例而言,I/O端口77或外部介面81 (例如,乙太網路、Wi-Fi等)可用於將電腦系統10連接至廣域網路(諸如,網際網路、鼠標輸入裝置或掃描儀)。經由系統匯流排75之互連允許中央處理器73與各子系統連通且控制來自系統記憶體72或儲存裝置79 (例如固定磁碟,諸如硬碟機或光碟)之指令的執行以及子系統之間資訊的交換。系統記憶體72及/或儲存裝置79可體現電腦可讀媒介。另一子系統為資料收集裝置85,諸如,攝影機、麥克風、加速計及其類似者。本文所提及之任何資料可自一個組件向另一個組件輸出且可向使用者輸出。
電腦系統可包括(例如)藉由外部介面81或藉由內部介面連接在一起的複數個相同組件或子系統。在一些實施例中,電腦系統、子系統或設備可經網路連通。在該等情況下,可將一個電腦視為用戶端且另一個電腦視為伺服器,其中每一者可為同一電腦系統之一部分。用戶端及伺服器各自可包括多個系統、子系統或組件。
應理解本發明之任何實施例可以控制邏輯形式以模組或積體方式使用硬體(例如特殊應用積體電路或場可程式閘極陣列)及/或使用通用可程式化處理器之電腦軟體來執行。如本文中所使用,處理器包括位於同一積體晶片上之單核心處理器、多核心處理器,或位於單一電路板上或網路化之多個處理單元。基於本發明及本文所提供之教示,一般熟習此項技術者將知道及瞭解使用硬體及硬體與軟體之組合來實施本發明之實施例的其他方式及/或方法。
描述於本申請案中之任何軟體組件或功能可作為待由處理器執行的使用任何適合之電腦語言(諸如Java、C、C++、C#、Objective-C、Swift)或腳本語言(諸如Perl或Python)的軟體程式碼使用例如習知或目標定向技術來執行。軟體程式碼可儲存為用於儲存及/或傳輸之電腦可讀媒介上的一系列指令或命令,適合之媒介包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒介(諸如硬碟機或軟性磁碟)或光學媒介(諸如光碟(CD)或DVD (數位化通用光碟))、快閃記憶體及其類似物。電腦可讀媒介可為該等儲存或傳輸裝置之任何組合。
該等程序亦可使用適用於經由有線、光學及/或符合多種協定之無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因此,可使用以此等程式編碼之資料信號產生根據本發明之實施例的電腦可讀媒介。以程式碼編碼之電腦可讀媒介可與相容裝置一起封裝或與其他裝置分開單獨提供(例如藉助於網際網路下載)。任何此等電腦可讀媒介可存在於單一電腦產品(例如,硬碟機、CD或整個電腦系統)上或其內部,且可存在於系統或網路內之不同電腦產品上或其內部。電腦系統可包括用於向使用者提供本文所提及之任何結果的監測器、印表機、或其他適合之顯示器。
本文所描述之任何方法可完全或部分地使用電腦系統來進行,該電腦系統包括一或多個處理器,該等處理器可經組態以執行該等步驟。因此,實施例可針對經組態以執行本文所描述之任何方法之步驟的電腦系統,潛在地使用不同組件執行各別步驟或各別步驟組。儘管本文中方法之步驟以經編號之步驟呈現,但其可同時或以不同次序執行。另外,此等步驟之部分可與其他方法之其他步驟之部分一起使用。另外,步驟之全部或部分可視情況選用。另外,任何方法之任何步驟皆可使用執行此等步驟之模組、電路或其他構件來執行。
可在不脫離本發明之實施例的精神及範疇的情況下以任何適合之方式組合特定實施例之特定細節。然而,本發明之其他實施例可針對與各個別態樣或此等個別態樣之特定組合相關的特定實施例。
已出於說明及描述之目的呈現本發明之實例實施例的上述描述。該描述並不意欲為窮盡性的或將本發明限制於所描述之精確形式,且鑒於上文教示,許多修改及變化為可能的。
除非特別指示相反,否則「一(a/an)」或「該(the)」之敍述欲意謂「一或多個」。除非明確指示相反,否則「或」之使用欲意謂「包括或」而並非「互斥或」。
本文所提及之所有專利、專利申請案、公開案及描述均出於所有目的以全文引用之方式併入。不容許任一者為先前技術。
無過濾 | 包括具有HCC特定末端之突變(過濾1) | 移除具有共有或妊娠特定末端之讀段(過濾2) | 應用兩種過濾演算法 | |
鑑定之推定突變的數目 | 20,065 | 1,526 | 2,823 | 484 |
偵測之真實突變之百分比 | 91% | 29% | 88% | 40% |
PPV | 4% | 17% | 28% | 71% |
10:電腦系統/電腦設備
71:I/O控制器
72:系統記憶體
73:中央處理器
74:印表機
75:系統匯流排
76:監測器
77:輸入/輸出(I/O)端口
78:鍵盤
79:儲存裝置
81:外部介面
82:顯示器配接器
85:資料收集裝置
100:表格
200:表格
300:圖
600:圖
700:過濾方法
800:圖
900:過濾方法
1100:過濾方法
1200:過濾方法
1300:過濾方法
1400:圖
1500:過濾方法
1600:圖
1800:表格
1900:表格
2000:過濾方法
2100:圖
2200:圖
2300:表格
2400:表格
2500:過濾方法
2600:圖
2700:過濾方法
2800:圖
2900:過濾方法
3000:過濾方法
3100:表格
3500:過濾方法
4700:方法
4710:步驟
4720:步驟
4730:步驟
4740:步驟
4750:步驟
4760:步驟
4770:步驟
4780:步驟
4790:步驟
4800:方法
4810:步驟
4820:步驟
4830:步驟
4840:步驟
4850:步驟
4900:方法
4910:步驟
4920:步驟
4930:步驟
4940:步驟
4950:步驟
4960:步驟
4970:步驟
4980:步驟
4990:步驟
圖1顯示癌症中前28種最常鑑定之突變的表格100。
圖2為表格200,其顯示將針對不同腫瘤DNA分率、定序深度、每個基因組之突變數及所搜尋之基因組之分率進行偵測的預期突變數。
圖3為圖300,其顯示得自PCR複製之序列讀段百分比與定序深度之間的關係。
圖4A及4B顯示PCR及無PCR方案根據本發明之實施例偵測各種腫瘤DNA分率下之癌症個體血漿中之癌症相關突變所需要的定序深度之間的比較。
圖5為文氏圖(Venn diagram),其根據本發明之實施例顯示HCC個案所特有、妊娠女性所特有或兩種個案共有之頻繁末端位置之數目。
圖6為顯示HCC患者之1-Mb區段之增加、減少或無變化的圖600。
圖7顯示過濾方法700,其使用動態截止值、再比對及突變分率,及根據本發明之實施例自腫瘤活檢體鑑定之突變之所得資料。
圖8顯示與鑑定為具有野生型對偶基因之血漿DNA片段之尺寸相比,HCC患者之鑑定為具有突變型對偶基因之血漿DNA片段之尺寸的圖800。
圖9顯示過濾方法900,其使用動態截止值、再比對及突變分率,及根據本發明之實施例自相鄰正常肝活檢體鑑定之突變之所得資料。
圖10A及10B顯示攜帶自相鄰正常肝活檢體鑑定之203種推定突變的血漿DNA片段之評估尺寸概況與其他非資訊性血漿DNA分子提供之尺寸的比較。
圖11顯示過濾方法1100 (其使用動態截止值、再比對、突變分率及尺寸),及根據本發明之實施例自血漿鑑定之突變之所得資料。
圖12顯示過濾方法1200,及根據本發明之實施例使用較低突變分率截止值自血漿鑑定之突變之所得資料。
圖13顯示過濾方法1300 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自血漿鑑定之突變之所得資料。
圖14顯示與鑑定為具有野生型對偶基因之血漿DNA片段之尺寸相比,使用血漿鑑定為具有突變型對偶基因之血漿DNA片段之尺寸的圖1400。
圖15顯示過濾方法1500,及根據本發明之實施例使用增加之定序深度自血漿鑑定之突變之所得資料。
圖16為顯示具有各種突變分率值之基因座之數目(密度)的圖1600。
圖17A顯示染色體臂1p及1q上之分佈的z分數。圖17B顯示染色體臂1p及1q上之表觀突變分率。
圖18為表格,其根據本發明之實施例顯示根據各種突變分率的突變偵測預測敏感度及根據某些對偶基因計數截止值之定序深度。
圖19為表格1900,其根據本發明之實施例顯示根據各種突變分率的突變偵測預測敏感度及在0.1%之假陽性偵測率下根據某些對偶基因計數截止值之定序深度。
圖20顯示過濾方法2000,及根據本發明之實施例使用較不嚴格動態截止值自血漿鑑定之突變之所得資料。
圖21為顯示胎兒及癌症情況之推定突變數之分佈的圖2100。
圖22為顯示當使用再比對時胎兒及癌症情況之推定突變數之分佈的圖2200。
圖23為根據本發明之實施例顯示在無再比對的情況下各種尺寸截止值之PPV及重新獲得率的表格2300。
圖24為根據本發明之實施例顯示在再比對之情況下各種尺寸截止值之PPV及重新獲得率的表格2400。
圖25顯示過濾方法2500 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自臍帶血漿鑑定之突變之所得資料。
圖26為根據本發明實施例之利用方法2500確定之突變DNA片段及野生型對偶基因之尺寸分佈的圖2600。
圖27顯示過濾方法2700 (其使用動態截止值、再比對及尺寸),及根據本發明之實施例自HCC樣品之血漿鑑定之突變之所得資料。
圖28為根據本發明實施例之利用方法2700確定之突變DNA片段及野生型對偶基因之尺寸分佈的圖2800。
圖29顯示過濾方法2900,其根據本發明之實施例,針對自臍帶血漿鑑定之突變使用基於SNP之過濾過濾方法。
圖30顯示過濾方法3000,其根據本發明實施例,針對自HCC血漿鑑定之突變使用基於SNP之過濾過濾方法。
圖31為顯示組織與組蛋白修飾之相關性的表格3100。
圖32顯示在個別SNP位點量測之胎兒分率之頻率分佈。
圖33A顯示母體血漿中胎兒特異性DNA及共有DNA之尺寸分佈。圖33B顯示胎兒特異性及共有DNA片段之血漿DNA尺寸之累積頻率的圖。圖33C顯示表示為ΔF之累積頻率差。
圖34A顯示具有突變型對偶基因之血漿DNA片段之尺寸分佈。圖34B顯示突變型對偶基因及野生型對偶基因之血漿DNA尺寸之累積頻率的圖。圖34C顯示表示為ΔF之累積頻率差。
圖35顯示過濾方法3500 (其使用動態截止值、再比對及突變分率及尺寸截止)及根據本發明之實施例自血漿鑑定之新生突變之所得資料。
圖36A顯示與野生型對偶基因相比,具有使用A級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36B顯示具有使用B級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36C顯示具有使用C級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。圖36D顯示具有使用D級過濾準則在血漿中鑑定之推定突變的DNA片段之尺寸概況。
圖37顯示與使用不同級之過濾準則,即A、B、C及D鑑定之推定突變對應的ΔF值之概況。
圖38顯示母體血漿樣品及臍帶血中各種突變類型之頻率計數。
圖39A顯示根據本發明之實施例的不同尺寸過濾之PPV%及重新獲得率之圖。圖39B顯示不同突變型分率截止值之PPV%及重新獲得率之圖。
圖40A至40D顯示在不同突變型分率截止值下各種尺寸過濾之PPV%及重新獲得率之圖。
圖41為顯示在不同突變型分率截止值下之重新獲得率及PPV%隨尺寸截止值變化之曲線的圖。
圖42及43顯示47種新生突變之表格。
圖44顯示47種新生突變及3,000種推測之體細胞突變之偵測的重新獲得率及PPV。
圖45A至45C及46A至46C顯示在不同突變量下針對各種定序深度及腫瘤分率之模擬。
圖47為說明根據本發明之實施例藉由分析人類個體之生物樣品來鑑定人類個體中之體細胞突變之方法4700的流程圖。
圖48為說明根據本發明之實施例使用經鑑定體細胞突變來分析個體之生物樣品之方法4800的流程圖。
圖49為說明根據本發明之實施例藉由分析懷有胎兒之女性個體之生物樣品來鑑定胎兒之新生突變之方法4900的流程圖。
圖50顯示可與根據本發明之實施例的系統及方法一起使用的實例電腦系統10的方塊圖。
100:表格
Claims (10)
- 一種藉由分析人類個體之生物樣品來鑑定該人類個體中基於腫瘤的突變之方法,該生物樣品包括無細胞(cell-free) DNA片段,該方法包含: 獲得該人類個體對應之組成基因組的資訊; 接收該生物樣品中之複數個DNA片段中每一者的一或多個序列讀段,藉以獲得複數個序列讀段; 使用第一比對程序將該複數個序列讀段與參考人類基因組比對以確定該複數個序列讀段之基因組位置; 比較該等序列讀段與該組成基因組以鑑定該人類個體之一或多個組織中之序列變異體; 對於鑑定為潛在具有體細胞突變之第一組候選基因座中之每一候選基因座: 對於使用該第一比對程序與該候選基因座比對且具有序列變異體之該等序列讀段中之每一者: 藉由判定該序列讀段是否使用第二比對程序與該候選基因座比對,該第二比對程序使用與該第一比對程序所用不同的匹配演算法,以產生該序列讀段之定位品質; 比較定位品質與品質臨限值;及 基於該定位品質與品質臨限值之比較判定該序列讀段之第一加權,其中相對於該定位品質高於該品質臨限質,該定位品質低於該品質臨限值產生較低第一權重; 比較以該等序列讀段之每一者之第一權重判斷之分數及各別候選臨限值;及 基於該分數與該各別候選臨限值之比較來判定是否捨棄該候選基因座,其中與該分數大於該各別候選臨限值相比,該分數小於該各別候選臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將過濾組之基因座鑑定為具有體細胞突變。
- 一種藉由分析人類個體之生物樣品來鑑定該人類個體中體細胞突變之方法,該生物樣品包括源自正常細胞及潛在地源自腫瘤細胞或與癌症相關細胞的DNA片段,該生物樣品包括無細胞DNA片段,該方法包含藉由電腦系統進行: 獲得該人類個體對應之組成基因組的資訊; 接收該生物樣品中之複數個DNA片段中每一者的一或多個序列讀段,藉以獲得複數個序列讀段; 使用第一比對程序將該複數個序列讀段與參考人類基因組比對以確定該複數個序列讀段之基因組位置; 比較該等序列讀段與該組成基因組以將過濾組之基因座鑑定為該人類個體之一些組織中具有體細胞突變,其中: 在該過濾組之各基因座,相對於該組成基因組該等具有序列變異體之序列讀段之數目高於截止值,該截止值大於一; 對於鑑定為潛在具有體細胞突變之第一組候選基因座中之每一候選基因座: 對於使用該第一比對程序與該候選基因座比對且具有該序列變異體之該等序列讀段中之每一序列讀段: 藉由判定該序列讀段是否使用第二比對程序與該候選基因座比對,該第二比對程序使用與該第一比對程序所用不同的匹配演算法,以產生該序列讀段之定位品質; 比較定位品質與品質臨限值;及 基於該定位品質與該品質臨限值之比較來判定是否捨棄該序列讀段,其中與該定位品質高於該品質臨限值相比,該定位品質低於該品質臨限值提供較高捨棄該序列讀段之可能性,藉此獲得剩餘序列讀段之數目; 比較剩餘序列讀段之數目與候選臨限值;及 基於剩餘序列讀段之數目與該候選臨限值之比較來判定是否捨棄該候選基因座,其中與剩餘序列讀段之數目大於該候選臨限值相比,剩餘序列讀段之數目小於該候選臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
- 如請求項1或2之方法,其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一者: 確定具有該序列變異體之第一組DNA片段與具有野生型對偶基因之第二組DNA片段之間的尺寸(size)差; 比較該尺寸差與尺寸臨限值; 基於該比較來判定是否將該候選基因座作為潛在突變捨棄,其中與該尺寸差大於該尺寸臨限值相比,該尺寸差小於該尺寸臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為該人類個體中具有體細胞突變。
- 一種藉由分析人類個體之含有無細胞DNA片段的生物樣品來鑑定該人類個體中基於腫瘤之突變之方法,該方法包括: 獲得該人類個體對應之組成基因組的資訊;及 接收該生物樣品中之複數個DNA片段中每一者的一或多個序列讀段,藉以獲得複數個序列讀段; 使用第一比對程序將該複數個序列讀段與參考人類基因組比對以確定該複數個序列讀段之基因組位置; 比較該等序列讀段與該組成基因組以鑑定該人類個體之一些組織中之序列變異體; 對於鑑定為潛在具有體細胞突變之第一組候選基因座中之每一候選基因座: 確定具有序列變異體之第一組DNA片段與具有野生型對偶基因之第二組DNA片段之間的尺寸差; 比較該尺寸差與尺寸臨限值;及 基於該尺寸差與尺寸臨限值之比較來判定候選基因座之分數,其中與該尺寸差大於該尺寸臨限值相比,該尺寸差小於該尺寸臨限值產生較低分數;及 使用第一組候選基因座之每一者的分數將過濾組之基因座鑑定為該人類個體中具有體細胞突變。
- 如請求項1、2或4中任一項之方法,其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 鑑定已知與癌症相關之組蛋白修飾相關之一組區域; 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一者: 判定該候選基因座是否在該組區域之一者中; 基於該候選基因座是否在該組區域之一者中來判定是否捨棄該候選基因座,其中與該候選基因座在該組區域之一者中相比,該候選基因座不在該組區域之一者中提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
- 如請求項1、2或4中任一項之方法,其進一步包含: 使用該過濾組之基因座中基因座的量測定該人類個體之突變負荷;及 比較該突變負荷與癌症臨限值以確定癌症等級(level)。
- 如請求項1、2或4中任一項之方法,其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一候選基因座: 確定具有該序列變異體之序列讀段之分率(fraction); 比較該分率與分率臨限值;及 基於該比較來判定是否將該候選基因座作為潛在突變捨棄,其中與該分率大於該分率臨限值相比,該分率小於該分率臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為該人類個體中具有體細胞突變。
- 如請求項1、2或4中任一項之方法,其中該定序為甲基化感測(aware)定序,且其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一候選基因座: 對於與該候選基因座比對且具有該序列變異體之該等序列讀段中之每一序列讀段: 確定對應之可分析DNA分子在一或多個位點之甲基化狀態; 基於該甲基化狀態判定是否捨棄該序列讀段,其中與該甲基化狀態為甲基化相比,該甲基化狀態不為甲基化提供較高捨棄該序列讀段之可能性,藉此獲得剩餘序列讀段之數目; 比較剩餘序列讀段之數目與候選臨限值;及 基於剩餘序列讀段之數目與該候選臨限值之比較來判定是否捨棄該候選基因座,其中與剩餘序列讀段之數目大於該候選臨限值相比,剩餘序列讀段之數目小於該候選臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
- 如請求項1、2或4中任一項之方法,其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一候選基因座: 對於與該候選基因座比對且具有該序列變異體之該等序列讀段中之每一序列讀段: 確定與該序列讀段之末端對準之對應末端位置; 比較該末端位置與複數個癌症特異性或癌症相關末端位置;及 基於該比較來判定是否捨棄該序列讀段,其中與該末端位置為複數個癌症特異性或癌症相關末端位置之一相比,該末端位置不為複數個癌症特異性或癌症相關末端位置之一提供較高捨棄該序列讀段之可能性,藉此獲得剩餘序列讀段之數目; 比較剩餘序列讀段之數目與候選臨限值;及 基於剩餘序列讀段之數目與該候選臨限值之比較來判定是否捨棄該候選基因座,其中與剩餘序列讀段之數目大於該候選臨限值相比,剩餘序列讀段之數目小於該候選臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
- 如請求項1、2或4中任一項之方法,其中該定序係使用單股定序庫製備方法進行,該方法提供後續定序步驟以產生各模板DNA分子之兩股讀段,其中將該過濾組之基因座鑑定為該人類個體之一或多個組織中具有體細胞突變進一步包括: 對於鑑定為潛在具有體細胞突變之第二組候選基因座中之每一候選基因座: 對於與該候選基因座比對之各對股讀段: 判定兩股是否皆具有該序列變異體; 基於兩股是否皆具有該序列變異體來判定是否捨棄該序列讀段,其中與僅一股讀段具有該序列變異體相比,兩股皆不具有該序列變異體提供較高捨棄該等股讀段之可能性,藉此獲得剩餘序列讀段之數目; 比較剩餘序列讀段之數目與候選臨限值;及 基於剩餘序列讀段之數目與該候選臨限值之比較來判定是否捨棄該候選基因座,其中與剩餘序列讀段之數目大於該候選臨限值相比,剩餘序列讀段之數目小於該候選臨限值提供較高捨棄該候選基因座之可能性;及 使用剩餘候選基因座將該過濾組之基因座鑑定為具有體細胞突變。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562114471P | 2015-02-10 | 2015-02-10 | |
US62/114,471 | 2015-02-10 | ||
US201562271196P | 2015-12-22 | 2015-12-22 | |
US62/271,196 | 2015-12-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202400808A true TW202400808A (zh) | 2024-01-01 |
Family
ID=56615337
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105104407A TWI740817B (zh) | 2015-02-10 | 2016-02-15 | 偵測突變以用於癌症篩選及胎兒分析 |
TW110131934A TWI817187B (zh) | 2015-02-10 | 2016-02-15 | 偵測突變以用於癌症篩選分析 |
TW112132531A TW202400808A (zh) | 2015-02-10 | 2016-02-15 | 偵測突變以用於癌症篩選分析 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105104407A TWI740817B (zh) | 2015-02-10 | 2016-02-15 | 偵測突變以用於癌症篩選及胎兒分析 |
TW110131934A TWI817187B (zh) | 2015-02-10 | 2016-02-15 | 偵測突變以用於癌症篩選分析 |
Country Status (15)
Country | Link |
---|---|
US (3) | US10240209B2 (zh) |
EP (2) | EP3256605B1 (zh) |
JP (3) | JP6829211B2 (zh) |
KR (1) | KR20170125044A (zh) |
CN (2) | CN113957124A (zh) |
AU (2) | AU2016218631B2 (zh) |
CA (1) | CA2976303A1 (zh) |
DK (1) | DK3256605T3 (zh) |
ES (1) | ES2908347T3 (zh) |
HK (2) | HK1244515A1 (zh) |
HU (1) | HUE058263T2 (zh) |
PT (1) | PT3256605T (zh) |
SG (1) | SG11201706529TA (zh) |
TW (3) | TWI740817B (zh) |
WO (1) | WO2016127944A1 (zh) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI335354B (en) | 2006-09-27 | 2011-01-01 | Univ Hong Kong Chinese | Methods for the detection of the degree of the methylation of a target dna and kits |
US9260753B2 (en) | 2011-03-24 | 2016-02-16 | President And Fellows Of Harvard College | Single cell nucleic acid detection and analysis |
US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
US10876152B2 (en) | 2012-09-04 | 2020-12-29 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
CA2883901C (en) | 2012-09-04 | 2023-04-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US11913065B2 (en) | 2012-09-04 | 2024-02-27 | Guardent Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
US20160040229A1 (en) | 2013-08-16 | 2016-02-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
EP3561072A1 (en) | 2012-12-10 | 2019-10-30 | Resolution Bioscience, Inc. | Methods for targeted genomic analysis |
EP3087204B1 (en) | 2013-12-28 | 2018-02-14 | Guardant Health, Inc. | Methods and systems for detecting genetic variants |
DK3543356T3 (da) | 2014-07-18 | 2021-10-11 | Univ Hong Kong Chinese | Analyse af methyleringsmønster af væv i DNA-blanding |
EP3172341A4 (en) | 2014-07-25 | 2018-03-28 | University of Washington | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
US10364467B2 (en) | 2015-01-13 | 2019-07-30 | The Chinese University Of Hong Kong | Using size and number aberrations in plasma DNA for detecting cancer |
CN113957124A (zh) | 2015-02-10 | 2022-01-21 | 香港中文大学 | 用于癌症筛查和胎儿分析的突变检测 |
HUE057821T2 (hu) | 2015-07-23 | 2022-06-28 | Univ Hong Kong Chinese | Sejtmentes DNS fragmentációs mintázatának elemzése |
ES2856598T3 (es) | 2015-11-11 | 2021-09-27 | Resolution Bioscience Inc | Construcción de alta eficiencia de bibliotecas de ADN |
CN108603228B (zh) | 2015-12-17 | 2023-09-01 | 夸登特健康公司 | 通过分析无细胞dna确定肿瘤基因拷贝数的方法 |
US11514289B1 (en) | 2016-03-09 | 2022-11-29 | Freenome Holdings, Inc. | Generating machine learning models using genetic data |
US20190114464A1 (en) * | 2016-03-10 | 2019-04-18 | Genomic Vision | Method of curvilinear signal detection and analysis and associated platform |
CN109804086B (zh) | 2016-08-10 | 2023-06-13 | 格里尔公司 | 制备双标签dna库用于亚硫酸盐转化定序的方法 |
RU2019108294A (ru) | 2016-08-25 | 2020-09-25 | Резолюшн Байосайенс, Инк. | Способы обнаружения изменений количества геномных копий в образцах днк |
US9850523B1 (en) | 2016-09-30 | 2017-12-26 | Guardant Health, Inc. | Methods for multi-resolution analysis of cell-free nucleic acids |
KR102344635B1 (ko) | 2016-09-30 | 2021-12-31 | 가던트 헬쓰, 인크. | 무세포 핵산의 다중-해상도 분석 방법 |
AU2017347790B2 (en) * | 2016-10-24 | 2024-06-13 | Grail, Inc. | Methods and systems for tumor detection |
KR20230062684A (ko) | 2016-11-30 | 2023-05-09 | 더 차이니즈 유니버시티 오브 홍콩 | 소변 및 기타 샘플에서의 무세포 dna의 분석 |
EP3559259A4 (en) * | 2016-12-21 | 2020-08-26 | The Regents of the University of California | DECONVOLUTION AND DETECTION OF RARE DNA IN PLASMA |
EP4421489A2 (en) * | 2017-01-25 | 2024-08-28 | The Chinese University of Hong Kong | Diagnostic applications using nucleic acid fragments |
EP3366780B1 (en) * | 2017-02-23 | 2020-05-06 | Siemens Healthcare GmbH | Single-molecule sequence and high sensitivity methylation analysis for tissue-specific analysis |
IT201700045353A1 (it) * | 2017-04-26 | 2018-10-26 | Bioscience Services S R L | Metodo per la ricerca e l'individuazione di una condizione genetica prodromica all'insorgenza di tumori solidi |
CN118711654A (zh) * | 2017-05-16 | 2024-09-27 | 夸登特健康公司 | 无细胞dna的体细胞来源或种系来源的鉴定 |
US10081829B1 (en) | 2017-06-13 | 2018-09-25 | Genetics Research, Llc | Detection of targeted sequence regions |
US10636512B2 (en) | 2017-07-14 | 2020-04-28 | Cofactor Genomics, Inc. | Immuno-oncology applications using next generation sequencing |
EP3431610A1 (en) * | 2017-07-19 | 2019-01-23 | Noscendo GmbH | Methods and devices for nucleic acid-based real-time determination of disease states |
DK3658684T3 (da) | 2017-07-26 | 2023-10-09 | Univ Hong Kong Chinese | Forbedring af cancerscreening ved hjælp af cellefrie, virale nukleinsyrer |
EP3676846A1 (en) * | 2017-10-06 | 2020-07-08 | Grail, Inc. | Site-specific noise model for targeted sequencing |
WO2019090156A1 (en) * | 2017-11-03 | 2019-05-09 | Guardant Health, Inc. | Normalizing tumor mutation burden |
CA3067229A1 (en) * | 2017-12-01 | 2019-06-06 | Illumina, Inc. | Methods and systems for determining somatic mutation clonality |
CN111868263A (zh) * | 2018-01-12 | 2020-10-30 | 格瑞尔公司 | 分析病毒核酸的方法 |
CA3094717A1 (en) | 2018-04-02 | 2019-10-10 | Grail, Inc. | Methylation markers and targeted methylation probe panels |
US20210158895A1 (en) * | 2018-04-13 | 2021-05-27 | Dana-Farber Cancer Institute, Inc. | Ultra-sensitive detection of cancer by algorithmic analysis |
US20210104297A1 (en) * | 2018-04-16 | 2021-04-08 | Grail, Inc. | Systems and methods for determining tumor fraction in cell-free nucleic acid |
US20210115520A1 (en) * | 2018-04-24 | 2021-04-22 | Grail, Inc. | Systems and methods for using pathogen nucleic acid load to determine whether a subject has a cancer condition |
CN108900319B (zh) * | 2018-05-30 | 2021-05-25 | 北京百度网讯科技有限公司 | 故障检测方法和装置 |
KR20210038577A (ko) * | 2018-07-23 | 2021-04-07 | 가던트 헬쓰, 인크. | 종양 분율 및 커버리지에 의해 종양 돌연변이 부담을 조정하기 위한 방법 및 시스템 |
WO2020023671A1 (en) * | 2018-07-24 | 2020-01-30 | Protocol Intelligence, Inc. | Methods and systems for treating cancer and predicting and optimizing treatment outcomes in individual cancer patients |
EP3827091A4 (en) * | 2018-07-26 | 2022-04-27 | Lexent Bio, Inc. | MULTIPLE SEQUENCING USING A SINGLE-FLOW CELL |
CN109022619A (zh) * | 2018-08-27 | 2018-12-18 | 郑州安图生物工程股份有限公司 | 一种用于检测人类疱疹病毒4型的试剂盒 |
CN113286881A (zh) | 2018-09-27 | 2021-08-20 | 格里尔公司 | 甲基化标记和标靶甲基化探针板 |
KR20210089240A (ko) * | 2018-11-13 | 2021-07-15 | 미리어드 제네틱스, 인크. | 체세포성 돌연변이를 위한 방법 및 시스템 그리고 그 용도 |
ES2968457T3 (es) * | 2018-12-19 | 2024-05-09 | Univ Hong Kong Chinese | Características de los extremos del ADN extracelular circulante |
US11643693B2 (en) | 2019-01-31 | 2023-05-09 | Guardant Health, Inc. | Compositions and methods for isolating cell-free DNA |
CN109841265B (zh) * | 2019-02-22 | 2021-09-21 | 清华大学 | 使用片段化模式确定血浆游离核酸分子组织来源的方法和系统及应用 |
CA3140066A1 (en) * | 2019-05-20 | 2020-11-26 | Foundation Medicine, Inc. | Systems and methods for evaluating tumor fraction |
EP3977459A1 (en) * | 2019-06-03 | 2022-04-06 | Illumina, Inc. | Limit of detection based quality control metric |
WO2020257605A1 (en) * | 2019-06-21 | 2020-12-24 | Coopersurgical, Inc. | Systems and methods for using density of single nucleotide variations for the verification of copy number variations in human embryos |
US20210065842A1 (en) * | 2019-07-23 | 2021-03-04 | Grail, Inc. | Systems and methods for determining tumor fraction |
JP2022544626A (ja) * | 2019-08-19 | 2022-10-19 | グリーン クロス ゲノム コーポレーション | 核酸断片間距離情報を用いた染色体異常検出方法 |
WO2021137770A1 (en) * | 2019-12-30 | 2021-07-08 | Geneton S.R.O. | Method for fetal fraction estimation based on detection and interpretation of single nucleotide variants |
US11475981B2 (en) | 2020-02-18 | 2022-10-18 | Tempus Labs, Inc. | Methods and systems for dynamic variant thresholding in a liquid biopsy assay |
US11211144B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Methods and systems for refining copy number variation in a liquid biopsy assay |
US11211147B2 (en) | 2020-02-18 | 2021-12-28 | Tempus Labs, Inc. | Estimation of circulating tumor fraction using off-target reads of targeted-panel sequencing |
JP2023553113A (ja) * | 2020-12-08 | 2023-12-20 | ザ チャイニーズ ユニバーシティ オブ ホンコン | 尿及び他のdnaの特徴を使用する方法 |
CN113628683B (zh) * | 2021-08-24 | 2024-04-09 | 慧算医疗科技(上海)有限公司 | 一种高通量测序突变检测方法、设备、装置及可读存储介质 |
WO2023129983A1 (en) * | 2021-12-29 | 2023-07-06 | AiOnco, Inc. | Processing encrypted data for artificial intelligence-based analysis |
CN114582429B (zh) * | 2022-03-03 | 2023-06-13 | 四川大学 | 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置 |
KR102491322B1 (ko) * | 2022-03-29 | 2023-01-27 | 주식회사 아이엠비디엑스 | 암 진단을 위한 다중 분석 예측 모델의 제조 방법 |
WO2023225659A2 (en) * | 2022-05-19 | 2023-11-23 | Personalis, Inc. | Methods and system for using methylation data for disease detection and quantification |
CN115394358B (zh) * | 2022-08-31 | 2023-05-12 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN117153253B (zh) * | 2022-09-09 | 2024-05-07 | 南京金斯瑞生物科技有限公司 | 一种设计人源化抗体序列的方法 |
CN115424666B (zh) * | 2022-09-13 | 2023-07-11 | 江苏先声医学诊断有限公司 | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 |
US20240229149A1 (en) * | 2023-01-09 | 2024-07-11 | Clearnote Health, Inc. | 5-HYDROXYMETHYLATION ANALYSIS OF BUFFY COAT gDNA IN CANCER DETECTION |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NZ514818A (en) | 1999-04-02 | 2004-04-30 | Corixa Corp | Compounds and methods for therapy and diagnosis of lung cancer |
US20030219765A1 (en) | 2000-03-23 | 2003-11-27 | Jose Costa | Methods for evaluating cancer risk |
WO2003062441A1 (en) | 2002-01-18 | 2003-07-31 | Genzyme Corporation | Methods for fetal dna detection and allele quantitation |
US7704687B2 (en) | 2002-11-15 | 2010-04-27 | The Johns Hopkins University | Digital karyotyping |
US8394582B2 (en) | 2003-03-05 | 2013-03-12 | Genetic Technologies, Inc | Identification of fetal DNA and fetal cell markers in maternal plasma or serum |
PL201608B1 (pl) | 2003-06-13 | 2009-04-30 | Cezary Cybulski | Sposób i zestaw do wykrywania wysokiej genetycznie uwarunkowanej predyspozycji do raka prostaty oraz zastosowanie zmiany germinalnej w obrębie genu NBS1 |
EP1524321B2 (en) | 2003-10-16 | 2014-07-23 | Sequenom, Inc. | Non-invasive detection of fetal genetic traits |
WO2005108621A1 (en) | 2004-04-30 | 2005-11-17 | Yale University | Methods and compositions for cancer diagnosis |
US20070122823A1 (en) | 2005-09-01 | 2007-05-31 | Bianchi Diana W | Amniotic fluid cell-free fetal DNA fragment size pattern for prenatal diagnosis |
ES2595373T3 (es) | 2006-02-02 | 2016-12-29 | The Board Of Trustees Of The Leland Stanford Junior University | Prueba genética no invasiva mediante análisis digital |
EP2351858B1 (en) | 2006-02-28 | 2014-12-31 | University of Louisville Research Foundation | Detecting fetal chromosomal abnormalities using tandem single nucleotide polymorphisms |
WO2008024009A1 (fr) | 2006-08-15 | 2008-02-28 | Institut Molekulyarnoi Genetiki Rossiiskoi Akademii Nauk (Img Ran) | Niveau de transcription du gène timp3 utilisé en tant que marqueur servant à diagnostiquer le cancer du poumon non à petites cellules |
EP2164984A2 (en) | 2007-05-25 | 2010-03-24 | Decode Genetics EHF. | Genetic variants on chr 5pl2 and 10q26 as markers for use in breast cancer risk assessment, diagnosis, prognosis and treatment |
HUE061020T2 (hu) | 2007-07-23 | 2023-05-28 | Univ Hong Kong Chinese | Nukleinsav-szekvencia kiegyensúlyozatlanságának meghatározására |
US20090053719A1 (en) | 2007-08-03 | 2009-02-26 | The Chinese University Of Hong Kong | Analysis of nucleic acids by digital pcr |
US20100041048A1 (en) | 2008-07-31 | 2010-02-18 | The Johns Hopkins University | Circulating Mutant DNA to Assess Tumor Dynamics |
CA3069081C (en) | 2008-09-20 | 2023-05-23 | The Board Of Trustees Of The Leland Stanford Junior University | Noninvasive diagnosis of fetal aneuploidy by sequencing |
US20100136560A1 (en) | 2008-12-02 | 2010-06-03 | The Johns Hopkins University | Integrated Analyses of Breast and Colorectal Cancers |
AU2010230417B2 (en) | 2009-03-31 | 2013-10-10 | Oridis Biomarkers Gmbh | Method for diagnosis of cancer and monitoring of cancer treatments |
US20120208711A1 (en) | 2009-10-02 | 2012-08-16 | Centre For Addiction And Mental Health | Method for Analysis of DNA Methylation Profiles of Cell-Free Circulating DNA in Bodily Fluids |
WO2011053790A2 (en) | 2009-10-30 | 2011-05-05 | Fluidigm Corporation | Assay of closely linked targets in fetal diagnosis and coincidence detection assay for genetic analysis |
FI3783110T3 (fi) | 2009-11-05 | 2023-03-02 | Fetaalisen genomin analyysi maternaalisesta biologisesta näytteestä | |
JP5770737B2 (ja) | 2009-11-06 | 2015-08-26 | ザ チャイニーズ ユニバーシティ オブ ホンコン | サイズに基づくゲノム分析 |
GB0922006D0 (en) | 2009-12-17 | 2010-02-03 | Genome Res Ltd | Diagnostic |
EP2848704B1 (en) | 2010-01-19 | 2018-08-29 | Verinata Health, Inc | Sequencing methods for prenatal diagnoses |
WO2011091046A1 (en) | 2010-01-19 | 2011-07-28 | Verinata Health, Inc. | Identification of polymorphic sequences in mixtures of genomic dna by whole genome sequencing |
WO2011103236A2 (en) | 2010-02-18 | 2011-08-25 | The Johns Hopkins University | Personalized tumor biomarkers |
EP2426217A1 (en) | 2010-09-03 | 2012-03-07 | Centre National de la Recherche Scientifique (CNRS) | Analytical methods for cell free nucleic acids and applications |
EP2646579B1 (en) | 2010-11-30 | 2017-06-14 | The Chinese University Of Hong Kong | Detection of genetic or molecular aberrations associated with cancer |
CN103003447B (zh) | 2011-07-26 | 2020-08-25 | 维里纳塔健康公司 | 用于确定样品中存在或不存在不同非整倍性的方法 |
DK2764459T3 (da) * | 2011-10-06 | 2021-08-23 | Sequenom Inc | Fremgangsmåder og processer til ikke-invasiv bedømmelse af genetiske variationer |
WO2013086352A1 (en) | 2011-12-07 | 2013-06-13 | Chronix Biomedical | Prostate cancer associated circulating nucleic acid biomarkers |
US9892230B2 (en) | 2012-03-08 | 2018-02-13 | The Chinese University Of Hong Kong | Size-based analysis of fetal or tumor DNA fraction in plasma |
CA2867293C (en) | 2012-03-13 | 2020-09-01 | Abhijit Ajit PATEL | Measurement of nucleic acid variants using highly-multiplexed error-suppressed deep sequencing |
WO2013179443A1 (ja) | 2012-05-31 | 2013-12-05 | 住友電気工業株式会社 | 酸化物超電導薄膜とその製造方法 |
US11261494B2 (en) | 2012-06-21 | 2022-03-01 | The Chinese University Of Hong Kong | Method of measuring a fractional concentration of tumor DNA |
CA2883901C (en) * | 2012-09-04 | 2023-04-11 | Guardant Health, Inc. | Systems and methods to detect rare mutations and copy number variation |
ES2665273T5 (es) | 2012-09-20 | 2023-10-02 | Univ Hong Kong Chinese | Determinación no invasiva de metiloma del feto o tumor de plasma |
US9732390B2 (en) | 2012-09-20 | 2017-08-15 | The Chinese University Of Hong Kong | Non-invasive determination of methylome of fetus or tumor from plasma |
JP2016513959A (ja) * | 2013-02-21 | 2016-05-19 | トマ バイオサイエンシーズ, インコーポレイテッド | 核酸分析のための方法、組成物およびキット |
AU2014233373B2 (en) | 2013-03-15 | 2019-10-24 | Verinata Health, Inc. | Generating cell-free DNA libraries directly from blood |
US10174375B2 (en) * | 2013-09-20 | 2019-01-08 | The Chinese University Of Hong Kong | Sequencing analysis of circulating DNA to detect and monitor autoimmune diseases |
US10262755B2 (en) * | 2014-04-21 | 2019-04-16 | Natera, Inc. | Detecting cancer mutations and aneuploidy in chromosomal segments |
US20160002717A1 (en) | 2014-07-02 | 2016-01-07 | Boreal Genomics, Inc. | Determining mutation burden in circulating cell-free nucleic acid and associated risk of disease |
EP3172341A4 (en) | 2014-07-25 | 2018-03-28 | University of Washington | Methods of determining tissues and/or cell types giving rise to cell-free dna, and methods of identifying a disease or disorder using same |
WO2016085876A1 (en) | 2014-11-25 | 2016-06-02 | The Broad Institute Inc. | Clonal haematopoiesis |
JP6905934B2 (ja) | 2014-12-05 | 2021-07-21 | ファウンデーション・メディシン・インコーポレイテッド | 腫瘍試料の多重遺伝子分析 |
CN107406876B (zh) | 2014-12-31 | 2021-09-07 | 夸登特健康公司 | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的系统和方法 |
CN113957124A (zh) | 2015-02-10 | 2022-01-21 | 香港中文大学 | 用于癌症筛查和胎儿分析的突变检测 |
CN107750279A (zh) | 2015-03-16 | 2018-03-02 | 个人基因组诊断公司 | 核酸分析系统和方法 |
-
2016
- 2016-02-14 CN CN202111196156.8A patent/CN113957124A/zh active Pending
- 2016-02-14 CN CN201680009446.8A patent/CN107771221B/zh active Active
- 2016-02-14 SG SG11201706529TA patent/SG11201706529TA/en unknown
- 2016-02-14 EP EP16748745.3A patent/EP3256605B1/en active Active
- 2016-02-14 EP EP21205562.8A patent/EP4012715A1/en active Pending
- 2016-02-14 CA CA2976303A patent/CA2976303A1/en active Pending
- 2016-02-14 HU HUE16748745A patent/HUE058263T2/hu unknown
- 2016-02-14 DK DK16748745.3T patent/DK3256605T3/da active
- 2016-02-14 JP JP2017559756A patent/JP6829211B2/ja active Active
- 2016-02-14 PT PT167487453T patent/PT3256605T/pt unknown
- 2016-02-14 AU AU2016218631A patent/AU2016218631B2/en active Active
- 2016-02-14 KR KR1020177025432A patent/KR20170125044A/ko not_active Application Discontinuation
- 2016-02-14 ES ES16748745T patent/ES2908347T3/es active Active
- 2016-02-14 WO PCT/CN2016/073753 patent/WO2016127944A1/en active Application Filing
- 2016-02-15 TW TW105104407A patent/TWI740817B/zh active
- 2016-02-15 TW TW110131934A patent/TWI817187B/zh active
- 2016-02-15 TW TW112132531A patent/TW202400808A/zh unknown
- 2016-11-28 US US15/362,631 patent/US10240209B2/en active Active
-
2018
- 2018-03-21 HK HK18103937.0A patent/HK1244515A1/zh unknown
- 2018-08-10 HK HK18110258.6A patent/HK1251018A1/zh unknown
-
2019
- 2019-01-22 US US16/254,492 patent/US11168370B2/en active Active
-
2021
- 2021-01-21 JP JP2021007944A patent/JP7168247B2/ja active Active
- 2021-10-29 US US17/514,902 patent/US20220127683A1/en active Pending
-
2022
- 2022-05-10 AU AU2022203114A patent/AU2022203114A1/en active Pending
- 2022-10-17 JP JP2022166050A patent/JP2022185149A/ja active Pending
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI817187B (zh) | 偵測突變以用於癌症篩選分析 | |
JP6985753B2 (ja) | 血漿による胎児または腫瘍のメチロームの非侵襲的決定 | |
US20220267861A1 (en) | Non-invasive determination of tissue source of cell-free dna | |
TWI797095B (zh) | 腫瘤檢測之方法及系統 | |
TW202205300A (zh) | Dna混合物中組織之單倍型甲基化模式分析 | |
US12098429B2 (en) | Determining linear and circular forms of circulating nucleic acids |