KR20230133287A - 샘플을 임상적으로 관련된 범주로 분류하기 위한 방법 - Google Patents
샘플을 임상적으로 관련된 범주로 분류하기 위한 방법 Download PDFInfo
- Publication number
- KR20230133287A KR20230133287A KR1020237023531A KR20237023531A KR20230133287A KR 20230133287 A KR20230133287 A KR 20230133287A KR 1020237023531 A KR1020237023531 A KR 1020237023531A KR 20237023531 A KR20237023531 A KR 20237023531A KR 20230133287 A KR20230133287 A KR 20230133287A
- Authority
- KR
- South Korea
- Prior art keywords
- sample
- score
- sequence
- cfdna
- determined
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 239000000523 sample Substances 0.000 claims abstract description 195
- 239000012634 fragment Substances 0.000 claims abstract description 121
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 111
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 90
- 239000012472 biological sample Substances 0.000 claims abstract description 9
- 108020004414 DNA Proteins 0.000 claims description 75
- 201000011510 cancer Diseases 0.000 claims description 45
- 238000012163 sequencing technique Methods 0.000 claims description 33
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 26
- 230000002159 abnormal effect Effects 0.000 claims description 12
- 210000001519 tissue Anatomy 0.000 claims description 10
- 206010061289 metastatic neoplasm Diseases 0.000 claims description 5
- 206010009944 Colon cancer Diseases 0.000 claims description 4
- 230000001394 metastastic effect Effects 0.000 claims description 4
- 239000013074 reference sample Substances 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 206010006187 Breast cancer Diseases 0.000 claims description 3
- 208000026310 Breast neoplasm Diseases 0.000 claims description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 3
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 3
- 206010060862 Prostate cancer Diseases 0.000 claims description 3
- 208000000236 Prostatic Neoplasms Diseases 0.000 claims description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 3
- 206010017758 gastric cancer Diseases 0.000 claims description 3
- 208000005017 glioblastoma Diseases 0.000 claims description 3
- 201000010536 head and neck cancer Diseases 0.000 claims description 3
- 208000014829 head and neck neoplasm Diseases 0.000 claims description 3
- 230000002489 hematologic effect Effects 0.000 claims description 3
- 201000007270 liver cancer Diseases 0.000 claims description 3
- 208000014018 liver neoplasm Diseases 0.000 claims description 3
- 201000005202 lung cancer Diseases 0.000 claims description 3
- 208000020816 lung neoplasm Diseases 0.000 claims description 3
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 3
- 201000002528 pancreatic cancer Diseases 0.000 claims description 3
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 3
- 201000011549 stomach cancer Diseases 0.000 claims description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 2
- 208000037842 advanced-stage tumor Diseases 0.000 claims description 2
- 239000002773 nucleotide Substances 0.000 abstract description 18
- 125000003729 nucleotide group Chemical group 0.000 abstract description 16
- 108020004707 nucleic acids Proteins 0.000 description 17
- 102000039446 nucleic acids Human genes 0.000 description 17
- 238000011528 liquid biopsy Methods 0.000 description 11
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000011282 treatment Methods 0.000 description 10
- 210000004027 cell Anatomy 0.000 description 9
- 230000035945 sensitivity Effects 0.000 description 9
- 239000011324 bead Substances 0.000 description 8
- 238000009826 distribution Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- -1 DNA during apoptosis Chemical class 0.000 description 5
- 108090000790 Enzymes Proteins 0.000 description 5
- 102000004190 Enzymes Human genes 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000000107 tumor biomarker Substances 0.000 description 5
- 108010090804 Streptavidin Proteins 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 108010047956 Nucleosomes Proteins 0.000 description 3
- 206010036790 Productive cough Diseases 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 229960002685 biotin Drugs 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 239000011616 biotin Substances 0.000 description 3
- 238000003776 cleavage reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 210000001623 nucleosome Anatomy 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000007017 scission Effects 0.000 description 3
- 210000003802 sputum Anatomy 0.000 description 3
- 208000024794 sputum Diseases 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- 206010003445 Ascites Diseases 0.000 description 2
- 108090001008 Avidin Proteins 0.000 description 2
- 108010077544 Chromatin Proteins 0.000 description 2
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 2
- 206010061819 Disease recurrence Diseases 0.000 description 2
- 241000206602 Eukaryota Species 0.000 description 2
- 101710163270 Nuclease Proteins 0.000 description 2
- 208000007660 Residual Neoplasm Diseases 0.000 description 2
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 210000003483 chromatin Anatomy 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008774 maternal effect Effects 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 230000000771 oncological effect Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 102000000872 ATM Human genes 0.000 description 1
- 102100035886 Adenine DNA glycosylase Human genes 0.000 description 1
- 208000003200 Adenoma Diseases 0.000 description 1
- 241001504639 Alcedo atthis Species 0.000 description 1
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 1
- 101700002522 BARD1 Proteins 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 102100028048 BRCA1-associated RING domain protein 1 Human genes 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 102100025423 Bone morphogenetic protein receptor type-1A Human genes 0.000 description 1
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 1
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 1
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 108010043471 Core Binding Factor Alpha 2 Subunit Proteins 0.000 description 1
- 108010025464 Cyclin-Dependent Kinase 4 Proteins 0.000 description 1
- 102100036252 Cyclin-dependent kinase 4 Human genes 0.000 description 1
- 102100021122 DNA damage-binding protein 2 Human genes 0.000 description 1
- 102100035186 DNA excision repair protein ERCC-1 Human genes 0.000 description 1
- 102100031866 DNA excision repair protein ERCC-5 Human genes 0.000 description 1
- 108010035476 DNA excision repair protein ERCC-5 Proteins 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 230000008836 DNA modification Effects 0.000 description 1
- 102100024829 DNA polymerase delta catalytic subunit Human genes 0.000 description 1
- 102100035481 DNA polymerase eta Human genes 0.000 description 1
- 102100029094 DNA repair endonuclease XPF Human genes 0.000 description 1
- 102100039116 DNA repair protein RAD50 Human genes 0.000 description 1
- 102100034484 DNA repair protein RAD51 homolog 3 Human genes 0.000 description 1
- 102100034483 DNA repair protein RAD51 homolog 4 Human genes 0.000 description 1
- 101100226017 Dictyostelium discoideum repD gene Proteins 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 1
- 102000012804 EPCAM Human genes 0.000 description 1
- 101150084967 EPCAM gene Proteins 0.000 description 1
- 101150105460 ERCC2 gene Proteins 0.000 description 1
- 101001003194 Eleusine coracana Alpha-amylase/trypsin inhibitor Proteins 0.000 description 1
- 102100038595 Estrogen receptor Human genes 0.000 description 1
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 1
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 1
- 102000009095 Fanconi Anemia Complementation Group A protein Human genes 0.000 description 1
- 108010087740 Fanconi Anemia Complementation Group A protein Proteins 0.000 description 1
- 102000018825 Fanconi Anemia Complementation Group C protein Human genes 0.000 description 1
- 108010027673 Fanconi Anemia Complementation Group C protein Proteins 0.000 description 1
- 102000013601 Fanconi Anemia Complementation Group D2 protein Human genes 0.000 description 1
- 108010026653 Fanconi Anemia Complementation Group D2 protein Proteins 0.000 description 1
- 102000010634 Fanconi Anemia Complementation Group E protein Human genes 0.000 description 1
- 108010077898 Fanconi Anemia Complementation Group E protein Proteins 0.000 description 1
- 102000012216 Fanconi Anemia Complementation Group F protein Human genes 0.000 description 1
- 108010022012 Fanconi Anemia Complementation Group F protein Proteins 0.000 description 1
- 102000007122 Fanconi Anemia Complementation Group G protein Human genes 0.000 description 1
- 108010033305 Fanconi Anemia Complementation Group G protein Proteins 0.000 description 1
- 102000052930 Fanconi Anemia Complementation Group L protein Human genes 0.000 description 1
- 108700026162 Fanconi Anemia Complementation Group L protein Proteins 0.000 description 1
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 1
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 1
- 102100027285 Fanconi anemia group B protein Human genes 0.000 description 1
- 102100034554 Fanconi anemia group I protein Human genes 0.000 description 1
- 102100034553 Fanconi anemia group J protein Human genes 0.000 description 1
- 102100034552 Fanconi anemia group M protein Human genes 0.000 description 1
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 1
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 1
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 1
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 1
- 108010010285 Forkhead Box Protein L2 Proteins 0.000 description 1
- 102100035137 Forkhead box protein L2 Human genes 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 102100031885 General transcription and DNA repair factor IIH helicase subunit XPB Human genes 0.000 description 1
- 102100035184 General transcription and DNA repair factor IIH helicase subunit XPD Human genes 0.000 description 1
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 102100025334 Guanine nucleotide-binding protein G(q) subunit alpha Human genes 0.000 description 1
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 description 1
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 1
- 102100029283 Hepatocyte nuclear factor 3-alpha Human genes 0.000 description 1
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 1
- 102100021088 Homeobox protein Hox-B13 Human genes 0.000 description 1
- 101001000351 Homo sapiens Adenine DNA glycosylase Proteins 0.000 description 1
- 101000785776 Homo sapiens Artemin Proteins 0.000 description 1
- 101000934638 Homo sapiens Bone morphogenetic protein receptor type-1A Proteins 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101001041466 Homo sapiens DNA damage-binding protein 2 Proteins 0.000 description 1
- 101000876529 Homo sapiens DNA excision repair protein ERCC-1 Proteins 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101000909198 Homo sapiens DNA polymerase delta catalytic subunit Proteins 0.000 description 1
- 101001094607 Homo sapiens DNA polymerase eta Proteins 0.000 description 1
- 101000865085 Homo sapiens DNA polymerase theta Proteins 0.000 description 1
- 101000743929 Homo sapiens DNA repair protein RAD50 Proteins 0.000 description 1
- 101001132271 Homo sapiens DNA repair protein RAD51 homolog 3 Proteins 0.000 description 1
- 101001132266 Homo sapiens DNA repair protein RAD51 homolog 4 Proteins 0.000 description 1
- 101001095815 Homo sapiens E3 ubiquitin-protein ligase RING2 Proteins 0.000 description 1
- 101000967216 Homo sapiens Eosinophil cationic protein Proteins 0.000 description 1
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 1
- 101100119754 Homo sapiens FANCL gene Proteins 0.000 description 1
- 101000914679 Homo sapiens Fanconi anemia group B protein Proteins 0.000 description 1
- 101000848174 Homo sapiens Fanconi anemia group I protein Proteins 0.000 description 1
- 101000848171 Homo sapiens Fanconi anemia group J protein Proteins 0.000 description 1
- 101000848187 Homo sapiens Fanconi anemia group M protein Proteins 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101000920748 Homo sapiens General transcription and DNA repair factor IIH helicase subunit XPB Proteins 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 101000857888 Homo sapiens Guanine nucleotide-binding protein G(q) subunit alpha Proteins 0.000 description 1
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 description 1
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 description 1
- 101001072407 Homo sapiens Guanine nucleotide-binding protein subunit alpha-11 Proteins 0.000 description 1
- 101001062353 Homo sapiens Hepatocyte nuclear factor 3-alpha Proteins 0.000 description 1
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 1
- 101001041145 Homo sapiens Homeobox protein Hox-B13 Proteins 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 1
- 101001057193 Homo sapiens Membrane-associated guanylate kinase, WW and PDZ domain-containing protein 1 Proteins 0.000 description 1
- 101000582631 Homo sapiens Menin Proteins 0.000 description 1
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 1
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 description 1
- 101000981336 Homo sapiens Nibrin Proteins 0.000 description 1
- 101001109719 Homo sapiens Nucleophosmin Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 101000595741 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit beta isoform Proteins 0.000 description 1
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 1
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 101000712530 Homo sapiens RAF proto-oncogene serine/threonine-protein kinase Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000932478 Homo sapiens Receptor-type tyrosine-protein kinase FLT3 Proteins 0.000 description 1
- 101000771237 Homo sapiens Serine/threonine-protein kinase A-Raf Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 1
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 description 1
- 101000642268 Homo sapiens Speckle-type POZ protein Proteins 0.000 description 1
- 101000617830 Homo sapiens Sterol O-acyltransferase 1 Proteins 0.000 description 1
- 101000702606 Homo sapiens Structure-specific endonuclease subunit SLX4 Proteins 0.000 description 1
- 101000951145 Homo sapiens Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Proteins 0.000 description 1
- 101000685323 Homo sapiens Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Proteins 0.000 description 1
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 description 1
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 description 1
- 101000799466 Homo sapiens Thrombopoietin receptor Proteins 0.000 description 1
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 1
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 description 1
- 101000638154 Homo sapiens Transmembrane protease serine 2 Proteins 0.000 description 1
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 1
- 101000740048 Homo sapiens Ubiquitin carboxyl-terminal hydrolase BAP1 Proteins 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 1
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 description 1
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 description 1
- 101000740049 Latilactobacillus curvatus Bioactive peptide 1 Proteins 0.000 description 1
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 1
- 108010075654 MAP Kinase Kinase Kinase 1 Proteins 0.000 description 1
- 102000046961 MRE11 Homologue Human genes 0.000 description 1
- 108700019589 MRE11 Homologue Proteins 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 108700012912 MYCN Proteins 0.000 description 1
- 101150022024 MYCN gene Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 102100027240 Membrane-associated guanylate kinase, WW and PDZ domain-containing protein 1 Human genes 0.000 description 1
- 102100030550 Menin Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 1
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 1
- 102100033115 Mitogen-activated protein kinase kinase kinase 1 Human genes 0.000 description 1
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 101150097381 Mtor gene Proteins 0.000 description 1
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 1
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 1
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 1
- 108700026495 N-Myc Proto-Oncogene Proteins 0.000 description 1
- 102100030124 N-myc proto-oncogene protein Human genes 0.000 description 1
- 102100024403 Nibrin Human genes 0.000 description 1
- 102100022678 Nucleophosmin Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 102100036061 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit beta isoform Human genes 0.000 description 1
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 102100033479 RAF proto-oncogene serine/threonine-protein kinase Human genes 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 102100029986 Receptor tyrosine-protein kinase erbB-3 Human genes 0.000 description 1
- 101710100969 Receptor tyrosine-protein kinase erbB-3 Proteins 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101710100963 Receptor tyrosine-protein kinase erbB-4 Proteins 0.000 description 1
- 102100020718 Receptor-type tyrosine-protein kinase FLT3 Human genes 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 102100025373 Runt-related transcription factor 1 Human genes 0.000 description 1
- 102100029437 Serine/threonine-protein kinase A-Raf Human genes 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 1
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 description 1
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 description 1
- 102100036422 Speckle-type POZ protein Human genes 0.000 description 1
- 102100021993 Sterol O-acyltransferase 1 Human genes 0.000 description 1
- 101000697584 Streptomyces lavendulae Streptothricin acetyltransferase Proteins 0.000 description 1
- 102100031003 Structure-specific endonuclease subunit SLX4 Human genes 0.000 description 1
- 102100038014 Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Human genes 0.000 description 1
- 102100023155 Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Human genes 0.000 description 1
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 description 1
- 102100031715 Succinate dehydrogenase assembly factor 2, mitochondrial Human genes 0.000 description 1
- 108050007461 Succinate dehydrogenase assembly factor 2, mitochondrial Proteins 0.000 description 1
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 description 1
- 101150057140 TACSTD1 gene Proteins 0.000 description 1
- 102100034196 Thrombopoietin receptor Human genes 0.000 description 1
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 1
- 102100031027 Transcription activator BRG1 Human genes 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 102100031989 Transmembrane protease serine 2 Human genes 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 1
- 108700031763 Xeroderma Pigmentosum Group D Proteins 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000004071 biological effect Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 108091092259 cell-free RNA Proteins 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007847 digital PCR Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 238000012977 invasive surgical procedure Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 208000037819 metastatic cancer Diseases 0.000 description 1
- 208000011575 metastatic malignant neoplasm Diseases 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 101150071637 mre11 gene Proteins 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 239000011807 nanoball Substances 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 108010073629 xeroderma pigmentosum group F protein Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Cell Biology (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
Abstract
본 개시는 생물학적 샘플을 임상적으로 관련된 범주로 분류하기 위한 방법 및 키트를 제공한다. 방법은 (i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계, 및 (ii) 참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계를 포함한다. 상기 뉴클레오티드는: a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는 b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에 있다. 이후, 제 3 단계 (iii)에서, a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및 b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의 빈도가 결정된다. 이들 빈도를 사용하여, 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율이 계산된다. 상기한 각각의 비율에 대해 진단 점수가 개별적으로 계산된다. 마지막 단계로서, 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수가 계산된다. 진단 점수와 합계 진단 점수를 사용하여 샘플을 임상적으로 관련된 범주로 분류할 수 있고, 또한 합계 진단 점수를 사용하여 샘플 내의 무세포 및/또는 순환 종양 DNA를 소량, 적당량 및 다량으로 분류할 수 있다.
Description
본 발명은 생물학, 의학 및 화학 분야, 특히 분자 생물학 분야, 특히 분자 진단 분야에 속한다.
진핵 생물의 게놈은 DNA를 압축할 수 있을 뿐만 아니라 DNA 대사(복제, 전사, 수선, 재조합)를 조절할 수도 있는 염색질로 구성되어 있다. 진핵 생물에서 염색질 구조의 특징, 특히 뉴클레오솜 배열은 진핵 생물에 존재하는 복잡한 혼합물에서 희귀 핵산 단편을 식별하는 데 사용될 수 있음이 밝혀졌다(Heitzer E. et al., Nat. Rev. Genet., 2019, 20(2):71-88).
뉴클레오솜에 의한 DNA의 보호는 비-무작위 단편화의 핫스팟(hot spot of non-random fragmentation, HSNRF)의 존재로 인한 것으로 가정되며, 이 HSNRF는 특정 크기 분포의 핵산 단편의 말단이 주변의 게놈 위치와 비교했을 때 예상보다 높은 빈도로 발생하는 것으로 발견되는 게놈의 영역으로 정의된다.
암은 종종 인체의 쉽게 접근할 수 없는 위치에서 발견된다. 암 진단을 위한 "최적 표준"의 침습적 수술 생검은 출혈 및 감염과 같은 중대한 임상적 위험을 안고 있다. 이러한 침습적 수술의 단점 중 하나는 종양 조직에서 채취된 샘플이 수술이 발생한 시점에서의 공간적으로 제한된 표현일 뿐이라는 사실이다. 그러나 암은 정적인 상태에 머무르지 않고 지속적인 변화를 겪으며, 이로 인해 종양 내부에서 그리고 원발성 및 전이성 암 사이에 유전적 이질성이 발생한다. 암 진단, 모니터링 및 치료 지침을 위해 비침습적/최소 침습적 방법을 개발하기 위한 많은 노력이 있었다. 모체 혈장의 무세포 DNA를 이용한 수치 이상(numerical abnormality)에 대한 비침습적 산전 진단검사(prenatal testing)의 성공적인 기술 개발은 암 진단을 위한 바이오마커 발견에도 사용될 수 있다. 혈장 내의 순환 종양 DNA의 발견은, 침습적 수술 절차와 관련된 위험을 해결하지 않고도, 이를 바이오마커로 활용하고 암 치료에 대한 반응의 검출, 예후 및 예측을 위한 액체 생검 검사를 사용할 수 있는 가능성을 제공하였다. 이 기술은 초기 단계에서 암을 검출함으로써 성공적인 회복 가능성을 높이고, 가장 적절한 치료법을 선택하는 데 도움을 주며, 또한 치료 과정 이후에 최소한의 잔여 질환을 검출하는 데 도움을 줌으로써 의료진이 필요한 의료 개입을 결정할 수 있도록 함으로써 암 환자에게 도움이 된다. 합병증의 위험이 있는 현재의 침습적 검사 방법과 달리, 액체 생검은 혈액, 소변 또는 가래와 같은 샘플을 사용하기 때문에 본질적으로 환자에게 안전하다.
지금까지, 혈장에서 발견된 무세포 DNA(cell free DNA, cfDNA)의 총량에 대한 종양-유래 기여도의 추정치를 제공하고자 하는 몇 가지 방법만이 기술되었으며, 상기 무세포 종양 DNA(cell free tumor DNA, cftDNA)는 치료에 대한 반응 및/또는 내성 및 질환 재발의 지표인 예후 바이오마커로서 사용된다(Smith C.G. et al., Genome Med., 2020, 12(1): 23; Peiyong Jiang et al., PNAS, 2018, 115(46): E10925-E10933; Cristiano S. et al. Nature, 2019, 570: 385-389; Mouliere et al., Sci. Transl. Med., 2018, 10(466): eaat4921; Newman A. et al., Nat. Med., 2014, 20(5): 548-554).
현재의 액체 생검 기반 검사는 복잡성뿐만 아니라 제한된 민감도 및 특이성으로 인해 정밀 종양학의 요구를 충족시키지 못하고 있다(De Rubis G. et al., Trends Pharmacol Sci., 2019, 40(3): 172-186; Peiyong Jiang et al., Cancer Discov., 2020, CD-19-0622). 따라서 이러한 방법의 정확도는 충분히 높지 않으며, 잘못된 결과를 초래할 수 있다.
본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, 순환 종양 DNA(ctDNA) 시퀀싱으로부터 추출 가능한 정보의 범위를 확장하고 새로운 다중파라미터 전략을 구현함으로써 최신 기술의 액체 생검법이 직면한 한계에 대한 해결책을 제공한다.
발명의 개요
본 발명은 다른 액체 생검법에 의해 현재 직면하고 있는 정확도 한계에 대한 해결책을 제공한다. 본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, 무세포 종양 DNA 또는 ctDNA 시퀀싱으로부터 추출 가능한 정보의 범위를 확장하고 새로운 다중파라미터 전략을 구현함으로써 상기 정확도 한계를 극복한다.
일 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는
b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서,
(ii) 참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및
b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의,
(iii) 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 각각의 비율에 대해 개별적으로 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)의 모든 개별 빈도 비율의 각각의 가중합인, 단계와,
(vi) 단계 (v)에서 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (v)에서 결정된 상기 두 개 이상의 진단 점수의 가중합이고, 및
(vii) 합계 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
일 실시형태에서, 합계 진단 점수는 상기 방법의 단계 (v)에서 계산된 각각의 비율에 대해 계산된 모든 진단 점수로부터 계산된다.
일 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표 및 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계와,
(ii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 좌표의 빈도를 결정하는 단계와,
(iii) 해당 기준 빈도에 대한 단계 (ii)에서 결정된 각각의 좌표의 빈도의 비율을 계산하는 단계와,
(iv) 단계 (iii)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iii)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(v) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
일 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
또 다른 실시형태에서, 본 발명은 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.
일 실시형태에서, 분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 최소량은 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 또는 500만 내지 1000만, 또는 1000만 내지 2000만, 또는 2000만 내지 5000만, 또는 5000만 내지 5억이다.
일 실시형태에서, 샘플 내의 종양 cfDNA의 양은, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있다.
일 실시형태에서, 참조 샘플은 암이 없는 환자, 또는 비-재발 환자, 또는 성공적으로 치료된 암 환자로부터의 샘플일 수 있다.
일 실시형태에서, 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는, 상기한 임의의 방법의 단계 (i)는 참조 서열에 대한 정렬 이전에 샘플 내의 다수의 cfDNA 단편 중 적어도 일부의 핵산 서열을 결정하는 단계를 포함한다.
일 실시형태에서, 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는, 상기한 임의의 방법의 단계 (i)는 cfDNA 단편의 핵산 서열을 결정하는 단계 이전에 cfDNA 단편을 농축하는 단계를 더 포함한다.
일 실시형태에서, 샘플은 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 고형 종양, 양성 종양, 악성 종양, 진행 단계의 암, 전이성 또는 전암성 조직으로 이루어진 군에서 선택되는 종양에서 유래하는 종양 cfDNA를 포함하는 것으로 분류된다.
또 다른 실시형태에서, 본 발명은 키트에 관한 것으로, 키트는:
(i) 임의의 상기한 방법을 수행하기 위한 구성요소로서, 구성요소는:
a) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소와,
b) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소, 및/또는
c) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소를 포함하는 구성요소와,
(ii) 통계 분석을 수행하기 위한 소프트웨어를 포함한다.
암이 없는 환자의 정상 샘플 20개와 진행성 비소세포폐암(Non-small-cell lung carcinoma, NSCLC) 또는 대장암 진단을 받은 환자의 비정상 샘플 27개를 분석하였다. 10개의 무작위로 선택된 정상 샘플과 10개의 무작위로 선택된 비정상 샘플을 실시예 1 내지 실시예 4에서 알려지지 않은 파라미터를 추정하기 위해 훈련 단계에서 사용하였다.
도 1: 이 도면은 "정상" 샘플(훈련 단계에 포함되지 않은 건강하고 암이 없는 개인의 대조군 샘플)에 대해 실시예 1 내지 실시예 4에서 얻은 점수의 분포를, "기타" 방법이라고 지칭하는 최신 기술에 기술된 방법(Peiyong Jiang et al., Cancer Discov., 2020, CD-19-0622)에 의해 얻은 점수와 비교하여 보여준다. 상기 기타 방법은, 상기 시작 및/또는 종료를 배제하는 본 개시내용과 달리, 상기 단편의 시작 및/또는 종료 좌표를 또한 고려하고 포함하여, 분석된 샘플에 포함된 cfDNA 단편의 서열 말단 모티프의 양을 측정한다. 유의하지 않은 크루스칼-왈리스 순위 합계 검정(Kruskal-Wallis rank sum test)(p-값 = 0.9966)은 어떠한 방법도 정상 샘플에 대해 다른 접근 방식에 확률적으로 우세하지 않음을 나타낸다. 계산된 점수의 평균값은 각각의 실시예에 대해 0으로 설정된다.
도 2: 이 도면은 무세포 종양("비정상") DNA를 포함하는 샘플에 대해(상기 샘플은 훈련 단계에 포함되지 않음), 실시예 1 내지 실시예 4에서 본 발명의 방법 및 최신 기술의 방법(이하 "기타" 방법이라고 함)에 의해 얻은 점수 값 및 각각의 분포를 보여준다. 이들 점수를 정상 샘플로부터 얻은 점수와 비교할 때(도 1), 실시예 1 내지 실시예 4로부터 본 발명에 따른 방법에 의해 가장 높은 차이가 달성되며, 이는 정상 샘플과 비정상 샘플을 구별하는데 있어서 최신 기술의 방법에 비해 본 방법(실시예 1 내지 실시예 4)의 민감도의 개선(증가)을 명확하게 보여준다.
도 3: 이 도면은 실시예 1 내지 실시예 4에 기술된 방법과 최신 기술의 방법(이하 "기타" 방법이라고 함) 사이의 민감도 성능 비교를 보여준다. 정상 및 비정상 샘플 각각의 점수의 경험 분포로부터, 실시예 1 내지 실시예 4의 방법 및 최신 기술의 ("기타") 방법 모두에 대해 추정 민감도를 계산하였다. 모든 방법에 대한 특이성(즉, 통계적 가설 검정에서의 유의 수준)은 99.9%로 설정되며, 이 데이터세트에 대한 추정 민감도는 각각 실시예 1 내지 실시예 4의 방법에 대해 96.8%, 99.94%, 99.48%, 99.9997%이다. 본 발명의 모든 방법은, 단지 84.3%의 민감도를 달성하는 최신 기술의 방법뿐만 아니라, 단편 크기 및 복제수 변화 정보를 사용하여 샘플을 임상적으로 유용한 범주로 분류하고 단지 60% 내지 90% 범위에 이르는 민감도를 달성하는 문헌에서 현재 이용 가능한 다른 방법(Mouliere et al. 2018 and Adalsteinsson et al. 2017)을 크게 능가한다(데이터는 표시되지 않음).
도 4: 표 1: 이 표는 네 개의 추가 정상 샘플 및 세 개의 추가 비정상 샘플에 대해 실시예 4에서 본 발명의 방법에 의해 얻은 점수를 보여주며, 비정상 샘플은 NSCLC(단계 I)로 진단된 암 환자로부터 얻은 것이다. 이 표는 ctDNA의 양을 소량, 적당량 및 다량으로 분류한 것을 강조하고 있다. 샘플의 ctDNA 양은 합계 진단 점수 값이 2 내지 4.5인 경우 소량으로, 합계 진단 점수 값이 4.5 내지 6인 경우 적당량으로, 그리고 합계 진단 점수 값이 6 이상인 경우 다량으로 분류된다.
도 1: 이 도면은 "정상" 샘플(훈련 단계에 포함되지 않은 건강하고 암이 없는 개인의 대조군 샘플)에 대해 실시예 1 내지 실시예 4에서 얻은 점수의 분포를, "기타" 방법이라고 지칭하는 최신 기술에 기술된 방법(Peiyong Jiang et al., Cancer Discov., 2020, CD-19-0622)에 의해 얻은 점수와 비교하여 보여준다. 상기 기타 방법은, 상기 시작 및/또는 종료를 배제하는 본 개시내용과 달리, 상기 단편의 시작 및/또는 종료 좌표를 또한 고려하고 포함하여, 분석된 샘플에 포함된 cfDNA 단편의 서열 말단 모티프의 양을 측정한다. 유의하지 않은 크루스칼-왈리스 순위 합계 검정(Kruskal-Wallis rank sum test)(p-값 = 0.9966)은 어떠한 방법도 정상 샘플에 대해 다른 접근 방식에 확률적으로 우세하지 않음을 나타낸다. 계산된 점수의 평균값은 각각의 실시예에 대해 0으로 설정된다.
도 2: 이 도면은 무세포 종양("비정상") DNA를 포함하는 샘플에 대해(상기 샘플은 훈련 단계에 포함되지 않음), 실시예 1 내지 실시예 4에서 본 발명의 방법 및 최신 기술의 방법(이하 "기타" 방법이라고 함)에 의해 얻은 점수 값 및 각각의 분포를 보여준다. 이들 점수를 정상 샘플로부터 얻은 점수와 비교할 때(도 1), 실시예 1 내지 실시예 4로부터 본 발명에 따른 방법에 의해 가장 높은 차이가 달성되며, 이는 정상 샘플과 비정상 샘플을 구별하는데 있어서 최신 기술의 방법에 비해 본 방법(실시예 1 내지 실시예 4)의 민감도의 개선(증가)을 명확하게 보여준다.
도 3: 이 도면은 실시예 1 내지 실시예 4에 기술된 방법과 최신 기술의 방법(이하 "기타" 방법이라고 함) 사이의 민감도 성능 비교를 보여준다. 정상 및 비정상 샘플 각각의 점수의 경험 분포로부터, 실시예 1 내지 실시예 4의 방법 및 최신 기술의 ("기타") 방법 모두에 대해 추정 민감도를 계산하였다. 모든 방법에 대한 특이성(즉, 통계적 가설 검정에서의 유의 수준)은 99.9%로 설정되며, 이 데이터세트에 대한 추정 민감도는 각각 실시예 1 내지 실시예 4의 방법에 대해 96.8%, 99.94%, 99.48%, 99.9997%이다. 본 발명의 모든 방법은, 단지 84.3%의 민감도를 달성하는 최신 기술의 방법뿐만 아니라, 단편 크기 및 복제수 변화 정보를 사용하여 샘플을 임상적으로 유용한 범주로 분류하고 단지 60% 내지 90% 범위에 이르는 민감도를 달성하는 문헌에서 현재 이용 가능한 다른 방법(Mouliere et al. 2018 and Adalsteinsson et al. 2017)을 크게 능가한다(데이터는 표시되지 않음).
도 4: 표 1: 이 표는 네 개의 추가 정상 샘플 및 세 개의 추가 비정상 샘플에 대해 실시예 4에서 본 발명의 방법에 의해 얻은 점수를 보여주며, 비정상 샘플은 NSCLC(단계 I)로 진단된 암 환자로부터 얻은 것이다. 이 표는 ctDNA의 양을 소량, 적당량 및 다량으로 분류한 것을 강조하고 있다. 샘플의 ctDNA 양은 합계 진단 점수 값이 2 내지 4.5인 경우 소량으로, 합계 진단 점수 값이 4.5 내지 6인 경우 적당량으로, 그리고 합계 진단 점수 값이 6 이상인 경우 다량으로 분류된다.
본 발명은 샘플을 임상적으로 관련된 범주로 분류하기 위한 견고하고 감도 높고 특이성 있는 액체 생검 분석법을 확립하기 위해, ctDNA 시퀀싱으로부터 추출 가능한 확장된 범위의 정보를 기반으로 새로운 생물정보학적 분석을 활용하고, 새로운 다중파라미터 전략을 구현하는 액체 생검 방법을 기술한다.
본 발명의 일 실시형태는 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법에 관한 것으로, 상기 방법은 다수의 cfDNA 단편의 말단 또는 "시작 및/또는 종료" 및 선택적으로 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계를 포함한다. cfDNA 단편의 "시작 및/또는 종료"는 본원에서 cfDNA 단편의 말단, 경계 또는 최외각 염기쌍 또는 뉴클레오티드와 관련된다. cfDNA 단편의 서열 좌표를 결정하는 단계는 참조 서열에 대한 정렬에 의해 달성될 수 있으며, 여기서 참조 서열은 유기체의 DNA 서열, 바람직하게는 hg19 또는 hg38 인간 게놈 서열, 또는 일 실시형태에서, 건강하거나 암이 없는 인간 대상일 수 있는 인간 대상의 게놈 서열과 같은 인간 DNA 서열일 수 있다.
본 발명의 일 실시형태에서, 서열 좌표를 결정하는 단계는 예를 들어 시퀀싱 분석에 의한 다수의 cfDNA 단편의 핵산 서열을 분석 및/또는 결정하는 단계를 포함할 수 있다. 일 실시형태에서, 서열 좌표를 결정하는 단계는 샘플로부터 핵산 및/또는 특히 cfDNA 단편을 추출 또는 정제하는 단계, 및/또는 샘플로부터 cfDNA 단편을 농축하는 단계, 및/또는 시퀀싱 분석 이전에, 분리된 DNA, RNA 또는 cfDNA로부터 시퀀싱 라이브러리를 제작하는 단계를 더 포함할 수 있다.
시퀀싱 데이터를 분석하는 단계는 참조 게놈 서열에 대해 획득된 cfDNA 핵산 서열 정보를 정렬하는 단계를 포함할 수 있다. 이러한 정렬은 참조 게놈 서열에 대한 분석된 cfDNA 단편의 "시작 및/또는 종료" 또는 말단의 서열 좌표의 매핑을 가능하게 한다. 본 발명의 바람직한 실시형태에서, 시퀀싱된 cfDNA 단편의 시작 및/또는 종료 좌표뿐만 아니라, 시작 및/또는 종료로부터 +1 bp 및 -1 bp 위치의 서열 좌표가 또한 참조 게놈 서열로부터 결정된다.
이후, 샘플 내에 포함된 다수의 cfDNA 단편에서의 각각의 결정된 시작 및/또는 종료 서열 좌표의 빈도가 결정될 수 있다. 동일한 cfDNA 단편(기술적 복제) 또는 두 개의 다른 cfDNA 단편(생물학적 복제)에 대해 검출된 좌표는 모두 다수의 cfDNA 단편에서 검출된 각각의 시작 및/또는 종료 서열 좌표의 빈도(풍부도(abundance))를 계산하는 단계에서 고려된다. 본 발명의 바람직한 실시형태에서, 각각의 시작 및/또는 종료 좌표의 빈도뿐만 아니라, 시작 및/또는 종료 좌표로부터 각각의 서열 좌표 +1 bp 및 -1 bp의 빈도가 또한 샘플의 cfDNA 단편 내에서 결정된다.
본 발명의 일 실시형태에서, 해당 기준 빈도에 대한 각각의 결정된 참조 게놈 좌표의 빈도의 비율이 결정된다. 바람직한 실시형태에서, 기준 빈도에 대한 샘플 내의 좌표의 빈도의 비율은 또한 시작 및/또는 종료 +1 bp 및 -1 bp 서열 좌표의 각각의 빈도에 대해 계산된다.
이후, 진단 점수는 본 발명의 방법에 따라 모든 빈도 비율로부터 계산될 수 있는데, 상기 진단 점수는 실시예 1에 기술된 바와 같이 얻어진 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
본 발명의 일 실시형태에서, 샘플에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료 좌표를 결정하는 단계 이후, 예를 들어 트리뉴클레오티드(세 개의 연속 뉴클레오티드), 테트라뉴클레오티드(네 개의 연속 뉴클레오티드) 및/또는 펜타뉴클레오티드(다섯 개의 연속 뉴클레오티드)로 구성된 참조 서열 내의 모든 핵산 모티프가, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위 내에서 결정될 수 있다. 본 발명의 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위는 1 bp 내지 5 bp, 2 bp 내지 6 bp, 3 bp 내지 7 bp, 4 bp 내지 8 bp, 5 bp 내지 9 bp, 또는 6 bp 내지 10 bp일 수 있다. 바람직한 실시형태에서, 범위는 샘플 내의 다수의 cfDNA 단편에서 결정된 각각의 시작 및/또는 종료 서열 좌표로부터 안쪽으로 1 bp 내지 5 bp일 수 있다. 모티프는 개인간 가변성(inter-individual variability)(즉, 단일 뉴클레오티드 다형성(single nucleotide polymorphism))을 피하기 위해 참조 게놈 서열에서 채취된다.
핵산 모티프는, 단편의 실제 서열이 아니라, cfDNA 단편이 정렬된 참조 서열 내의 각각의 검출된 시작 및/또는 종료 위치를 기반으로 결정될 수 있다.
이후, 샘플 내의 다수의 cfDNA 단편 내의 검출된 각각의 핵산 모티프의 빈도(풍부도)가 결정될 수 있다. 동일한 cfDNA 단편 또는 두 개의 상이한 cfDNA 단편에 대해 검출된 모티프는 다수의 cfDNA 단편에서 검출된 각각의 모티프의 빈도(풍부도)를 계산하는 단계에서 모두 고려된다. 이어서, 다수의 cfDNA 단편 내의 각각의 핵산 모티프 빈도와 해당 기준 빈도의 비율이 계산된다. 이후, 본 발명의 방법에 따라 진단 점수는 모든 빈도 비율로부터 계산되고, 상기 진단 점수는 실시예 2에 기술된 바와 같이 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
본 발명의 일 실시형태에서, 샘플 내에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료 좌표를 결정하는 단계 이후, 예를 들어 트리뉴클레오티드(세 개의 연속 뉴클레오티드), 테트라뉴클레오티드(네 개의 연속 뉴클레오티드) 및/또는 펜타뉴클레오티드(다섯 개의 연속 뉴클레오티드)로 구성된 참조 서열 내의 모든 핵산 모티프가, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위 내에서 결정될 수 있다.
본 발명의 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 1 이상의 bp만큼 이에 인접한 염기쌍의 특정 범위는 1 bp 내지 5 bp, 2 bp 내지 6 bp, 3 bp 내지 7 bp, 4 bp 내지 8 bp, 5 bp 내지 9 bp, 또는 6 bp 내지 10 bp일 수 있다. 바람직한 실시형태에서, 범위는 샘플 내의 다수의 cfDNA 단편에서 결정된 각각의 시작 및/또는 종료 서열 좌표로부터 바깥쪽으로 1 bp 내지 5 bp일 수 있다. 핵산 모티프는 cfDNA 단편이 정렬된 참조 서열 내의 각각의 검출된 시작 및/또는 종료 위치를 기반으로 결정될 수 있다. 이러한 핵산 모티프는 cfDNA 단편이 정렬되는 1 이상의 bp만큼 인접한 참조 서열의 핵산 서열만을 포함할 수 있다. 이러한 모티프는 cfDNA 단편의 핵산 서열을 포함하지 않지만, 참조 서열의 시작 또는 종료 좌표 바로 바깥쪽에서 시작하는, 예를 들어 시작 및/또는 종료에서1 bp 내지 5 bp 바깥쪽이지만 이에 인접한 좌표에서 시작하는 서열을 포함한다.
이후, 샘플 내의 다수의 cfDNA 단편 내의 검출된 각각의 핵산 모티프의 빈도가 결정될 수 있다. 동일한 cfDNA 단편 또는 두 개의 상이한 cfDNA 단편에 대해 검출된 모티프는 다수의 cfDNA 단편에서 검출된 각각의 모티프의 빈도(풍부도)를 계산하는 단계에서 모두 고려된다. 이어서, 다수의 cfDNA 단편 내의 각각의 핵산 모티프 빈도와 해당 기준 빈도의 비율이 계산될 수 있다. 마지막으로, 진단 점수는 본 발명의 방법에 따라 모든 빈도 비율로부터 계산될 수 있으며, 상기 진단 점수는 실시예 3에 기술된 바와 같이 모든 빈도 비율의 가중합으로 정의되며, 여기서 분석된 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
본 발명의 일 실시형태에서, (a) 시작 및/또는 종료 서열 좌표(선택적으로 -1 bp 및/또는 +1 bp)의 빈도, (b) cfDNA 단편의 시작 및/또는 종료 좌표 안쪽에 위치하지만 이에 대해 하나 이상의 bp만큼 인접한 모든 핵산 모티프의 빈도 및 (c) cfDNA 서열을 포함하지 않고, cfDNA 단편 시작 및/또는 종료 좌표 바깥쪽에 위치하지만 이에 대해 1 이상의 bp만큼 인접한 모든 핵산 모티프의 빈도의 비율로부터 점수를 계산하는 본원에서의 상기한 모든 방법 단계는 기준 빈도와 비교하여 동시에 또는 특정 순서로 수행될 수 있고, 이어서 단계 (a), 단계 (b) 및 단계 (c) 중 두 개 또는 모두의 진단 점수 값을 사용하여 실시예 4에 기술된 바와 같이 본 발명의 방법에 따라 합계 진단 점수 값을 계산할 수 있다 이 합계 진단 점수 값에 따라, 분석된 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA 또는 순환 종양 DNA(ctDNA)를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산된다.
일 실시형태에서, 각각의 비정상 샘플에 대해 얻어진 합계 진단 점수 값을 기준 점수와 비교함으로써, 샘플 내의 종양 cfDNA 또는 ctDNA의 양은, (a) 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, (b) 합계 진단 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 진단 점수가 기준 점수의 6.5 표준 편차 이상인 경우 (c) 다량으로 분류될 수 있다. (표 1).
무세포 핵산
본원에서, 핵산 단편의 혼합물은 바람직하게 진핵 생물, 바람직하게는 영장류, 더욱 바람직하게는 인간으로부터 채취된 샘플로부터 분리된다. 샘플은 다른 조직 유형의 세포 또는 핵산을 포함할 수 있다. 이와 같이, 샘플은 본질적으로 핵산 단편의 혼합물을 포함할 수 있다.
본원에서, "핵산" 또는 "핵산 서열"은 DNA, RNA, 게놈 DNA, 무세포 DNA 및/또는 RNA, 및 tRNA, 메신저 RNA(mRNA), 합성 DNA 또는 RNA와 제한되지 않고 상호교환적으로 사용될 수 있다.
본 발명의 맥락에서, "핵산 단편" 및 "단편화된 핵산"이란 용어는 상호교환적으로 사용될 수 있다. 본 발명에 따른 방법의 바람직한 실시형태에서, 핵산 단편은 순환 무세포 DNA 또는 RNA이다.
본 발명의 일 실시형태에서, 샘플 내에 포함된 최소 100,000개의 cfDNA 단편이 분석될 수 있다. 또 다른 실시형태에서, 분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 수는 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 500만 내지 1000만, 1000만 내지 2000만, 2000만 내지 5000만, 또는 5000만 내지 5억이다.
본 발명의 일 실시형태에서, "샘플"은 무세포 DNA(cfDNA), 무세포 종양 DNA(cftDNA), 순환 종양 DNA(ctDNA) 또는 순환 cftDNA를 포함하는 혈액 샘플, 혈청 샘플, 혈장 샘플, 액체 생검 샘플 또는 DNA 샘플(예를 들어, 핵산 단편의 혼합물)이다. . 본 발명의 맥락에서, "cfDNA", "cftDNA", "ctDNA" 또는 "순환 cftDNA"라는 용어는 상호교환적으로 사용될 수 있다.
일 실시형태에서, 샘플은 종양이 있거나 있는 것으로 의심되는 대상으로부터의 혈장 샘플, 혈액 샘플, 소변 샘플, 가래 샘플, 뇌척수액(cerebrospinal fluid) 샘플, 복수(ascites) 샘플 및 흉수(pleural fluid) 샘플로 이루어진 군에서 선택된다. 일 실시형태에서, 샘플 또는 DNA 샘플은 종양 또는 일련의 악성 세포가 있거나 있는 것으로 의심되는 대상의 조직 샘플로부터 얻은 것이다.
본 발명의 맥락에서, "종양", "암" 또는 "비정상"이라는 용어는 상호교환적으로 사용될 수 있다. 본원에서, "암" 또는 "종양"이라는 용어는 또한 초기 단계의 암 또는 진행 암, 전이성 또는 전암성 조직 또는 세포를 포함할 수 있다. 본원에서, 종양 샘플 또는 비정상 샘플은 원발성 종양 또는 전이성 종양에서 유래하는 (무세포) DNA 또는 RNA를 포함하는 샘플에 관한 것일 수 있다. 정상 샘플 또는 참조 샘플은 본원에서 암이 아닌, 건강한 또는 "정상" 조직(들) 또는 세포(들)에서 유래한 (무세포) DNA 또는 RNA만을 포함하는 샘플에 관한 것일 수 있다. 본 발명의 맥락에서, "정상", "대조군" 또는 "참조"라는 용어는 상호교환적으로 사용될 수 있다.
본 발명의 방법은 다양한 생물학적 샘플과 함께 사용될 수 있다. 기본적으로 유전자 물질, 예를 들어 RNA 또는 DNA, 특히 무세포 DNA(cfDNA) 또는 무세포 RNA를 포함하는 모든 생물학적 샘플은, 해당 RNA 또는 DNA의 유전적 분석을 위한 방법에서 샘플로 사용될 수 있다. 예를 들어, 일 실시형태에서, DNA 샘플은 무세포 DNA(cfDNA)를 포함하는 혈장 샘플 또는 혈액 샘플이다.
종양학 목적을 위한 또 다른 실시형태에서, 샘플은 종양 또는 암이 있거나 있는 것으로 의심되는 대상으로부터 얻은 생물학적 샘플이다. 일 실시형태에서, 샘플은 순환 무세포 종양 DNA(cftDNA)를 포함한다. 또 다른 실시형태에서, 샘플은 대상의 소변, 가래, 복수, 뇌척수액 또는 흉막 삼출액이다. 또 다른 실시형태에서, 종양학적 샘플은 대상의 말초 혈액으로부터 제조된 대상의 혈장 샘플이다. 따라서, 샘플은 대상의 혈액 샘플로부터 비침습적으로 얻어진 액체 생검 샘플일 수 있는데, 이에 따라 감지할 수 있거나 손으로 만져질 수 있는 종양이 발생하기 전에 암을 조기에 발견할 수 있고, 질병 진행, 질병 치료, 또는 질병 재발을 모니터링할 수 있다.
본원에서, 무세포 DNA(cfDNA)는 세포 내에 포함되지 않은 DNA를 의미한다. 샘플은 정상 또는 건강한 세포 및/또는 암세포로부터의 cfDNA를 포함할 수 있다. 무세포 DNA는 분비, 세포 사멸 또는 괴사를 통해 혈액이나 혈청으로 방출될 수 있다. cfDNA가 종양 또는 암세포에서 방출되는 경우, 무세포 종양 DNA(cftDNA)라고 할 수 있다.
본 발명의 맥락에서, "대상"이라는 용어는 동물, 바람직하게는 포유동물, 더욱 바람직하게는 인간 또는 인간 환자를 의미한다. 본원에서 사용된 "대상"이라는 용어는 종양이 있거나 있는 것으로 의심되는 대상을 의미할 수 있다.
본원에서, "종양"은 일반적으로 고형 종양, 선종, 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 진행 단계의 암의 종양, 양성 또는 악성 종양, 전이성 또는 전암성 조직을 포함하지만 이에 한정되지 않는 암을 의미한다
본원에서, cfDNA 단편의 "말단"은 핵산 단편의 3' 및 5' 말단에 있는 최외각 뉴클레오티드를 정의하며 여기에서 "cfDNA 단편의 "시작 및/또는 종료(위치)" 또는 "절단점(break point)" 또는 " 경계"라고도 할 수 있다. 참조 서열에 대해 정렬될 때, cfDNA 단편의 "(시작 및/또는 종료) 좌표" 또는 "서열 좌표"는 참조 서열 내에서 cfDNA 단편의 말단이 정렬되는 최외각 핵산 서열 위치에 의해 정의된다. 예를 들어, cfDNA 단편이 서열 위치 1500 bp에서 1700 bp까지 이르는 참조 핵산 서열에 상보적이거나 이에 정렬되는 경우, 서열 좌표는 1500 및 1700 bp일 수 있으며, cfDNA 단편의 길이는 200 bp로 정의된다.
166-bp 주요 피크와 10-bp 간격의 더 작은 피크를 나타내는 cfDNA의 크기 프로파일은, cfDNA의 생물학적 특성이 뉴클레오솜 구조와 관련이 있을 수 있음을 시사하였다. 암 환자의 혈장 DNA에서도 유사한 패턴이 관찰되었다. 원래 조직과 관련된 cfDNA의 비-무작위 단편화 패턴은 환자의 건강 상태와도 관련이 있을 수 있다. 따라서, 무세포 DNA 단편의 말단 또는 시작 및/또는 종료 좌표 및 빈도는 질병 진행 상황을 나타낸다. 이들 좌표와 빈도는 종양의 기원 및 종양의 규모에 따라 다르며, 이는 질병의 정도 및 주어진 치료에 대한 반응을 반영한다.
본원에서 사용된 "시작 및/또는 종료" 좌표로부터 "안쪽으로"라는 용어는 서열 또는 모티프가 연장되는 참조 서열에서 핵산 단편의 "시작 및/또는 종료" 좌표로부터의 방향을 의미한다. "안쪽으로"는 핵산 단편의 서열 또는 이것이 정렬되는 참조 서열에 포함된 핵산 서열 또는 모티프와 관련될 수 있다. "안쪽으로"는 시작 좌표로부터 +1, +2, +3, +4, +5개 등의 염기쌍 및/또는 핵산 단편의 종료 좌표로부터 -1, -2, -3, -4, -5개의 염기쌍을 나타낼 수 있다. 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 1 bp 내지 5 bp, 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.
본원에서 사용된 시작 및/또는 종료" 좌표로부터 "바깥쪽으로"라는 용어는 서열이 연장되는 참조 서열에서 핵산 단편의 "시작 및/또는 종료" 좌표로부터의 방향을 의미한다. "바깥쪽으로"는 핵산 단편의 서열 또는 이것이 정렬되는 참조 서열에 포함되지 않은 핵산 서열 또는 모티프와 관련될 수 있다. "바깥쪽으로"는 종료 좌표로부터 +1, +2, +3, +4, +5개 등의 염기쌍 및/또는 핵산 단편의 시작 좌표로부터 -1, -2, -3, -4, -5개의 염기쌍을 나타낼 수 있다. 일 실시형태에서, 각각의 시작 및/또는 종료 서열 좌표 바깥쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 1 bp 내지 5 bp, 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있다.
본 방법은 시작 및/또는 종료 좌표 ± 1 bp의 빈도 및/또는 시퀀스 모티프를 분석하는데, 단편의 관찰된 말단 부위가 반드시 실제 절단 부위가 아닐 수도 있기 때문이다(Peiyong Jiang et al., Genome Res., 2020, doi: 10.1101/gr.261396.120). 따라서, 근처의 게놈 염기가 진정한 절단 부위가 될 가능성을 고려함으로써, 본 발명은 생물학적 샘플을 임상적으로 관련된 범주로 분류하는 데 있어서 현재의 기술적 수준에 비해 향상된 정확성을 가져온다.
본원에서, "핵산 모티프", "서열 모티프" 또는 "모티프"는 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 100개 등의 연속적인 뉴클레오티드로 구성된 핵산 서열 내의 연속적인 뉴클레오티드의 배열을 의미한다. 이러한 연속적인 뉴클레오티드의 배열은 "트리뉴클레오티드", "테트라뉴클레오티드", "펜타뉴클레오티드", "헥사뉴클레오티드" 등으로도 불릴 수 있다. 상기 모티프는, 무세포 및/또는 순환 DNA 분자가 생성되어 혈장으로 방출될 때, 예를 들어 특정 뉴클레아제에 의해 우선적으로 절단되는 인간 게놈 위치의 서브세트이다. 세포 사멸 동안 DNA와 같은 핵산을 절단하는 뉴클레아제로부터 생성된 이러한 혈장 DNA 말단 모티프는 HSNRF를 포함하거나 이에 대해 특이적일 수 있는 뚜렷한 특징을 나타낸다. 바람직한 실시형태에서, "모티프"는 참조 게놈 서열로부터의 3, 4 또는 5개의 연속적인 뉴클레오티드의 배열을 의미한다.
일 실시형태에서, 핵산 모티프는 cfDNA 단편의 말단 또는 절단점에 위치할 수 있으며, 여기서 모티프는 cfDNA 단편의 핵산 서열 내에 포함되거나, cfDNA 단편 서열의 경계 외부에 있을 수 있고 예를 들어 cfDNA 단편이 정렬되는 곳에 인접한 참조 핵산 서열 내부에 있을 수 있다.
cfDNA 분석
본원에서, "참조 서열"은 임의의 핵산 서열, 게놈 서열, 유기체 또는 대상의 게놈 서열, 바람직하게는 인간 게놈(예를 들어, hg19 또는 hg38) 또는 건강한 개인 또는 대상의 서열일 수 있다.
본원에서, 시작 및/또는 종료 서열 좌표의 빈도에 대한 "기준 빈도"는 하나 이상의 참조 게놈, 참조 서열 내의, 또는 하나 이상의 건강한 또는 "정상" 대조군 샘플, 대상 또는 환자의 하나 이상의 게놈 또는 서열 내의 대응하는 시작 및/또는 종료 서열 좌표의 빈도일 수 있다. 본원에서, 핵산 모티프에 대한 "기준 빈도"는 하나 이상의 참조 게놈, 참조 서열 내의, 또는 하나 이상의 건강한 또는 "정상" 대조군 샘플, 대상 또는 환자의 하나 이상의 게놈 또는 서열 내의 대응하는 핵산 모티프의 빈도일 수 있다.
본원에서, "빈도"는 풍부도 및 발생률과 상호 교환적으로 사용될 수 있다. 본 발명의 일 실시형태에서, "빈도"는 예를 들어 샘플에 포함된 다수의 핵산 또는 cfDNA 단편에서 검출되거나 카운트된 핵산 서열 모티프, 핵산(cfDNA) 단편 또는 시작 및/또는 종료 서열 좌표의 풍부도 및 발생률 또는 개수를 말한다.
본원에서, "비율"은 예를 들어 참조 샘플 내의 동일한 핵산 서열 모티프의 빈도에 대한, 샘플 내의 다수의 핵산 단편에서 검출된 핵산 서열 모티프의 빈도의 수학적 관계 또는 비율을 의미할 수 있다. 본원에서, 비율은 각각의 좌표 또는 모티프의 빈도를 해당 좌표 또는 모티프의 해당 기준 빈도로 나눔으로써 계산될 수 있다.
샘플 준비를 위해, DNA 및/또는 RNA와 같은 핵산이 본 기술 분야에 공지된 표준 기술을 사용하여 샘플에서 추출되며, 이의 비제한적인 예는 QIAsymphony(QIAGEN) 프로토콜, QIAamp Circulating Nucleic acid(QIAGEN), KingFisher(Thermofisher) 프로토콜, MagMAX™ Cell-free DNA(Thermofisher), 또는 무세포 DNA 분리에 적합한 기타 수동 또는 자동 추출 방법이다.
분리 이후, 샘플의 무세포 DNA는 샘플을 차세대 시퀀싱(Next Generation Sequencing, NGS)과 같은 다운스트림 시퀀싱 기술과 호환될 수 있도록 시퀀싱 라이브러리 제작에 사용될 수 있다. 일반적으로, 여기에는 무세포 DNA 단편의 말단에 어댑터를 연결하는 단계가 포함된다. 시퀀싱 라이브러리 제작 키트는 상업적으로 이용 가능하거나 개발될 수 있다.
cfDNA의 표적화된 농축은 인간 게놈의 관심 영역에 결합하는 타겟 캡처 시퀀스(Target Capture Sequence, TACS)를 사용하여 수행되며, 여기서 풀 내의 각각의 서열은 길이가 125 내지 260개의 염기쌍 사이이고 및/또는 길이가 125 내지 300개의 bp이고, 및/또는 길이가 125 내지 350개의 bp이고, 각각의 서열은 5' 말단 및 3' 말단을 갖고; 풀 내의 각각의 서열은 복제수 변이(Copy number Variation), 분절 중복(Segmental duplication) 또는 반복적 DNA 요소가 존재하는 영역으로부터, 5' 말단 및 3' 말단 모두에서, 떨어진 적어도 10개의 염기쌍을 포함하는 관심 영역에 결합하며; TACS의 GC 함량은 20% 내지 50%, 및/또는 20% 내지 60%, 및/또는 20% 내지 70% 및/또는 20% 내지 80%이다.
본원에서, "타겟 캡처 시퀀스" 또는 "TACS"라는 용어는 관심 게놈 서열(들) 상의 관심 영역(들)에 상보적인 DNA 서열을 의미하며, 이들 DNA 서열은 생물학적 샘플로부터 제작된 전체 게놈 시퀀싱 라이브러리와 같은 대규모 시퀀스 라이브러리에서 관심 영역을 캡처하고 농축하기 위해 "미끼"로 사용된다. 본 발명의 맥락에서, "타겟 캡처 시퀀스" 또는 "TACS" 또는 "프로브"라는 용어는 상호교환적으로 사용된다.
또 다른 실시형태에서, TACS 풀은 AKT1, ALK, APC, AR, ARAF, ATM, BAP1, BARD1, BMPR1A, BRAF, BRCA1, BRCA2, BRIP1, CDH1, CDK4, CDKN2A (pl4ARF), CDKN2A (pl6INK4a), CHEK2, CTNNB1, DDB2, DDR2, DICERl, EGFR, EPCAM, ERBB2, ERBB3, ERBB4, ERCC1, ERCC2, ERCC3, ERCC4, ERCC5, ESR1, FANCA, FANCB, FANCC, FANCD2, FANCE, FANCF, FANCG, FANCI, FANCL, FANCM, FBXW7, FGFR1, FGFR2, FLT3, FOXA1, FOXL2, GATA3, GNA11, GNAQ, GNAS, GREM1, HOXB13, IDH1, IDH2, JAK2, KEAP1, KIT, KRAS, MAP2K1, MAP3K1, MEN1, MET, MLH1, MPL, MRE11A, MSH2, MSH6, MTOR, MUTYH, MYC, MYCN, NBN, NPM1, NRAS, NTRK1, PALB2, PDGFRA, PIK3CA, PIK3CB, PMS2, POLD1, POLE, POLH, PTEN, RAD50, RAD51C, RAD51D, RAF1, RBI, RET, ROS1, RUNX1, SDHA, SDHAF2, SDHB, SDHC, SDHD, SLX4, SMAD4, SMARCA4, SPOP, STAT, STK11, TMPRSS2, TP53, VHL, XPA, XPC 및 이들의 조합으로 이루어지지만 이에 한정되지 않는 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합한다. 일 실시형태에서, TACS 풀은 EGFR_6240, KRAS_521, EGFR_6225, NRAS_578, NRAS_580, PIK3CA_763, EGFR_13553, EGFR_18430, BRAF_476, KIT_1314, NRAS_584, EGFR_12378 및 이들의 조합으로 이루어진 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합한다.
또 다른 실시형태에서, TACS 풀은 COSM6240 (EGFR_6240), COSM521 (KRAS_521), COSM6225 (EGFR_6225), COSM578 (NRAS_578), COSM580 (NRAS_580), COSM763 (PIK3CA_763), COSM13553 (EGFR_13553), COSM18430 (EGFR_18430), COSM476 (BRAF_476), COSM1314 (KIT_1314), COSM584 (NRAS_584), COSM12378 (EGFR_12378) 및 이들의 조합으로 이루어지지만 이에 한정되지 않는 군에서 선택되는 다수의 관심 종양 바이오마커 서열에 결합하고, 여기서 식별자는 바이오마커의 COSMIC 데이터염기 ID를 나타낸다. 일반적으로, 프로브-하이브리드화 또는 농축 단계는 시퀀싱 라이브러리가 생성되기 전 또는 라이브러리가 생성된 후에 수행될 수 있다.
본 발명의 일 실시형태에서, 시퀀싱 라이브러리는, 예를 들어 비-무작위 단편화의 핫스팟을 커버하는 하나 이상의 프로브에 라이브러리를 혼성화함으로써 관심 영역의 서열에 대해 강화될 수 있다. 이러한 HSNRF 영역은, cfDNA의 혼합물에 존재하는 다양한 조직 유형(예를 들어, 암 및 정상)의 식별을 용이하게 하는 수많은 핵산 서열 변이를 짧은 거리 내에 포함할 가능성이 높은 영역이다.
HSNRF가 위치하는 관심 염색체(들) 상의 관심 영역(들)은, HSNRF 캡처 프로브 풀을 시퀀싱 라이브러리에 혼성화하고, 이후 시퀀싱 라이브러리 내에서 프로브에 결합하는 서열을 분리함으로써 풍부해진다. 일 실시형태에서, 프로브는 단편화된 무세포 핵산의 5' 말단만이 프로브에 의해 캡처되도록 HSNRF 부위에 걸쳐 있다. 또 다른 실시형태에서, 프로브는 HSNRF로부터 발생하는 단편화된 무세포 핵산의 3' 말단만이 프로브에 결합할 수 있도록 HSNRF 부위에 걸쳐 있다. 또 다른 바람직한 실시형태에서, 프로브는 주어진 HSNRF 부위와 관련된 무세포 핵산의 5' 및 3' 말단 모두가 프로브에 의해 캡처되도록 단편화된 핵산과 관련된 HSNRF 부위 모두에 걸쳐 있다.
원하는 풍부한 서열(HSNRF)의 분리를 용이하게 하기 위해, 일반적으로 프로브 서열은, 프로브에 혼성화하는 서열이 프로브에 혼성화하지 않는 서열로부터 분리될 수 있는 방식으로 변형된다. 일반적으로, 이는 프로브를 지지체에 고정함으로써 달성된다. 이로써 프로브에 결합하지 않는 서열로부터 프로브에 결합하는 서열을 물리적으로 분리할 수 있다. 예를 들어, 프로브 풀 내의 각각의 서열은 비오틴으로 표지될 수 있으며, 풀은 이후 스트렙타비딘(streptavidin) 또는 아비딘(avidin)과 같은 비오틴-결합 물질(biotin-binding substance)로 코팅된 비드(bead)에 결합될 수 있다. 바람직한 실시형태에서, 프로브는 비오틴으로 표지되고, 스트렙타비딘-코팅된 자성 비드에 결합됨으로써, 비드의 자기 특성을 이용하여 분리될 수 있다. 그러나, 통상의 기술자는 다른 친화성 결합 시스템이 본 기술 분야에 공지되어 있고 비오틴-스트렙타비딘/아비딘 대신에 사용될 수 있음을 인식할 것이다. 예를 들어, 프로브가 항원으로 표지된 다음 항체-코팅된 비드에 결합되는 항체 기반 시스템이 사용될 수 있다. 또한, 프로브는 한쪽 말단에서 서열 태그(sequence tag)를 포함할 수 있고, 서열 태그에 혼성화하는 지지체 상의 상보적 서열을 통해 지지체에 결합될 수 있다. 또한, 자성 비드 외에도, 폴리머 비드, 유리 등과 같은 다른 유형의 지지체가 사용될 수 있다.
특정 실시형태에서, 프로브 풀에 결합하는 시퀀싱 라이브러리의 구성원은 프로브에 완전히 상보적이다. 다른 실시형태에서, 프로브 풀에 결합하는 시퀀싱 라이브러리의 구성원은 프로브에 부분적으로 상보적이다. 예를 들어, 특정 상황에서, 농축 과정의 산물이지만 관심 있는 게놈 영역에는 반드시 속하지는 않고(즉, 부분적인 상동성으로 인해 프로브에 결합될 수 있고), 시퀀싱될 때 비-프로브 좌표에서 걸쳐 게놈 전체에 걸쳐 매우 낮은 커버리지를 생성할 수 있는 DNA 단편의 데이터를 활용하고 분석하는 것이 바람직할 수 있다.
프로브를 사용하여 관심 서열(들)을 농축하여 HSNRF 부위가 있는 DNA의 강화된 라이브러리를 형성한 후, 강화된 HSNRF 라이브러리의 구성원이 본 기술 분야에 공지된 표준 방법을 사용하여 용출되고 증폭되며 시퀀싱된다. 또 다른 실시형태에서, 프로브는 스트렙타비딘-코팅된 자성 비드와 함께 제공되는 비오틴화 프로브(biotinylated probe)와 같은 지지체와 함께 제공된다.
종양 바이오마커의 검출을 위해, 프로브는 본원에 기술된 설계 기준 및 암과 관련된 종양 바이오마커 유전자 및 유전적 돌연변이의 공지된 서열을 기반으로 설계된다. 일 실시형태에서, 방법에서 사용되는 다수의 프로브는 다수의 관심 종양 바이오마커 서열에 결합한다. 여기에서, 프로브는 돌연변이 부위에 인접한 비-무작위 단편화의 핫스팟에 위치할 수 있다.
본원에서, 차세대 시퀀싱(NGS)이 핵산 서열 분석에 사용될 수 있지만, 서열 정보뿐만 아니라 매우 정확한 카운팅을 제공하는 다른 시퀀싱 기술도 사용될 수 있다. 따라서 디지털 PCR, 단일 분자 시퀀싱(single molecule sequencing), 나노포어 시퀀싱(nanopore sequencing), DNA 나노볼 시퀀싱(DNA nanoball sequencing), 결찰에 의한 시퀀싱, 이온 반도체 시퀀싱(Ion semiconductor sequencing), 합성에 의한 시퀀싱, 마이크로어레이와 같은 다른 정확한 계수 방법이 또한 NGS 대신에 사용될 수 있다.
일 실시형태에서, 본 발명은 검출하고자 하는 핵산 단편 또는 결정하고자 하는 이의 기원이 동일한 유전자 좌(genetic locus)이지만 다른 기원의 핵산 단편보다 낮은 농도로 혼합물에 존재하는 방법에 관한 것이다.
본 방법은 이러한 낮은 농도의 표적 cfDNA를 분석하는 데 특히 적합하다. 본 발명에 따른 방법에서, 검출하고자 하는 핵산 단편 또는 결정하고자 하는 이의 기원, 및 동일한 유전자 좌이지만 다른 기원의 핵산 단편은 1:2, 1:4, 1:10, 1:20, 1:50, 1:100, 1:200, 1:500, 1:1000, 1:2000 및 1:5000의 군에서 선택되는 비율로 혼합물에 존재한다. 비율은 ± 30%, 20% 또는 10%를 의미하는 대략적인 비율로 이해해야 한다. 본 기술 분야의 숙련자는 이러한 비율이 상기한 수치 값에서 정확히 발생하지 않을 것임을 알고 있다. 비율은 풍부한 유형의 유전자 좌 특이적 분자의 수에 대한 희귀 유형의 유전자 좌 특이적 분자의 수를 나타낸다.
데이터 분석
강화된 라이브러리의 시퀀싱에서 얻은 정보는 혁신적인 생물수학/생물통계 데이터 분석 파이프라인을 사용하여 분석된다. 본 방법은, 참조 게놈 서열을 사용하여 종료 좌표에 대해 1 이상의 bp만큼 인접한 모든 가능한 모티프의 조합을 포함하는 cfDNA 단편의 특징을 이용하며, 관찰된 cfDNA 말단 부위는 제외하는데 이들 부위는 실제 절단 부위를 나타내지 않을 수 있기 때문이다. 또한, 위치와 모티프를 포함하여 cfDNA의 다양한 특징의 분석을 결합함으로써, 본 발명은 향상된 정확도, 즉 동일한 특이성 수준에서 증가된 민감도라는 예상치 못한 기술적 효과를 달성하였다.
본 발명의 바람직한 실시형태에 따르면, 표적화된 페어드-엔드(targeted paired-end) 차세대 시퀀싱이 수행된다. 모든 샘플에 대한 다중화된 데이터는 Illumina bcl2fastq 도구를 사용하여 역다중화된다. 상기 샘플의 시퀀싱 데이터는 cutadapt 소프트웨어(Martin, M. et al. 2011 EMB.netJournal 17.1)를 사용하여 어댑터 시퀀스 및 품질이 낮은 리드(판독, read)(Q-점수 <25)를 제거하기 위해 처리된다.
적어도 25개의 염기 길이인 처리된 리드는 Burrows-Wheel 정렬 알고리즘(Li, H. and Durbin, R. (2009) Bioinformatics 25:1754-1760)을 사용하여 인간 참조 게놈 빌드 GRCh37(hg19)(UCSC Genome Bioinformatics)에 대해 정렬되었다. 삽입 크기(insert size)가 임계값보다 큰 페어드-리드는 제거되었으며, 상기 임계값은 100 내지 600 범위에 있다. 해당되는 경우, 중복된 리드가 식별되고, 고유 분자 식별자(Unique Molecular Identifier, UMI) 계열별로 그룹화되어, 정렬 후 UMI 계열별로 일치 리드(consensus read)를 생성하는 데 사용된다.
해당되는 경우, 동일한 샘플에 속하지만 별도의 시퀀싱 레인에서 처리된 시퀀싱 출력을 단일 시퀀싱 출력 파일로 병합하였다. 복제물의 활용 및 병합 절차는 fgbio, picard 도구 소프트웨어 제품군(Broad Institute) 및 Sambamba 도구 소프트웨어 제품군(Sambamba reference, Tarasov, Artem, et al. Sambamba: fast processing of NGS alignment formats. Bioinformatics 31.12 (2015): 2032-2034)을 사용하여 수행하였다. 매핑 위치(최외각 및 인근 좌표), 관심 유전자 좌에서 염기당 리드-깊이 및 단편 크기에 관한 정보는 SAMtools 소프트웨어 제품군의 mpileup 옵션(따라서 mpileup 파일이라고 함)을 사용하여 얻었으며, Python 및 R 프로그래밍 언어(Python Software Foundation (2015) Python; The R Foundation (2015) The R Project for Statistical Computing)로 작성된 맞춤형 애플리케이션 프로그래밍 인터페이스(API)를 사용하여 처리하였다.
단편의 종료 좌표는 단편에 걸쳐 있는 참조 게놈의 가장 최외각 좌표로 정의된다, 즉 정렬된 각각의 단편은 두 개의 종료 좌표(참조 게놈에 대해 시작/가장 왼쪽 위치(5' 말단) 및 종료/가장 오른쪽 위치(3' 말단))를 갖는다.
본 발명의 다양한 실시형태에서, 표적화된 패널은 최소 500개의 표적 게놈 염기로 구성되었다. 샘플당 필요한 최소 단편 수는 100,000개이다.
본원에서, "진단 점수 값"은 '실시예 부분'의 실시예 1, 실시예 2 및 실시예 3에 기술된 모든 빈도 비율의 가중합으로 계산된다.
본원에서, "합계 진단 점수 값"은 실시예 4에 기술된 바와 같이 본 발명에 개시된 모든 단계로부터 적어도 두 개 이상의 빈도 비율의 가중합으로 계산된다.
본 발명의 일 실시형태에서, "기준 점수"는 하나 이상의 "기준 값"으로부터 계산될 수 있다.
일 실시형태에서, 기준 값 또는 기준 점수는 하나 이상의 정상 또는 참조 샘플에서 얻은 데이터로부터 계산될 수 있다. 일 실시형태에서, 기준 값 또는 기준 점수, 및 분석된 샘플의 값(예를 들어, 핵산 모티프의 빈도 또는 시작 및/또는 종료 좌표의 빈도) 또는 비교하고자 하는 분석된 샘플에 대한 진단 점수는 본원에 개시된 바와 동일한 계산 방법에 따라 계산된다.
샘플 분류
본원에서, 샘플의 분류는 이진 분류(즉, 암, 암이 아님; 좋은 예후, 나쁜 예후; 재발, 재발이 아님) 및 cftDNA의 양을 소량, 적당량 및 다량으로 분류하는 것을 포함한다.
샘플 분류를 위한 임상적으로 관련된 범주는 암의 존재 또는 부재, 질병 또는 암의 완화, 질병 또는 암의 재발, 초기 암 단계 및 예후일 수 있다.
일 실시형태에서, 샘플 내 종양 cfDNA의 양, 존재 또는 풍부도는, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있다.
종양학 용도
본 발명은 암의 치료, 또는 종양 크기 평가, 최소 잔류 질병 검출, 치료 결과 모니터링, 환자 결과의 장기간 모니터링에 사용될 수 있다. 본 발명은 또한 표적 요법에 적합한 돌연변이의 식별 및 암 체세포 및 생식계열 돌연변이의 검출에 사용될 수 있다. 본 방법은 다른 방법으로는 검출할 수 없는 작은 종양의 조기 발견을 가능하게 하고, 더욱 표적화되고 맞춤화된 치료법을 가능하게 한다.
키트
또 다른 양태에서, 본 발명은 본 발명의 방법을 수행하기 위한 키트를 제공한다. 일 실시형태에서, 키트는 프로브 풀, 소프트웨어. 및 방법을 수행하기 위한 지침으로 구성된 용기를 포함한다.
프로브 풀 외에도, 키트는: (i) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소, (ii) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소(예를 들어, 프라이머, 어댑터, 버퍼, 링커, DNA 변형 효소, 결찰 효소, 폴리머라제 효소, 프로브 등), (iii) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성 요소, 및/또는 (iv) 통계 분석을 수행하기 위한 소프트웨어 중 하나 이상을 포함할 수 있다. (i), (ii) 및 (iii)에서 언급된 단계를 수행하기에 적합한 구성요소는 본 기술 분야의 숙련자에게 잘 알려져 있다.
일 실시형태에서, 프로브는 비오틴화 프로브와 같은 고체 지지체에 결합될 수 있는 형태로 제공된다. 또 다른 실시형태에서, 프로브는 스트렙타비딘-코팅된 자성 비드와 함께 제공되는 비오틴화 프로브와 같은 고체 지지체와 함께 제공된다.
다양한 다른 실시형태에서, 키트는 방법의 다른 양태를 수행하기 위한 추가 구성요소를 포함할 수 있다. 예를 들어, 프로브 풀 외에도, 키트는: (i) 모체 혈장 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소; (ii) 시퀀싱 라이브러리를 제작하기 위한 하나 이상의 구성요소(예를 들어, 프라이머, 어댑터, 링커, 제한 효소, 결찰 효소, 폴리머라제 효소); (iii) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소; 및/또는 (iv) 통계 분석을 수행하기 위한 소프트웨어 중 하나 이상을 포함할 수 있다. (i), (ii) 및 (iii)에서 언급된 단계를 수행하기에 적합한 구성요소는 본 기술 분야의 숙련자에게 잘 알려져 있다.
실시예
실시예 1
샘플에 포함된 다수의 cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍)의 결정은 참조 서열에 대한 정렬에 의해 달성되었다. 이후, 샘플 내에 포함된 다수의 cfDNA 단편 내의 각각의 결정된 시작 및/또는 종료 서열 좌표의 빈도를 결정하였다. 해당 기준 빈도에 대한 각각의 결정된 참조 게놈 좌표의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(이하 "진단 점수"라 함)을 계산하였다.
본 발명의 일 실시형태에 따라, 각각의 염기 i( 여기서 i = 1,… B이고, B는 상기 패널의 표적 염기의 총수와 같음)에 대해, 확률 변수(X i )는:
(A1) 염기 i에서 시작 위치 좌표를 갖는 조건, 또는
(A2) 염기 i에서 종료 위치 좌표를 갖는 조건, 또는
(A3) 염기 i에서 시작 -1의 염기 위치 좌표를 갖는 조건, 또는
(A4) 염기 i에서 시작 +1의 염기 위치 좌표를 갖는 조건, 또는
(A5) 염기 i에서 종료 -1의 염기 위치 좌표를 갖는 조건, 또는
(A6) 염기 i에서 종료 +1의 염기 위치 좌표를 갖는 조건 중 적어도 하나를 충족시키는 매핑된 리드의 총수로 정의되었다.
귀무 가설(즉, 배경 모델)에 따르면, 게놈의 서로 다른 염기에서 조건 A1 내지 조건 A6 중 적어도 하나를 충족시키는 리드의 수는 다르지만 안정적으로 관찰될 것으로 예상되며, 상기 염기당 배경 확률 분포 모델은 정상 샘플 세트로부터 추정된다. 위의 X i 의 정의에서, X i ~ Bin(x i ;n i ,p i )가 있으며, n i 는 염기 i에 걸친 리드의 총수와 같고, p i 는 모든 i, 즉 에 대해 다음과 같이 추정된다:
여기서 z i,j 는 정상 샘플 j에 대한 염기 i에서 조건 A1 내지 조건 A6 중 적어도 하나를 충족시키는 관측된 리드의 수이고, n i,j 는 총 N개의 정상 샘플 중 정상 샘플 j에 대한 염기 i에 걸친 리드의 총수이다. 매우 작은 p와 큰 n을 갖는 이항 분포는 비율 파라미터가 np인 푸아송 분포(Poisson distribution)에 의해 근사화될 수 있다. 따라서, 염기당 배경 모델은 수학 공식 에 의해 정의되며, n i 는 염기 i에 걸친 리드의 총수와 같다. 본 발명의 또 다른 실시형태에서, 모든 j에 대해 z i ,j/n i ,j에 의해 정의된 확률 변수를 각각의 염기 i에서 모델링하기 위해 와이불(Weibull) 또는 베타 분포(Beta distribution)가 사용된다.
염기당 배경 모델을 훈련시킨 후 다음과 같이 진행하였다. 각각의 샘플 k에 대해, 본 발명의 일 실시형태에서, 다음이 수행된다: 각각의 X i 에 대해, 관측 값, 즉 x i 를 추정된 염기당 배경 모델과 비교하였다. p-값, 즉 P(X i > x i ) = 1 - P(X i ≤ x i )가 0.001 미만인 경우, X i 의 관측 값을 염기 i에 걸친 리드의 총수로 나누었다, 즉 Y i = X i /n i 이고, 아니면 Yi = 0이다. 샘플별 점수는 이후 다음과 같이 계산된다: , 여기서 n 2 는 염기의 총수이고, Y i > 0이다. 그리고 나서, 다음의 수학 공식을 사용하여 정규화된 점수 S 1,k 를 얻기 위해 S 0,k 가 정규화된다.
여기서 m과 s는 정상 참조 샘플의 모든 S 0 값의 평균 및 표준 편차이다 (도 1, 도 2 및 도 3).
실시예 2
cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍) 서열 좌표를 결정한 후, 참조 게놈로부터 참조 서열 내의 모든 핵산 모티프를 결정하였다. 상기 모티프는 트리뉴클레오티드, 테트라뉴클레오티드 및/또는 펜타뉴클레오티드로 구성되었고, 시작 및/또는 종료 좌표 안쪽이지만 1개 이상의 염기쌍만큼 이에 대해 인접한 염기쌍의 특정 범위 내에 있었다. 해당 기준 빈도에 대한 다수의 cfDNA 단편 내의 핵산 모티프 빈도 각각의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(여기서는 "진단 점수"라고 함)을 계산하였다.
본 발명의 일 실시형태에 따라, 각각의 샘플, 즉 k에 대해, hg19 참조 게놈 상에 정렬된 각각의 cfDNA 단편에 대한 두 개의 서열을 결정하였고, 상기 서열은 정렬된 cfDNA 단편의 두 개의 말단(단편에 걸쳐 있는 핵산 서열 제외)으로부터 안쪽으로 1 내지 5개의 염기쌍 범위 내의 hg19 게놈 서열을 포함하고, 상기 서열 내의 모든 트리뉴클레오티드(예를 들어, ACC, GGT 등), 테트라뉴클레오티드 및 펜타뉴클레오티드 서열 모티프의 절대 빈도를 계산하였다, 즉, T if (여기서 i = 1,… n j , j = 3,4,5)는 뉴클레오티드의 수이고 n j 는 가능한 모든 j-뉴클레오티드 모티프의 수이다(n 3 = 64, n 4 = 256, n 5 = 1024). 샘플별 점수 S 2,k 는 다음과 같이 계산된다.
위의 공식에서, D k 는 샘플 k의 일치 단편의 총수이고, K,r ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f ij 의 기준 값이고, m ij 와 s ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f ij 의 참조 평균과 표준 편차이고, w ij 는 정상 샘플과 비정상 샘플을 최적으로 분리하기 위해 훈련 세트로부터 최적화된 가중치()이다. 가중치 b j 는 본 발명의 다양한 실시형태에서 변할 수 있는데, b 3 = 1/12 또는 1/6 또는 1/3 또는 1/2이고, b 4 = 1/12 또는 1/6 또는 1/3 또는 1/2이며, b 5 = 1 - b3 - b4이다(도 1, 도 2 및 도 3).
실시예 3
cfDNA 단편의 시작 및/또는 종료(± 1개의 염기쌍) 서열 좌표를 결정한 후, 참조 게놈로부터 참조 서열 내의 모든 핵산 모티프를 결정하였다. 상기 모티프는 트리뉴클레오티드, 테트라뉴클레오티드 및/또는 펜타뉴클레오티드로 구성되었고, 시작 및/또는 종료 좌표 바깥쪽이지만 1개 이상의 염기쌍만큼 이에 대해 인접한 염기쌍의 특정 범위 내에 있었다. 해당 기준 빈도에 대한 다수의 cfDNA 단편 내의 핵산 모티프 빈도 각각의 빈도의 비율을 결정하였고, 얻어진 모든 빈도 비율의 가중합(여기서는 "진단 점수"라고 함)을 계산하였다.
방법의 일 실시형태에 따라, 각각의 샘플, 즉 k에 대해, hg19 참조 게놈 상에 정렬된 각각의 cfDNA 단편에 대한 두 개의 서열을 결정하였고, 상기 서열은 정렬된 cfDNA 단편의 두 개의 말단(단편에 걸쳐 있는 핵산 서열 제외)으로부터 바깥쪽으로 1 내지 5개의 염기쌍 범위 내의 hg19 게놈 서열을 포함하고, 상기 서열 내의 모든 트리뉴클레오티드(예를 들어, ACC, GGT 등), 테트라뉴클레오티드 및 펜타뉴클레오티드 서열 모티프의 절대 빈도를 계산하였다, 즉, T ij (여기서 i = 1,… n j , j = 3,4,5)는 뉴클레오티드의 수이고 n j 는 가능한 모든 j-뉴클레오티드 모티프의 수이다(n 3 = 64, n 4 = 256, n 5 = 1024). 샘플별 점수 S 2,k 는 다음과 같이 계산된다.
위의 공식에서, D k 는 샘플 k의 일치 단편의 총수이고, k,r ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 f ij 의 기준 값이고, m ij 와 s ij 는 ctDNA가 없는 샘플의 훈련 데이터세트로부터 계산된 의 참조 평균과 표준 편차이고, w ij 는 정상 샘플과 비정상 샘플을 최적으로 분리하기 위해 훈련 세트로부터 최적화된 가중치()이다. 가중치 b j 는 본 발명의 다양한 실시형태에서 변할 수 있는데, b 3 = 1/12 또는 1/6 또는 1/3 또는 1/2이고, b 4 = 1/12 또는 1/6 또는 1/3 또는 1/2이며, b 5 = 1 - b3 - b4이다(도 1, 도 2 및 도 3).
실시예 4
방법의 일 실시형태에 따라, 실시예 1, 실시예 2 및 실시예 3에서 계산된 점수 중 적어도 두 개의 점수의 가중합을 각각의 샘플에 대해 계산하였으며, 상기 가중합은 결국 "합계 진단 점수"라고 지칭된다. 샘플 k에 대한 진단 점수, 즉 DS k 는 위의 실시예 1, 실시예 2 및 실시예 3에 기술된 점수 중 적어도 두 개의 점수의 가중 평균으로 정의된다.
여기서 S 1 , S 2 및 S 3 은 각각 실시예 1, 실시예 2 및 실시예 3에서 계산되고, 본 발명의 다양한 실시형태에서, w 1 = 0.5 또는 0.4 또는 0.3 또는 0.2 또는 0(소수점 첫째 자리 반올림)이고, w 2 = 0.5 또는 0.4 또는 0.3 또는 0.2 또는 0(소수점 첫째 자리 반올림)이며, w 3 = 1 - w 1 - w 2 이다). 방법의 또 다른 실시형태에서, 샘플 k에 대한 DS 점수, 즉 DS k = zMAX(S 1,k ,S 2,k ,S 3,k ) + (1-z)MIN(S 1,k ,S 2,k ,S 3,k )(여기서, 0.5 < z < 1)를 계산하기 위해 {S 1 ,S 2 ,S 3 }의 최대값과 최소값의 가중 평균이 사용된다.
Claims (13)
- 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표 및 시작 및/또는 종료 ± 1개의 염기쌍의 서열 좌표를 결정하는 단계와,
(ii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 좌표의 빈도를 결정하는 단계와,
(iii) 해당 기준 빈도에 대한 단계 (ii)에서 결정된 각각의 좌표의 빈도의 비율을 계산하는 단계와,
(iv) 단계 (iii)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iii)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(v) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) 참조 서열에서, 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii)에서 결정된 각각의 핵산 모티프의 빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 모든 비율로부터 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)에서 결정된 모든 빈도 비율의 가중합인, 단계, 및
(vi) 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법으로서, 방법은:
(i) 다수의 무세포 DNA(cfDNA) 단편을 포함하는 샘플에서, 참조 서열에 대한 정렬에 의해 적어도 100,000개의 cfDNA 단편의 시작 및/또는 종료의 서열 좌표를 결정하는 단계와,
(ii) a) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서, 및/또는
b) 단계 (i)에서 결정된 각각의 시작 및/또는 종료 서열 좌표에 바깥쪽이지만 이에 인접한 1 내지 5개의 염기쌍의 범위 내에서,
참조 서열에서, 트리뉴클레오티드, 테트라뉴클레오티드 및 펜타뉴클레오티드로 구성된 모든 핵산 모티프를 결정하는 단계와,
(iii) a) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (i)에서 결정된 각각의 서열 좌표 ± 1개의 염기쌍, 및
b) 샘플에 포함된 다수의 cfDNA 단편에서, 단계 (ii) a) 및 단계 (ii) b)에서 결정된 각각의 핵산 모티프의,
빈도를 결정하는 단계와,
(iv) 해당 기준 빈도에 대한 단계 (iii) a) 및 단계 (iii) b)에서 결정된 각각의 빈도의 비율을 계산하는 단계와,
(v) 단계 (iv)에서 결정된 각각의 비율에 대해 개별적으로 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (iv)의 모든 개별 빈도 비율의 각각의 가중합인, 단계와,
(vi) 단계 (v)에서 결정된 진단 점수 중 적어도 두 개 이상으로부터 합계 진단 점수를 계산하는 단계로서, 상기 점수는 단계 (v)에서 결정된 상기 두 개 이상의 진단 점수의 가중합이고, 및
(vii) 합계 진단 점수를 기준 점수와 비교하여 샘플의 분류를 결정하는 단계를 포함하고,
여기서 샘플은, 합계 진단 점수 값이 기준 점수의 적어도 1 표준 편차만큼 기준 점수의 평균보다 높은 경우, 종양 cfDNA를 포함하는 것으로 분류되며, 기준 점수는 하나 이상의 기준 값으로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 4 항에 있어서,
합계 진단 점수는 제 4 항의 단계 (v)에서 계산된 모든 진단 점수로부터 계산되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
각각의 시작 및/또는 종료 서열 좌표 안쪽이지만 이에 인접한 염기쌍의 범위는 각각의 시작 및/또는 종료 좌표로부터 2 bp 내지 6 bp, 또는 3 bp 내지 7 bp, 또는 4 bp 내지 8 bp, 또는 5 bp 내지 9 bp 또는 6 bp 내지 10 bp일 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
분석하고자 하는 샘플 내에 포함된 cfDNA 단편의 최소량은 10만 내지 50만, 50만 내지 100만, 100만 내지 200만, 200만 내지 500만, 또는 500만 내지 1000만, 또는 1000만 내지 2000만, 또는 2000만 내지 5000만, 또는 5000만 내지 5억인, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 4 항 내지 제 7 항 중 어느 한 항에 있어서,
샘플 내의 종양 cfDNA의 양은, 합계 진단 점수가 기준 점수의 2 내지 4 표준 편차인 경우 소량으로, 합계 점수가 기준 점수의 4 내지 6.5 표준 편차인 경우 적당량으로, 그리고 합계 점수가 기준 점수의 6.5 표준 편차 이상인 경우 다량으로 분류될 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
참조 샘플은 암이 없는 환자, 또는 비-재발 환자, 또는 성공적으로 치료된 암 환자로부터의 샘플일 수 있는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
단계 (i)는 참조 서열에 대한 정렬 이전에 샘플 내의 다수의 cfDNA 단편 중 적어도 일부의 핵산 서열을 결정하는 단계를 포함하는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
단계 (i)는 cfDNA 단편의 핵산 서열을 결정하는 단계 이전에 cfDNA 단편을 농축하는 단계를 더 포함하는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
샘플은 혈액암, 간암, 폐암, 췌장암, 전립선암, 유방암, 위암, 교모세포종, 대장암, 두경부암, 고형 종양, 양성 종양, 악성 종양, 진행 단계의 암, 전이성 또는 전암성 조직으로 이루어진 군에서 선택되는 종양에서 유래하는 종양 cfDNA를 포함하는 것으로 분류되는, 샘플을 무세포 종양 DNA를 포함하는 것으로 분류하는 방법. - 키트로서, 키트는:
(i) 제 1 항 내지 제 12 항의 중 어느 한 항에 따른 방법을 수행하기 위한 구성요소로서, 구성요소는:
a) 생물학적 샘플로부터 무세포 DNA를 분리하기 위한 하나 이상의 구성요소와,
b) 시퀀싱 라이브러리를 제작하고 강화하기 위한 하나 이상의 구성요소, 및/또는
c) 강화된 라이브러리를 증폭 및/또는 시퀀싱하기 위한 하나 이상의 구성요소를 포함하는 구성요소와,
(ii) 통계 분석을 수행하기 위한 소프트웨어를 포함하는, 키트.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20215730.1 | 2020-12-18 | ||
EP20215730.1A EP4015650A1 (en) | 2020-12-18 | 2020-12-18 | Methods for classifying a sample into clinically relevant categories |
PCT/EP2021/086243 WO2022129360A1 (en) | 2020-12-18 | 2021-12-16 | Methods for classifying a sample into clinically relevant categories |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230133287A true KR20230133287A (ko) | 2023-09-19 |
Family
ID=73855948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237023531A KR20230133287A (ko) | 2020-12-18 | 2021-12-16 | 샘플을 임상적으로 관련된 범주로 분류하기 위한 방법 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20240052416A1 (ko) |
EP (2) | EP4015650A1 (ko) |
JP (1) | JP2023554505A (ko) |
KR (1) | KR20230133287A (ko) |
CN (1) | CN116806267A (ko) |
AU (1) | AU2021399915A1 (ko) |
CA (1) | CA3201862A1 (ko) |
IL (1) | IL303826A (ko) |
MX (1) | MX2023007267A (ko) |
WO (1) | WO2022129360A1 (ko) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017292854B2 (en) * | 2016-07-06 | 2023-08-17 | Guardant Health, Inc. | Methods for fragmentome profiling of cell-free nucleic acids |
EP3555311A4 (en) * | 2016-12-13 | 2020-08-12 | Bellwether Bio, Inc. | DETERMINATION OF A PHYSIOLOGICAL STATE IN A PERSON BY ANALYSIS OF CELL-FREE DNA FRAGMENT END POINTS IN A BIOLOGICAL SAMPLE |
-
2020
- 2020-12-18 EP EP20215730.1A patent/EP4015650A1/en not_active Withdrawn
-
2021
- 2021-12-16 JP JP2023537595A patent/JP2023554505A/ja active Pending
- 2021-12-16 US US18/267,617 patent/US20240052416A1/en active Pending
- 2021-12-16 WO PCT/EP2021/086243 patent/WO2022129360A1/en active Application Filing
- 2021-12-16 IL IL303826A patent/IL303826A/en unknown
- 2021-12-16 CA CA3201862A patent/CA3201862A1/en active Pending
- 2021-12-16 EP EP21836192.1A patent/EP4263870A1/en active Pending
- 2021-12-16 AU AU2021399915A patent/AU2021399915A1/en active Pending
- 2021-12-16 KR KR1020237023531A patent/KR20230133287A/ko unknown
- 2021-12-16 CN CN202180091896.7A patent/CN116806267A/zh active Pending
- 2021-12-16 MX MX2023007267A patent/MX2023007267A/es unknown
Also Published As
Publication number | Publication date |
---|---|
EP4263870A1 (en) | 2023-10-25 |
US20240052416A1 (en) | 2024-02-15 |
WO2022129360A1 (en) | 2022-06-23 |
IL303826A (en) | 2023-08-01 |
MX2023007267A (es) | 2023-09-04 |
JP2023554505A (ja) | 2023-12-27 |
EP4015650A1 (en) | 2022-06-22 |
CA3201862A1 (en) | 2022-06-23 |
CN116806267A (zh) | 2023-09-26 |
AU2021399915A1 (en) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109880910B (zh) | 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统 | |
US11001837B2 (en) | Low-frequency mutations enrichment sequencing method for free target DNA in plasma | |
US10947599B2 (en) | Tumor mutation burden | |
US20210087637A1 (en) | Methods and systems for screening for conditions | |
US20230203590A1 (en) | Methods and means for diagnosing lung cancer | |
CA3114465A1 (en) | Next-generation sequencing-based method for detection of microsatellites stability and genomic changes in plasma samples | |
CN114752672B (zh) | 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用 | |
Mohanty et al. | Liquid Biopsy, the hype vs. hope in molecular and clinical oncology | |
EP4243023A1 (en) | Method for determining sensitivity to parp inhibitor or dna damaging agent using non-functional transcriptome | |
KR20240049800A (ko) | 비정상적으로 메틸화된 단편을 갖는 체세포 변이 동시 발생 | |
EP4015650A1 (en) | Methods for classifying a sample into clinically relevant categories | |
US20220127601A1 (en) | Method of determining the origin of nucleic acids in a mixed sample | |
US20240052424A1 (en) | Methods for classifying a sample into clinically relevant categories | |
Englert‑Golon et al. | Genomic mapping of pathways in endometrial adenocarcinoma and a gastrointestinal stromal tumor located in Meckel's diverticulum | |
AU2021291586B2 (en) | Multimodal analysis of circulating tumor nucleic acid molecules | |
Adamusova et al. | Bridge Capture Permits Cost-Efficient, Rapid and Sensitive Molecular Precision Diagnostics | |
CN117418003A (zh) | 标志物、探针及其应用 | |
AU2024203201A1 (en) | Multimodal analysis of circulating tumor nucleic acid molecules |