WO2023182585A1 - 순환 종양 핵산의 복제수 변이 분석 방법 - Google Patents
순환 종양 핵산의 복제수 변이 분석 방법 Download PDFInfo
- Publication number
- WO2023182585A1 WO2023182585A1 PCT/KR2022/011528 KR2022011528W WO2023182585A1 WO 2023182585 A1 WO2023182585 A1 WO 2023182585A1 KR 2022011528 W KR2022011528 W KR 2022011528W WO 2023182585 A1 WO2023182585 A1 WO 2023182585A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- copy number
- value
- number variation
- depth
- region
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 27
- 150000007523 nucleic acids Chemical class 0.000 title claims abstract description 22
- 102000039446 nucleic acids Human genes 0.000 title claims abstract description 15
- 108020004707 nucleic acids Proteins 0.000 title claims abstract description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 40
- 238000009826 distribution Methods 0.000 claims description 27
- 230000035772 mutation Effects 0.000 claims description 11
- -1 KIT Proteins 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 108700020463 BRCA1 Proteins 0.000 claims description 4
- 102000036365 BRCA1 Human genes 0.000 claims description 4
- 101150072950 BRCA1 gene Proteins 0.000 claims description 4
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 claims description 4
- 108010058546 Cyclin D1 Proteins 0.000 claims description 4
- 108010025464 Cyclin-Dependent Kinase 4 Proteins 0.000 claims description 4
- 108010025468 Cyclin-Dependent Kinase 6 Proteins 0.000 claims description 4
- 102100036252 Cyclin-dependent kinase 4 Human genes 0.000 claims description 4
- 102100026804 Cyclin-dependent kinase 6 Human genes 0.000 claims description 4
- 102000012199 E3 ubiquitin-protein ligase Mdm2 Human genes 0.000 claims description 4
- 108050002772 E3 ubiquitin-protein ligase Mdm2 Proteins 0.000 claims description 4
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 claims description 4
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 claims description 4
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 claims description 4
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 claims description 4
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 claims description 4
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 claims description 4
- 102100024185 G1/S-specific cyclin-D2 Human genes 0.000 claims description 4
- 102100037858 G1/S-specific cyclin-E1 Human genes 0.000 claims description 4
- 102100030708 GTPase KRas Human genes 0.000 claims description 4
- 101000967216 Homo sapiens Eosinophil cationic protein Proteins 0.000 claims description 4
- 101000980741 Homo sapiens G1/S-specific cyclin-D2 Proteins 0.000 claims description 4
- 101000738568 Homo sapiens G1/S-specific cyclin-E1 Proteins 0.000 claims description 4
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 claims description 4
- 101001052493 Homo sapiens Mitogen-activated protein kinase 1 Proteins 0.000 claims description 4
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 claims description 4
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 claims description 4
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 claims description 4
- 101001117317 Homo sapiens Programmed cell death 1 ligand 1 Proteins 0.000 claims description 4
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 claims description 4
- 101000712530 Homo sapiens RAF proto-oncogene serine/threonine-protein kinase Proteins 0.000 claims description 4
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 claims description 4
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 claims description 4
- 108700012912 MYCN Proteins 0.000 claims description 4
- 101150022024 MYCN gene Proteins 0.000 claims description 4
- 102100024193 Mitogen-activated protein kinase 1 Human genes 0.000 claims description 4
- 102100038895 Myc proto-oncogene protein Human genes 0.000 claims description 4
- 108700026495 N-Myc Proto-Oncogene Proteins 0.000 claims description 4
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 claims description 4
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 claims description 4
- 102100024216 Programmed cell death 1 ligand 1 Human genes 0.000 claims description 4
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 claims description 4
- 102100033479 RAF proto-oncogene serine/threonine-protein kinase Human genes 0.000 claims description 4
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 claims description 4
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 claims description 4
- 108010053099 Vascular Endothelial Growth Factor Receptor-2 Proteins 0.000 claims description 4
- 102100033177 Vascular endothelial growth factor receptor 2 Human genes 0.000 claims description 4
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 claims description 4
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 claims description 4
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 claims description 4
- 102000006311 Cyclin D1 Human genes 0.000 claims 1
- 102000055056 N-Myc Proto-Oncogene Human genes 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 36
- 230000035945 sensitivity Effects 0.000 abstract description 5
- 201000011510 cancer Diseases 0.000 description 17
- 239000000523 sample Substances 0.000 description 15
- 239000012634 fragment Substances 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 11
- 238000007481 next generation sequencing Methods 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 8
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- VZSRBBMJRBPUNF-UHFFFAOYSA-N 2-(2,3-dihydro-1H-inden-2-ylamino)-N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]pyrimidine-5-carboxamide Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)C(=O)NCCC(N1CC2=C(CC1)NN=N2)=O VZSRBBMJRBPUNF-UHFFFAOYSA-N 0.000 description 3
- 102100024165 G1/S-specific cyclin-D1 Human genes 0.000 description 3
- 102100030124 N-myc proto-oncogene protein Human genes 0.000 description 3
- 210000000349 chromosome Anatomy 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000013610 patient sample Substances 0.000 description 3
- 210000002381 plasma Anatomy 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 2
- NIPNSKYNPDTRPC-UHFFFAOYSA-N N-[2-oxo-2-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)ethyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 NIPNSKYNPDTRPC-UHFFFAOYSA-N 0.000 description 2
- AFCARXCZXQIEQB-UHFFFAOYSA-N N-[3-oxo-3-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(CCNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 AFCARXCZXQIEQB-UHFFFAOYSA-N 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 2
- 208000029742 colonic neoplasm Diseases 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000007838 multiplex ligation-dependent probe amplification Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 210000003296 saliva Anatomy 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 230000005945 translocation Effects 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 102100033793 ALK tyrosine kinase receptor Human genes 0.000 description 1
- 102100034580 AT-rich interactive domain-containing protein 1A Human genes 0.000 description 1
- 102000000872 ATM Human genes 0.000 description 1
- 102100034540 Adenomatous polyposis coli protein Human genes 0.000 description 1
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 1
- 102100022983 B-cell lymphoma/leukemia 11B Human genes 0.000 description 1
- 101700002522 BARD1 Proteins 0.000 description 1
- 102100035080 BDNF/NT-3 growth factors receptor Human genes 0.000 description 1
- 102100028048 BRCA1-associated RING domain protein 1 Human genes 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 102100026008 Breakpoint cluster region protein Human genes 0.000 description 1
- 101710098191 C-4 methylsterol oxidase ERG25 Proteins 0.000 description 1
- 102100034808 CCAAT/enhancer-binding protein alpha Human genes 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 1
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 102100035595 Cohesin subunit SA-2 Human genes 0.000 description 1
- 108010043471 Core Binding Factor Alpha 2 Subunit Proteins 0.000 description 1
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 1
- 102100038111 Cyclin-dependent kinase 12 Human genes 0.000 description 1
- 108010076010 Cystathionine beta-lyase Proteins 0.000 description 1
- 230000003350 DNA copy number gain Effects 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 102100033934 DNA repair protein RAD51 homolog 2 Human genes 0.000 description 1
- 102100034484 DNA repair protein RAD51 homolog 3 Human genes 0.000 description 1
- 102100034483 DNA repair protein RAD51 homolog 4 Human genes 0.000 description 1
- 102100033587 DNA topoisomerase 2-alpha Human genes 0.000 description 1
- 102100022334 Dihydropyrimidine dehydrogenase [NADP(+)] Human genes 0.000 description 1
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 1
- 102100023266 Dual specificity mitogen-activated protein kinase kinase 2 Human genes 0.000 description 1
- 102100035813 E3 ubiquitin-protein ligase CBL Human genes 0.000 description 1
- 102100026245 E3 ubiquitin-protein ligase RNF43 Human genes 0.000 description 1
- 102100038595 Estrogen receptor Human genes 0.000 description 1
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 1
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 1
- 102000052930 Fanconi Anemia Complementation Group L protein Human genes 0.000 description 1
- 108700026162 Fanconi Anemia Complementation Group L protein Proteins 0.000 description 1
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 1
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 1
- 102100034553 Fanconi anemia group J protein Human genes 0.000 description 1
- 102100027541 GTP-binding protein Rheb Human genes 0.000 description 1
- 102100029974 GTPase HRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 102100025334 Guanine nucleotide-binding protein G(q) subunit alpha Human genes 0.000 description 1
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 description 1
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 1
- 102100031561 Hamartin Human genes 0.000 description 1
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 1
- 102100032742 Histone-lysine N-methyltransferase SETD2 Human genes 0.000 description 1
- 101000779641 Homo sapiens ALK tyrosine kinase receptor Proteins 0.000 description 1
- 101000924266 Homo sapiens AT-rich interactive domain-containing protein 1A Proteins 0.000 description 1
- 101000924577 Homo sapiens Adenomatous polyposis coli protein Proteins 0.000 description 1
- 101000596896 Homo sapiens BDNF/NT-3 growth factors receptor Proteins 0.000 description 1
- 101000933320 Homo sapiens Breakpoint cluster region protein Proteins 0.000 description 1
- 101000945515 Homo sapiens CCAAT/enhancer-binding protein alpha Proteins 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101000642968 Homo sapiens Cohesin subunit SA-2 Proteins 0.000 description 1
- 101000884345 Homo sapiens Cyclin-dependent kinase 12 Proteins 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101000712511 Homo sapiens DNA repair and recombination protein RAD54-like Proteins 0.000 description 1
- 101001132271 Homo sapiens DNA repair protein RAD51 homolog 3 Proteins 0.000 description 1
- 101001132266 Homo sapiens DNA repair protein RAD51 homolog 4 Proteins 0.000 description 1
- 101000902632 Homo sapiens Dihydropyrimidine dehydrogenase [NADP(+)] Proteins 0.000 description 1
- 101000692702 Homo sapiens E3 ubiquitin-protein ligase RNF43 Proteins 0.000 description 1
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 1
- 101100119754 Homo sapiens FANCL gene Proteins 0.000 description 1
- 101000848171 Homo sapiens Fanconi anemia group J protein Proteins 0.000 description 1
- 101000574654 Homo sapiens GTP-binding protein Rit1 Proteins 0.000 description 1
- 101000584633 Homo sapiens GTPase HRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101000857888 Homo sapiens Guanine nucleotide-binding protein G(q) subunit alpha Proteins 0.000 description 1
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 description 1
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 description 1
- 101001072407 Homo sapiens Guanine nucleotide-binding protein subunit alpha-11 Proteins 0.000 description 1
- 101000795643 Homo sapiens Hamartin Proteins 0.000 description 1
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 1
- 101000654725 Homo sapiens Histone-lysine N-methyltransferase SETD2 Proteins 0.000 description 1
- 101001034652 Homo sapiens Insulin-like growth factor 1 receptor Proteins 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 1
- 101001025967 Homo sapiens Lysine-specific demethylase 6A Proteins 0.000 description 1
- 101000916644 Homo sapiens Macrophage colony-stimulating factor 1 receptor Proteins 0.000 description 1
- 101000954986 Homo sapiens Merlin Proteins 0.000 description 1
- 101001052490 Homo sapiens Mitogen-activated protein kinase 3 Proteins 0.000 description 1
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 description 1
- 101001109719 Homo sapiens Nucleophosmin Proteins 0.000 description 1
- 101001120056 Homo sapiens Phosphatidylinositol 3-kinase regulatory subunit alpha Proteins 0.000 description 1
- 101001117312 Homo sapiens Programmed cell death 1 ligand 2 Proteins 0.000 description 1
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 description 1
- 101000686031 Homo sapiens Proto-oncogene tyrosine-protein kinase ROS Proteins 0.000 description 1
- 101000579425 Homo sapiens Proto-oncogene tyrosine-protein kinase receptor Ret Proteins 0.000 description 1
- 101000798015 Homo sapiens RAC-beta serine/threonine-protein kinase Proteins 0.000 description 1
- 101000932478 Homo sapiens Receptor-type tyrosine-protein kinase FLT3 Proteins 0.000 description 1
- 101000742859 Homo sapiens Retinoblastoma-associated protein Proteins 0.000 description 1
- 101000771237 Homo sapiens Serine/threonine-protein kinase A-Raf Proteins 0.000 description 1
- 101000777293 Homo sapiens Serine/threonine-protein kinase Chk1 Proteins 0.000 description 1
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 1
- 101000628562 Homo sapiens Serine/threonine-protein kinase STK11 Proteins 0.000 description 1
- 101000802948 Homo sapiens Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B alpha isoform Proteins 0.000 description 1
- 101000783404 Homo sapiens Serine/threonine-protein phosphatase 2A 65 kDa regulatory subunit A alpha isoform Proteins 0.000 description 1
- 101000808799 Homo sapiens Splicing factor U2AF 35 kDa subunit Proteins 0.000 description 1
- 101000799466 Homo sapiens Thrombopoietin receptor Proteins 0.000 description 1
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 1
- 101000596771 Homo sapiens Transcription factor 7-like 2 Proteins 0.000 description 1
- 101000795659 Homo sapiens Tuberin Proteins 0.000 description 1
- 101000823316 Homo sapiens Tyrosine-protein kinase ABL1 Proteins 0.000 description 1
- 101000864342 Homo sapiens Tyrosine-protein kinase BTK Proteins 0.000 description 1
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 1
- 101000934996 Homo sapiens Tyrosine-protein kinase JAK3 Proteins 0.000 description 1
- 101001087416 Homo sapiens Tyrosine-protein phosphatase non-receptor type 11 Proteins 0.000 description 1
- 102100039688 Insulin-like growth factor 1 receptor Human genes 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 1
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 description 1
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 102100037462 Lysine-specific demethylase 6A Human genes 0.000 description 1
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 1
- 108010068353 MAP Kinase Kinase 2 Proteins 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 102100028198 Macrophage colony-stimulating factor 1 receptor Human genes 0.000 description 1
- 102100037106 Merlin Human genes 0.000 description 1
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 1
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 1
- 102100024192 Mitogen-activated protein kinase 3 Human genes 0.000 description 1
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 101150097381 Mtor gene Proteins 0.000 description 1
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 1
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 1
- MKYBYDHXWVHEJW-UHFFFAOYSA-N N-[1-oxo-1-(2,4,6,7-tetrahydrotriazolo[4,5-c]pyridin-5-yl)propan-2-yl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C(C(C)NC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F)N1CC2=C(CC1)NN=N2 MKYBYDHXWVHEJW-UHFFFAOYSA-N 0.000 description 1
- 108010071382 NF-E2-Related Factor 2 Proteins 0.000 description 1
- 102100029166 NT-3 growth factor receptor Human genes 0.000 description 1
- 102000007530 Neurofibromin 1 Human genes 0.000 description 1
- 108010085793 Neurofibromin 1 Proteins 0.000 description 1
- 102000001759 Notch1 Receptor Human genes 0.000 description 1
- 108010029755 Notch1 Receptor Proteins 0.000 description 1
- 102100031701 Nuclear factor erythroid 2-related factor 2 Human genes 0.000 description 1
- 102100022678 Nucleophosmin Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 102100026169 Phosphatidylinositol 3-kinase regulatory subunit alpha Human genes 0.000 description 1
- 108010051742 Platelet-Derived Growth Factor beta Receptor Proteins 0.000 description 1
- 102100026547 Platelet-derived growth factor receptor beta Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 102100024213 Programmed cell death 1 ligand 2 Human genes 0.000 description 1
- 102100023347 Proto-oncogene tyrosine-protein kinase ROS Human genes 0.000 description 1
- 102100028286 Proto-oncogene tyrosine-protein kinase receptor Ret Human genes 0.000 description 1
- 102100032315 RAC-beta serine/threonine-protein kinase Human genes 0.000 description 1
- 101710018890 RAD51B Proteins 0.000 description 1
- 101150020518 RHEB gene Proteins 0.000 description 1
- 101150111584 RHOA gene Proteins 0.000 description 1
- 101710100969 Receptor tyrosine-protein kinase erbB-3 Proteins 0.000 description 1
- 102100029986 Receptor tyrosine-protein kinase erbB-3 Human genes 0.000 description 1
- 102100020718 Receptor-type tyrosine-protein kinase FLT3 Human genes 0.000 description 1
- 208000007660 Residual Neoplasm Diseases 0.000 description 1
- 102100038042 Retinoblastoma-associated protein Human genes 0.000 description 1
- 102100025373 Runt-related transcription factor 1 Human genes 0.000 description 1
- 102100029437 Serine/threonine-protein kinase A-Raf Human genes 0.000 description 1
- 102100031081 Serine/threonine-protein kinase Chk1 Human genes 0.000 description 1
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 1
- 102100026715 Serine/threonine-protein kinase STK11 Human genes 0.000 description 1
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 description 1
- 102100035728 Serine/threonine-protein phosphatase 2A 55 kDa regulatory subunit B alpha isoform Human genes 0.000 description 1
- 102100036122 Serine/threonine-protein phosphatase 2A 65 kDa regulatory subunit A alpha isoform Human genes 0.000 description 1
- 102000013380 Smoothened Receptor Human genes 0.000 description 1
- 101710090597 Smoothened homolog Proteins 0.000 description 1
- 102100038501 Splicing factor U2AF 35 kDa subunit Human genes 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 102100034196 Thrombopoietin receptor Human genes 0.000 description 1
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 1
- 102100035101 Transcription factor 7-like 2 Human genes 0.000 description 1
- 102100023931 Transcriptional regulator ATRX Human genes 0.000 description 1
- 102100022387 Transforming protein RhoA Human genes 0.000 description 1
- 102100031638 Tuberin Human genes 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 1
- 108010046308 Type II DNA Topoisomerases Proteins 0.000 description 1
- 102100022596 Tyrosine-protein kinase ABL1 Human genes 0.000 description 1
- 102100029823 Tyrosine-protein kinase BTK Human genes 0.000 description 1
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 1
- 102100025387 Tyrosine-protein kinase JAK3 Human genes 0.000 description 1
- 102100033019 Tyrosine-protein phosphatase non-receptor type 11 Human genes 0.000 description 1
- 102100029152 UDP-glucuronosyltransferase 1A1 Human genes 0.000 description 1
- 101710205316 UDP-glucuronosyltransferase 1A1 Proteins 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 230000004611 cancer cell death Effects 0.000 description 1
- 230000009702 cancer cell proliferation Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 210000004524 haematopoietic cell Anatomy 0.000 description 1
- 125000005842 heteroatom Chemical group 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 238000007901 in situ hybridization Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 108010064892 trkC Receptor Proteins 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
Definitions
- the present invention relates to methods for analyzing copy number variations in circulating tumor nucleic acids.
- Copy number variation refers to a phenomenon in which the number of copies of a specific nucleotide sequence of a gene varies from individual to individual, and is caused by insertion, deletion, duplication, or translocation of a specific nucleotide sequence. It is a type of genetic structural variation that occurs due to inversion or translocation. CNV is particularly highly correlated with cancer cell proliferation and is attracting attention as a factor in various diseases.
- Representative methods for detecting copy number variation include FISH (fluorescence in situ hybridization), aCGH (array comparative genomic hybridization), qPCR (quantitative real time polymerase chain reaction), and MLPA (multiplex ligation-dependent probe amplification).
- FISH fluorescence in situ hybridization
- aCGH array comparative genomic hybridization
- qPCR quantitative real time polymerase chain reaction
- MLPA multiplex ligation-dependent probe amplification
- cfDNA cell-free DNA
- ctDNA circulating tumor DNA
- the present invention seeks to present a technique for accurately analyzing copy number variation in ctDNA based on NGS information.
- One aspect of the present invention includes the steps of a) extracting cell free nucleic acid (cfDNA) containing a candidate copy number variation from a target sample; b) selecting a read with a nucleic acid fragment length of 90 to 150 bp among the cfDNA reads containing the candidate copy number variation; c) detecting a stable region from the selected reads; and d) providing a method for analyzing copy number variation in circulating tumor nucleic acid, comprising the step of comparing the result of the detected read with a reference applying the sequenced depth distribution of the target gene region and the SNP detectable region.
- cfDNA cell free nucleic acid
- One aspect of the present invention includes the steps of a) extracting cell free nucleic acid (cfDNA) containing a candidate copy number variation from a target sample; b) selecting a read with a nucleic acid fragment length of 90 to 150 bp among the cfDNA reads containing the candidate copy number variation; c) detecting a stable region from the selected reads; and d) comparing the result of the detected read with a reference applying the sequenced depth distribution of the target gene region and the SNP detectable region.
- cfDNA cell free nucleic acid
- the stable region selects a singular value by collecting the median absolute deviation of the sequence depth of a plurality of target gene regions, and the singular value is an interquatile range value. It may be set to less than 1.5 times.
- the target genes are AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET , MYC, MYCN, PDGFRA, PIK3CA and RAF1.
- the SNP detectable region may be selected with a probability of detecting 2 to 5 SNP mutations per target gene.
- the comparing step is performed when the -log(Depth p-value) value is 3 or more by comparing it with the p-value cutoff value calculated through the probability distribution calculated for the reference, and is 2.3 or more and less than 4.
- the -log(Depth p-value) value is 5 or more, and if the copy number is 4 or more, it may include the step of determining copy number variation by amplification.
- the sensitivity for copy number variation analysis in ctDNA can be improved, and the accuracy and efficiency of analysis can be increased.
- Figure 1 is a diagram showing the relationship between read depth and copy number mutation signal according to cancer purity.
- Figure 2 is a diagram showing the results of using the characteristics of ctDNA fragment size to create a reference for analysis of ctDNA-derived copy number variation.
- Figure 3 is a diagram showing the process of collecting normalized depths for multiple normal samples and multiple target gene regions to create a reference for analysis of ctDNA-derived copy number variation.
- Figure 4 shows the results of comparing the sensitivity and accuracy of analysis using SNP variation to create a reference for analysis of ctDNA-derived copy number variation.
- Figure 5 shows the results of confirming copy number variation in normal and clinical samples according to the copy number variation determination method according to an embodiment of the present invention.
- One aspect of the present invention includes the steps of a) extracting cell free nucleic acid (cfDNA) containing a candidate copy number variation from a target sample; b) selecting a read with a nucleic acid fragment length of 90 to 150 bp among the cfDNA reads containing the candidate copy number variation; c) detecting a stable region from the selected reads; and d) comparing the result of the detected read with a reference applying the sequenced depth distribution of the target gene region and the SNP detectable region.
- cfDNA cell free nucleic acid
- tumor nucleic acids circulating tumor DNA, ctDNA
- cell-free nucleic acids cell-free DNA, cfDNA
- the amount of these nucleic acids is higher in cancer patients than in normal controls.
- the amount of ctDNA increases when cancer recurs after treatment.
- the present inventors verified that copy number variation can be effectively analyzed through signal amplification through selection of target gene regions suitable for analysis and selection of fragment size of cfDNA. Thus, the present invention was completed.
- the method of the present invention performs the step of a) extracting cell free nucleic acid (cfDNA) containing candidate copy number variation from the target sample.
- cfDNA cell free nucleic acid
- CNV copy number variation
- sample refers to tissue, cells, whole blood, serum, plasma, saliva, sputum, It includes, but is not limited to, samples such as cerebrospinal fluid or urine, and preferably may be serum or plasma.
- the term 'cell-free DNA' or 'cfDNA' refers to a fragment of nucleic acid found outside of a cell (e.g., body fluid), and the body fluid is blood, cerebrospinal fluid, , including, but not limited to, saliva or urine.
- the cfDNA may be derived from the subject (e.g., from the subject's cells) or from a source other than the subject (e.g., from a viral infection).
- Extraction of cfDNA can be performed according to methods known in the art, and the extracted cfDNA obtains a plurality of reads through Next Generation Sequencing (NGS) and sorts them to determine read depth. can be obtained.
- the read depth may correspond to the number of aligned leads.
- NGS Next Generation Sequencing
- the method of the present invention performs the step of b) selecting reads with a nucleic acid fragment length of 90 to 150 bp among the cfDNA reads containing the candidate copy number variation.
- ctDNA fragments are known to be relatively short in length (Peter Peneder et al (2021). Nat Commun., Stephen Cristiano et al (2019). Nature.). Therefore, in the present invention, the ctDNA signal was amplified within cfDNA using the characteristics of the ctDNA fragment size and used for analysis of copy number variation.
- the method of the present invention performs c) detecting a stable region from the selected read.
- Targeted sequencing is a high-depth sequencing method, and it is known that there is a large variation in the degree of sequencing for each target region due to factors such as the ratio of GC sequences and the presence of repetitive regions.
- copy number variation is a variation that occurs at a gene level at a small scale or throughout the entire chromosome at a large scale, so excluding regions with large deviations does not have a significant impact on the analysis of copy number variation. Therefore, we attempted to increase the efficiency and accuracy of analysis by defining the region with small deviation as a stable region and analyzing copy number variation in the stable region.
- the stable region calculates the median absolute deviation (MAD) for the sequence depth of each target gene region of a plurality of target gene regions, for example, a plurality of normal sample data, and all Unstable areas were removed by collecting the median absolute deviation values for the area and selecting outliers.
- the standard for selecting outliers was a value calculated by using the characteristics of quartiles to classify values over IQR*1.5 times as upper limit outliers.
- the target genes are ABL1, AKT1, AKT2, ALK, APC, AR, ARAF, ARID1A, ATM, BARD1, BCR, BRAF, BRCA1, BRCA2, BRIP1, BTK, CBL, CCND1, CCND2, CCNE1, CD274, CDH1, CDK12, CDK4, CDK6, CDKN2A, CEBPA, CHEK1, CHEK2, CSF1R, CTNNB1, DDR2, DPYD, EGFR, ERBB2, ERBB3, ESR1, FANCL, FBXW7, FGFR1, FGFR2, FGFR3, FLT3, GATA3, GNA11, GNAQ, GNAS, HRAS, IDH1, IDH2, IGF1R, JAK2, JAK3, KDM6A, KDR, KEAP1, KIT, KRAS, MAP2K1, MAP2K2, MAPK1, MAPK3, MDM2, MET, MLH1, MPL, MSH2, MSH6, MTOR, M
- the method of the present invention performs the step d) of comparing the result of the detected read with a reference to which the sequenced depth distribution of the target gene region and the SNP detectable region are applied.
- the sequence depth distribution of the target gene region may additionally be included in the reference.
- the normalized depth values for each target gene region of a normal sample can be collected, the distribution calculated for each gene, and used as a reference distribution.
- the reference distribution can be performed by the Gaussian KDE method, and can be used as a reference by storing the distribution value in the form of a probability density function for the distribution of each target gene region.
- Figure 3 shows a method of collecting normalized depth distributions for multiple normal samples and multiple target gene regions and using them as one reference distribution.
- the comparing step is based on the copy number value when the -log(Depth p-value) value is 3 or more in comparison with the p-value cutoff value calculated through the probability distribution calculated for the reference.
- it may include a step of determining gain or amplification.
- the -log(Depth p-value) value is 3 or more
- the copy number variation is 2.3 or more
- the gain is for the copy number less than 4
- the -log(Depth p-value) value is 5 or more.
- copy number variation shows a copy number of 4 or more, it can be determined by amplification.
- the SNP detectable region may be selected with a probability of detecting 2 to 5 SNP mutations per target gene, and preferably, the probability of detecting 2 to 3 SNP mutations per target gene. You can select the area with .
- the target gene region in which a SNP mutation can be detected can be either an intron or an exon region, but is preferably an intron region.
- a reference to be used as a control for cancer analysis was prepared from a sample of a normal person who did not have cancer.
- cell-free DNA cfDNA
- cfDNA cell-free DNA
- Maxwell®RSC ccfDNA Plasma Kit Promega's Maxwell automated equipment
- NGS Next Generation Sequencing
- IMBdx NGS DNA library prep kit
- target genes were amplified using AlphaLiquid® 100 target capture panel (IMBdx) and Illumina's Novaseq platform.
- Bam file format results for the CDS (coding sequence) of the target gene mapped to the human reference were derived, and reference production work for CNV (copy number variation) analysis began based on the file.
- CNV copy number variation
- Example 1-2 Reference production according to fragment size
- Bam files were separated based on the fragment size expected to have a high proportion of cfDNA in clinical samples and used to create a reference.
- the Bam file produced in Example 1-1 was used to separate 90 to 150 bp into short size and 150 to 200 bp into long size.
- the depth of the stable region selected in Example 2 was calculated using the Bam file of the short-size section, and then a reference to be used for clinical sample analysis was finally produced. Since the size of the target gene region used here varies depending on the exon, it was divided into sizes of about 200bp suitable for CNV analysis. This does not affect the target gene region and simply corresponds to the process of dividing the region to be used for analysis into an appropriate size.
- corrections were made to the GC content and Repeat Masking areas, which were performed using CNVkit.
- Example 1-3 Method for selecting stable regions
- Deviations may occur in the target gene regions during the process of producing sequencing data depending on the sequence characteristics of each region. Accordingly, areas with relatively large deviations due to significant sequence-specific influence were classified as unstable, and areas that were not affected were classified as stable.
- the median absolute deviation (MAD) of the depth of each region of the data of 50 normal samples derived in Example 1-1 was calculated. Afterwards, the MAD values for all areas were collected, outliers were selected, and cases corresponding to outliers were classified as unstable areas. The singular value was set as a case where the interquartile range (IQR) value was calculated and had a value greater than 1.5 times the IQR. Finally, the regions classified as unstable regions among the target gene regions were excluded, and the selected stable regions were used for CNV analysis.
- IQR interquartile range
- Example 1-4 Reference production according to distribution for each gene
- the normalized depth values for each gene region of the normal sample were collected to calculate the distribution for each gene, and then used as a reference distribution for clinical sample analysis.
- the reference distribution was calculated using the Gaussian KDE method, and the distribution value in the form of a probability density function for the distribution of each gene was stored and used as a reference when analyzing clinical samples later.
- Example 1-5 Production of reference containing SNP mutation
- a bed was created for the ⁇ 40 mer region based on the SNP mutation.
- the SNP region was designed with a probe in the target panel of the analysis so that it could be used in the analysis results.
- Clinical samples were selected from 150 types of cancer patients including lung cancer, colon cancer, stomach cancer, and colon cancer.
- a short fragment expected to contain a high ctDNA content was isolated according to the method of Example 1-2.
- the stable regions selected by the method of Example 1-3 were compared with the reference to calculate the log2 ratio value for each region, then the log2 ratio values for each gene were collected to exclude outliers, and then the standard The number of copies was calculated considering that the (normal) state was 2 copies.
- Copy number variation analysis for clinical samples was determined by using the reference distribution produced in Examples 1-1 to 1-5 above to determine where the signal of the clinical sample being analyzed was located on the reference distribution. Finally, the p-value value was calculated through the probability distribution calculated for the reference, and the presence of copy number variation was determined through comparison with the p-value cutoff value.
- the standard for determining copy number variation was to select a value above the noise level by considering the distribution values seen in normal samples and the distribution values seen in clinical samples. As shown in Figure 5, it can be seen that in normal samples, the -log(Depth p-value) value was distributed at a level of less than 2, and similarly, in clinical samples, the -log(Depth p-value) value was less than 2. It was confirmed that cases where copy number variation did not exist were distributed at the level of . In other words, it was confirmed that cases where significant depth changes exist can be appropriately selected when applying the criteria for determining copy number variation in clinical samples.
- SNP analysis was conducted by comparing and verifying copy number variation using depth using data detected in the SNP design area. Specifically, SNP analysis was performed by selecting hetero germlines among the detected mutations and calculating the predicted copy number. The copy number is calculated using the formula '1/observed AF(%)' when the value is less than 50%, and '1/(100-observed AF(%)) when the value is more than 50%. ' was calculated using the formula. As shown in Figure 4, as a result of applying only the SNP analysis method of this example using the Seracare material, it was confirmed that a value very similar to the copy number value known as the correct answer appeared. This indicates that accuracy can be improved through the process of verifying the analysis results using the copy number value analyzed using the depth characteristic and the copy number value analyzed independently using the SNP characteristic.
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Wood Science & Technology (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Immunology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Physics & Mathematics (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 순환 종양 핵산에서 복제수 변이를 분석하는 방법에 관한 것이다. 본 발명의 복제수 변이 분석 방법에 따르면, ctDNA 내에서 복제수 변이 분석에 대한 민감도를 향상시킬 수 있으며, 분석의 정확성과 효율성을 높일 수 있다.
Description
본 발명은 순환 종양 핵산에서 복제수 변이를 분석하는 방법에 관한 것이다.
복제수 변이(copy number variation, CNV)는 유전자의 특정 염기서열의 복제수가 개체마다 차이를 갖는 현상을 의미하는 것으로, 특정 염기 서열의 삽입(insertion), 결실(deletion), 중복(duplication), 전위(inversion) 또는 전좌(translocation) 등으로 발생되는 유전자 구조변이(structural variation)의 한 종류이다. CNV는 특히 암세포 증식과 연관성이 높으며, 각종 질환에 대한 인자로 주목받고 있다.
기존의 복제수 변이를 검출하는 방법으로는 FISH(fluorescence in situ hybridization), aCGH(array comparative genomic hybridization), qPCR(quantitative real time polymerase chain reaction), MLPA(multiplex ligation-dependent probe amplification) 등이 대표적이며, 빠른 시간 내에 대용량의 데이터를 분석할 수 있는 차세대 염기서열 분석 기술(next generation sequencing, NGS) 기반의 검출 기법도 활용되고 있다.
최근에는 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.
그럼에도 불구하고, ctDNA는 맵핑이 어렵거나 시퀀싱 정도의 편차로 인하여 복제수 변이에 대해서는 정확한 분석 결과를 얻기가 어려웠다. 이에, 본 발명에서는 NGS의 정보에 기반하여 ctDNA에서 정확하게 복제수 변이를 분석하는 기법을 제시하고자 한다.
본 발명의 일 양상은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계; b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계; c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 양상은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계; b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계; c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법을 제공한다.
본 발명의 일 구체예로, 상기 안정 영역은 복수 개의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation)를 취합하여 특이값을 선별하여 상기 특이값이 사분범위(interquatile range) 값의 1.5배 미만인 경우로 설정되는 것일 수 있다.
본 발명의 일 구체예로 상기 타겟 유전자는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상인 것일 수 있다.
본 발명의 일 구체예로 상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것일 수 있다.
본 발명의 일 구체예로 상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상일 때, 2.3 이상 4 미만의 카피수의 경우 획득(gain), -log(Depth p-value) 값이 5 이상일 때, 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 복제수 변이를 판별하는 단계를 포함하는 것일 수 있다.
본 발명의 복제수 변이 분석 방법에 따르면, ctDNA 내에서 복제수 변이 분석에 대한 민감도를 향상시킬 수 있으며, 분석의 정확성과 효율성을 높일 수 있다.
도 1은 암의 순도에 따른 리드 뎁스와 복제수 변이 시그널의 관계를 나타낸 도면이다.
도 2는 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 ctDNA 절편 크기의 특성을 이용한 결과를 나타낸 도면이다.
도 3은 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 다수의 정상인 시료 및 다수의 타겟 유전자 영역에 대한 정규화 뎁스를 취합한 과정을 나타낸 도면이다.
도 4는 ctDNA 유래 복제수 변이 분석을 위한 레퍼런스를 제작하기 위해 SNP 변이를 활용하여 분석의 민감도 및 정확도를 비교한 결과이다.
도 5는 본 발명의 일 구체예에 따른 복제수 변이 판별 방법에 따라 정상 시료 및 임상 시료의 복제수 변이 여부를 확인한 결과이다.
본 발명의 일 양상은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계; b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계; c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법을 제공한다.
암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 암과 관련이 있는 ctDNA의 복제수 변이 분석을 연구하는 과정에서 분석에 적합한 타겟 유전자 영역의 선별과 cfDNA의 절편 크기 선별을 통한 신호 증폭을 통해 복제수 변이를 효과적으로 분석할 수 있음을 검증하여 본 발명을 완성하였다.
이하, 본 발명에 따른 순환 종양 핵산의 복제수 변이 분석 방법을 상세히 설명한다.
먼저, 본 발명의 방법은 a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계를 수행한다.
본 명세서에서 사용되는 용어, '복제수 변이(copy number variation, CNV)'는 예상되는 복제수와 비교하여 대상 시료에 존재하는 핵산 서열의 복제수에서의 변이를 의미하는 것으로, 핵산 서열의 삽입, 중복 또는 결실의 결과일 수 있다. 이는 유전자의 표현형에 영향을 미칠 수 있으며, cfDNA에서의 복제수 변이를 분석하여 암의 발생, 예후, 재발 여부 등을 확인할 수 있다.
본 명세서에서 사용되는 용어, '시료(sample)'는 복제수 변이를 분석하기 위하여 타겟 시퀀싱(targeted sequencing)을 하고자 하는 대상을 수득할 수 있는 조직, 세포, 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 뇨와 같은 시료 등을 포함하나, 이에 제한되지 않으며, 바람직하게는 혈청 또는 혈장일 수 있다.
본 명세서에서 사용되는 용어, '세포 유리 핵산(cell-free DNA)' 또는 'cfDNA'는 세포의 외부(예를 들어, 체액)에서 발견되는 핵산의 단편을 의미하는 것으로, 상기 채액은 혈액, 뇌척수액, 타액 또는 소변을 포함하지만, 이에 한정하지는 않는다. 상기 cfDNA는 대상으로부터(예를 들어, 대상의 세포로부터) 유래될 수 있거나, 대상 이외의 공급원으로부터(예를 들어, 바이러스 감염으로부터) 유래될 수 있다.
cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 추출된 cfDNA는 차세대 시퀀싱(Next Generation Sequencing, NGS)을 통해 복수개의 리드(read)를 얻고, 이를 정렬하여 리드 뎁스(read depth)를 획득할 수 있다. 상기 리드 뎁스는 정렬된 리드들의 개수에 대응되는 것일 수 있다. 차세대 염기서열 분석기법의 구체적인 방법은 Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재되어 있으며, 상기 문헌은 본 명세서에 참조로서 삽입된다.
이후, 본 발명의 방법은 b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계를 수행하게 된다.
cfDNA를 타겟 시퀀싱(targeted sequencing)하는 경우, 암의 순도(tumor purity)에 따른 영향을 많이 받게 되는데, 순도가 1% 내외로 매우 낮은 경우도 존재한다. 이런 경우, 정상 DNA 대비 cfDNA가 매우 소량 존재하게 되어 이로 인한 복제수 변이의 시그널(signal)을 구분하기가 어렵게 된다. 도 1에서와 보는 바와 같이, 암의 순도가 70%인 경우는 타겟 시퀀싱 이후 복제수 변이의 시그널이 높은 반면, 암의 순도가 1%인 경우에는 리드가 높은 뎁스임에도 불구하고 정상 DNA(normal DNA)와 암 DNA(tumor DNA) 내의 복제수 변이의 시그널을 구별하기가 어렵다.
ctDNA 절편은 선행 연구 결과, 그 길이가 상대적으로 짧다고 알려진 바 있다(Peter Peneder et al(2021). Nat Commun., Stephen Cristiano et al(2019). Nature.). 따라서, 본 발명에서는 ctDNA 절편 크기(fragment size)의 특성을 이용하여 cfDNA 내에서 ctDNA의 시그널을 증폭시켜 복제수 변이의 분석에 사용하였다.
구체적으로, 도 2에서와 보는 바와 같이, 정상 시료와 환자 시료의 절편 크기를 비교한 결과, 환자 시료에서 90 내지 150bp 절편의 크기 영역의 비율이 높게 나타남을 확인하였다. 따라서 이와 같이 환자 시료에 분포한 ctDNA 절편 크기의 특성을 이용하여 90 내지 150bp 절편 크기를 갖는 리드를 선별하여 ctDNA의 시그널을 증폭시켜 분석의 민감성을 높이고자 하였다.
이후, 본 발명의 방법은 c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계를 수행한다.
타겟 시퀀싱(targeted sequencing)은 높은 뎁스의 시퀀싱으로 GC 서열의 비율과 반복 영역의 존재 여부 등의 영향으로 타겟 영역별로 시퀀싱이 되는 정도의 편차가 큰 것으로 알려져 있다. 그러나, 복제수 변이는 작게는 유전자 단위, 크게는 염색체 전체에 발생하는 변이이므로, 편차가 큰 영역을 제외하여도 복제수 변이 분석에 큰 영향이 없게 된다. 따라서, 이러한 편차가 작은 영역을 안정 영역(stable region)으로 정의하고, 상기 안정 영역에서 복제수 변이를 분석함으로써 분석의 효율성 및 정확성을 높이고자 하였다.
일 구체예에 따르면, 상기 안정 영역은 복수 개의 타겟 유전자 영역, 예를 들어, 다수의 정상인 시료 데이터의 각각의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation, MAD)를 구하고, 모든 영역에 대한 중앙값 절대 편차 값을 취합하여 특이값을 선별하는 방법을 통해 불안정 영역을 제거하였다. 특이값 선별을 위한 기준은 사분위수의 특성을 이용하여 IQR*1.5배 이상의 값을 상한 이상치로 분류하는 방법을 적용하여 계산한 값을 이용하였다.
일 구체예에 따르면, 상기 타겟 유전자는 ABL1, AKT1, AKT2, ALK, APC, AR, ARAF, ARID1A, ATM, BARD1, BCR, BRAF, BRCA1, BRCA2, BRIP1, BTK, CBL, CCND1, CCND2, CCNE1, CD274, CDH1, CDK12, CDK4, CDK6, CDKN2A, CEBPA, CHEK1, CHEK2, CSF1R, CTNNB1, DDR2, DPYD, EGFR, ERBB2, ERBB3, ESR1, FANCL, FBXW7, FGFR1, FGFR2, FGFR3, FLT3, GATA3, GNA11, GNAQ, GNAS, HRAS, IDH1, IDH2, IGF1R, JAK2, JAK3, KDM6A, KDR, KEAP1, KIT, KRAS, MAP2K1, MAP2K2, MAPK1, MAPK3, MDM2, MET, MLH1, MPL, MSH2, MSH6, MTOR, MYC, MYCN, NF1, NF2, NFE2L2, NOTCH1, NPM1, NRAS, NTRK1, NTRK2, NTRK3, PALB2, PDCD1LG2, PDGFRA, PDGFRB, PIK3CA, PIK3R1, PMS2, PPP2R1A, PPP2R2A, PTEN, PTPN11, RAD51B, RAD51C, RAD51D, RAD54L, RAF1, RB1, RET, RHEB, RHOA, RIT1, RNF43, ROS1, RUNX1, SETD2, SMAD4, SMO, STAG2, STK11, TCF7L2, TERT, TOP2A, TP53, TSC1, TSC2, U2AF1, UGT1A1 및 VHL로부터 선택되는 하나 이상일 수 있으며, 바람직하게는 임상적 의의가 있거나 약물 치료와의 연관성이 있는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상일 수 있다.
마지막으로, 본 발명의 방법은 d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 수행하게 된다.
상기 c) 단계에서 안정 영역 이외에 복제수 변이 분석의 효율성 및 정확성을 향상시키기 위하여, 추가적으로 타겟 유전자 영역의 시퀀스 뎁스 분포를 레퍼런스에 포함시킬 수 있다. 구체적으로, 정상인 시료의 각각의 타겟 유전자 영역에 대한 정규화 뎁스(normalized depth) 값을 취합하여 유전자 별로 분포를 계산하여 레퍼런스 분포로 사용할 수 있다. 바람직하게는, 상기 레퍼런스 분포는 Gaussian KDE 방법에 의해 수행될 수 있으며, 각 타겟 유전자 영역의 분포에 대한 확률밀도함수 형태의 분포 값을 저장함으로써 레퍼런스로 사용할 수 있다. 도 3은 다수의 정상인 시료 및 다수의 타겟 유전자 영역에 대한 정규화 뎁스 분포를 취합하여 하나의 레퍼런스 분포로 사용하는 과정을 나타내는 방법을 나타낸 것이다.
일 구체예에 따르면, 상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상인 경우에 대하여 복제수 값 기준에 따라 획득(gain) 또는 증폭(amplification)으로 판별하는 단계를 포함할 수 있다. 구체적으로, -log(Depth p-value) 값이 3 이상이며, 복제수 변이가 2.3 이상, 4 미만의 카피수의 경우를 획득(gain), -log(Depth p-value) 값이 5 이상이며, 복제수 변이가 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 판별할 수 있다.
또한, 낮은 수준의 복제수 변이는 시퀀싱 과정에서 발생한 편차인지, 실제 타겟 유전자 영역에 존재하는 복제수 변이인지 구분하기 어렵다는 한계가 있기 때문에, 복제수 변이 분석의 민감도 및 정확도 향상을 위해 SNP 검출 가능 영역에 대한 결과값을 추가적으로 적용하여 결과 판단에 이용하였다.
일 구체예에 따르면, 상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것일 수 있으며, 바람직하게는 타겟 유전자 당 SNP 변이가 2 내지 3개 검출될 수 있는 확률로 영역을 선별할 수 있다. SNP 변이가 검출될 수 있는 상기 타겟 유전자 영역은 인트론, 엑손 부위가 모두 가능하나, 바람직하게는 인트론 부위일 수 있다.
이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1-1: 레퍼런스(reference) 제작 준비
암을 보유하지 않은 정상인의 시료로부터 암 분석에 대한 대조군으로 사용하기 위한 레퍼런스를 제작하였다. 구체적으로, 정상인 50명에서 얻은 혈액 샘플로부터 Promega사의 Maxwell 자동화장비(Maxwell®RSC ccfDNA Plasma Kit)를 이용하여 제조사의 프로토콜에 따라 세포 유리 DNA(cfDNA)를 수득하였다. 이후, 상기 수득한 cfDNA로부터 NGS(Next Generation Sequencing)을 수행하였다. Targeted panel sequencing 수행 시 NGS DNA library prep 키트(IMBdx 사)를 사용하였으며, AlphaLiquid® 100 target capture panel(IMBdx 사) 및 Illumina 사의 Novaseq platform을 통해 타겟 유전자의 증폭을 수행하였다.
이후, 인간 레퍼런스에 맵핑된 타겟 유전자의 CDS(coding sequence)에 대한 Bam 파일 포맷 결과를 도출하고, 상기 파일을 기반으로 CNV(copy number variation) 분석을 위한 레퍼런스 제작 작업을 시작하였다. 제작된 Bam 파일을 이용하여 타겟 유전자 하나의 영역 각각에 대한 뎁스(depth)를 계산하여 정상인 시료에서 관찰되는 뎁스 양상을 확인하였다.
실시예 1-2: 절편 크기(fragment size)에 따른 레퍼런스 제작
cfDNA의 절편 크기 특성을 활용하기 위해 임상 시료에서 cfDNA의 비율이 높을 것으로 예상되는 절편 크기를 기준으로 Bam 파일을 분리하여 레퍼런스 제작에 사용하였다. 구체적으로, 상기 실시예 1-1에서 제작된 Bam 파일을 이용하여 90 내지 150 bp를 짧은 크기(short size), 150 내지 200 bp를 긴 크기(long size)로 구분하여 분리하였다. 이후, 짧은 크기 절편의 Bam 파일을 이용하여 실시예 2에서 선별된 안정 영역에 대한 뎁스를 계산한 다음, 최종적으로 임상 시료 분석에 사용할 레퍼런스를 제작하였다. 여기서 사용되는 타겟 유전자 영역은 엑손(exon)에 따라 크기가 상이하기 때문에, CNV 분석에 적합한 약 200bp 정도의 크기로 나누었다. 이는 타겟 유전자 영역에 영향을 미치지 않으며, 단순히 분석에 사용하고자 하는 영역을 적당한 크기로 나누는 과정에 해당한다. 뎁스에 대한 정규화(normalize) 과정을 거쳐 레퍼런스 파일을 만드는 과정 중에 GC content, Repeat Masking 영역에 대한 보정을 진행하였으며, 이는 CNVkit를 사용하여 진행하였다.
실시예 1-3: 안정 영역(stable region)의 선별 방법
먼저, 정상인 시료에 대한 성별을 확인하였다. 타겟 유전자 영역 중 포함되어 있는 'chromosome X' 영역은 성별에 따라 편차가 많이 발생할 수밖에 없는 영역이므로, 뎁스 양상을 이용하여 성별을 유추한 다음, 'chromosome X' 영역에 대해서는 성별을 분리하여 이후 과정에 사용하였다. 성별의 구분은 'chromosome X' 영역의 뎁스가 남자(male)의 경우 절반의 값을 보인다는 점을 이용하여 진행 가능하다.
타겟 유전자 영역들은 각각의 영역들이 가진 서열의 특성에 따라 시퀀싱 데이터를 생산하는 과정에서 편차가 발생할 수 있다. 이에, 서열 특이적인 영향을 많이 받아 편차가 상대적으로 큰 영역을 불안정(unstable), 그렇지 않은 영역을 안정(stable) 영역으로 구분하였다.
안정 영역 선별을 위해 실시예 1-1에서 도출된 정상인 시료 50명 데이터 각 영역의 뎁스에 대한 중앙값 절대 편차(median absolute deviation, MAD)을 구하였다. 이후, 모든 영역에 대한 MAD 값을 취합하여 특이값을 선별하고, 특이값에 해당하는 경우를 불안정(unstable) 영역으로 분류하였다. 상기 특이값은 사분범위(Interquartile Range, IQR) 값을 구하여 IQR의 1.5배 이상의 값을 가지는 경우로 설정하였다. 최종적으로 타겟 유전자 영역 중 불안전 영역으로 분류되는 영역을 제외하고 선별한 안정 영역을 CNV 분석에 사용하였다.
실시예 1-4: 유전자별 분포에 따른 레퍼런스 제작
정상인 시료의 각 유전자 영역에 대한 정규화 뎁스(normalized depth) 값을 취합하여 유전자별 분포를 계산한 다음, 임상 시료 분석에 레퍼런스 분포로 사용하였다. 레퍼런스 분포는 Gaussian KDE 방법을 이용하여 계산하였으며, 각 유전자의 분포에 대한 확률밀도함수 형태의 분포 값을 저장하여 이후 임상 시료 분석 시 레퍼런스로 사용하였다.
실시예 1-5: SNP 변이를 포함하는 레퍼런스 제작
1000개의 Genome common SNP(VAF >= 10%)인 SNP에서 Repeat Masking을 통한 annotation 정보가 repeat인 변이는 제외하여 SNP를 선정하고, 이 중에서 동일한 검출 가능성을 전제로 하여 30개를 최종 선별하여 선별된 SNP 변이를 기준으로 ±40 mer 영역에 대해 베드(bed)를 제작하였다. SNP 영역은 해당 분석의 타겟 패널(target panel)에 프로브 디자인을 하여 분석 결과에 사용될 수 있도록 하였다.
실시예 2: 임상 시료를 통한 복제수 변이 분석
임상 시료는 폐암, 대장암, 위암 그리고 대장암 등을 보유한 150종의 암환자 검체를 선정하였다. 먼저, cfDNA 특이적인 신호를 증폭시키기 위하여, 실시예 1-2의 방법에 따라 ctDNA의 비율이 높을 것으로 예상되는 짧은 크기의 단편을 분리하였다. 이후, 실시예 1-3의 방법으로 선별한 안정 영역에 대하여 레퍼런스와 비교하여 각 영역에 대한 log2 ratio 값을 산출한 다음, 유전자 별로 log2 ratio 값을 취합하여 특이값(outlier)을 제외한 후, 표준(normal) 상태가 2 카피(copy)임을 고려하여 카피수를 산출하였다.
임상 시료에 대한 복제수 변이 분석은 상기 실시예 1-1 내지 1-5에서 제작한 레퍼런스 분포를 이용하여 분석 대상인 임상 시료의 신호가 레퍼런스 분포 상에서 어느 정도에 위치하는지 여부를 확인하여 판단하였다. 최종적으로 레퍼런스에 대해 계산된 확률 분포를 통해 p-value 값을 산출하고, p-value 컷오프 값과의 비교를 통해 복제수 변이 여부를 판단하였다. 복제수 변이 여부 판단에 대한 기준은 정상 샘플에서 보여지는 분포와 임상 시료에서 보여지는 분포의 값을 고려하여 노이즈 수준 이상의 값을 선정하는 방식으로 하였다. 도 5에서 보는 바와 같이, 정상 시료에서는 -log(Depth p-value) 값이 2 미만의 수준에 분포하였음을 확인할 수 있고, 이와 유사하게 임상 시료에서도 -log(Depth p-value) 값이 2 미만의 수준에서 복제수 변이가 존재하지 않는 경우가 분포되어 있음을 확인할 수 있었다. 즉, 임상 시료의 복제수 변이 판별 기준 적용 시 유의미한 뎁스(depth) 변화가 존재하는 경우를 적절하게 선별해낼 수 있음을 확인할 수 있었다.
이후 추가적으로 SNP 분석 방법을 적용하여 분석 결과의 정확도를 높일 수 있도록 하였다. SNP 분석은 SNP 디자인 영역에서 검출된 데이터를 이용하여 뎁스를 이용한 복제수 변이와 비교 및 검증하는 방식으로 진행하였다. 구체적으로, SNP 분석은 검출된 변이 중 헤테로(hetero)인 생식세포(germline)를 선별하여 예측된 복제수를 계산하는 방법으로 진행하였다. 복제수 계산은 50% 미만의 값을 보이는 경우 '1/관찰된 AF(%)'의 수식을 이용하여 계산하고, 50% 이상의 값을 보이는 경우 '1/(100-관찰된 AF(%))'의 수식을 이용하여 계산하였다. 도 4와 같이 Seracare 물질을 이용하여 본 실시예의 SNP 분석 방법만을 적용한 결과, 정답으로 알려진 복제수 값과 매우 유사한 값이 나타나는 것을 확인할 수 있었다. 이는 뎁스 특성을 이용하여 분석한 복제수 값과, 이와 독립적으로 SNP 특성을 이용하여 분석한 복제수 값을 이용하여 분석 결과를 검증하는 과정을 통해 정확도가 향상될 수 있음을 나타낸다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
Claims (5)
- a) 표적 시료에서 후보 복제수 변이를 포함하는 세포 유리 핵산(cfDNA)을 추출하는 단계;b) 상기 후보 복제수 변이를 포함하는 cfDNA의 리드(read) 중 핵산 절편의 길이가 90 내지 150 bp인 리드를 선별하는 단계;c) 상기 선별된 리드로부터 안정 영역(stable region)을 검출하는 단계; 및d) 상기 검출된 리드의 결과값을 타겟 유전자 영역의 시퀀스 뎁스(sequenced depth) 분포 및 SNP 검출 가능 영역을 적용한 레퍼런스와 비교하는 단계를 포함하는 순환 종양 핵산의 복제수 변이 분석 방법.
- 청구항 1에 있어서,상기 안정 영역은 복수 개의 타겟 유전자 영역의 시퀀스 뎁스에 대한 중앙값 절대 편차(median absolute deviation)를 취합하여 특이값을 선별하여 상기 특이값이 사분범위(interquatile range) 값의 1.5배 미만인 경우로 설정되는 것인 방법.
- 청구항 1에 있어서,상기 타겟 유전자는 AKT1, BRAF, BRCA1, CCND1, CCND2, CCNE1, CD274, CDK4, CDK6, EGFR, ERBB2, FGFR1, FGFR2, FGFR3, KDR, KIT, KRAS, MAPK1, MDM2, MET, MYC, MYCN, PDGFRA, PIK3CA 및 RAF1로부터 선택되는 하나 이상인 것인 방법.
- 청구항 1에 있어서,상기 SNP 검출 가능 영역은 타겟 유전자 당 SNP 변이가 2 내지 5개 검출되는 확률로 선별되는 것인 방법.
- 청구항 1에 있어서,상기 비교하는 단계는 레퍼런스에 대해 계산된 확률 분포를 통해 산출된 p-value 컷오프 값과의 비교하여 -log(Depth p-value) 값이 3 이상일 때, 2.3 이상 4 미만의 카피수의 경우 획득(gain), -log(Depth p-value) 값이 5 이상일 때, 4 이상의 카피수를 보이는 경우 증폭(amplification)으로 복제수 변이를 판별하는 단계를 포함하는 것인 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2022-0034589 | 2022-03-21 | ||
KR1020220034589A KR102491485B1 (ko) | 2022-03-21 | 2022-03-21 | 순환 종양 핵산의 복제수 변이 분석 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023182585A1 true WO2023182585A1 (ko) | 2023-09-28 |
Family
ID=85101294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2022/011528 WO2023182585A1 (ko) | 2022-03-21 | 2022-08-04 | 순환 종양 핵산의 복제수 변이 분석 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102491485B1 (ko) |
WO (1) | WO2023182585A1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022020346A1 (en) * | 2020-07-21 | 2022-01-27 | Claret Bioscience, Llc | Cancer detection, monitoring, and reporting from sequencing cell-free dna |
KR20220029001A (ko) * | 2020-09-01 | 2022-03-08 | 주식회사 아이엠비디엑스 | cfDNA의 저빈도 변이 검출을 위해 NGS 분석에 사용되는 고유 단편의 비율을 증가시키는 방법 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2329932A1 (en) | 1998-06-18 | 1999-12-23 | Novartis Ag | Composition for keeping away vermin |
AU2019253112A1 (en) * | 2018-04-13 | 2020-10-29 | Grail, Llc | Multi-assay prediction model for cancer detection |
KR101980116B1 (ko) | 2019-03-05 | 2019-05-20 | 주식회사 경신 | 와이어링 설계요청서 업로드 장치 및 방법 |
-
2022
- 2022-03-21 KR KR1020220034589A patent/KR102491485B1/ko active IP Right Grant
- 2022-08-04 WO PCT/KR2022/011528 patent/WO2023182585A1/ko unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022020346A1 (en) * | 2020-07-21 | 2022-01-27 | Claret Bioscience, Llc | Cancer detection, monitoring, and reporting from sequencing cell-free dna |
KR20220029001A (ko) * | 2020-09-01 | 2022-03-08 | 주식회사 아이엠비디엑스 | cfDNA의 저빈도 변이 검출을 위해 NGS 분석에 사용되는 고유 단편의 비율을 증가시키는 방법 |
Non-Patent Citations (4)
Title |
---|
JIN CHAO, LIU XIAONAN, ZHENG WENYUAN, SU LIPING, LIU YANG, GUO XU, GU XIAOMING, LI HONGPING, XU BO, WANG GANG, YU JIYAN, ZHANG QIO: "Characterization of fragment sizes, copy number aberrations and 4‐mer end motifs in cell‐free DNA of hepatocellular carcinoma for enhanced liquid biopsy‐based cancer detection", MOLECULAR ONCOLOGY, ELSEVIER, vol. 15, no. 9, 1 September 2021 (2021-09-01), pages 2377 - 2389, XP093032654, ISSN: 1574-7891, DOI: 10.1002/1878-0261.13041 * |
MAXIM IVANOV, POLINA CHERNENKO, VALERY BREDER, KONSTANTIN LAKTIONOV, EKATERINA ROZHAVSKAYA, SERGEY MUSIENKO, ANCHA BARANOVA, VLADI: "Utility of cfDNA Fragmentation Patterns in Designing the Liquid Biopsy Profiling Panels to Improve Their Sensitivity", FRONTIERS IN GENETICS, vol. 10, XP055688163, DOI: 10.3389/fgene.2019.00194 * |
PENG HAO, LU LAN, ZHOU ZISONG, LIU JIAN, ZHANG DADONG, NAN KEJUN, ZHAO XIAOCHEN, LI FUGEN, TIAN LEI, DONG HUA, YAO YU: "CNV Detection from Circulating Tumor DNA in Late Stage Non-Small Cell Lung Cancer Patients", GENES, vol. 10, no. 11, pages 926, XP093095461, DOI: 10.3390/genes10110926 * |
ZHANG YONGLIANG, YAO YU, XU YAPING, LI LIFENG, GONG YAN, ZHANG KAI, ZHANG MENG, GUAN YANFANG, CHANG LIANPENG, XIA XUEFENG, LI LIN,: "Pan-cancer circulating tumor DNA detection in over 10,000 Chinese patients", NATURE COMMUNICATIONS, vol. 12, no. 1, XP093095463, DOI: 10.1038/s41467-020-20162-8 * |
Also Published As
Publication number | Publication date |
---|---|
KR102491485B1 (ko) | 2023-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111321140B (zh) | 一种基于单样本的肿瘤突变负荷检测方法和装置 | |
CN109880910B (zh) | 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统 | |
US20230141527A1 (en) | Methods for attaching adapters to sample nucleic acids | |
CN109427412B (zh) | 用于检测肿瘤突变负荷的序列组合和其设计方法 | |
WO2019157791A1 (zh) | 一种拷贝数变异的检测方法、装置以及计算机可读介质 | |
CN105063208A (zh) | 一种血浆中游离的目标dna低频突变富集测序方法 | |
CN107577921A (zh) | 一种肿瘤靶向基因测序数据解析方法 | |
CN103290137A (zh) | 一种肿瘤易感基因的筛查方法 | |
Ledgerwood et al. | The degree of intratumor mutational heterogeneity varies by primary tumor sub-site | |
JP6983307B2 (ja) | 遺伝子パネルに基づいた塩基配列の変異検出方法およびこれを用いた塩基配列の変異検出デバイス | |
US20220072553A1 (en) | Device and method for detecting tumor mutation burden (tmb) based on capture sequencing | |
US20200273537A1 (en) | High Throughput Patient Genomic Sequencing and Clinical Reporting Systems | |
CA2932679A1 (en) | Targeted screening for mutations | |
Shimoda et al. | Integrated next-generation sequencing analysis of whole exome and 409 cancer-related genes | |
WO2023030233A1 (zh) | 一种拷贝数变异的检测方法及其应用 | |
US20220036972A1 (en) | A noise measure for copy number analysis on targeted panel sequencing data | |
CN114480660A (zh) | 一种用于检测泛癌种的基因Panel、探针及应用 | |
WO2022050654A1 (ko) | 씨에프디엔에이의 저빈도 변이 검출을 위해 엔지에스 분석에 사용되는 고유 단편의 비율을 증가시키는 방법 | |
CN114512184A (zh) | 一种用于预测癌症疗效和预后的方法及其装置和应用 | |
WO2023191262A1 (ko) | 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법 | |
WO2023182585A1 (ko) | 순환 종양 핵산의 복제수 변이 분석 방법 | |
WO2016080750A1 (ko) | 암 유전체 돌연변이 검출용 유전자 패널 | |
KR102416074B1 (ko) | 생물학적 시료의 핵산 품질을 결정하는 방법 | |
KR20240049800A (ko) | 비정상적으로 메틸화된 단편을 갖는 체세포 변이 동시 발생 | |
KR102145417B1 (ko) | 무세포 핵산으로부터 수득된 서열 분석 데이터에 대한 배경 대립인자의 빈도 분포를 생성하는 방법 및 이를 이용하여 무세포 핵산으로부터 변이를 검출하는 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22933757 Country of ref document: EP Kind code of ref document: A1 |