KR20240063034A - 간암 진단용 dna 메틸화 마커 및 이의 용도 - Google Patents
간암 진단용 dna 메틸화 마커 및 이의 용도 Download PDFInfo
- Publication number
- KR20240063034A KR20240063034A KR1020230148519A KR20230148519A KR20240063034A KR 20240063034 A KR20240063034 A KR 20240063034A KR 1020230148519 A KR1020230148519 A KR 1020230148519A KR 20230148519 A KR20230148519 A KR 20230148519A KR 20240063034 A KR20240063034 A KR 20240063034A
- Authority
- KR
- South Korea
- Prior art keywords
- liver cancer
- chr1
- dna
- methylation
- dna methylation
- Prior art date
Links
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 114
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 111
- 230000007067 DNA methylation Effects 0.000 title claims abstract description 75
- 239000003550 marker Substances 0.000 title claims abstract description 55
- 230000011987 methylation Effects 0.000 claims description 73
- 238000007069 methylation reaction Methods 0.000 claims description 73
- 238000000034 method Methods 0.000 claims description 38
- 239000000523 sample Substances 0.000 claims description 23
- 238000003745 diagnosis Methods 0.000 claims description 21
- 239000000203 mixture Substances 0.000 claims description 15
- 238000013473 artificial intelligence Methods 0.000 claims description 13
- 238000007481 next generation sequencing Methods 0.000 claims description 10
- 238000009396 hybridization Methods 0.000 claims description 8
- 238000007855 methylation-specific PCR Methods 0.000 claims description 8
- 102000040430 polynucleotide Human genes 0.000 claims description 8
- 108091033319 polynucleotide Proteins 0.000 claims description 8
- 239000002157 polynucleotide Substances 0.000 claims description 8
- 230000000295 complement effect Effects 0.000 claims description 6
- 239000012472 biological sample Substances 0.000 claims description 5
- 238000001369 bisulfite sequencing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000018 DNA microarray Methods 0.000 claims description 4
- 238000012175 pyrosequencing Methods 0.000 claims description 3
- 230000009870 specific binding Effects 0.000 claims description 3
- 108091008324 binding proteins Proteins 0.000 claims description 2
- 238000011880 melting curve analysis Methods 0.000 claims description 2
- 238000003753 real-time PCR Methods 0.000 claims description 2
- 102000014914 Carrier Proteins Human genes 0.000 claims 1
- 210000004369 blood Anatomy 0.000 abstract description 12
- 239000008280 blood Substances 0.000 abstract description 12
- 238000013399 early diagnosis Methods 0.000 abstract description 4
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 54
- 206010028980 Neoplasm Diseases 0.000 description 41
- 201000011510 cancer Diseases 0.000 description 34
- 238000012360 testing method Methods 0.000 description 28
- 108020004414 DNA Proteins 0.000 description 26
- 101000653634 Homo sapiens T-box transcription factor TBX15 Proteins 0.000 description 26
- 102100029853 T-box transcription factor TBX15 Human genes 0.000 description 26
- 150000007523 nucleic acids Chemical class 0.000 description 24
- 238000010200 validation analysis Methods 0.000 description 24
- 102100034535 Histone H3.1 Human genes 0.000 description 20
- 102100030636 Homeobox protein OTX1 Human genes 0.000 description 20
- 101001067844 Homo sapiens Histone H3.1 Proteins 0.000 description 20
- 101000584392 Homo sapiens Homeobox protein OTX1 Proteins 0.000 description 20
- 210000001519 tissue Anatomy 0.000 description 20
- 238000012163 sequencing technique Methods 0.000 description 17
- 102100030910 Eyes absent homolog 4 Human genes 0.000 description 16
- 101000938422 Homo sapiens Eyes absent homolog 4 Proteins 0.000 description 16
- 102000039446 nucleic acids Human genes 0.000 description 16
- 108020004707 nucleic acids Proteins 0.000 description 16
- 108090000623 proteins and genes Proteins 0.000 description 15
- 238000010801 machine learning Methods 0.000 description 14
- 238000013527 convolutional neural network Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 101000766253 Homo sapiens TLR4 interactor with leucine rich repeats Proteins 0.000 description 12
- 101000800542 Homo sapiens Transcription factor 24 Proteins 0.000 description 12
- 102100026308 TLR4 interactor with leucine rich repeats Human genes 0.000 description 12
- 102100033125 Transcription factor 24 Human genes 0.000 description 12
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 12
- 102100030650 Histone H2B type 1-H Human genes 0.000 description 11
- 101001084676 Homo sapiens Histone H2B type 1-H Proteins 0.000 description 11
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 11
- 102100031685 Cyclin-dependent kinase-like 2 Human genes 0.000 description 10
- 102100032883 DNA-binding protein SATB2 Human genes 0.000 description 10
- 102100031734 Fibroblast growth factor 19 Human genes 0.000 description 10
- 102100021489 Histone H4-like protein type G Human genes 0.000 description 10
- 101000777764 Homo sapiens Cyclin-dependent kinase-like 2 Proteins 0.000 description 10
- 101000655236 Homo sapiens DNA-binding protein SATB2 Proteins 0.000 description 10
- 101000846394 Homo sapiens Fibroblast growth factor 19 Proteins 0.000 description 10
- 101000898935 Homo sapiens Histone H4-like protein type G Proteins 0.000 description 10
- 101001121506 Homo sapiens Protein odd-skipped-related 2 Proteins 0.000 description 10
- 101000703681 Homo sapiens Single-minded homolog 1 Proteins 0.000 description 10
- 101000777120 Homo sapiens Ubiquitin carboxyl-terminal hydrolase 44 Proteins 0.000 description 10
- 102100025660 Protein odd-skipped-related 2 Human genes 0.000 description 10
- 102100031980 Single-minded homolog 1 Human genes 0.000 description 10
- 102100031306 Ubiquitin carboxyl-terminal hydrolase 44 Human genes 0.000 description 10
- 102100025711 C2 calcium-dependent domain-containing protein 4D Human genes 0.000 description 8
- 108091029523 CpG island Proteins 0.000 description 8
- 102100034227 Grainyhead-like protein 2 homolog Human genes 0.000 description 8
- 102100030690 Histone H2B type 1-C/E/F/G/I Human genes 0.000 description 8
- 101000983881 Homo sapiens C2 calcium-dependent domain-containing protein 4D Proteins 0.000 description 8
- 101001069929 Homo sapiens Grainyhead-like protein 2 homolog Proteins 0.000 description 8
- 101001084682 Homo sapiens Histone H2B type 1-C/E/F/G/I Proteins 0.000 description 8
- 101000633503 Homo sapiens Nuclear receptor subfamily 2 group E member 1 Proteins 0.000 description 8
- 101000629575 Homo sapiens Spermatogenesis-associated protein 32 Proteins 0.000 description 8
- 101000625913 Homo sapiens T-box transcription factor TBX4 Proteins 0.000 description 8
- 102100029534 Nuclear receptor subfamily 2 group E member 1 Human genes 0.000 description 8
- 102100026838 Spermatogenesis-associated protein 32 Human genes 0.000 description 8
- 102100024754 T-box transcription factor TBX4 Human genes 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 102100027265 Aldo-keto reductase family 1 member B1 Human genes 0.000 description 6
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 6
- 102100021179 Dynamin-3 Human genes 0.000 description 6
- 102100021757 E3 ubiquitin-protein ligase RNF135 Human genes 0.000 description 6
- 102100022366 Fatty acyl-CoA reductase 1 Human genes 0.000 description 6
- -1 HOXA10-HOXA9 Proteins 0.000 description 6
- 102100022373 Homeobox protein DLX-5 Human genes 0.000 description 6
- 102100030339 Homeobox protein Hox-A10 Human genes 0.000 description 6
- 102100021090 Homeobox protein Hox-A9 Human genes 0.000 description 6
- 101000836540 Homo sapiens Aldo-keto reductase family 1 member B1 Proteins 0.000 description 6
- 101000817599 Homo sapiens Dynamin-3 Proteins 0.000 description 6
- 101001106984 Homo sapiens E3 ubiquitin-protein ligase RNF135 Proteins 0.000 description 6
- 101000824458 Homo sapiens Fatty acyl-CoA reductase 1 Proteins 0.000 description 6
- 101000901627 Homo sapiens Homeobox protein DLX-5 Proteins 0.000 description 6
- 101001083164 Homo sapiens Homeobox protein Hox-A10 Proteins 0.000 description 6
- 101001051207 Homo sapiens L-lactate dehydrogenase B chain Proteins 0.000 description 6
- 101000594775 Homo sapiens NXPE family member 3 Proteins 0.000 description 6
- 101000750283 Homo sapiens Tubulinyl-Tyr carboxypeptidase 2 Proteins 0.000 description 6
- 102100024580 L-lactate dehydrogenase B chain Human genes 0.000 description 6
- 102100036101 NXPE family member 3 Human genes 0.000 description 6
- 102100021162 Tubulinyl-Tyr carboxypeptidase 2 Human genes 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 210000000349 chromosome Anatomy 0.000 description 6
- 208000019425 cirrhosis of liver Diseases 0.000 description 6
- 239000012530 fluid Substances 0.000 description 6
- 108010027263 homeobox protein HOXA9 Proteins 0.000 description 6
- 108091064378 miR-196b stem-loop Proteins 0.000 description 6
- 102100024505 Bone morphogenetic protein 4 Human genes 0.000 description 5
- 102100034523 Histone H4 Human genes 0.000 description 5
- 101000762379 Homo sapiens Bone morphogenetic protein 4 Proteins 0.000 description 5
- 101001067880 Homo sapiens Histone H4 Proteins 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 102100031505 Beta-1,4 N-acetylgalactosaminyltransferase 1 Human genes 0.000 description 4
- 102100036167 CXXC-type zinc finger protein 5 Human genes 0.000 description 4
- 102100033041 Carbonic anhydrase 13 Human genes 0.000 description 4
- 102100023457 Chloride channel protein 1 Human genes 0.000 description 4
- 102100023721 Ephrin-B2 Human genes 0.000 description 4
- 102100035433 FOXL2 neighbor protein Human genes 0.000 description 4
- 102100035340 Guanine nucleotide-binding protein subunit beta-4 Human genes 0.000 description 4
- 102100035349 Homeobox protein DLX-6 Human genes 0.000 description 4
- 101000729811 Homo sapiens Beta-1,4 N-acetylgalactosaminyltransferase 1 Proteins 0.000 description 4
- 101000947154 Homo sapiens CXXC-type zinc finger protein 5 Proteins 0.000 description 4
- 101000867860 Homo sapiens Carbonic anhydrase 13 Proteins 0.000 description 4
- 101000906651 Homo sapiens Chloride channel protein 1 Proteins 0.000 description 4
- 101001049392 Homo sapiens Ephrin-B2 Proteins 0.000 description 4
- 101000877721 Homo sapiens FOXL2 neighbor protein Proteins 0.000 description 4
- 101001024249 Homo sapiens Guanine nucleotide-binding protein subunit beta-4 Proteins 0.000 description 4
- 101000804582 Homo sapiens Homeobox protein DLX-6 Proteins 0.000 description 4
- 101001034652 Homo sapiens Insulin-like growth factor 1 receptor Proteins 0.000 description 4
- 101000579876 Homo sapiens Leucine-rich repeat-containing protein 34 Proteins 0.000 description 4
- 101000985328 Homo sapiens Methenyltetrahydrofolate cyclohydrolase Proteins 0.000 description 4
- 101001069727 Homo sapiens Paired mesoderm homeobox protein 1 Proteins 0.000 description 4
- 101001098116 Homo sapiens Phosphatidylinositol 3-kinase regulatory subunit gamma Proteins 0.000 description 4
- 101001117509 Homo sapiens Prostaglandin E2 receptor EP4 subtype Proteins 0.000 description 4
- 101000628647 Homo sapiens Serine/threonine-protein kinase 24 Proteins 0.000 description 4
- 101000880439 Homo sapiens Serine/threonine-protein kinase 3 Proteins 0.000 description 4
- 101000596334 Homo sapiens TSC22 domain family protein 1 Proteins 0.000 description 4
- 101000944311 Homo sapiens Uncharacterized protein C5orf49 Proteins 0.000 description 4
- 101000785562 Homo sapiens Zinc finger and SCAN domain-containing protein 30 Proteins 0.000 description 4
- 101000964613 Homo sapiens Zinc finger protein 154 Proteins 0.000 description 4
- 101000976626 Homo sapiens Zinc finger protein 3 homolog Proteins 0.000 description 4
- 101000964574 Homo sapiens Zinc finger protein 64 Proteins 0.000 description 4
- 101000915599 Homo sapiens Zinc finger protein 776 Proteins 0.000 description 4
- 102100039688 Insulin-like growth factor 1 receptor Human genes 0.000 description 4
- 102100027500 Leucine-rich repeat-containing protein 34 Human genes 0.000 description 4
- 102100028687 Methenyltetrahydrofolate cyclohydrolase Human genes 0.000 description 4
- 102100033786 Paired mesoderm homeobox protein 1 Human genes 0.000 description 4
- 102100037553 Phosphatidylinositol 3-kinase regulatory subunit gamma Human genes 0.000 description 4
- 102100024450 Prostaglandin E2 receptor EP4 subtype Human genes 0.000 description 4
- 102000012211 Retinoic Acid 4-Hydroxylase Human genes 0.000 description 4
- 108010022037 Retinoic Acid 4-Hydroxylase Proteins 0.000 description 4
- 102100026764 Serine/threonine-protein kinase 24 Human genes 0.000 description 4
- 102100035051 TSC22 domain family protein 1 Human genes 0.000 description 4
- 102100033120 Uncharacterized protein C5orf49 Human genes 0.000 description 4
- 102100026582 Zinc finger and SCAN domain-containing protein 30 Human genes 0.000 description 4
- 102100040784 Zinc finger protein 154 Human genes 0.000 description 4
- 102100023553 Zinc finger protein 3 homolog Human genes 0.000 description 4
- 102100040798 Zinc finger protein 64 Human genes 0.000 description 4
- 102100028581 Zinc finger protein 776 Human genes 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000001114 immunoprecipitation Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000009966 trimming Methods 0.000 description 4
- 238000009007 Diagnostic Kit Methods 0.000 description 3
- 206010016654 Fibrosis Diseases 0.000 description 3
- 108010062427 GDP-mannose 4,6-dehydratase Proteins 0.000 description 3
- 102000002312 GDPmannose 4,6-dehydratase Human genes 0.000 description 3
- 101000821449 Homo sapiens Secreted and transmembrane protein 1 Proteins 0.000 description 3
- 101000819074 Homo sapiens Transcription factor GATA-4 Proteins 0.000 description 3
- 102100021853 Secreted and transmembrane protein 1 Human genes 0.000 description 3
- 102100021380 Transcription factor GATA-4 Human genes 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007882 cirrhosis Effects 0.000 description 3
- 101150100366 end gene Proteins 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 3
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 3
- 239000002773 nucleotide Substances 0.000 description 3
- 125000003729 nucleotide group Chemical group 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 210000003296 saliva Anatomy 0.000 description 3
- 210000002700 urine Anatomy 0.000 description 3
- JQMFQLVAJGZSQS-UHFFFAOYSA-N 2-[4-[2-(2,3-dihydro-1H-inden-2-ylamino)pyrimidin-5-yl]piperazin-1-yl]-N-(2-oxo-3H-1,3-benzoxazol-6-yl)acetamide Chemical compound C1C(CC2=CC=CC=C12)NC1=NC=C(C=N1)N1CCN(CC1)CC(=O)NC1=CC2=C(NC(O2)=O)C=C1 JQMFQLVAJGZSQS-UHFFFAOYSA-N 0.000 description 2
- 102100024626 5'-AMP-activated protein kinase subunit gamma-2 Human genes 0.000 description 2
- 102100022997 Acidic leucine-rich nuclear phosphoprotein 32 family member A Human genes 0.000 description 2
- 102100030374 Actin, cytoplasmic 2 Human genes 0.000 description 2
- 102100027766 Atlastin-1 Human genes 0.000 description 2
- 102000014837 CACNA1G Human genes 0.000 description 2
- 102100038781 Carbohydrate sulfotransferase 2 Human genes 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 2
- 108091026890 Coding region Proteins 0.000 description 2
- 102100035236 Coiled-coil domain-containing protein 146 Human genes 0.000 description 2
- 102100030507 Coiled-coil domain-containing protein 181 Human genes 0.000 description 2
- 102100025882 Complement C1q-like protein 3 Human genes 0.000 description 2
- 102100027826 Complexin-1 Human genes 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 102100031597 Dedicator of cytokinesis protein 2 Human genes 0.000 description 2
- 102100024098 Deleted in lung and esophageal cancer protein 1 Human genes 0.000 description 2
- 102100037832 Docking protein 1 Human genes 0.000 description 2
- 102100031644 Dynein axonemal heavy chain 3 Human genes 0.000 description 2
- 102100038647 Fibroleukin Human genes 0.000 description 2
- 108010010285 Forkhead Box Protein L2 Proteins 0.000 description 2
- 102100035137 Forkhead box protein L2 Human genes 0.000 description 2
- 102100027812 Gamma-crystallin D Human genes 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 102100033325 Golgi-specific brefeldin A-resistance guanine nucleotide exchange factor 1 Human genes 0.000 description 2
- 102100038367 Gremlin-1 Human genes 0.000 description 2
- 108091092889 HOTTIP Proteins 0.000 description 2
- 102100027368 Histone H1.3 Human genes 0.000 description 2
- 102100038807 Histone H2A type 3 Human genes 0.000 description 2
- 102100021544 Histone H2B type 1-O Human genes 0.000 description 2
- 102100038806 Histone H2B type 3-B Human genes 0.000 description 2
- 102100038719 Histone deacetylase 7 Human genes 0.000 description 2
- 102100030941 Homeobox even-skipped homolog protein 1 Human genes 0.000 description 2
- 102100030308 Homeobox protein Hox-A11 Human genes 0.000 description 2
- 102100028411 Homeobox protein Hox-B3 Human genes 0.000 description 2
- 102100028404 Homeobox protein Hox-B4 Human genes 0.000 description 2
- 102100034864 Homeobox protein Hox-D9 Human genes 0.000 description 2
- 102100027332 Homeobox protein SIX2 Human genes 0.000 description 2
- 102100027345 Homeobox protein SIX3 Human genes 0.000 description 2
- 102100033791 Homeobox protein aristaless-like 3 Human genes 0.000 description 2
- 101000760987 Homo sapiens 5'-AMP-activated protein kinase subunit gamma-2 Proteins 0.000 description 2
- 101000757200 Homo sapiens Acidic leucine-rich nuclear phosphoprotein 32 family member A Proteins 0.000 description 2
- 101000773237 Homo sapiens Actin, cytoplasmic 2 Proteins 0.000 description 2
- 101000936983 Homo sapiens Atlastin-1 Proteins 0.000 description 2
- 101000924488 Homo sapiens Atrial natriuretic peptide receptor 3 Proteins 0.000 description 2
- 101000883009 Homo sapiens Carbohydrate sulfotransferase 2 Proteins 0.000 description 2
- 101000737221 Homo sapiens Coiled-coil domain-containing protein 146 Proteins 0.000 description 2
- 101000772632 Homo sapiens Coiled-coil domain-containing protein 181 Proteins 0.000 description 2
- 101000933641 Homo sapiens Complement C1q-like protein 3 Proteins 0.000 description 2
- 101000859600 Homo sapiens Complexin-1 Proteins 0.000 description 2
- 101000866237 Homo sapiens Dedicator of cytokinesis protein 2 Proteins 0.000 description 2
- 101001053992 Homo sapiens Deleted in lung and esophageal cancer protein 1 Proteins 0.000 description 2
- 101000805172 Homo sapiens Docking protein 1 Proteins 0.000 description 2
- 101000866366 Homo sapiens Dynein axonemal heavy chain 3 Proteins 0.000 description 2
- 101001024566 Homo sapiens Ecto-ADP-ribosyltransferase 4 Proteins 0.000 description 2
- 101001031613 Homo sapiens Fibroleukin Proteins 0.000 description 2
- 101000859943 Homo sapiens Gamma-crystallin D Proteins 0.000 description 2
- 101000926793 Homo sapiens Golgi-specific brefeldin A-resistance guanine nucleotide exchange factor 1 Proteins 0.000 description 2
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 2
- 101001009450 Homo sapiens Histone H1.3 Proteins 0.000 description 2
- 101001031346 Homo sapiens Histone H2A type 3 Proteins 0.000 description 2
- 101000898881 Homo sapiens Histone H2B type 1-O Proteins 0.000 description 2
- 101001031390 Homo sapiens Histone H2B type 3-B Proteins 0.000 description 2
- 101001032113 Homo sapiens Histone deacetylase 7 Proteins 0.000 description 2
- 101000938552 Homo sapiens Homeobox even-skipped homolog protein 1 Proteins 0.000 description 2
- 101001083158 Homo sapiens Homeobox protein Hox-A11 Proteins 0.000 description 2
- 101000839775 Homo sapiens Homeobox protein Hox-B3 Proteins 0.000 description 2
- 101000839788 Homo sapiens Homeobox protein Hox-B4 Proteins 0.000 description 2
- 101001019766 Homo sapiens Homeobox protein Hox-D9 Proteins 0.000 description 2
- 101000651912 Homo sapiens Homeobox protein SIX2 Proteins 0.000 description 2
- 101000651928 Homo sapiens Homeobox protein SIX3 Proteins 0.000 description 2
- 101000779611 Homo sapiens Homeobox protein aristaless-like 3 Proteins 0.000 description 2
- 101001003138 Homo sapiens Interleukin-12 receptor subunit beta-2 Proteins 0.000 description 2
- 101000663639 Homo sapiens Kunitz-type protease inhibitor 2 Proteins 0.000 description 2
- 101000619927 Homo sapiens LIM/homeobox protein Lhx9 Proteins 0.000 description 2
- 101001017828 Homo sapiens Leucine-rich repeat flightless-interacting protein 1 Proteins 0.000 description 2
- 101000941877 Homo sapiens Leucine-rich repeat serine/threonine-protein kinase 1 Proteins 0.000 description 2
- 101001130208 Homo sapiens Lipid droplet assembly factor 1 Proteins 0.000 description 2
- 101001018034 Homo sapiens Lymphocyte antigen 75 Proteins 0.000 description 2
- 101001043354 Homo sapiens Lysyl oxidase homolog 3 Proteins 0.000 description 2
- 101000980673 Homo sapiens Multicilin Proteins 0.000 description 2
- 101000958866 Homo sapiens Myogenic factor 6 Proteins 0.000 description 2
- 101000603407 Homo sapiens Neuropeptides B/W receptor type 1 Proteins 0.000 description 2
- 101000572989 Homo sapiens POU domain, class 3, transcription factor 3 Proteins 0.000 description 2
- 101001123298 Homo sapiens PR domain zinc finger protein 14 Proteins 0.000 description 2
- 101000595674 Homo sapiens Pituitary homeobox 3 Proteins 0.000 description 2
- 101000728117 Homo sapiens Plasma membrane calcium-transporting ATPase 4 Proteins 0.000 description 2
- 101000887486 Homo sapiens Probable G-protein coupled receptor 150 Proteins 0.000 description 2
- 101001055764 Homo sapiens Probable guanine nucleotide exchange factor MCF2L2 Proteins 0.000 description 2
- 101000920985 Homo sapiens Protein CROC-4 Proteins 0.000 description 2
- 101000875518 Homo sapiens Protein FAM110B Proteins 0.000 description 2
- 101000958299 Homo sapiens Protein lyl-1 Proteins 0.000 description 2
- 101001122742 Homo sapiens Protein phosphatase 1 regulatory inhibitor subunit 16B Proteins 0.000 description 2
- 101000655121 Homo sapiens Putative TLX1 neighbor protein Proteins 0.000 description 2
- 101000612877 Homo sapiens Putative testis-specific Y-encoded-like protein 3 Proteins 0.000 description 2
- 101000818733 Homo sapiens Putative uncharacterized protein encoded by ZNF503-AS2 Proteins 0.000 description 2
- 101000700478 Homo sapiens Pygopus homolog 1 Proteins 0.000 description 2
- 101001092172 Homo sapiens Ras-GEF domain-containing family member 1A Proteins 0.000 description 2
- 101001074548 Homo sapiens Regulating synaptic membrane exocytosis protein 2 Proteins 0.000 description 2
- 101000890554 Homo sapiens Retinal dehydrogenase 2 Proteins 0.000 description 2
- 101000650820 Homo sapiens Semaphorin-4A Proteins 0.000 description 2
- 101000634097 Homo sapiens Sia-alpha-2,3-Gal-beta-1,4-GlcNAc-R:alpha 2,8-sialyltransferase Proteins 0.000 description 2
- 101000685797 Homo sapiens Sperm acrosome membrane-associated protein 6 Proteins 0.000 description 2
- 101000891113 Homo sapiens T-cell acute lymphocytic leukemia protein 1 Proteins 0.000 description 2
- 101000800488 Homo sapiens T-cell leukemia homeobox protein 1 Proteins 0.000 description 2
- 101000655119 Homo sapiens T-cell leukemia homeobox protein 3 Proteins 0.000 description 2
- 101000658628 Homo sapiens Testis-specific Y-encoded-like protein 5 Proteins 0.000 description 2
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 2
- 101000835646 Homo sapiens Tubulin beta-2B chain Proteins 0.000 description 2
- 101000889708 Homo sapiens Tudor domain-containing protein 10 Proteins 0.000 description 2
- 101000867850 Homo sapiens Voltage-dependent T-type calcium channel subunit alpha-1G Proteins 0.000 description 2
- 101000785527 Homo sapiens Zinc finger and SCAN domain-containing protein 23 Proteins 0.000 description 2
- 101000964707 Homo sapiens Zinc finger protein 397 Proteins 0.000 description 2
- 101000915640 Homo sapiens Zinc finger protein 471 Proteins 0.000 description 2
- 101000723641 Homo sapiens Zinc finger protein 695 Proteins 0.000 description 2
- 101000915606 Homo sapiens Zinc finger protein 781 Proteins 0.000 description 2
- 101000976642 Homo sapiens Zinc finger protein ZIC 4 Proteins 0.000 description 2
- 101000976649 Homo sapiens Zinc finger protein ZIC 5 Proteins 0.000 description 2
- 102100020792 Interleukin-12 receptor subunit beta-2 Human genes 0.000 description 2
- 102100039020 Kunitz-type protease inhibitor 2 Human genes 0.000 description 2
- 102100022141 LIM/homeobox protein Lhx9 Human genes 0.000 description 2
- 102100033303 Leucine-rich repeat flightless-interacting protein 1 Human genes 0.000 description 2
- 102100032656 Leucine-rich repeat serine/threonine-protein kinase 1 Human genes 0.000 description 2
- 102100031359 Lipid droplet assembly factor 1 Human genes 0.000 description 2
- 102100033486 Lymphocyte antigen 75 Human genes 0.000 description 2
- 102100021949 Lysyl oxidase homolog 3 Human genes 0.000 description 2
- 238000000585 Mann–Whitney U test Methods 0.000 description 2
- 102100024179 Multicilin Human genes 0.000 description 2
- 102100038379 Myogenic factor 6 Human genes 0.000 description 2
- 102000002452 NPR3 Human genes 0.000 description 2
- 102100038847 Neuropeptides B/W receptor type 1 Human genes 0.000 description 2
- 108091034117 Oligonucleotide Proteins 0.000 description 2
- 108010032788 PAX6 Transcription Factor Proteins 0.000 description 2
- 102100026456 POU domain, class 3, transcription factor 3 Human genes 0.000 description 2
- 102100028974 PR domain zinc finger protein 14 Human genes 0.000 description 2
- 102100037506 Paired box protein Pax-6 Human genes 0.000 description 2
- 102100036088 Pituitary homeobox 3 Human genes 0.000 description 2
- 102100029743 Plasma membrane calcium-transporting ATPase 4 Human genes 0.000 description 2
- 102100039876 Probable G-protein coupled receptor 150 Human genes 0.000 description 2
- 102100026106 Probable guanine nucleotide exchange factor MCF2L2 Human genes 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 102100032188 Protein CROC-4 Human genes 0.000 description 2
- 102100035978 Protein FAM110B Human genes 0.000 description 2
- 102100038231 Protein lyl-1 Human genes 0.000 description 2
- 102100028740 Protein phosphatase 1 regulatory inhibitor subunit 16B Human genes 0.000 description 2
- 102100032569 Putative TLX1 neighbor protein Human genes 0.000 description 2
- 102100040950 Putative testis-specific Y-encoded-like protein 3 Human genes 0.000 description 2
- 102100021111 Putative uncharacterized protein encoded by ZNF503-AS2 Human genes 0.000 description 2
- 102100029491 Pygopus homolog 1 Human genes 0.000 description 2
- 102100035771 Ras-GEF domain-containing family member 1A Human genes 0.000 description 2
- 102100036266 Regulating synaptic membrane exocytosis protein 2 Human genes 0.000 description 2
- 102100040070 Retinal dehydrogenase 2 Human genes 0.000 description 2
- 102100028029 SCL-interrupting locus protein Human genes 0.000 description 2
- 101000702553 Schistosoma mansoni Antigen Sm21.7 Proteins 0.000 description 2
- 101000714192 Schistosoma mansoni Tegument antigen Proteins 0.000 description 2
- 102100027718 Semaphorin-4A Human genes 0.000 description 2
- 102100029227 Sia-alpha-2,3-Gal-beta-1,4-GlcNAc-R:alpha 2,8-sialyltransferase Human genes 0.000 description 2
- 102100023081 Sperm acrosome membrane-associated protein 6 Human genes 0.000 description 2
- 102100040365 T-cell acute lymphocytic leukemia protein 1 Human genes 0.000 description 2
- 102100033111 T-cell leukemia homeobox protein 1 Human genes 0.000 description 2
- 102100032568 T-cell leukemia homeobox protein 3 Human genes 0.000 description 2
- 108700012457 TACSTD2 Proteins 0.000 description 2
- 102100034914 Testis-specific Y-encoded-like protein 5 Human genes 0.000 description 2
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 2
- 102100026248 Tubulin beta-2B chain Human genes 0.000 description 2
- 102100040182 Tudor domain-containing protein 10 Human genes 0.000 description 2
- 102100027212 Tumor-associated calcium signal transducer 2 Human genes 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 102100026638 Zinc finger and SCAN domain-containing protein 23 Human genes 0.000 description 2
- 102100040824 Zinc finger protein 397 Human genes 0.000 description 2
- 102100029037 Zinc finger protein 471 Human genes 0.000 description 2
- 102100027855 Zinc finger protein 695 Human genes 0.000 description 2
- 102100028582 Zinc finger protein 781 Human genes 0.000 description 2
- 102100023493 Zinc finger protein ZIC 4 Human genes 0.000 description 2
- 102100023494 Zinc finger protein ZIC 5 Human genes 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000006793 arrhythmia Effects 0.000 description 2
- 206010003119 arrhythmia Diseases 0.000 description 2
- 238000003149 assay kit Methods 0.000 description 2
- 230000027455 binding Effects 0.000 description 2
- 230000036952 cancer formation Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002440 hepatic effect Effects 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 210000004962 mammalian cell Anatomy 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 108091031086 miR-4666a stem-loop Proteins 0.000 description 2
- 108091089992 miR-9-1 stem-loop Proteins 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 108091008146 restriction endonucleases Proteins 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 210000003802 sputum Anatomy 0.000 description 2
- 208000024794 sputum Diseases 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 1
- 208000006154 Chronic hepatitis C Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 102000016911 Deoxyribonucleases Human genes 0.000 description 1
- 108010053770 Deoxyribonucleases Proteins 0.000 description 1
- 102000016680 Dioxygenases Human genes 0.000 description 1
- 108010028143 Dioxygenases Proteins 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108700039887 Essential Genes Proteins 0.000 description 1
- 229940121710 HMGCoA reductase inhibitor Drugs 0.000 description 1
- 208000005176 Hepatitis C Diseases 0.000 description 1
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 108010006785 Taq Polymerase Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 208000002495 Uterine Neoplasms Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000011319 anticancer therapy Methods 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 102000023732 binding proteins Human genes 0.000 description 1
- 239000013060 biological fluid Substances 0.000 description 1
- 210000001754 blood buffy coat Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000017858 demethylation Effects 0.000 description 1
- 238000010520 demethylation reaction Methods 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000012226 gene silencing method Methods 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 208000010710 hepatitis C virus infection Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 238000007031 hydroxymethylation reaction Methods 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003834 intracellular effect Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 210000005229 liver cell Anatomy 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004880 lymph fluid Anatomy 0.000 description 1
- 229910052749 magnesium Inorganic materials 0.000 description 1
- 239000011777 magnesium Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 210000003097 mucus Anatomy 0.000 description 1
- 210000002445 nipple Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000001590 oxidative effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 239000013615 primer Substances 0.000 description 1
- 239000002987 primer (paints) Substances 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000011535 reaction buffer Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000003161 ribonuclease inhibitor Substances 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 210000001179 synovial fluid Anatomy 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 206010046766 uterine cancer Diseases 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Pathology (AREA)
- Genetics & Genomics (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Biochemistry (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
본 발명은 간암 진단용 DNA 메틸화 마커 및 이의 용도에 관한 것으로, 보다 구체적으로는 간암 여부를 결정할 수 있는 DNA 메틸화 마커 조합 및 이의 용도에 관한 것이다. 본 발명에 따른 간암 진단용 DNA 메틸화 마커는 간암 조직 샘플을 사용하지 않고, 혈액 샘플의 DNA 메틸화 정보만을 이용하여 높은 정확도로 간암을 진단할 수 있어, 간암의 조기 진단에 유용하게 활용할 수 있다.
Description
본 발명은 간암 진단용 DNA 메틸화 마커 및 이의 용도에 관한 것으로, 보다 구체적으로는 간암 여부를 결정할 수 있는 DNA 메틸화 마커 조합 및 이의 용도에 관한 것이다.
간암은 세계적으로 발병률이 높은 암 가운데 하나이다. 한국에서 간암 사망률은 인구 10만 명당 23명으로 매우 높은 편이며, 한국인의 총 사망률의 약 10%는 간염, 간경화 및 간암과 관계되어 있다. 간암은 발생 초기 자각증상이 없어 조기 진단이 어렵다. 보통 간암은 대부분 이미 적절한 치료를 할 수 없는 진행성 암종으로 진행된 상태에서 발견되기 때문에 치료가 매우 제한적이며 예후 또한 극히 나쁘다. 간암은 진단 당시의 암의 진행상태에 따라 예후가 크게 달라지기에 간암 환자의 조기 발견은 간암 환자의 생존율을 높이는데 매우 중요하다.
암을 정확히 진단하려면 변이유전자를 파악하는 것뿐만 아니라, 그 유전자의 변이가 나타나는 기전을 파악하는 것이 중요하다. 이전에는 유전자의 코딩서열의 돌연변이, 즉 점 돌연변이나 결실, 삽입 등의 미세변화나 거시적인 염색체 이상에 초점을 맞추어 연구해 왔다. 그러나 최근에는 이들만큼 유전자외 변화가 중요한 것으로 보고되고 있고, 대표적인 것이 프로모터 CpG 섬의 메틸화이다.
포유류 세포의 게놈 DNA에는 A, C, G, T 외에 5번째 염기가 존재하며, 이는 시토신 환의 5번째 탄소에 메틸기가 붙은 5-메틸시토신(5-mC)이다. 5-mC는 항상 CG 다이뉴클레오타이드의 C에만 오며(5'-mCG-3'), 이러한 CG를 흔히 CpG라고 표시한다. CpG의 C는 대부분이 메틸기가 붙어서 메틸화되어 있다. 이러한 CpG의 메틸화는 알루(alu)나 전이인자(transposon)와 같이 게놈 내에 반복되는 염기서열(repetitive sequence)이 발현되지 못하도록 억제하며, 포유류 세포에서 유전자외 변화가 가장 흔히 나타나는 부위이다. 이러한 CpG의 5-mC는 자연히 탈아미노화(deamination)되어 T로 바뀌며, 이에 따라 포유류 게놈 내 CpG는 정상적으로 나타나야 할 빈도(1/4 x 1/4=6.25%)보다 훨씬 낮은 1%의 빈도만을 나타낸다.
CpG 중에 예외적으로 밀집되어 나타나는 것들이 있으며, 이를 CpG 섬이라고 한다. CpG 섬은 길이가 0.2~3kb이고, C 및 G염기의 분포백분율이 50%를 넘으며, CpG의 분포백분율이 3.75%이상으로 높게 집중되어 나타나는 부위를 가리킨다. CpG 섬은 전체 인체 유전체에 약 45,000개가 나타나며, 특히 유전자의 발현을 조절하는 프로모터 부위에 집중되어 나타난다. 실제로 인체 유전자중 약 절반을 차지하는 중요 유전자(housekeeping genes)의 프로모터에는 CpG 섬이 나타난다 (Cross, S. et al., Curr. Opin. Gene Develop., 5:309, 1995). 이에 실제 혈액이나 객담, 침, 대변, 소변 등에서 종양관련 유전자의 프로모터 메틸화를 조사하여 각종 암 진료에 사용하려는 시도가 최근 활발하게 이루어지고 있다.
현재 임상에서 암의 진단은 문진(history taking)과 신체검사, 임상병리검사를 거쳐 일단 의심이 되면 방사선 검사 및 내시경 검사로 진행되며, 최종적으로는 조직 검사로 확인된다. 그러나 현존 임상 검사법으로는 암의 세포수가 10억 개, 암의 직경이 1 cm 이상이 되어야 진단이 가능하다. 이런 경우 이미 암세포는 전이 능력을 갖고 있으며, 실제 절반이상에서 암이 이미 전이되어 있다. 한편, 암이 직간접으로 생산하는 물질을 혈액 내에서 찾는 종양마커(tumor markers)가 암 선별검사(cancer screening)에 이용되는데, 이는 정확도에 한계가 있어서 암이 있을 때도 약 절반까지 정상으로 나타나며, 암이 없을 때도 종종 양성으로 나타나서 혼란을 야기한다. 또한, 암의 치료에 주로 사용되는 항암제의 경우, 암의 용적이 적은 경우에만 그 효과를 나타내는 문제점이 있다.
이에, 최근에는 DNA 메틸화 측정을 통하여 암을 진단하는 방법들이 제시되고 있다. DNA 메틸화는 주로 특정 유전자의 프로모터 부위의 CpG 섬(CpG island)의 사이토신(cytosine)에서 일어나고, 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 차단(gene silencing)되는 것으로, 이는 생체 내에서 유전자의 단백질 지정 코딩서열(coding sequence)에 돌연변이(mutation)가 없이도 그 유전자의 기능이 소실되는 주요 기전이며, 인체 암에서 다수의 종양 억제 유전자(tumor suppressor genes)의 기능이 소실되는 원인으로 해석되고 있다. 프로모터 CpG 섬의 메틸화가 발암을 직접 유발하는지, 또는 발암에 2차적인 변화인지에 대한 논란이 있으나, 전립선암, 결장암, 자궁암, 유방암 등 다양한 암 세포에서 CpG 섬에서의 이러한 비정상적인 메틸화/탈메틸화가 보고되었다. 따라서, 이는 암의 조기진단, 발암 위험의 예측, 암의 예후 예측, 치료 후 추적 조사, 항암요법에 대한 반응 예측 등 다방면으로 이용될 수 있다. 이를 메틸화 특이 PCR(이하 MSP라고 함), 자동염기분석 또는 bisulfite pyrosequencing 등의 방법으로 검사하여 암의 진단과 스크리닝 등에 이용하려는 시도가 최근 활발하게 이루어지고 있으나, 다수는 소수의 특정 유전자 또는 프로모터 부위의 메틸화를 검출하여 이를 분석하는 방법에 그치고 있으며 (예를 들어, 대한민국 특허 제1557183호, 대한민국 특허 제1191947호). 진단의 효율 및 정확도에는 한계가 있다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의 간암 진단용 DNA 메틸화 마커를 개발하기 위해 예의 노력한 결과, 간암 조직 샘플의 TCGA 메틸화 데이터와 간암 환자의 cfDNA 메틸화 DNA 메틸화에서 동시에 특징을 추출하고 이를 학습한 기계학습 모델을 이용하여 간암 특이적 DNA 메틸화 마커를 선별하여, 상기 DNA 메틸화 마커를 분석할 경우, 높은 정확도로 간암 여부를 조기에 진단할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
본 발명의 목적은 간암 진단용 DNA 메틸화 마커 조합을 제공하는 것이다.
본 발명의 다른 목적은 상기 DNA 메틸화 마커 조합을 이용한 간암 진단을 위한 정보의 제공방법을 제공하는 것이다.
본 발명의 또 다른 목적은 상기 DNA 메틸화 마커 조합을 검출할 수 있는 프로브 조성물, 프라미어 조성물 및 상기 조성물을 포함하는 간암 진단용 키트를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 표 1로 표시되는 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합을 제공한다.
본 발명은 또한, (a) 생체 시료에서 DNA를 분리하는 단계; (b) 상기 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및 (c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계; 를 포함하는 간암 진단을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, 상기 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물을 제공한다.
본 발명은 또한, 상기 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물을 제공한다.
본 발명은 또한, 상기 조성물을 포함하는 간암 진단용 키트를 제공한다.
본 발명에 따른 간암 진단용 DNA 메틸화 마커는 간암 조직 샘플을 사용하지 않고, 혈액 샘플의 DNA 메틸화 정보만을 이용하여 높은 정확도로 간암을 진단할 수 있어, 간암의 조기 진단에 유용하게 활용할 수 있다.
도 1은 본 발명의 간암 진단용 DNA 메틸화 마커를 선별하는 과정을 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 3은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 4는 본 발명의 간암 진단용 DNA 메틸화 마커 최소 조합을 선별하는 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커와 다른 마커 세트 후보군의 AUC 값 차이를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커를 이용하여 간암 여부를 판단한 결과를 나타내는 ROC_AUC 그래프이다.
도 7은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커 각각의 간암과 정상 조직간 메틸화 수준 차이를 측정한 결과이다.
도 8은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 9는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 10은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 11은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 2는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 3은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 학습한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 4는 본 발명의 간암 진단용 DNA 메틸화 마커 최소 조합을 선별하는 과정을 나타낸 흐름도이다.
도 5는 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커와 다른 마커 세트 후보군의 AUC 값 차이를 나타내는 그래프이다.
도 6은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커를 이용하여 간암 여부를 판단한 결과를 나타내는 ROC_AUC 그래프이다.
도 7은 본 발명의 일 실시예에 따라 선별한 20개의 간암 특이적 DNA 메틸화 마커 각각의 간암과 정상 조직간 메틸화 수준 차이를 측정한 결과이다.
도 8은 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 9는 본 발명의 일 실시예에 따라 선별한 354개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
도 10은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 ROC 곡선 결과이다.
도 11은 본 발명의 일 실시예에 따라 선별한 14개의 간암 특이적 DNA 메틸화 마커를 이용하여 임상샘플에서 구축한 기계학습 모델의 성능을 확인한 train, valid 및 test 그룹에서 계산한 확률값의 분포를 나타낸 그래프이다.
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
본 발명에서는, 혈중 무세포 핵산의 메틸화 정보를 이용하여 간암 여부를 진단할 수 있는 모델을 개발하고 그 정확도를 확인하고자 하였다.
본 발명에서는 TCGA 데이터베이스에 기재된 간암 조직 샘플의 메틸화 데이터와 간암 환자의 혈액 샘플에서 추출한 무세포 핵산의 메틸화 데이터를 조합하여 기계학습 모델을 구축하고, 간암 여부를 판별할 수 있는 DNA 메틸화 마커를 선별하였다.
즉, 본 발명의 일 실시예에서는, TCGA 데이터베이스에 기재된 간암 조직 샘플과 정상 샘플의 메틸화 데이터를 기반으로 간암 특이적 메틸화 영역을 선별하고, 간암 환자와 정상인의 혈액에서 추출한 메틸화된 DNA를 시퀀싱 한 뒤, 이를 비교하여 간암 특이적 메틸화 영역을 선별한 다음, 선별된 두 영역에서 겹치는 영역을 최종 입력 데이터로 선정하여 이를 기계학습 모델로 학습하여, 간암 여부를 판단할 경우, 높은 정확도로 간암 여부를 결정할 수 있다는 것을 확인하였다(도 2).
따라서, 본 발명은 일관점에서,
하기 표 1로 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합에 관한 것이다.
염색체 | 시작위치 | 종료위치 |
chr1 | 119532189 | 119532190 |
chr1 | 119532195 | 119532196 |
chr1 | 146551744 | 146551745 |
chr2 | 45160445 | 45160446 |
chr4 | 41882163 | 41882164 |
chr6 | 1624978 | 1624979 |
chr6 | 26240579 | 26240580 |
chr6 | 26252265 | 26252266 |
chr7 | 27252541 | 27252542 |
chr8 | 11540407 | 11540408 |
chr14 | 54423433 | 54423434 |
chr14 | 100632950 | 100632951 |
chr17 | 80291775 | 80291776 |
chr19 | 41317067 | 41317068 |
본 발명에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 2로 표시되는 DNA 마커를 추가로 포함하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
염색체 | 시작위치 | 종료위치 |
chr1 | 59042275 | 59042276 |
chr2 | 208989248 | 208989249 |
chr7 | 27225523 | 27225524 |
chr10 | 77168431 | 77168432 |
chr15 | 58357204 | 58357205 |
chr18 | 32847566 | 32847567 |
본 발명에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 3으로 표시되는 DNA 마커로 구성된 군에서 선택되는 2 이상의 DNA 메틸화 마커를 추가로 포함하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
염색체 | 시작위치 | 종료위치 | 염색체 | 시작위치 | 종료위치 |
chr1 | 46632446 | 46632945 | chr2 | 119067503 | 119068002 |
chr1 | 46632621 | 46633120 | chr2 | 157177686 | 157178185 |
chr1 | 47697715 | 47698214 | chr2 | 157178481 | 157178980 |
chr1 | 47908984 | 47909483 | chr2 | 157178639 | 157179138 |
chr1 | 47909931 | 47910430 | chr2 | 160761163 | 160761662 |
chr1 | 47910206 | 47910705 | chr2 | 176987215 | 176987714 |
chr1 | 47910593 | 47911092 | chr2 | 177003485 | 177003984 |
chr1 | 48058627 | 48059126 | chr2 | 177003497 | 177003996 |
chr1 | 48058711 | 48059210 | chr2 | 200331667 | 200332166 |
chr1 | 67772878 | 67773377 | chr2 | 200331727 | 200332226 |
chr1 | 87617460 | 87617959 | chr2 | 200331775 | 200332274 |
chr1 | 91192216 | 91192715 | chr2 | 200333751 | 200334250 |
chr1 | 110610649 | 110611148 | chr2 | 200334851 | 200335350 |
chr1 | 119522605 | 119523104 | chr2 | 238583254 | 238583753 |
chr1 | 119526861 | 119527360 | chr20 | 1784026 | 1784525 |
chr1 | 119526906 | 119527405 | chr20 | 30778049 | 30778548 |
chr1 | 119527634 | 119528133 | chr20 | 37433979 | 37434478 |
chr1 | 119529680 | 119530179 | chr20 | 50720658 | 50721157 |
chr1 | 119532523 | 119533022 | chr20 | 50721063 | 50721562 |
chr1 | 119532675 | 119533174 | chr3 | 38080675 | 38081174 |
chr1 | 119542807 | 119543306 | chr3 | 101497626 | 101498125 |
chr1 | 119542966 | 119543465 | chr3 | 101497730 | 101498229 |
chr1 | 119543086 | 119543585 | chr3 | 101497732 | 101498231 |
chr1 | 119548277 | 119548776 | chr3 | 138658771 | 138659270 |
chr1 | 119548575 | 119549074 | chr3 | 138662065 | 138662564 |
chr1 | 119548602 | 119549101 | chr3 | 138662980 | 138663479 |
chr1 | 119548895 | 119549394 | chr3 | 142837745 | 142838244 |
chr1 | 119549013 | 119549512 | chr3 | 147098318 | 147098817 |
chr1 | 151812171 | 151812670 | chr3 | 147098335 | 147098834 |
chr1 | 151812185 | 151812684 | chr3 | 147105760 | 147106259 |
chr1 | 151812274 | 151812773 | chr3 | 147136654 | 147137153 |
chr1 | 151812460 | 151812959 | chr3 | 169529777 | 169530276 |
chr1 | 154474923 | 154475422 | chr3 | 169529787 | 169530286 |
chr1 | 156130576 | 156131075 | chr3 | 179168510 | 179169009 |
chr1 | 156389874 | 156390373 | chr3 | 179168548 | 179169047 |
chr1 | 160951657 | 160952156 | chr3 | 183145282 | 183145781 |
chr1 | 161275311 | 161275810 | chr3 | 186490406 | 186490905 |
chr1 | 169396462 | 169396961 | chr4 | 785994 | 786493 |
chr1 | 170629820 | 170630319 | chr4 | 41868836 | 41869335 |
chr1 | 170630308 | 170630807 | chr4 | 41880497 | 41880996 |
chr1 | 171810218 | 171810717 | chr4 | 41882330 | 41882829 |
chr1 | 171810722 | 171811221 | chr4 | 76555297 | 76555796 |
chr1 | 171811049 | 171811548 | chr4 | 76555384 | 76555883 |
chr1 | 197882219 | 197882718 | chr4 | 76555522 | 76556021 |
chr1 | 203598323 | 203598822 | chr4 | 76555527 | 76556026 |
chr1 | 213123425 | 213123924 | chr4 | 76555532 | 76556031 |
chr1 | 213123636 | 213124135 | chr5 | 7849953 | 7850452 |
chr1 | 213123715 | 213124214 | chr5 | 7850188 | 7850687 |
chr1 | 221064450 | 221064949 | chr5 | 32713473 | 32713972 |
chr1 | 228645797 | 228646296 | chr5 | 40680887 | 40681386 |
chr1 | 247171153 | 247171652 | chr5 | 40681643 | 40682142 |
chr10 | 8094284 | 8094783 | chr5 | 42950942 | 42951441 |
chr10 | 16562220 | 16562719 | chr5 | 42951863 | 42952362 |
chr10 | 17271679 | 17272178 | chr5 | 42992524 | 42993023 |
chr10 | 17271694 | 17272193 | chr5 | 43017435 | 43017934 |
chr10 | 17271744 | 17272243 | chr5 | 43018193 | 43018692 |
chr10 | 17271867 | 17272366 | chr5 | 54516555 | 54517054 |
chr10 | 22541774 | 22542273 | chr5 | 94955506 | 94956005 |
chr10 | 22625215 | 22625714 | chr5 | 112073100 | 112073599 |
chr10 | 22765590 | 22766089 | chr5 | 112073123 | 112073622 |
chr10 | 43697758 | 43698257 | chr5 | 112073148 | 112073647 |
chr10 | 93647050 | 93647549 | chr5 | 112073156 | 112073655 |
chr10 | 94834332 | 94834831 | chr5 | 112073176 | 112073675 |
chr10 | 94834513 | 94835012 | chr5 | 112073188 | 112073687 |
chr10 | 102894793 | 102895292 | chr5 | 139047755 | 139048254 |
chr10 | 104000581 | 104001080 | chr5 | 139047856 | 139048355 |
chr11 | 13689872 | 13690371 | chr5 | 169064201 | 169064700 |
chr11 | 13689910 | 13690409 | chr5 | 170736027 | 170736526 |
chr11 | 13690452 | 13690951 | chr6 | 3228983 | 3229482 |
chr11 | 31826324 | 31826823 | chr6 | 5026074 | 5026573 |
chr11 | 69517049 | 69517548 | chr6 | 5026185 | 5026684 |
chr11 | 69517221 | 69517720 | chr6 | 10425398 | 10425897 |
chr11 | 69517591 | 69518090 | chr6 | 10425849 | 10426348 |
chr11 | 69517753 | 69518252 | chr6 | 26235004 | 26235503 |
chr11 | 69517947 | 69518446 | chr6 | 26240670 | 26241169 |
chr12 | 21810029 | 21810528 | chr6 | 26250494 | 26250993 |
chr12 | 21810380 | 21810879 | chr6 | 26250669 | 26251168 |
chr12 | 21810558 | 21811057 | chr6 | 26250686 | 26251185 |
chr12 | 48206598 | 48207097 | chr6 | 26251649 | 26252148 |
chr12 | 58021319 | 58021818 | chr6 | 26271466 | 26271965 |
chr12 | 58021463 | 58021962 | chr6 | 26271468 | 26271967 |
chr12 | 81102236 | 81102735 | chr6 | 26271566 | 26272065 |
chr12 | 95941619 | 95942118 | chr6 | 26271577 | 26272076 |
chr12 | 95941738 | 95942237 | chr6 | 26550760 | 26551259 |
chr12 | 95942511 | 95943010 | chr6 | 26614399 | 26614898 |
chr12 | 95942657 | 95943156 | chr6 | 27462967 | 27463466 |
chr12 | 95942714 | 95943213 | chr6 | 27858387 | 27858886 |
chr12 | 115102476 | 115102975 | chr6 | 28411037 | 28411536 |
chr13 | 45149778 | 45150277 | chr6 | 42738717 | 42739216 |
chr13 | 45150012 | 45150511 | chr6 | 42738799 | 42739298 |
chr13 | 100627091 | 100627590 | chr6 | 100911437 | 100911936 |
chr13 | 100641159 | 100641658 | chr6 | 100912656 | 100913155 |
chr13 | 100641396 | 100641895 | chr6 | 100912690 | 100913189 |
chr13 | 107186620 | 107187119 | chr6 | 100912696 | 100913195 |
chr13 | 107186927 | 107187426 | chr6 | 100915517 | 100916016 |
chr14 | 51027611 | 51028110 | chr6 | 108488085 | 108488584 |
chr14 | 54422525 | 54423024 | chr6 | 108490645 | 108491144 |
chr14 | 61108957 | 61109456 | chr6 | 108495615 | 108496114 |
chr15 | 33009281 | 33009780 | chr6 | 108495735 | 108496234 |
chr15 | 41805280 | 41805779 | chr6 | 133561851 | 133562350 |
chr15 | 55880644 | 55881143 | chr6 | 133562216 | 133562715 |
chr15 | 65186056 | 65186555 | chr6 | 133562220 | 133562719 |
chr15 | 68260324 | 68260823 | chr6 | 133562225 | 133562724 |
chr15 | 69087559 | 69088058 | chr6 | 133562229 | 133562728 |
chr15 | 99193679 | 99194178 | chr6 | 133562235 | 133562734 |
chr15 | 99193743 | 99194242 | chr6 | 133562242 | 133562741 |
chr15 | 101459033 | 101459532 | chr6 | 133562244 | 133562743 |
chr16 | 21170817 | 21171316 | chr7 | 27204478 | 27204977 |
chr17 | 4981360 | 4981859 | chr7 | 27204731 | 27205230 |
chr17 | 4981573 | 4982072 | chr7 | 27204967 | 27205466 |
chr17 | 29297898 | 29298397 | chr7 | 27213734 | 27214233 |
chr17 | 29297934 | 29298433 | chr7 | 27213793 | 27214292 |
chr17 | 29298102 | 29298601 | chr7 | 27213806 | 27214305 |
chr17 | 42030229 | 42030728 | chr7 | 27232587 | 27233086 |
chr17 | 43338973 | 43339472 | chr7 | 27232823 | 27233322 |
chr17 | 43339078 | 43339577 | chr7 | 27232891 | 27233390 |
chr17 | 43339247 | 43339746 | chr7 | 27245292 | 27245791 |
chr17 | 43339262 | 43339761 | chr7 | 27284539 | 27285038 |
chr17 | 46655579 | 46656078 | chr7 | 27291096 | 27291595 |
chr17 | 48636396 | 48636895 | chr7 | 28996389 | 28996888 |
chr17 | 59529066 | 59529565 | chr7 | 28996652 | 28997151 |
chr17 | 59529236 | 59529735 | chr7 | 28996923 | 28997422 |
chr17 | 59534597 | 59535096 | chr7 | 28997235 | 28997734 |
chr17 | 59534748 | 59535247 | chr7 | 28997616 | 28998115 |
chr17 | 62777398 | 62777897 | chr7 | 28997828 | 28998327 |
chr17 | 79480858 | 79481357 | chr7 | 76828635 | 76829134 |
chr18 | 32847001 | 32847500 | chr7 | 96636366 | 96636865 |
chr18 | 55019849 | 55020348 | chr7 | 96636496 | 96636995 |
chr19 | 12305604 | 12306103 | chr7 | 96651031 | 96651530 |
chr19 | 12305619 | 12306118 | chr7 | 96651865 | 96652364 |
chr19 | 12305886 | 12306385 | chr7 | 96651873 | 96652372 |
chr19 | 12305948 | 12306447 | chr7 | 117119174 | 117119673 |
chr19 | 13209731 | 13210230 | chr7 | 117119351 | 117119850 |
chr19 | 36736022 | 36736521 | chr7 | 117119361 | 117119860 |
chr19 | 38182805 | 38183304 | chr7 | 117119387 | 117119886 |
chr19 | 38754889 | 38755388 | chr7 | 117119688 | 117120187 |
chr19 | 42901057 | 42901556 | chr7 | 134143656 | 134144155 |
chr19 | 50553817 | 50554316 | chr7 | 134143669 | 134144168 |
chr19 | 50554030 | 50554529 | chr7 | 134143786 | 134144285 |
chr19 | 50554201 | 50554700 | chr7 | 143042491 | 143042990 |
chr19 | 52207103 | 52207602 | chr7 | 143042548 | 143043047 |
chr19 | 57018819 | 57019318 | chr7 | 151329758 | 151330257 |
chr19 | 58220045 | 58220544 | chr8 | 41424092 | 41424591 |
chr19 | 58220120 | 58220619 | chr8 | 49292435 | 49292934 |
chr2 | 20068452 | 20068951 | chr8 | 53851934 | 53852433 |
chr2 | 25438860 | 25439359 | chr8 | 57069657 | 57070156 |
chr2 | 45159843 | 45160342 | chr8 | 59058004 | 59058503 |
chr2 | 45170072 | 45170571 | chr8 | 67873093 | 67873592 |
chr2 | 45231217 | 45231716 | chr8 | 67873226 | 67873725 |
chr2 | 45231532 | 45232031 | chr8 | 67873549 | 67874048 |
chr2 | 45231641 | 45232140 | chr8 | 67873928 | 67874427 |
chr2 | 45232167 | 45232666 | chr8 | 67874116 | 67874615 |
chr2 | 63280819 | 63281318 | chr8 | 67874783 | 67875282 |
chr2 | 63280889 | 63281388 | chr8 | 70981789 | 70982288 |
chr2 | 63281067 | 63281566 | chr8 | 86350318 | 86350817 |
chr2 | 63281133 | 63281632 | chr8 | 86350331 | 86350830 |
chr2 | 63281594 | 63282093 | chr8 | 98289898 | 98290397 |
chr2 | 63282452 | 63282951 | chr8 | 99951797 | 99952296 |
chr2 | 63282763 | 63283262 | chr8 | 99959473 | 99959972 |
chr2 | 63283717 | 63284216 | chr8 | 99959898 | 99960397 |
chr2 | 63283816 | 63284315 | chr8 | 99961295 | 99961794 |
chr2 | 63284518 | 63285017 | chr8 | 99961624 | 99962123 |
chr2 | 63285799 | 63286298 | chr8 | 102504197 | 102504696 |
chr2 | 74425262 | 74425761 | chr8 | 102504251 | 102504750 |
chr2 | 74425330 | 74425829 | chr8 | 102504314 | 102504813 |
chr2 | 74781846 | 74782345 | chr8 | 102505306 | 102505805 |
chr2 | 105470311 | 105470810 | chr8 | 104512833 | 104513332 |
chr2 | 119067387 | 119067886 | chr9 | 110228019 | 110228518 |
본 발명에 용어, "DNA 메틸화(DNA methylation)"는 게놈 DNA에서 시토신 염기의 C5-위치에 메틸기가 공유결합한 것을 의미한다. 메틸화 수준은 예를 들면 모든 게놈 영역 및 일부 비-게놈 영역 내의 DNA 염기서열에 존재하는 메틸화의 양을 의미하며, 본 발명에서는 상기 DNA 메틸화 마커의 메틸화 정도를 의미한다. 상기 DNA 메틸화 마커에서 메틸화는 서열 전체 또는 일부에 걸쳐 일어날 수 있다.
본 발명에서, 상기 간암은 간세포 자체로부터 발생한 간세포암 또는 다른 조직의 암이 간으로 전이되어 온 전이성 간암일 수 있으나, 바람직하게는 간세포암일 수 있다. 간세포암(hepatocellular carcinoma)은 간에서 발생하는 악성 종양의 약 90%를 차지하며, 우리나라와 일본, 동남아시아, 중국 등지에서 많이 발생한다. 대부분 간경변증이 있는 상태에서 발생하나, 일부는 만성 B형 또는 C형 간염으로 인해 발생하기도 한다.
본 발명은 다른 관점에서,
(a) 생체 시료에서 DNA를 분리하는 단계;
(b) 상기 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및
(c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계;
를 포함하는 간암 진단을 위한 정보의 제공방법에 관한 것이다.
본 발명에서, 상기 DNA는 생체시료에서 추출한 DNA이면 제한없이 이용할 수 있으나, 바람직하게는 세포 유리 핵산 또는 세포 내 핵산의 조각일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (b) 단계의 메틸화 수준의 검출은 공지의 다양한 방법으로 검출할 수 있으며, 바람직하게는 바이설파이트 전환법(bisulfite conversion) 또는 메틸화 DNA 면역침강법(Methylated DNA Immunoprecipitation, MeDIP)으로 수득한 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다
본 발명에서, DNA 메틸화를 검출할 수 있는 방법은 제한효소 기반 검출 방법이 추가로 있는데, 이는 methylation restriction enzyme(MRE)를 이용하여 메틸화 되지 않은 핵산을 절단하거나, 메틸화 여부에 상관없이 특정 서열(recognition site)를 절단하여 hybridization 방법 또는 PCR과 결합해 분석하는 방법이다.
본 발명에서 바이설파이트 치환에 기반한 방법은 Whole-Genome Bisulfite Sequencing(WGBS), Reduced-Representation Bisulfite Sequencing (RRBS), Methylated CpG Tandems Amplification and Sequencing (MCTA-seq), Targeted Bisulfite Sequencing, Methylation Array 및 Methylation-specific PCR (MSP) 등이 있다.
본 발명에서, 메틸화 DNA를 풍부화(enrichment)하여 분석하는 방법은 Methylated DNA Immunoprecipitation Sequencing (MeDIP-seq), Methyl-CpG Binding Domain Protein Capture Sequencing (MBD-seq) 등이 있다.
본 발명에서 메틸화 DNA를 분석할 수 있는 또 다른 방법은 5-hydroxymethylation profiling이 있으며, 그 예시로는 5hmC-Seal (hMe-Seal), hmC-CATCH, Hydroxymethylated DNA Immunoprecipitation Sequencing (hMeDIP-seq), Oxidative Bisulfite Conversion 등이 있다.
본 발명에 있어서, 상기 (b) 단계의 메틸화 수준의 검출은, PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, 메틸화 특이적인 PNA를 이용하는 PCR, melting curve analysis, DNA 칩, 파이로시퀀싱, 바이설파이트 시퀀싱 및 메틸화 차세대 염기서열 시퀀싱으로 구성된 군으로부터 선택된 어느 하나의 방법을 이용하는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G.007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system), 옥스포드 나노포어 테크놀로지스(Oxford Nanopore Technologies)의 PromethION, GriION, MinION 시스템 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 간암을 진단하도록 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계의 기준값은 간암 여부를 판정할 수 있는 값이면 제한없이 사용할 수 있으며, 바람직하게는 0.5 내지 1 더욱 바람직하게는 0.5 내지 0.8, 가장 바람직하게는 0.5 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계에서 인공지능 모델을 사용할 경우, 인공지능 모델은 간암 여부를 판정할 수 있는 인공지능 모델이면 제한없이 이용가능하며, 바람직하게는 기계학습 모델일 수 있고, 더욱 바람직하게는 K-최근접 이웃(k-Nearest Neighbors), 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM, Support Vector Machine), 의사결정나무(Decision Tree), 랜덤 포레스트(Random Forest), 및 인공 신경망(Aritificial Neural Network)으로 구성된 군에서 선택되는 어느 하나 이상의 기계학습 모델일 수 있으며, 바람직하게는 인공 신경망 모델일 수 있으나, 이에 한정되는 것은 아니다.
본 발며엥 있어서, 사익 인공 신경망 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN) 및 오토 인코더(autoencoder)로 구성된 군에서 선택되는 것을 특징으로 할 수 있으며, 가장 바람직하게는 합성곱 신경망 모델일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 인공지능 모델이 CNN일 경우, binary classification을 수행하는 손실함수는 하기 수식 1로 표시되는 것을 특징으로 할 수 있다.
수식 1: Binary classification
본 발명에서, 상기 binary classification은 인공지능 모델이 암 유무를 판별하도록 학습하는 것을 의미한다.
본 발명에서, 상기 인공지능 모델이 CNN일 경우, 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 메틸화 수준의 정보를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 CNN 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 CNN 모델을 구축하는 단계; 및
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로 Hyper-parameter tuning 과정으로는 Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 CNN 모델의 내부 parameter(weights)들을 최적화시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져 갈 수 있다.
가장 바람직하게는 학습된 인공지능 모델을 이용하여 unseen data(학습에 training하지 않은 답을 알고 있는 data)를 적용시켜서, DPI값의 probability를 확인하여 기준값을 정할 수 있다.
본 발명에 있어서, 상기 (c) 단계에서 인공지능 모델이 입력된 데이터로부터 분석한 결과값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, Deep probability Index는 인공지능 model의 마지막 layer에 binary classification일 경우 sigmoid function을 사용하여 하기 수식 2로부터 인공지능의 output을 0 ~ 1 scale로 조정하여 확률값으로 표현한 값을 의미한다.
수식 2: Sigmoid function
Binary classification일 경우에는 sigmoid function을 이용하여 암 일 경우 DPI 값이 1이 되게끔 학습을 하게 된다. 예를 들어, 간암 샘플과 정상 샘플이 입력되면, 간암 샘플의 DPI 값이 1에 가깝도록 학습하는 것이다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 정상 샘플의 값과 비교하여 기준값 이상 차이가 날 경우, 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 (c) 단계의 기준값은 간암 여부를 판정할 수 있는 값이면 제한없이 사용할 수 있으며, 바람직하게는 정상 샘플의 메틸화 수준의 99% 내지 75% 일 수 있고, 더욱 바람직하게는 97% 내지 80%일 수 있으며, 가장 바람직하게는 95%일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보는 각 마커의 베타 값의 합, 차, 곱, 평균, 곱의 로그, 합의 로그, 중앙값, 분위수, 최소값, 최대값, 분산, 표준편차, 절대 편차, 변동 계수, 이들의 역수값 및 조합으로 구성된 군에서 선택되는 하나 이상의 값일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 메틸화 수준의 정보를 베타값으로 계산할 때, 과메틸화된 메틸화 마커의 베타값은 그대로 사용하고, 저메틸화된 메틸화 마커의 베타값은 100 또는 1 등의 일정 기준값에서 차감하는 방법으로 계산하거나, -1을 곱하여 계산하는 것은 통상의 기술자에게 잘 알려져 있다.
본 발명은 또 다른 관점에서,
상기 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물에 관한 것이다.
본 발명에서, 상기 프라이머의 적절한 길이는 사용 목적에 따라 달라질 수 있으나, 일반적으로 15 내지 30개의 염기로 구성될 수 있다. 프라이머 서열은 주형과 완전하게 상보적일 필요는 없으나, 주형과 혼성화할 정도로 충분히 상보적이어야 한다. 상기 프라이머는 메틸화 마커를 포함하는 DNA 서열에 혼성화하여 메틸화 마커를 포함하는 DNA 단편을 증폭시킬 수 있다. 본 발명의 프라이머는 DNA 메틸화 수준을 검출하여 간암 여부를 확인하기 위한 진단 키트나 예측 방법 등에 사용될 수 있다.
본 발명에서, 상기 DNA 메틸화 마커를 증폭할 수 있는 프라이머는 상기 마커 영역을 직접적으로 포함하지 않는 동일한 염색체의 염기서열이면 제한없이 이용가능하나, 구체적으로는 마커 영역의 5' 업스트림으로 1 내지 1000bp, 3' 다운스트림으로 1 내지 1000bp 일 수 있고, 보다 구체적으로는 마커 영역의 5' 업스트림으로 1 내지 200bp, 3' 다운스트림으로 1 내지 200bp 일 수 있으나 이에 한정되는 것은 아니다.
본 발명은 또 다른 관점에서,
상기 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물에 관한 것이다.
본 발명에서, 상기 프로브는 메틸화 특이적일 수 있으며, 이는 메틸화 마커 영역의 메틸화된 핵산에만 특이적으로 혼성화하는 것을 의미한다. 여기에서, 혼성화란 보통 엄격한 조건, 예를 들어 1M 이하의 염 농도 및 25℃이상의 온도 하에서 보통 수행된다. 예를 들어, 5XSSPE (750mM NaCl, 50mM Na Phosphate, 5mM EDTA, pH 7.4) 및 25 ~ 30℃의 조건이 메틸화 특이적 프로브 혼성화에 적합할 수 있다.
본 발명에 있어서, 상기 프로브는 혼성화 프로브를 의미하는 것으로, 핵산의 상보성 가닥에 서열 특이적으로 결합할 수 있는 올리고뉴클레오티드를 의미한다. 본 발명의 메틸화 특이적 프로브는 같은 종의 두 개체로부터 유래한 핵산 단편 중에서 메틸화가 존재하여, 한 개체로부터 유래한 DNA 단편에는 혼성화 하나, 다른 개체로부터 유래한 단편에는 혼성화하지 않을 수 있다. 이 경우 혼성화 조건은 혼성화 강도에 있어서 유의한 차이를 보여 메틸화 여부에 따라 혼성화되도록 충분히 엄격해야 한다. 이러한 본 발명의 프로브는 중앙 부위가 메틸화 마커의 영역에 정렬하는 것이 바람직하다. 본 발명의 프로브는 DNA 메틸화 수준을 검출하여 간암 여부를 확인하기 위한 진단 키트나 예측 방법 등에 사용될 수 있다.
본 발명은 또 다른 관점에서,
상기 조성물 중 어느 하나를 포함하는 조성물을 간암 진단용 키트에 관한 것이다.
본 발명에서 상기 키트는 본 발명의 폴리뉴클레오티드 뿐만 아니라 분석 방법에 적합한 한 종류 또는 그 이상의 다른 구성 성분 조성물, 용액 또는 장치가 포함될 수 있다. 일 양태로서, 본 발명의 키트는 PCR을 수행하기 위해 필요한 필수 요소를 포함하는 키트일 수 있으며, 테스트 튜브 또는 다른 적절한 컨테이너, 반응 완충액 (pH 및 마그네슘 농도는 다양), 데옥시뉴클레오타이드 (dNTPs), Taq-폴리머라아제 및 역전사 효소와 같은 효소, DNase, RNAse 억제제, DEPC-수 (DEPC-water) 및 멸균수 등을 추가로 포함할 수 있다. 다른 일 양태로서, 본 발명의 키트는 DNA 칩을 수행하기 위해 필요한 필수 요소를 포함하는 혈중 스타틴 농도 예측용 키트일 수 있으며, DNA 칩 키트는 상기 메틸화에 대한 특이적인 폴리뉴클레오티드, 프라이머 또는 프로브가 부착되어 있는 기판을 포함하고 기판은 정량 대조구 유전자 또는 그의 단편에 해당하는 핵산을 포함할 수 있다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. TCGA methylation 450K array 데이터에서 간암 특이적 메틸화 영역 선별
The Cancer Genome Atlas (TCGA)에서 Infinium Human Methylation 450K BeadChip array 데이터(UCSC Xena, http://xena.ucsc.edu)를 사용하여 메틸화 정도를 확인하였다. 조직으로부터 추출된 DNA는 바이설파이트 처리를 통해 변환되며, DNA 메틸화 여부는 사이토신 염기의 변형을 통해 확인할 수 있다. 각 영역마다 메틸화 정도를 확인할 수 있으며, 메틸화 정도를 나타내는 값인 베타 값(beta value)을 사용하여 간암 조직과 주변 정상 조직간의 차별적으로 메틸화 된 영역을 선별하였다.
TCGA methylation 450k array 데이터를 표 4와 같이 Train, Test 그룹으로 나누어 진행하였고, Train 그룹을 이용하여 마커 선정을 수행하였다.
Solid Tissue Normal | Primary Solid Tumor | Total | |
Train | 35 | 263 | 298 |
Test | 15 | 114 | 129 |
Total | 50 | 377 | 427 |
먼저, 약 48만개(480K)의 영역에서 결측값(missing value)을 제외한 다음, Limma(Linear Models for Microarray Data) software를 사용하여 FDR값이 0.01미만이면서 absolute delta beta가 0.25 초과인 영역을 선별한 후, 성염색체를 제외하고, 간암 특이적인 21,920개의 저메틸화 부위와 2,277개의 과메틸화 부위를 선별하였다.
실시예 2. 혈액에서 메틸화된 cfDNA를 추출하여, 차세대 염기서열 분석 수행(cfMeDIP-Seq)
간 견변증 환자 68 명과 간암 환자 283명의 혈액을 채취 후 3000 rpm, 25℃10분의 조건으로 혈장 부분만 1차 원심 분리한 다음, 1차 원심 분리된 혈장을 16000g, 25℃10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 chemagen DNA kit 사용하여 cell-free DNA를 추출하고, Truseq Nano DNA HT library prep kit (Illumina)를 사용해 adaptor ligation 과정까지 수행한 다음, cfMeDIP kit (diagnode)의 antibody를 이용해 10 rpm, 4℃17시간 반응하여 5mC immunoprecipitation을 진행하였다. 이 후 purification을 진행하고, 다시 Truseq Nano DNA HT library prep kit (Illumina)를 사용해 PCR enrichment를 진행하여, 최종적인 library를 제작하였다. 제작한 library는 Novaseq 6000 (Illumina) 를 150 paired-end 모드로 sequencing을 진행하였고 샘플 당 약 107 million 개의 reads를 생산하였다.
실시예 3. cfMeDIP-Seq 데이터 분석을 통한 간암 특이적 메틸화 영역 선별
실시예 2에서 메틸화 된 세포 유리 핵산을 sequencing하였기 때문에, 확보되는 핵산 단편 데이터는 메틸화가 되어있고, 이를 휴먼 참조 유전체에 정렬을 하여 전체 휴먼 유전체 영역에서 메틸화가 된 영역들을 확인할 수 있다. MeDIP-Seq 데이터는 메틸화된 영역을 나타내며, 300bp bin당 정규화된 값(normalized value)을 사용하여 간암 그룹과 간경변증 그룹간의 차별적으로 메틸화 된 영역을 선별하였다.
cfMeDIP-Seq 데이터는 하기 표 5와 같이 Train, Validation, Test 그룹으로 나누어 진행하였고, Train 그룹을 이용하여 마커 선별 및 model 학습, Validation 그룹을 이용하여 hyper-parameter tuning, Test 그룹을 이용하여 만든 모델의 성능을 확인하였다.
Liver cirrhosis | Liver cancer | Total | |
Train | 40 | 163 | 203 |
Validation | 14 | 55 | 69 |
Test | 14 | 65 | 79 |
Total | 68 | 283 | 351 |
먼저,
Trim Galore(version 0.6.6)를 이용하여 fastq 파일에서 adapter trimming과 quality trimming을 수행한 다음, bwa(version 0.7.17-r1188) alignment tool을 이용하여 핵산 단편 데이터를 참조 유전체(hg19)에 정렬하고, samtools rmdup (version 1.11) tool을 이용하여 PCR duplicate 핵산 단편을 제거한 후, samtools view (version 1.11) tool을 이용하여 mapping quality가 10미만인 핵산 단편을 제거한 뒤, chr1~22, X, Y만을 남기고 제거하고, 성염색체를 제외하고 겹치지 않게 300bp bin으로 binning한 후, 300bp bin당 read count 값을 생성하였다.
Blacklist region(Low_mappability_island, centromeric_repeat …과 bin당 전체 샘플에서 read count 총합이 10이하인 bin을 제외하였다.
edgeR(Empirical Analysis of Digital Gene Expression Data in R) software를 사용하여 300bp bin당 정규화된 값을(TMM normalized value) 생성하였다.
마지막으로, edgeR software를 사용하여 FDR값이 0.05미만이고 log2 fold change의 절대값이 2초과인 간암 특이적인 2개의 저메틸화 영역과 2,202개의 과메틸화 영역을 선별하였다.
실시예 4. CpG를 중심으로 한 주요 메틸화 영역 선별
4-1. TCGA 선별 마커의 cfMeDIP-Seq 데이터 적용
실시예 1에서 선별한 영역의 CpG site를 중심으로 실시예 2에서 수득한 cfMeDIP-Seq으로 생성한 데이터에서 input을 생성하였다. 보다 구체적으로는, CpG site를 중심으로 ±250bp bin의 정규화된 값을(CPM normalized value) 사용하였다. Wilcoxon rank sum test를 통해 FDR값이 0.05미만이고 log2 fold change의 절대값이 1초과인 영역만 선별하였다.
그 결과, TCGA 데이터에서 과메틸화이면서, cfMeDIP-seq에서도 과메틸화를 보인 1,184개의 부위를 선별하였다.
4-2. cfMeDIP-Seq 데이터의 CpG site 중심 선별
실시예 3에서 선별한 bin에 포함되어 있는 CpG를 추출하여, CpG를 중심으로 ±250bp bin의 정규화된 값을(CPM normalized value) 사용하였다. Wilcoxon rank sum test를 통해 FDR값이 0.05미만이고 log2 fold change의 절대값이 1초과인 영역만 선별하였다.
그 결과, 간암 특이적인 19개의 저메틸화 부위와 35,400개의 과메틸화 부위를 선별하였다.
실시예 5. 간암 진단을 위한 기계학습 모델 구축 및 성능 확인
5-1. 최종 마커 선별
실시예 4-1과 4-2에서 동시에 선별되는 354개의 과메틸화 부위를 feature로 선별하였으며 구체적인 리스트는 하기 표 6과 같다.
chr | start | end | gene |
chr1 | 46632446 | 46632945 | PIK3R3 |
chr1 | 46632621 | 46633120 | PIK3R3 |
chr1 | 47697715 | 47698214 | STIL, TAL1 |
chr1 | 47908984 | 47909483 | - |
chr1 | 47909931 | 47910430 | - |
chr1 | 47910206 | 47910705 | - |
chr1 | 47910593 | 47911092 | - |
chr1 | 48058627 | 48059126 | - |
chr1 | 48058711 | 48059210 | - |
chr1 | 67772878 | 67773377 | IL12RB2 |
chr1 | 87617460 | 87617959 | LINC01140 |
chr1 | 91192216 | 91192715 | - |
chr1 | 110610649 | 110611148 | ALX3 |
chr1 | 119522605 | 119523104 | TBX15 |
chr1 | 119526861 | 119527360 | TBX15 |
chr1 | 119526906 | 119527405 | TBX15 |
chr1 | 119527634 | 119528133 | TBX15 |
chr1 | 119529680 | 119530179 | TBX15 |
chr1 | 119531794 | 119532293 | TBX15 |
chr1 | 119531806 | 119532305 | TBX15 |
chr1 | 119531866 | 119532365 | TBX15 |
chr1 | 119531939 | 119532438 | TBX15 |
chr1 | 119531945 | 119532444 | TBX15 |
chr1 | 119532523 | 119533022 | TBX15 |
chr1 | 119532675 | 119533174 | TBX15 |
chr1 | 119542807 | 119543306 | - |
chr1 | 119542966 | 119543465 | - |
chr1 | 119543086 | 119543585 | - |
chr1 | 119548277 | 119548776 | - |
chr1 | 119548575 | 119549074 | - |
chr1 | 119548602 | 119549101 | - |
chr1 | 119548895 | 119549394 | - |
chr1 | 119549013 | 119549512 | - |
chr1 | 146551494 | 146551993 | - |
chr1 | 151812171 | 151812670 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812185 | 151812684 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812274 | 151812773 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812460 | 151812959 | C2CD4D, C2CD4D-AS1 |
chr1 | 154474923 | 154475422 | SHE, TDRD10 |
chr1 | 156130576 | 156131075 | SEMA4A |
chr1 | 156389874 | 156390373 | MIR9-1, MIR9-1HG |
chr1 | 160951657 | 160952156 | - |
chr1 | 161275311 | 161275810 | MPZ |
chr1 | 169396462 | 169396961 | CCDC181 |
chr1 | 170629820 | 170630319 | PRRX1 |
chr1 | 170630308 | 170630807 | PRRX1 |
chr1 | 171810218 | 171810717 | DNM3 |
chr1 | 171810722 | 171811221 | DNM3 |
chr1 | 171811049 | 171811548 | DNM3 |
chr1 | 197882219 | 197882718 | LHX9 |
chr1 | 203598323 | 203598822 | ATP2B4 |
chr1 | 213123425 | 213123924 | VASH2 |
chr1 | 213123636 | 213124135 | VASH2 |
chr1 | 213123715 | 213124214 | VASH2 |
chr1 | 221064450 | 221064949 | - |
chr1 | 228645797 | 228646296 | H2AW, H2BU1, MIR4666A |
chr1 | 247171153 | 247171652 | ZNF670-ZNF695, ZNF695 |
chr2 | 20068452 | 20068951 | LINC00954 |
chr2 | 25438860 | 25439359 | - |
chr2 | 45159843 | 45160342 | - |
chr2 | 45160195 | 45160694 | - |
chr2 | 45160240 | 45160739 | - |
chr2 | 45170072 | 45170571 | SIX3 |
chr2 | 45231217 | 45231716 | - |
chr2 | 45231532 | 45232031 | - |
chr2 | 45231641 | 45232140 | - |
chr2 | 45232167 | 45232666 | SIX2 |
chr2 | 63280819 | 63281318 | OTX1 |
chr2 | 63280889 | 63281388 | OTX1 |
chr2 | 63281067 | 63281566 | OTX1 |
chr2 | 63281133 | 63281632 | OTX1 |
chr2 | 63281594 | 63282093 | OTX1 |
chr2 | 63282452 | 63282951 | OTX1 |
chr2 | 63282763 | 63283262 | OTX1 |
chr2 | 63283717 | 63284216 | OTX1 |
chr2 | 63283816 | 63284315 | OTX1 |
chr2 | 63284518 | 63285017 | OTX1 |
chr2 | 63285799 | 63286298 | - |
chr2 | 74425262 | 74425761 | MTHFD2 |
chr2 | 74425330 | 74425829 | MTHFD2 |
chr2 | 74781846 | 74782345 | DOK1, LOXL3 |
chr2 | 105470311 | 105470810 | PANTR1, POU3F3 |
chr2 | 119067387 | 119067886 | - |
chr2 | 119067503 | 119068002 | - |
chr2 | 157177686 | 157178185 | - |
chr2 | 157178481 | 157178980 | - |
chr2 | 157178639 | 157179138 | - |
chr2 | 160761163 | 160761662 | LY75, LY75-CD302 |
chr2 | 176987215 | 176987714 | HOXD9 |
chr2 | 177003485 | 177003984 | HOXD-AS2 |
chr2 | 177003497 | 177003996 | HOXD-AS2 |
chr2 | 200331667 | 200332166 | SATB2, SATB2-AS1 |
chr2 | 200331727 | 200332226 | SATB2, SATB2-AS1 |
chr2 | 200331775 | 200332274 | SATB2, SATB2-AS1 |
chr2 | 200333751 | 200334250 | SATB2, SATB2-AS1 |
chr2 | 200334851 | 200335350 | SATB2, SATB2-AS1 |
chr2 | 238583254 | 238583753 | LRRFIP1 |
chr3 | 38080675 | 38081174 | DLEC1 |
chr3 | 101497626 | 101498125 | NXPE3 |
chr3 | 101497730 | 101498229 | NXPE3 |
chr3 | 101497732 | 101498231 | NXPE3 |
chr3 | 138658771 | 138659270 | - |
chr3 | 138662065 | 138662564 | FOXL2NB |
chr3 | 138662980 | 138663479 | FOXL2, FOXL2NB |
chr3 | 142837745 | 142838244 | CHST2 |
chr3 | 147098318 | 147098817 | - |
chr3 | 147098335 | 147098834 | - |
chr3 | 147105760 | 147106259 | ZIC4 |
chr3 | 147136654 | 147137153 | - |
chr3 | 169529777 | 169530276 | LRRC34 |
chr3 | 169529787 | 169530286 | LRRC34 |
chr3 | 179168510 | 179169009 | GNB4 |
chr3 | 179168548 | 179169047 | GNB4 |
chr3 | 183145282 | 183145781 | MCF2L2 |
chr3 | 186490406 | 186490905 | - |
chr4 | 785994 | 786493 | CPLX1 |
chr4 | 41868836 | 41869335 | - |
chr4 | 41880497 | 41880996 | - |
chr4 | 41881913 | 41882412 | - |
chr4 | 41882330 | 41882829 | - |
chr4 | 76555297 | 76555796 | CDKL2 |
chr4 | 76555384 | 76555883 | CDKL2 |
chr4 | 76555522 | 76556021 | CDKL2 |
chr4 | 76555527 | 76556026 | CDKL2 |
chr4 | 76555532 | 76556031 | CDKL2 |
chr5 | 7849953 | 7850452 | C5orf49 |
chr5 | 7850188 | 7850687 | C5orf49 |
chr5 | 32713473 | 32713972 | NPR3 |
chr5 | 40680887 | 40681386 | PTGER4 |
chr5 | 40681643 | 40682142 | PTGER4 |
chr5 | 42950942 | 42951441 | - |
chr5 | 42951863 | 42952362 | - |
chr5 | 42992524 | 42993023 | - |
chr5 | 43017435 | 43017934 | LOC648987 |
chr5 | 43018193 | 43018692 | LOC648987 |
chr5 | 54516555 | 54517054 | MCIDAS |
chr5 | 94955506 | 94956005 | GPR150 |
chr5 | 112073100 | 112073599 | APC |
chr5 | 112073123 | 112073622 | APC |
chr5 | 112073148 | 112073647 | APC |
chr5 | 112073156 | 112073655 | APC |
chr5 | 112073176 | 112073675 | APC |
chr5 | 112073188 | 112073687 | APC |
chr5 | 139047755 | 139048254 | CXXC5 |
chr5 | 139047856 | 139048355 | CXXC5 |
chr5 | 169064201 | 169064700 | DOCK2 |
chr5 | 170736027 | 170736526 | TLX3 |
chr6 | 1624861 | 1625360 | GMDS |
chr6 | 3228983 | 3229482 | TUBB2B |
chr6 | 5026074 | 5026573 | - |
chr6 | 5026185 | 5026684 | - |
chr6 | 10425398 | 10425897 | - |
chr6 | 10425849 | 10426348 | - |
chr6 | 26235004 | 26235503 | H1-3 |
chr6 | 26240532 | 26241031 | H4C6 |
chr6 | 26240670 | 26241169 | H4C6 |
chr6 | 26250494 | 26250993 | H2BC9, H3C7, H4C7 |
chr6 | 26250669 | 26251168 | H2BC9, H3C7, H4C7 |
chr6 | 26250686 | 26251185 | H2BC9, H3C7, H4C7 |
chr6 | 26251649 | 26252148 | H2BC9, H3C7, H4C7 |
chr6 | 26252015 | 26252514 | H2BC9, H3C7, H4C7 |
chr6 | 26271466 | 26271965 | H2BC10, H3C8 |
chr6 | 26271468 | 26271967 | H2BC10, H3C8 |
chr6 | 26271566 | 26272065 | H2BC10, H3C8 |
chr6 | 26271577 | 26272076 | H2BC10, H3C8 |
chr6 | 26550760 | 26551259 | - |
chr6 | 26614399 | 26614898 | - |
chr6 | 27462967 | 27463466 | - |
chr6 | 27858387 | 27858886 | H2BC17, H3C12 |
chr6 | 28411037 | 28411536 | ZSCAN23 |
chr6 | 42738717 | 42739216 | - |
chr6 | 42738799 | 42739298 | - |
chr6 | 100911437 | 100911936 | SIM1 |
chr6 | 100912656 | 100913155 | SIM1 |
chr6 | 100912690 | 100913189 | SIM1 |
chr6 | 100912696 | 100913195 | SIM1 |
chr6 | 100915517 | 100916016 | SIM1 |
chr6 | 108488085 | 108488584 | NR2E1 |
chr6 | 108490645 | 108491144 | NR2E1 |
chr6 | 108495615 | 108496114 | NR2E1 |
chr6 | 108495735 | 108496234 | NR2E1 |
chr6 | 133561851 | 133562350 | EYA4 |
chr6 | 133562216 | 133562715 | EYA4 |
chr6 | 133562220 | 133562719 | EYA4 |
chr6 | 133562225 | 133562724 | EYA4 |
chr6 | 133562229 | 133562728 | EYA4 |
chr6 | 133562235 | 133562734 | EYA4 |
chr6 | 133562242 | 133562741 | EYA4 |
chr6 | 133562244 | 133562743 | EYA4 |
chr7 | 27204478 | 27204977 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27204731 | 27205230 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27204967 | 27205466 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27213734 | 27214233 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27213793 | 27214292 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27213806 | 27214305 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27232587 | 27233086 | - |
chr7 | 27232823 | 27233322 | - |
chr7 | 27232891 | 27233390 | - |
chr7 | 27245292 | 27245791 | HOTTIP |
chr7 | 27252291 | 27252790 | - |
chr7 | 27284539 | 27285038 | EVX1 |
chr7 | 27291096 | 27291595 | - |
chr7 | 28996389 | 28996888 | TRIL |
chr7 | 28996652 | 28997151 | TRIL |
chr7 | 28996923 | 28997422 | TRIL |
chr7 | 28997235 | 28997734 | TRIL |
chr7 | 28997616 | 28998115 | TRIL |
chr7 | 28997828 | 28998327 | TRIL |
chr7 | 76828635 | 76829134 | CCDC146, FGL2 |
chr7 | 96636366 | 96636865 | DLX6, DLX6-AS1 |
chr7 | 96636496 | 96636995 | DLX6, DLX6-AS1 |
chr7 | 96651031 | 96651530 | DLX5 |
chr7 | 96651865 | 96652364 | DLX5 |
chr7 | 96651873 | 96652372 | DLX5 |
chr7 | 117119174 | 117119673 | CFTR |
chr7 | 117119351 | 117119850 | CFTR |
chr7 | 117119361 | 117119860 | CFTR |
chr7 | 117119387 | 117119886 | CFTR |
chr7 | 117119688 | 117120187 | CFTR |
chr7 | 134143656 | 134144155 | AKR1B1 |
chr7 | 134143669 | 134144168 | AKR1B1 |
chr7 | 134143786 | 134144285 | AKR1B1 |
chr7 | 143042491 | 143042990 | CLCN1 |
chr7 | 143042548 | 143043047 | CLCN1 |
chr7 | 151329758 | 151330257 | PRKAG2 |
chr8 | 11540157 | 11540656 | GATA4 |
chr8 | 41424092 | 41424591 | - |
chr8 | 49292435 | 49292934 | - |
chr8 | 53851934 | 53852433 | NPBWR1 |
chr8 | 57069657 | 57070156 | - |
chr8 | 59058004 | 59058503 | FAM110B |
chr8 | 67873093 | 67873592 | TCF24 |
chr8 | 67873226 | 67873725 | TCF24 |
chr8 | 67873549 | 67874048 | TCF24 |
chr8 | 67873928 | 67874427 | TCF24 |
chr8 | 67874116 | 67874615 | TCF24 |
chr8 | 67874783 | 67875282 | TCF24 |
chr8 | 70981789 | 70982288 | PRDM14 |
chr8 | 86350318 | 86350817 | CA13, CA3 |
chr8 | 86350331 | 86350830 | CA13, CA3 |
chr8 | 98289898 | 98290397 | TSPYL5 |
chr8 | 99951797 | 99952296 | OSR2, STK3 |
chr8 | 99959473 | 99959972 | OSR2, STK3 |
chr8 | 99959898 | 99960397 | OSR2 |
chr8 | 99961295 | 99961794 | OSR2 |
chr8 | 99961624 | 99962123 | OSR2 |
chr8 | 102504197 | 102504696 | GRHL2 |
chr8 | 102504251 | 102504750 | GRHL2 |
chr8 | 102504314 | 102504813 | GRHL2 |
chr8 | 102505306 | 102505805 | GRHL2 |
chr8 | 104512833 | 104513332 | RIMS2 |
chr9 | 110228019 | 110228518 | - |
chr10 | 8094284 | 8094783 | GATA3, GATA3-AS1 |
chr10 | 16562220 | 16562719 | C1QL3 |
chr10 | 17271679 | 17272178 | VIM |
chr10 | 17271694 | 17272193 | VIM |
chr10 | 17271744 | 17272243 | VIM |
chr10 | 17271867 | 17272366 | VIM |
chr10 | 22541774 | 22542273 | LOC100130992 |
chr10 | 22625215 | 22625714 | - |
chr10 | 22765590 | 22766089 | - |
chr10 | 43697758 | 43698257 | RASGEF1A |
chr10 | 93647050 | 93647549 | - |
chr10 | 94834332 | 94834831 | CYP26A1 |
chr10 | 94834513 | 94835012 | CYP26A1 |
chr10 | 102894793 | 102895292 | TLX1, TLX1NB |
chr10 | 104000581 | 104001080 | GBF1, PITX3 |
chr11 | 13689872 | 13690371 | FAR1 |
chr11 | 13689910 | 13690409 | FAR1 |
chr11 | 13690452 | 13690951 | FAR1 |
chr11 | 31826324 | 31826823 | PAX6 |
chr11 | 69517049 | 69517548 | FGF19 |
chr11 | 69517221 | 69517720 | FGF19 |
chr11 | 69517591 | 69518090 | FGF19 |
chr11 | 69517753 | 69518252 | FGF19 |
chr11 | 69517947 | 69518446 | FGF19 |
chr12 | 21810029 | 21810528 | LDHB |
chr12 | 21810380 | 21810879 | LDHB |
chr12 | 21810558 | 21811057 | LDHB |
chr12 | 48206598 | 48207097 | HDAC7 |
chr12 | 58021319 | 58021818 | B4GALNT1 |
chr12 | 58021463 | 58021962 | B4GALNT1 |
chr12 | 81102236 | 81102735 | MYF6 |
chr12 | 95941619 | 95942118 | USP44 |
chr12 | 95941738 | 95942237 | USP44 |
chr12 | 95942511 | 95943010 | USP44 |
chr12 | 95942657 | 95943156 | USP44 |
chr12 | 95942714 | 95943213 | USP44 |
chr12 | 115102476 | 115102975 | - |
chr13 | 45149778 | 45150277 | TSC22D1, TSC22D1-AS1 |
chr13 | 45150012 | 45150511 | TSC22D1, TSC22D1-AS1 |
chr13 | 100627091 | 100627590 | ZIC5 |
chr13 | 100641159 | 100641658 | - |
chr13 | 100641396 | 100641895 | - |
chr13 | 107186620 | 107187119 | EFNB2 |
chr13 | 107186927 | 107187426 | EFNB2 |
chr14 | 51027611 | 51028110 | ATL1 |
chr14 | 54422525 | 54423024 | BMP4 |
chr14 | 54423183 | 54423682 | BMP4 |
chr14 | 61108957 | 61109456 | - |
chr14 | 100632700 | 100633199 | - |
chr15 | 33009281 | 33009780 | GREM1 |
chr15 | 41805280 | 41805779 | LTK |
chr15 | 55880644 | 55881143 | PYGO1 |
chr15 | 65186056 | 65186555 | - |
chr15 | 68260324 | 68260823 | - |
chr15 | 69087559 | 69088058 | ANP32A |
chr15 | 99193679 | 99194178 | IGF1R |
chr15 | 99193743 | 99194242 | IGF1R |
chr15 | 101459033 | 101459532 | LRRK1 |
chr16 | 21170817 | 21171316 | DNAH3, TMEM159 |
chr17 | 4981360 | 4981859 | ZFP3 |
chr17 | 4981573 | 4982072 | ZFP3 |
chr17 | 29297898 | 29298397 | DPRXP4, RNF135 |
chr17 | 29297934 | 29298433 | DPRXP4, RNF135 |
chr17 | 29298102 | 29298601 | DPRXP4, RNF135 |
chr17 | 42030229 | 42030728 | PYY |
chr17 | 43338973 | 43339472 | MAP3K14-AS1, SPATA32 |
chr17 | 43339078 | 43339577 | MAP3K14-AS1, SPATA32 |
chr17 | 43339247 | 43339746 | MAP3K14-AS1, SPATA32 |
chr17 | 43339262 | 43339761 | MAP3K14-AS1, SPATA32 |
chr17 | 46655579 | 46656078 | HOXB3, HOXB4 |
chr17 | 48636396 | 48636895 | CACNA1G, CACNA1G-AS1 |
chr17 | 59529066 | 59529565 | TBX4 |
chr17 | 59529236 | 59529735 | TBX4 |
chr17 | 59534597 | 59535096 | TBX4 |
chr17 | 59534748 | 59535247 | TBX4 |
chr17 | 62777398 | 62777897 | ARHGAP27P1, PLEKHM1P1 |
chr17 | 79480858 | 79481357 | ACTG1 |
chr17 | 80291438 | 80291937 | SECTM1 |
chr18 | 32847001 | 32847500 | ZNF397, ZSCAN30 |
chr18 | 55019849 | 55020348 | ST8SIA3 |
chr19 | 12305604 | 12306103 | - |
chr19 | 12305619 | 12306118 | - |
chr19 | 12305886 | 12306385 | - |
chr19 | 12305948 | 12306447 | - |
chr19 | 13209731 | 13210230 | LYL1 |
chr19 | 36736022 | 36736521 | - |
chr19 | 38182805 | 38183304 | ZNF781 |
chr19 | 38754889 | 38755388 | SPINT2 |
chr19 | 41316817 | 41317316 | - |
chr19 | 42901057 | 42901556 | LIPE-AS1 |
chr19 | 50553817 | 50554316 | LOC400710 |
chr19 | 50554030 | 50554529 | LOC400710 |
chr19 | 50554201 | 50554700 | LOC400710 |
chr19 | 52207103 | 52207602 | SPACA6 |
chr19 | 57018819 | 57019318 | ZNF471 |
chr19 | 58220045 | 58220544 | ZNF154, ZNF776 |
chr19 | 58220120 | 58220619 | ZNF154, ZNF776 |
chr20 | 1784026 | 1784525 | - |
chr20 | 30778049 | 30778548 | TSPY26P |
chr20 | 37433979 | 37434478 | PPP1R16B |
chr20 | 50720658 | 50721157 | ZFP64 |
chr20 | 50721063 | 50721562 | ZFP64 |
5-2. 기계학습 모델 구축
선별된 354개의 CpG를 중심으로 ±250bp bin의 normalized value(CPM normalized value)를 인풋으로 사용하였다. 인풋 feature를 사용하여 간경변증과 간암 환자를 구분하는 인공신경망 모델을 구축하였다. 학습에 사용한 인공신경망 알고리즘은 CNN 모델이다.
실시예 3의 표 5와 같이 전체 샘플을 Training, Validation, Test 데이터 세트로 나누어 Training 데이터 세트는 모델 학습, Validation 데이터 세트는 hyper-parameter tuning, Test 데이터 세트는 최종 모델 성능 평가에 사용하였다.
CNN 모델에 구조는 convolution layer -> pooling layer -> fully connected layer 순으로 이루어져 있고, convolution layer 다음에는 항상 pooling layer가 삽입되어 있어, Convolution layer 개수 및 fully connected layer에 개수는 hyper-parameter tuning 과정을 통해서 결정하였으며, 모델을 학습할 때, 수식 1의 손실함수(loss function)를 최소화하는 방향으로 학습을 진행하였다.
Hyper-parameter tuning 과정은 RandomForest 모델을 이루는 여러 parameter(n_estimators, criterion, max_features, max_depth, min_samples_leaf) 값을 최적화하는 과정으로, Hyper-parameter tuning 과정에는 Bayesian optimization 기법이 사용되고, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단되어 모델 학습을 중단하였다.
Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 Validation 데이터 세트를 이용하여 비교하여, 그 중 Validation 데이터 세트 성능이 가장 좋은 모델을 최적의 모델이라 판단하였고, 선별한 모델에 데이터를 입력하고, output layter에 수식 2의 sigmoid function을 사용하여 DPI 값을 수득하였다. Test 데이터 세트로 최종 성능 평가를 수행하였으며, 계산된 predicted probability(DPI value)를 이용하여 cancer 여부를 예측하였으며, 계산된 확률값이 0.5 초과일 경우에는 간암인 것으로 판정하였다.
5-3. 기계학습 모델 성능 확인
실시예 5-2에서 구축한 모델을 사용하였을 때, 표 7 및 도 2에 기재된 바와 같이, Accuracy는 Train, Validation, Test 그룹에서 각각 0.93, 0.93, 0.84로 확인되었고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 0.96, 0.97, 0.90인 것을 확인하였다.
Accuracy | AUC | |
Train | 0.93 | 0.96 |
Validation | 0.93 | 0.97 |
Test | 0.84 | 0.90 |
실시예 6. TCGA methylation 450K array 데이터에서 간암 특이적 메틸화 영역 선별
아울러, 간암 특이적 메틸화 영역의 최소 조합을 찾기 위하여 The Cancer Genome Atlas (TCGA)에서 Infinium Human Methylation 450K BeadChip array 데이터(UCSC Xena, http://xena.ucsc.edu)를 사용하여 메틸화 정도를 확인하였다. 조직으로부터 추출된 DNA는 바이설파이트 처리를 통해 변환되며, DNA 메틸화 여부는 사이토신 염기의 변형을 통해 확인할 수 있다. 각 영역마다 메틸화 정도를 확인할 수 있으며, 메틸화 정도를 나타내는 값인 베타 값(beta value)을 사용하여 간암 조직과 주변 정상 조직간의 차별적으로 메틸화된 영역을 선별하였다.
TCGA methylation 450k array 데이터는 표 8과 같다.
Primary Solid Tumor | Solid Tissue Normal | Total | |
LIHC | 377 | 50 | 427 |
먼저, 약 48만개(480K)의 영역에서 결측값(missing value)을 제외한 다음, 유의미한 과메틸화 영역를 선별하기 위해 메틸화 점수를 사용계산하였다. 메틸화 점수는 각 샘플 마다 선별된 CpG의 베타 값을 전부 합한 값이다.
무작위로 20개의 CpG 영역을 1000번 복원 추출하여 CpG 영역 세트를 구성한 다음, 각각의 CpG 영역 세트를 활용하여 427개의 간암 조직과 주변 정상 조직의 메틸화 점수를 계산하였다(도 5).
메틸화 점수를 활용하여 간암 조직과 주변 정상 조직을 분류하는 AUC를 계산하고 가장 높은 AUC의 CpG 영역 세트를 선별한 결과, 표 9와 같은 AUC가 0.975인 20개의 과메틸화 영역을 선별하였다(도 6 내지 도 7).
chromosome | start | end | gene | illumina ProbID | 추가된 marker |
chr1 | 59042275 | 59042276 | TACSTD2 | cg24851854 | O |
chr1 | 119532189 | 119532190 | TBX15 | cg05940231 | X |
chr1 | 119532195 | 119532196 | TBX15 | cg25340966 | X |
chr1 | 146551744 | 146551745 | - | cg21908235 | X |
chr2 | 45160445 | 45160446 | - | cg03714619 | X |
chr2 | 208989248 | 208989249 | CRYGD / LOC100507443 | cg22399133 | O |
chr4 | 41882163 | 41882164 | LINC00682 | cg24722073 | X |
chr6 | 1624978 | 1624979 | GMDS | cg21347053 | X |
chr6 | 26240579 | 26240580 | H4C6 | cg05159188 | X |
chr6 | 26252265 | 26252266 | H2BC9 | cg15080119 | X |
chr7 | 27225523 | 27225524 | HOXA11 / HOXA11-AS | cg05311410 | O |
chr7 | 27252541 | 27252542 | - | cg05379541 | X |
chr8 | 11540407 | 11540408 | GATA4 | cg06991484 | X |
chr10 | 77168431 | 77168432 | ZNF503-AS2 | cg00773413 | O |
chr14 | 54423433 | 54423434 | BMP4 | cg14310034 | X |
chr14 | 100632950 | 100632951 | - | cg10118513 | X |
chr15 | 58357204 | 58357205 | ALDH1A2 | cg12382153 | O |
chr17 | 80291775 | 80291776 | SECTM1 | cg02553663 | X |
chr18 | 32847566 | 32847567 | ZSCAN30 | cg16657538 | O |
chr19 | 41317067 | 41317068 | - | cg06611810 | X |
두 마커를 모두 조합한 360개의 메틸화 마커 조합은 하기 표 10과 같다.
chr | start | end | gene |
chr1 | 46632446 | 46632945 | PIK3R3 |
chr1 | 46632621 | 46633120 | PIK3R3 |
chr1 | 47697715 | 47698214 | STIL, TAL1 |
chr1 | 47908984 | 47909483 | - |
chr1 | 47909931 | 47910430 | - |
chr1 | 47910206 | 47910705 | - |
chr1 | 47910593 | 47911092 | - |
chr1 | 48058627 | 48059126 | - |
chr1 | 48058711 | 48059210 | - |
chr1 | 67772878 | 67773377 | IL12RB2 |
chr1 | 87617460 | 87617959 | LINC01140 |
chr1 | 91192216 | 91192715 | - |
chr1 | 110610649 | 110611148 | ALX3 |
chr1 | 119522605 | 119523104 | TBX15 |
chr1 | 119526861 | 119527360 | TBX15 |
chr1 | 119526906 | 119527405 | TBX15 |
chr1 | 119527634 | 119528133 | TBX15 |
chr1 | 119529680 | 119530179 | TBX15 |
chr1 | 119531806 | 119532305 | TBX15 |
chr1 | 119531866 | 119532365 | TBX15 |
chr1 | 119531939 | 119532438 | TBX15 |
chr1 | 119531945 | 119532444 | TBX15 |
chr1 | 119532523 | 119533022 | TBX15 |
chr1 | 119532675 | 119533174 | TBX15 |
chr1 | 119542807 | 119543306 | - |
chr1 | 119542966 | 119543465 | - |
chr1 | 119543086 | 119543585 | - |
chr1 | 119548277 | 119548776 | - |
chr1 | 119548575 | 119549074 | - |
chr1 | 119548602 | 119549101 | - |
chr1 | 119548895 | 119549394 | - |
chr1 | 119549013 | 119549512 | - |
chr1 | 151812171 | 151812670 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812185 | 151812684 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812274 | 151812773 | C2CD4D, C2CD4D-AS1 |
chr1 | 151812460 | 151812959 | C2CD4D, C2CD4D-AS1 |
chr1 | 154474923 | 154475422 | SHE, TDRD10 |
chr1 | 156130576 | 156131075 | SEMA4A |
chr1 | 156389874 | 156390373 | MIR9-1, MIR9-1HG |
chr1 | 160951657 | 160952156 | - |
chr1 | 161275311 | 161275810 | MPZ |
chr1 | 169396462 | 169396961 | CCDC181 |
chr1 | 170629820 | 170630319 | PRRX1 |
chr1 | 170630308 | 170630807 | PRRX1 |
chr1 | 171810218 | 171810717 | DNM3 |
chr1 | 171810722 | 171811221 | DNM3 |
chr1 | 171811049 | 171811548 | DNM3 |
chr1 | 197882219 | 197882718 | LHX9 |
chr1 | 203598323 | 203598822 | ATP2B4 |
chr1 | 213123425 | 213123924 | VASH2 |
chr1 | 213123636 | 213124135 | VASH2 |
chr1 | 213123715 | 213124214 | VASH2 |
chr1 | 221064450 | 221064949 | - |
chr1 | 228645797 | 228646296 | H2AW, H2BU1, MIR4666A |
chr1 | 247171153 | 247171652 | ZNF670-ZNF695, ZNF695 |
chr1 | 119531794 | 119532293 | TBX15 |
chr1 | 146551494 | 146551993 | - |
chr1 | 59042275 | 59042276 | TACSTD2 |
chr10 | 8094284 | 8094783 | GATA3, GATA3-AS1 |
chr10 | 16562220 | 16562719 | C1QL3 |
chr10 | 17271679 | 17272178 | VIM |
chr10 | 17271694 | 17272193 | VIM |
chr10 | 17271744 | 17272243 | VIM |
chr10 | 17271867 | 17272366 | VIM |
chr10 | 22541774 | 22542273 | LOC100130992 |
chr10 | 22625215 | 22625714 | - |
chr10 | 22765590 | 22766089 | - |
chr10 | 43697758 | 43698257 | RASGEF1A |
chr10 | 93647050 | 93647549 | - |
chr10 | 94834332 | 94834831 | CYP26A1 |
chr10 | 94834513 | 94835012 | CYP26A1 |
chr10 | 102894793 | 102895292 | TLX1, TLX1NB |
chr10 | 104000581 | 104001080 | GBF1, PITX3 |
chr10 | 77168431 | 77168432 | ZNF503-AS2 |
chr11 | 13689872 | 13690371 | FAR1 |
chr11 | 13689910 | 13690409 | FAR1 |
chr11 | 13690452 | 13690951 | FAR1 |
chr11 | 31826324 | 31826823 | PAX6 |
chr11 | 69517049 | 69517548 | FGF19 |
chr11 | 69517221 | 69517720 | FGF19 |
chr11 | 69517591 | 69518090 | FGF19 |
chr11 | 69517753 | 69518252 | FGF19 |
chr11 | 69517947 | 69518446 | FGF19 |
chr12 | 21810029 | 21810528 | LDHB |
chr12 | 21810380 | 21810879 | LDHB |
chr12 | 21810558 | 21811057 | LDHB |
chr12 | 48206598 | 48207097 | HDAC7 |
chr12 | 58021319 | 58021818 | B4GALNT1 |
chr12 | 58021463 | 58021962 | B4GALNT1 |
chr12 | 81102236 | 81102735 | MYF6 |
chr12 | 95941619 | 95942118 | USP44 |
chr12 | 95941738 | 95942237 | USP44 |
chr12 | 95942511 | 95943010 | USP44 |
chr12 | 95942657 | 95943156 | USP44 |
chr12 | 95942714 | 95943213 | USP44 |
chr12 | 115102476 | 115102975 | - |
chr13 | 45149778 | 45150277 | TSC22D1, TSC22D1-AS1 |
chr13 | 45150012 | 45150511 | TSC22D1, TSC22D1-AS1 |
chr13 | 100627091 | 100627590 | ZIC5 |
chr13 | 100641159 | 100641658 | - |
chr13 | 100641396 | 100641895 | - |
chr13 | 107186620 | 107187119 | EFNB2 |
chr13 | 107186927 | 107187426 | EFNB2 |
chr14 | 51027611 | 51028110 | ATL1 |
chr14 | 54422525 | 54423024 | BMP4 |
chr14 | 61108957 | 61109456 | - |
chr14 | 54423183 | 54423682 | BMP4 |
chr14 | 100632700 | 100633199 | - |
chr15 | 33009281 | 33009780 | GREM1 |
chr15 | 41805280 | 41805779 | LTK |
chr15 | 55880644 | 55881143 | PYGO1 |
chr15 | 65186056 | 65186555 | - |
chr15 | 68260324 | 68260823 | - |
chr15 | 69087559 | 69088058 | ANP32A |
chr15 | 99193679 | 99194178 | IGF1R |
chr15 | 99193743 | 99194242 | IGF1R |
chr15 | 101459033 | 101459532 | LRRK1 |
chr15 | 58357204 | 58357205 | ALDH1A2 |
chr16 | 21170817 | 21171316 | DNAH3, TMEM159 |
chr17 | 4981360 | 4981859 | ZFP3 |
chr17 | 4981573 | 4982072 | ZFP3 |
chr17 | 29297898 | 29298397 | DPRXP4, RNF135 |
chr17 | 29297934 | 29298433 | DPRXP4, RNF135 |
chr17 | 29298102 | 29298601 | DPRXP4, RNF135 |
chr17 | 42030229 | 42030728 | PYY |
chr17 | 43338973 | 43339472 | MAP3K14-AS1, SPATA32 |
chr17 | 43339078 | 43339577 | MAP3K14-AS1, SPATA32 |
chr17 | 43339247 | 43339746 | MAP3K14-AS1, SPATA32 |
chr17 | 43339262 | 43339761 | MAP3K14-AS1, SPATA32 |
chr17 | 46655579 | 46656078 | HOXB3, HOXB4 |
chr17 | 48636396 | 48636895 | CACNA1G, CACNA1G-AS1 |
chr17 | 59529066 | 59529565 | TBX4 |
chr17 | 59529236 | 59529735 | TBX4 |
chr17 | 59534597 | 59535096 | TBX4 |
chr17 | 59534748 | 59535247 | TBX4 |
chr17 | 62777398 | 62777897 | ARHGAP27P1, PLEKHM1P1 |
chr17 | 79480858 | 79481357 | ACTG1 |
chr17 | 80291438 | 80291937 | SECTM1 |
chr18 | 32847001 | 32847500 | ZNF397, ZSCAN30 |
chr18 | 55019849 | 55020348 | ST8SIA3 |
chr18 | 32847566 | 32847567 | ZSCAN30 |
chr19 | 12305604 | 12306103 | - |
chr19 | 12305619 | 12306118 | - |
chr19 | 12305886 | 12306385 | - |
chr19 | 12305948 | 12306447 | - |
chr19 | 13209731 | 13210230 | LYL1 |
chr19 | 36736022 | 36736521 | - |
chr19 | 38182805 | 38183304 | ZNF781 |
chr19 | 38754889 | 38755388 | SPINT2 |
chr19 | 42901057 | 42901556 | LIPE-AS1 |
chr19 | 50553817 | 50554316 | LOC400710 |
chr19 | 50554030 | 50554529 | LOC400710 |
chr19 | 50554201 | 50554700 | LOC400710 |
chr19 | 52207103 | 52207602 | SPACA6 |
chr19 | 57018819 | 57019318 | ZNF471 |
chr19 | 58220045 | 58220544 | ZNF154, ZNF776 |
chr19 | 58220120 | 58220619 | ZNF154, ZNF776 |
chr19 | 41316817 | 41317316 | - |
chr2 | 20068452 | 20068951 | LINC00954 |
chr2 | 25438860 | 25439359 | - |
chr2 | 45159843 | 45160342 | - |
chr2 | 45160195 | 45160694 | - |
chr2 | 45170072 | 45170571 | SIX3 |
chr2 | 45231217 | 45231716 | - |
chr2 | 45231532 | 45232031 | - |
chr2 | 45231641 | 45232140 | - |
chr2 | 45232167 | 45232666 | SIX2 |
chr2 | 63280819 | 63281318 | OTX1 |
chr2 | 63280889 | 63281388 | OTX1 |
chr2 | 63281067 | 63281566 | OTX1 |
chr2 | 63281133 | 63281632 | OTX1 |
chr2 | 63281594 | 63282093 | OTX1 |
chr2 | 63282452 | 63282951 | OTX1 |
chr2 | 63282763 | 63283262 | OTX1 |
chr2 | 63283717 | 63284216 | OTX1 |
chr2 | 63283816 | 63284315 | OTX1 |
chr2 | 63284518 | 63285017 | OTX1 |
chr2 | 63285799 | 63286298 | - |
chr2 | 74425262 | 74425761 | MTHFD2 |
chr2 | 74425330 | 74425829 | MTHFD2 |
chr2 | 74781846 | 74782345 | DOK1, LOXL3 |
chr2 | 105470311 | 105470810 | PANTR1, POU3F3 |
chr2 | 119067387 | 119067886 | - |
chr2 | 119067503 | 119068002 | - |
chr2 | 157177686 | 157178185 | - |
chr2 | 157178481 | 157178980 | - |
chr2 | 157178639 | 157179138 | - |
chr2 | 160761163 | 160761662 | LY75, LY75-CD302 |
chr2 | 176987215 | 176987714 | HOXD9 |
chr2 | 177003485 | 177003984 | HOXD-AS2 |
chr2 | 177003497 | 177003996 | HOXD-AS2 |
chr2 | 200331667 | 200332166 | SATB2, SATB2-AS1 |
chr2 | 200331727 | 200332226 | SATB2, SATB2-AS1 |
chr2 | 200331775 | 200332274 | SATB2, SATB2-AS1 |
chr2 | 200333751 | 200334250 | SATB2, SATB2-AS1 |
chr2 | 200334851 | 200335350 | SATB2, SATB2-AS1 |
chr2 | 238583254 | 238583753 | LRRFIP1 |
chr2 | 45160240 | 45160739 | - |
chr2 | 208989248 | 208989249 | CRYGD / LOC100507443 |
chr20 | 1784026 | 1784525 | - |
chr20 | 30778049 | 30778548 | TSPY26P |
chr20 | 37433979 | 37434478 | PPP1R16B |
chr20 | 50720658 | 50721157 | ZFP64 |
chr20 | 50721063 | 50721562 | ZFP64 |
chr3 | 38080675 | 38081174 | DLEC1 |
chr3 | 101497626 | 101498125 | NXPE3 |
chr3 | 101497730 | 101498229 | NXPE3 |
chr3 | 101497732 | 101498231 | NXPE3 |
chr3 | 138658771 | 138659270 | - |
chr3 | 138662065 | 138662564 | FOXL2NB |
chr3 | 138662980 | 138663479 | FOXL2, FOXL2NB |
chr3 | 142837745 | 142838244 | CHST2 |
chr3 | 147098318 | 147098817 | - |
chr3 | 147098335 | 147098834 | - |
chr3 | 147105760 | 147106259 | ZIC4 |
chr3 | 147136654 | 147137153 | - |
chr3 | 169529777 | 169530276 | LRRC34 |
chr3 | 169529787 | 169530286 | LRRC34 |
chr3 | 179168510 | 179169009 | GNB4 |
chr3 | 179168548 | 179169047 | GNB4 |
chr3 | 183145282 | 183145781 | MCF2L2 |
chr3 | 186490406 | 186490905 | - |
chr4 | 785994 | 786493 | CPLX1 |
chr4 | 41868836 | 41869335 | - |
chr4 | 41880497 | 41880996 | - |
chr4 | 41882330 | 41882829 | - |
chr4 | 76555297 | 76555796 | CDKL2 |
chr4 | 76555384 | 76555883 | CDKL2 |
chr4 | 76555522 | 76556021 | CDKL2 |
chr4 | 76555527 | 76556026 | CDKL2 |
chr4 | 76555532 | 76556031 | CDKL2 |
chr4 | 41881913 | 41882412 | - |
chr5 | 7849953 | 7850452 | C5orf49 |
chr5 | 7850188 | 7850687 | C5orf49 |
chr5 | 32713473 | 32713972 | NPR3 |
chr5 | 40680887 | 40681386 | PTGER4 |
chr5 | 40681643 | 40682142 | PTGER4 |
chr5 | 42950942 | 42951441 | - |
chr5 | 42951863 | 42952362 | - |
chr5 | 42992524 | 42993023 | - |
chr5 | 43017435 | 43017934 | LOC648987 |
chr5 | 43018193 | 43018692 | LOC648987 |
chr5 | 54516555 | 54517054 | MCIDAS |
chr5 | 94955506 | 94956005 | GPR150 |
chr5 | 112073100 | 112073599 | APC |
chr5 | 112073123 | 112073622 | APC |
chr5 | 112073148 | 112073647 | APC |
chr5 | 112073156 | 112073655 | APC |
chr5 | 112073176 | 112073675 | APC |
chr5 | 112073188 | 112073687 | APC |
chr5 | 139047755 | 139048254 | CXXC5 |
chr5 | 139047856 | 139048355 | CXXC5 |
chr5 | 169064201 | 169064700 | DOCK2 |
chr5 | 170736027 | 170736526 | TLX3 |
chr6 | 3228983 | 3229482 | TUBB2B |
chr6 | 5026074 | 5026573 | - |
chr6 | 5026185 | 5026684 | - |
chr6 | 10425398 | 10425897 | - |
chr6 | 10425849 | 10426348 | - |
chr6 | 26235004 | 26235503 | H1-3 |
chr6 | 26240670 | 26241169 | H4C6 |
chr6 | 26250494 | 26250993 | H2BC9, H3C7, H4C7 |
chr6 | 26250669 | 26251168 | H2BC9, H3C7, H4C7 |
chr6 | 26250686 | 26251185 | H2BC9, H3C7, H4C7 |
chr6 | 26251649 | 26252148 | H2BC9, H3C7, H4C7 |
chr6 | 26271466 | 26271965 | H2BC10, H3C8 |
chr6 | 26271468 | 26271967 | H2BC10, H3C8 |
chr6 | 26271566 | 26272065 | H2BC10, H3C8 |
chr6 | 26271577 | 26272076 | H2BC10, H3C8 |
chr6 | 26550760 | 26551259 | - |
chr6 | 26614399 | 26614898 | - |
chr6 | 27462967 | 27463466 | - |
chr6 | 27858387 | 27858886 | H2BC17, H3C12 |
chr6 | 28411037 | 28411536 | ZSCAN23 |
chr6 | 42738717 | 42739216 | - |
chr6 | 42738799 | 42739298 | - |
chr6 | 100911437 | 100911936 | SIM1 |
chr6 | 100912656 | 100913155 | SIM1 |
chr6 | 100912690 | 100913189 | SIM1 |
chr6 | 100912696 | 100913195 | SIM1 |
chr6 | 100915517 | 100916016 | SIM1 |
chr6 | 108488085 | 108488584 | NR2E1 |
chr6 | 108490645 | 108491144 | NR2E1 |
chr6 | 108495615 | 108496114 | NR2E1 |
chr6 | 108495735 | 108496234 | NR2E1 |
chr6 | 133561851 | 133562350 | EYA4 |
chr6 | 133562216 | 133562715 | EYA4 |
chr6 | 133562220 | 133562719 | EYA4 |
chr6 | 133562225 | 133562724 | EYA4 |
chr6 | 133562229 | 133562728 | EYA4 |
chr6 | 133562235 | 133562734 | EYA4 |
chr6 | 133562242 | 133562741 | EYA4 |
chr6 | 133562244 | 133562743 | EYA4 |
chr6 | 1624861 | 1625360 | GMDS |
chr6 | 26240532 | 26241031 | H4C6 |
chr6 | 26252015 | 26252514 | H2BC9, H3C7, H4C7 |
chr7 | 27204478 | 27204977 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27204731 | 27205230 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27204967 | 27205466 | HOXA10-AS, HOXA10-HOXA9, HOXA9 |
chr7 | 27213734 | 27214233 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27213793 | 27214292 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27213806 | 27214305 | HOXA10, HOXA10-HOXA9, MIR196B |
chr7 | 27232587 | 27233086 | - |
chr7 | 27232823 | 27233322 | - |
chr7 | 27232891 | 27233390 | - |
chr7 | 27245292 | 27245791 | HOTTIP |
chr7 | 27284539 | 27285038 | EVX1 |
chr7 | 27291096 | 27291595 | - |
chr7 | 28996389 | 28996888 | TRIL |
chr7 | 28996652 | 28997151 | TRIL |
chr7 | 28996923 | 28997422 | TRIL |
chr7 | 28997235 | 28997734 | TRIL |
chr7 | 28997616 | 28998115 | TRIL |
chr7 | 28997828 | 28998327 | TRIL |
chr7 | 76828635 | 76829134 | CCDC146, FGL2 |
chr7 | 96636366 | 96636865 | DLX6, DLX6-AS1 |
chr7 | 96636496 | 96636995 | DLX6, DLX6-AS1 |
chr7 | 96651031 | 96651530 | DLX5 |
chr7 | 96651865 | 96652364 | DLX5 |
chr7 | 96651873 | 96652372 | DLX5 |
chr7 | 117119174 | 117119673 | CFTR |
chr7 | 117119351 | 117119850 | CFTR |
chr7 | 117119361 | 117119860 | CFTR |
chr7 | 117119387 | 117119886 | CFTR |
chr7 | 117119688 | 117120187 | CFTR |
chr7 | 134143656 | 134144155 | AKR1B1 |
chr7 | 134143669 | 134144168 | AKR1B1 |
chr7 | 134143786 | 134144285 | AKR1B1 |
chr7 | 143042491 | 143042990 | CLCN1 |
chr7 | 143042548 | 143043047 | CLCN1 |
chr7 | 151329758 | 151330257 | PRKAG2 |
chr7 | 27252291 | 27252790 | - |
chr7 | 27225523 | 27225524 | HOXA11 / HOXA11-AS |
chr8 | 41424092 | 41424591 | - |
chr8 | 49292435 | 49292934 | - |
chr8 | 53851934 | 53852433 | NPBWR1 |
chr8 | 57069657 | 57070156 | - |
chr8 | 59058004 | 59058503 | FAM110B |
chr8 | 67873093 | 67873592 | TCF24 |
chr8 | 67873226 | 67873725 | TCF24 |
chr8 | 67873549 | 67874048 | TCF24 |
chr8 | 67873928 | 67874427 | TCF24 |
chr8 | 67874116 | 67874615 | TCF24 |
chr8 | 67874783 | 67875282 | TCF24 |
chr8 | 70981789 | 70982288 | PRDM14 |
chr8 | 86350318 | 86350817 | CA13, CA3 |
chr8 | 86350331 | 86350830 | CA13, CA3 |
chr8 | 98289898 | 98290397 | TSPYL5 |
chr8 | 99951797 | 99952296 | OSR2, STK3 |
chr8 | 99959473 | 99959972 | OSR2, STK3 |
chr8 | 99959898 | 99960397 | OSR2 |
chr8 | 99961295 | 99961794 | OSR2 |
chr8 | 99961624 | 99962123 | OSR2 |
chr8 | 102504197 | 102504696 | GRHL2 |
chr8 | 102504251 | 102504750 | GRHL2 |
chr8 | 102504314 | 102504813 | GRHL2 |
chr8 | 102505306 | 102505805 | GRHL2 |
chr8 | 104512833 | 104513332 | RIMS2 |
chr8 | 11540157 | 11540656 | GATA4 |
chr9 | 110228019 | 110228518 | - |
실시예 7. 임상 샘플에서의 마커 패널 성능 확인
표 11의 간 견변증 환자 2명, 간암 환자 40명 및 정상인 40명의 샘플에서 Targeted EM-Seq을 수행하여 상기 마커 세트(표 6 및 표 9)의 성능을 각각 확인하였다.
Normal | Liver cirrhosis | Liver cancer | Total | |
Train | 23 | - | 23 | 46 |
Validation | 9 | - | 8 | 17 |
Test | 8 | 2 | 9 | 19 |
Total | 40 | 2 | 40 | 82 |
7-1. Targeted EM-Seq 수행
상기 환자들의 혈액을 채취한 다음, 3000 rpm, 25℃10분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심 분리된 혈장을 16000g, 25℃10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하고, 분리한 혈장에 대해 Mag-bind cfDNA kit 사용하여 cell-free DNA를 추출하고 농도는 Qubit DS DNA HS assay Kit(Thermo Fisher Scientific, USA)를 사용하여 측정하였다. 추출한 cfDNA의 최대량을 사용하여 ten-eleven translocation dioxygenase 2(TET2)와 APOBEC을 사용해 un-methylated cytosine을 Uracil로 치환하는 과정을 거쳐 methylation conversion을 한 뒤 enzymatic methyl-seq (NEB Kit)를 사용하여 library 제작하였다.
제작한 DNA library의 농도와 size를 각각 Qubit DS DNA HS assay Kit(Thermo Fisher Scientific, USA)과 Tapestation 4200(Agilent, USA)을 사용해 측정하였다. 200ng의 Library를 8검체씩 pooling하여, Hybridization 진행한 다음, capture된 샘플을 Tapestation 4200(Agilent, USA)으로 High sensitivity D1000 screen tape & Reagent(Agilent, USA)를 사용하여 농도를 측정하였다. Miseq Dx (Illumina)장비를 사용하여 150 paired-end 모드로 Final 농도를 10pM에 맞추어 sequencing을 진행하여, 샘플 당 650X depth를 생산하였다.
7-2. 성능 확인
메틸화된 세포 유리 핵산을 sequencing하였기 때문에, 확보되는 핵산 단편 데이터는 메틸화가 되어있고, 이를 휴먼 참조 유전체에 정렬을 하여 전체 휴먼 유전체 영역에서 메틸화가 된 영역들을 확인할 수 있다. EM-Seq 데이터는 메틸화된 Cytosine영역은 그대로 Cytosine으로 남아있고, 메틸화되지 않은 Cytosine들은 Thymine으로 변환되어 메틸화된 영역과 메틸화된 정도를 확인할 수 있다.
먼저, Trim Galore(version 0.6.6)를 이용하여 fastq 파일에서 adapter trimming과 quality trimming을 수행한 다음, Bismark(version 0.23.0) alignment tool을 이용하여 핵산 단편 데이터를 참조 유전체(hg19)에 정렬하고, Samtools view (version 1.11) tool을 이용하여 mapping quality가 10이상이고 chr1~22,X,Y의 핵산 단편만 선별한 뒤, Bismark(version 0.23.0)의 bismark_methylation_extractor를 활용하여 methylation calling을 진행하였다.
methylKit (version 1.12.0) R package를 이용하여 Tumor, Normal sample들의 beta value(methylation percentage)값을 하나의 파일로 merge하였다.
이를 바탕으로 실시예 5-2와 동일한 방법으로 354개 마커 기반의 간암 진단을 위한 CNN 모델을 구축한 다음, DPI 값을 이용하여 암 진단 성능을 확인하였다.
그 결과, 표 12, 도 8 및 9에 기재된 바와 같이,Accuracy는 Train, Validation, Test 그룹에서 각각 1.00, 1.00, 0.95로 확인하였고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 1.00, 1.00, 0.94인 것을 확인하였고,
Accuracy | AUC | |
Train | 1.00 | 1.00 |
Validation | 1.00 | 1.00 |
Test | 0.95 | 0.94 |
동일한 방법으로 14개 마커를 사용하여 수득한 EM-Seq 결과를 기반으로 구축한 CNN 모델에서 DPI 값을 이용하여 암 진단 성능을 확인한 결과, 표 13, 도 10 및 11에 기재된 바와 같이, Accuracy는 Train, Validation, Test 그룹에서 각각 0.87, 1.00, 0.84로 확인하였고, ROC 분석 결과인 AUC 값은 Train, Validation, Test 그룹에서 각각 0.98, 1.00, 0.83인 것을 확인하였으며,
Accuracy | AUC | |
Train | 0.87 | 0.98 |
Validation | 1.00 | 1.00 |
Test | 0.84 | 0.83 |
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
Claims (9)
- 하기 표 1로 표시되는 DNA 메틸화 마커를 포함하는 간암 진단용 DNA 메틸화 마커 조합.
- 제1항에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 2로 표시되는 DNA 마커를 추가로 포함하는 것을 특징으로 하는 간암 진단용 DNA 메틸화 마커 조합.
- 제1항에 있어서, 상기 간암 진단용 DNA 메틸화 마커 조합은 하기 표 3으로 표시되는 DNA 마커로 구성된 군에서 선택되는 2 이상의 DNA 메틸화 마커를 추가로 포함하는 것을 특징으로 하는 간암 진단용 DNA 메틸화 마커 조합.
- (a) 생체 시료에서 DNA를 분리하는 단계;
(b) 제1항의 DNA 메틸화 마커 조합의 메틸화 수준을 검출하는 단계; 및
(c) 상기 검출된 DNA 메틸화 마커 수준이 기준값(cut-off value)을 초과할 경우, 간암으로 판정하는 단계;
를 포함하는 간암 진단을 위한 정보의 제공방법.
- 제4항에 있어서, 상기 (c) 단계는 검출된 DNA 메틸화 마커 조합의 메틸화 수준의 정보를 간암을 진단하도록 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 간암 유무를 판정하는 단계로 수행되는 것을 특징으로 간암 진단을 위한 정보의 제공방법.
- 제4항에 있어서, 상기 (b) 단계의 메틸화 수준의 검출은, PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, 메틸화 특이적인 PNA를 이용하는 PCR, melting curve analysis, DNA 칩, 파이로시퀀싱, 바이설파이트 시퀀싱 및 메틸화 차세대 염기서열 시퀀싱으로 구성된 군으로부터 선택된 어느 하나의 방법을 이용하는 것을 특징으로 하는 간암 진단을 위한 정보의 제공방법.
- 제1항 내지 제3항 중 어느 한 항의 DNA 메틸화 마커 조합의 DNA 메틸화 마커를 각각 증폭할 수 있는 프라이머 조합을 포함하는 간암 진단용 조성물.
- 제1항 내지 제3항 중 어느 한 항의 DNA 메틸화 마커 조합의 DNA 메티로하 마커의 메틸화된 염기를 함유하는 10개 이상의 연속 염기를 포함하는 폴리뉴클레오타이드 또는 그의 상보적인 폴리뉴클레오타이드와 특이적으로 각각 혼성화할 수 있는 프로브 조합을 포함하는 간암 진단용 조성물.
- 제7항 또는 제8항의 조성물을 포함하는 간암 진단용 키트.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220142050 | 2022-10-31 | ||
KR20220142050 | 2022-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20240063034A true KR20240063034A (ko) | 2024-05-09 |
KR102701682B1 KR102701682B1 (ko) | 2024-09-02 |
Family
ID=90931051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230148519A KR102701682B1 (ko) | 2022-10-31 | 2023-10-31 | 간암 진단용 dna 메틸화 마커 및 이의 용도 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102701682B1 (ko) |
WO (1) | WO2024096538A1 (ko) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2021003164A (es) * | 2018-09-19 | 2021-06-23 | Bluestar Genomics Inc | Perfiles de hidroximetilación de adn circulante en la evaluación de lesiones pancreáticas. |
KR102068310B1 (ko) * | 2019-02-28 | 2020-01-20 | 주식회사 레피다인 | 간암 재발 예측용 dna 메틸화 마커 및 이의 용도 |
KR20210044441A (ko) * | 2019-10-15 | 2021-04-23 | 주식회사 젠큐릭스 | 특정 유전자의 CpG 메틸화 변화를 이용한 대장암, 직장암 또는 대장 선종 진단용 조성물 및 이의 용도 |
KR20220069869A (ko) * | 2020-11-20 | 2022-05-27 | 연세대학교 산학협력단 | 간암의 예후 예측을 위한 정보 제공 방법 |
AU2022245306A1 (en) * | 2021-03-26 | 2023-10-12 | Freenome Holdings, Inc. | Methods and systems for detecting cancer via nucleic acid methylation analysis |
-
2023
- 2023-10-31 KR KR1020230148519A patent/KR102701682B1/ko active IP Right Grant
- 2023-10-31 WO PCT/KR2023/017175 patent/WO2024096538A1/ko unknown
Non-Patent Citations (2)
Title |
---|
Aging (Albany NY), 13(13): 17592-17606 (2021.07.08.) * |
BMC Med Genomics, 14(1): 163 (2021.06.19.) * |
Also Published As
Publication number | Publication date |
---|---|
KR102701682B1 (ko) | 2024-09-02 |
WO2024096538A1 (ko) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6161607B2 (ja) | サンプルにおける異なる異数性の有無を決定する方法 | |
AU2017316709B2 (en) | Methods of identifying microsatellite instability | |
US11814687B2 (en) | Methods for characterizing bladder cancer | |
EP4127231A1 (en) | Cancer classification with genomic region modeling | |
CN111424091B (zh) | 一组鉴别诊断甲状腺滤泡性肿瘤良恶性的标志物及其应用 | |
EP3149209B1 (en) | Methods for typing of lung cancer | |
US20220098677A1 (en) | Method for determining rcc subtypes | |
EP2657348B1 (en) | Diagnostic miRNA profiles in multiple sclerosis | |
EP3464640A1 (en) | Methods of mast cell tumor prognosis and uses thereof | |
WO2022262831A1 (zh) | 用于评估肿瘤的物质及其方法 | |
KR102701682B1 (ko) | 간암 진단용 dna 메틸화 마커 및 이의 용도 | |
WO2015127103A1 (en) | Methods for treating hepatocellular carcinoma | |
KR102701683B1 (ko) | 폐암 진단용 dna 메틸화 마커 및 이의 용도 | |
EP3409788B1 (en) | Method and system for nucleic acid sequencing | |
US20240055073A1 (en) | Sample contamination detection of contaminated fragments with cpg-snp contamination markers | |
EP4234720A1 (en) | Epigenetic biomarkers for the diagnosis of thyroid cancer | |
US20240309461A1 (en) | Sample barcode in multiplex sample sequencing | |
TW202330938A (zh) | 用於評估腫瘤的物質及其方法 | |
US20220170110A1 (en) | Cancer diagnostic marker using transposase-accessible chromatin sequencing information about individual, and use thereof | |
CN117649874A (zh) | 基于肠道微生物组成的前列腺癌分子分型体系的建立方法 | |
KR20240059529A (ko) | 폐암 진단용 메틸화 마커 및 이의 조합 | |
WO2024155909A1 (en) | Methods for identifying ovarian cancer in a subject | |
WO2022226229A9 (en) | Cellular heterogeneity–adjusted clonal methylation (chalm): a methylation quantification method | |
Cho | Sparsity and scarcity: Multiomic studies in a low resource setting (A study in archival FFPE cancer tissue) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |