TW202403054A - 癌症特異性甲基化標誌物及其應用 - Google Patents
癌症特異性甲基化標誌物及其應用 Download PDFInfo
- Publication number
- TW202403054A TW202403054A TW112124613A TW112124613A TW202403054A TW 202403054 A TW202403054 A TW 202403054A TW 112124613 A TW112124613 A TW 112124613A TW 112124613 A TW112124613 A TW 112124613A TW 202403054 A TW202403054 A TW 202403054A
- Authority
- TW
- Taiwan
- Prior art keywords
- gene
- cancer
- methylation
- region
- sample
- Prior art date
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 686
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 686
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 266
- 201000011510 cancer Diseases 0.000 title claims abstract description 231
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims abstract description 144
- 206010009944 Colon cancer Diseases 0.000 claims abstract description 142
- 238000012216 screening Methods 0.000 claims abstract description 127
- 239000003153 chemical reaction reagent Substances 0.000 claims abstract description 124
- 238000003745 diagnosis Methods 0.000 claims abstract description 38
- 238000002360 preparation method Methods 0.000 claims abstract description 13
- 108090000623 proteins and genes Proteins 0.000 claims description 278
- 238000000034 method Methods 0.000 claims description 214
- 210000001519 tissue Anatomy 0.000 claims description 207
- 238000011144 upstream manufacturing Methods 0.000 claims description 207
- 239000000523 sample Substances 0.000 claims description 205
- 108020004414 DNA Proteins 0.000 claims description 162
- 239000003550 marker Substances 0.000 claims description 139
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 134
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 134
- 201000004101 esophageal cancer Diseases 0.000 claims description 134
- 208000020816 lung neoplasm Diseases 0.000 claims description 134
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 131
- 206010017758 gastric cancer Diseases 0.000 claims description 131
- 201000011549 stomach cancer Diseases 0.000 claims description 131
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 129
- 201000005202 lung cancer Diseases 0.000 claims description 129
- 206010006187 Breast cancer Diseases 0.000 claims description 127
- 208000026310 Breast neoplasm Diseases 0.000 claims description 127
- 201000007270 liver cancer Diseases 0.000 claims description 127
- 208000014018 liver neoplasm Diseases 0.000 claims description 127
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 122
- 201000002528 pancreatic cancer Diseases 0.000 claims description 120
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 119
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 119
- 210000000349 chromosome Anatomy 0.000 claims description 105
- 230000000295 complement effect Effects 0.000 claims description 82
- 238000012549 training Methods 0.000 claims description 71
- 150000007523 nucleic acids Chemical class 0.000 claims description 69
- 102000039446 nucleic acids Human genes 0.000 claims description 68
- 108020004707 nucleic acids Proteins 0.000 claims description 68
- 125000003729 nucleotide group Chemical group 0.000 claims description 57
- 239000002773 nucleotide Substances 0.000 claims description 54
- 210000004027 cell Anatomy 0.000 claims description 46
- 238000001574 biopsy Methods 0.000 claims description 44
- 238000012164 methylation sequencing Methods 0.000 claims description 42
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 41
- 108091008146 restriction endonucleases Proteins 0.000 claims description 39
- 238000007477 logistic regression Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 33
- 238000012360 testing method Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 238000004949 mass spectrometry Methods 0.000 claims description 26
- 238000002844 melting Methods 0.000 claims description 26
- 230000008018 melting Effects 0.000 claims description 26
- 238000001712 DNA sequencing Methods 0.000 claims description 25
- 108010044191 Dynamin II Proteins 0.000 claims description 25
- 108091034117 Oligonucleotide Proteins 0.000 claims description 25
- 238000010801 machine learning Methods 0.000 claims description 23
- 108010032788 PAX6 Transcription Factor Proteins 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 21
- 101001067880 Homo sapiens Histone H4 Proteins 0.000 claims description 20
- 238000011002 quantification Methods 0.000 claims description 19
- 101000934220 Homo sapiens CCN family member 5 Proteins 0.000 claims description 18
- 101000818310 Homo sapiens Forkhead box protein C1 Proteins 0.000 claims description 18
- 101000988407 Homo sapiens PDZ and LIM domain protein 2 Proteins 0.000 claims description 18
- 238000003875 gradient-accelerated spectroscopy Methods 0.000 claims description 17
- 101000626594 Homo sapiens Transmembrane protein 179 Proteins 0.000 claims description 16
- 101001052714 Homo sapiens Fibrosin-1-like protein Proteins 0.000 claims description 15
- 101000728117 Homo sapiens Plasma membrane calcium-transporting ATPase 4 Proteins 0.000 claims description 15
- 101000761882 Homo sapiens BTB/POZ domain-containing protein 6 Proteins 0.000 claims description 14
- 101000947154 Homo sapiens CXXC-type zinc finger protein 5 Proteins 0.000 claims description 14
- 101000931482 Homo sapiens Forkhead box protein F2 Proteins 0.000 claims description 14
- 230000035772 mutation Effects 0.000 claims description 13
- 102000002260 Alkaline Phosphatase Human genes 0.000 claims description 12
- 108020004774 Alkaline Phosphatase Proteins 0.000 claims description 12
- 108060002716 Exonuclease Proteins 0.000 claims description 12
- 238000001976 enzyme digestion Methods 0.000 claims description 12
- 102000013165 exonuclease Human genes 0.000 claims description 12
- 101000795365 Homo sapiens E3 ubiquitin-protein ligase TRIM58 Proteins 0.000 claims description 11
- 101000733264 Homo sapiens Rho guanine nucleotide exchange factor 33 Proteins 0.000 claims description 11
- 101150001927 RASAL3 gene Proteins 0.000 claims description 11
- 101150039047 ADAM8 gene Proteins 0.000 claims description 10
- 101150029893 AMIGO3 gene Proteins 0.000 claims description 10
- 101150042108 B4galnt1 gene Proteins 0.000 claims description 10
- 101150008834 CLDN11 gene Proteins 0.000 claims description 10
- 108091005470 CRHR2 Proteins 0.000 claims description 10
- 101150082557 CXXC5 gene Proteins 0.000 claims description 10
- 101150106335 CYP2F1 gene Proteins 0.000 claims description 10
- 101150058655 Gpam gene Proteins 0.000 claims description 10
- 101150016059 HOXA13 gene Proteins 0.000 claims description 10
- 101000720962 Homo sapiens 5-oxoprolinase Proteins 0.000 claims description 10
- 101100269145 Homo sapiens ADAM8 gene Proteins 0.000 claims description 10
- 101000896692 Homo sapiens BTB/POZ domain-containing protein 16 Proteins 0.000 claims description 10
- 101000729811 Homo sapiens Beta-1,4 N-acetylgalactosaminyltransferase 1 Proteins 0.000 claims description 10
- 101100272901 Homo sapiens C1QL1 gene Proteins 0.000 claims description 10
- 101000860854 Homo sapiens COUP transcription factor 1 Proteins 0.000 claims description 10
- 101001049849 Homo sapiens Calcium-activated potassium channel subunit beta-1 Proteins 0.000 claims description 10
- 101000859570 Homo sapiens Carnitine O-palmitoyltransferase 1, liver isoform Proteins 0.000 claims description 10
- 101000914166 Homo sapiens Cilia- and flagella-associated protein 46 Proteins 0.000 claims description 10
- 101001044807 Homo sapiens Diacylglycerol kinase gamma Proteins 0.000 claims description 10
- 101000864600 Homo sapiens Diacylglycerol kinase iota Proteins 0.000 claims description 10
- 101001053490 Homo sapiens Dihydropyrimidinase-related protein 4 Proteins 0.000 claims description 10
- 101000832767 Homo sapiens Disintegrin and metalloproteinase domain-containing protein 8 Proteins 0.000 claims description 10
- 101100013370 Homo sapiens FOXC1 gene Proteins 0.000 claims description 10
- 101000857699 Homo sapiens Glycerol-3-phosphate acyltransferase 4 Proteins 0.000 claims description 10
- 101001041136 Homo sapiens Homeobox protein Hox-D4 Proteins 0.000 claims description 10
- 101001017833 Homo sapiens Leucine-rich repeat-containing protein 4 Proteins 0.000 claims description 10
- 101001055097 Homo sapiens Mitogen-activated protein kinase kinase kinase 6 Proteins 0.000 claims description 10
- 101000736368 Homo sapiens PH and SEC7 domain-containing protein 4 Proteins 0.000 claims description 10
- 101000601664 Homo sapiens Paired box protein Pax-8 Proteins 0.000 claims description 10
- 101000601997 Homo sapiens Protocadherin gamma-C5 Proteins 0.000 claims description 10
- 101000648676 Homo sapiens Putative protein encoded by LINC02912 Proteins 0.000 claims description 10
- 101100523593 Homo sapiens RASSF1 gene Proteins 0.000 claims description 10
- 101000731726 Homo sapiens Rho guanine nucleotide exchange factor 16 Proteins 0.000 claims description 10
- 101000709025 Homo sapiens Rho-related BTB domain-containing protein 2 Proteins 0.000 claims description 10
- 101000658057 Homo sapiens S-adenosyl-L-methionine-dependent tRNA 4-demethylwyosine synthase TYW1 Proteins 0.000 claims description 10
- 101000618139 Homo sapiens Sperm-associated antigen 6 Proteins 0.000 claims description 10
- 101100426073 Homo sapiens TRIM58 gene Proteins 0.000 claims description 10
- 101000854951 Homo sapiens Wings apart-like protein homolog Proteins 0.000 claims description 10
- 101100214311 Homo sapiens ZFHX3 gene Proteins 0.000 claims description 10
- 101000911019 Homo sapiens Zinc finger protein castor homolog 1 Proteins 0.000 claims description 10
- 101150039635 Itpka gene Proteins 0.000 claims description 10
- 101150055419 Kctd1 gene Proteins 0.000 claims description 10
- 101150035143 LBH gene Proteins 0.000 claims description 10
- 101150000782 Oplah gene Proteins 0.000 claims description 10
- 101150113153 PIF1 gene Proteins 0.000 claims description 10
- 101150014518 PIP5K1C gene Proteins 0.000 claims description 10
- 101150098078 RASSF1 gene Proteins 0.000 claims description 10
- 108091006628 SLC12A8 Proteins 0.000 claims description 10
- 108091006754 SLC22A11 Proteins 0.000 claims description 10
- 101150068737 SLC2A9 gene Proteins 0.000 claims description 10
- 101150001411 STX2 gene Proteins 0.000 claims description 10
- 108010048349 Steroidogenic Factor 1 Proteins 0.000 claims description 10
- 101150043465 TCF24 gene Proteins 0.000 claims description 10
- 101150004056 Trim40 gene Proteins 0.000 claims description 10
- 101150036297 ZFHX3 gene Proteins 0.000 claims description 10
- 101150092196 atl1 gene Proteins 0.000 claims description 10
- 101150049694 slc9a3 gene Proteins 0.000 claims description 10
- 101150018468 Abcg5 gene Proteins 0.000 claims description 9
- 101150060029 Dlec1 gene Proteins 0.000 claims description 9
- 108091010837 Glial cell line-derived neurotrophic factor Proteins 0.000 claims description 9
- 101001110988 Homo sapiens 60S ribosomal protein L35a Proteins 0.000 claims description 9
- 101000978318 Homo sapiens Coiled-coil domain-containing protein 77 Proteins 0.000 claims description 9
- 101000993462 Homo sapiens Metal transporter CNNM4 Proteins 0.000 claims description 9
- 101000613806 Homo sapiens Osteopetrosis-associated transmembrane protein 1 Proteins 0.000 claims description 9
- 101000945496 Homo sapiens Proliferation marker protein Ki-67 Proteins 0.000 claims description 9
- 101000979565 Homo sapiens Protein NLRC5 Proteins 0.000 claims description 9
- 101000652297 Homo sapiens Protein SNORC Proteins 0.000 claims description 9
- 101000601384 Homo sapiens Sialidase-4 Proteins 0.000 claims description 9
- 101000685001 Homo sapiens Stromal cell-derived factor 2-like protein 1 Proteins 0.000 claims description 9
- 101000610609 Homo sapiens Tumor necrosis factor receptor superfamily member 10D Proteins 0.000 claims description 9
- 101150098999 pax8 gene Proteins 0.000 claims description 9
- 101150115276 tal1 gene Proteins 0.000 claims description 9
- 101001125884 Autographa californica nuclear polyhedrosis virus Per os infectivity factor 1 Proteins 0.000 claims description 8
- 108010040168 Bcl-2-Like Protein 11 Proteins 0.000 claims description 8
- 108010001515 Galectin 4 Proteins 0.000 claims description 8
- 102100027345 Homeobox protein SIX3 Human genes 0.000 claims description 8
- 101001107433 Homo sapiens 39S ribosomal protein L23, mitochondrial Proteins 0.000 claims description 8
- 101000776351 Homo sapiens ALK and LTK ligand 2 Proteins 0.000 claims description 8
- 101001125842 Homo sapiens ATP-dependent DNA helicase PIF1 Proteins 0.000 claims description 8
- 101001007225 Homo sapiens BTB/POZ domain-containing protein KCTD8 Proteins 0.000 claims description 8
- 101000766218 Homo sapiens BarH-like 2 homeobox protein Proteins 0.000 claims description 8
- 101000983881 Homo sapiens C2 calcium-dependent domain-containing protein 4D Proteins 0.000 claims description 8
- 101000715194 Homo sapiens Cell cycle and apoptosis regulator protein 2 Proteins 0.000 claims description 8
- 101000766989 Homo sapiens Claudin-11 Proteins 0.000 claims description 8
- 101000912753 Homo sapiens DNA damage-inducible transcript 4 protein Proteins 0.000 claims description 8
- 101000655236 Homo sapiens DNA-binding protein SATB2 Proteins 0.000 claims description 8
- 101000805870 Homo sapiens Disco-interacting protein 2 homolog C Proteins 0.000 claims description 8
- 101001064458 Homo sapiens Ephrin type-B receptor 3 Proteins 0.000 claims description 8
- 101000847062 Homo sapiens Exportin-4 Proteins 0.000 claims description 8
- 101001029302 Homo sapiens Forkhead box protein D4 Proteins 0.000 claims description 8
- 101000871088 Homo sapiens G-protein coupled receptor 3 Proteins 0.000 claims description 8
- 101000862581 Homo sapiens GTP cyclohydrolase 1 Proteins 0.000 claims description 8
- 101000893303 Homo sapiens Glycine amidinotransferase, mitochondrial Proteins 0.000 claims description 8
- 101001023964 Homo sapiens Growth/differentiation factor 6 Proteins 0.000 claims description 8
- 101001066338 Homo sapiens Hepatocyte growth factor activator Proteins 0.000 claims description 8
- 101000913077 Homo sapiens High affinity immunoglobulin gamma Fc receptor IB Proteins 0.000 claims description 8
- 101001084688 Homo sapiens Histone H2B type 1-A Proteins 0.000 claims description 8
- 101000804582 Homo sapiens Homeobox protein DLX-6 Proteins 0.000 claims description 8
- 101001048956 Homo sapiens Homeobox protein EMX1 Proteins 0.000 claims description 8
- 101001037162 Homo sapiens Homeobox protein Hox-D1 Proteins 0.000 claims description 8
- 101000584392 Homo sapiens Homeobox protein OTX1 Proteins 0.000 claims description 8
- 101000651912 Homo sapiens Homeobox protein SIX2 Proteins 0.000 claims description 8
- 101000651928 Homo sapiens Homeobox protein SIX3 Proteins 0.000 claims description 8
- 101000779611 Homo sapiens Homeobox protein aristaless-like 3 Proteins 0.000 claims description 8
- 101000852596 Homo sapiens Inositol-trisphosphate 3-kinase A Proteins 0.000 claims description 8
- 101001135070 Homo sapiens Leiomodin-3 Proteins 0.000 claims description 8
- 101001132878 Homo sapiens Motilin receptor Proteins 0.000 claims description 8
- 101001125322 Homo sapiens Na(+)/H(+) exchange regulatory cofactor NHE-RF2 Proteins 0.000 claims description 8
- 101000577555 Homo sapiens Neuritin Proteins 0.000 claims description 8
- 101000603763 Homo sapiens Neurogenin-1 Proteins 0.000 claims description 8
- 101000591385 Homo sapiens Neurotensin receptor type 1 Proteins 0.000 claims description 8
- 101000738523 Homo sapiens Pancreas transcription factor 1 subunit alpha Proteins 0.000 claims description 8
- 101000583553 Homo sapiens Phosphoglucomutase-1 Proteins 0.000 claims description 8
- 101000583156 Homo sapiens Pituitary homeobox 1 Proteins 0.000 claims description 8
- 101001094872 Homo sapiens Plexin-C1 Proteins 0.000 claims description 8
- 101000741708 Homo sapiens Proline-rich protein 15 Proteins 0.000 claims description 8
- 101001023422 Homo sapiens Protein LBH Proteins 0.000 claims description 8
- 101000652811 Homo sapiens Protein shisa-6 Proteins 0.000 claims description 8
- 101000702132 Homo sapiens Protein spinster homolog 1 Proteins 0.000 claims description 8
- 101001061893 Homo sapiens RAS protein activator like-3 Proteins 0.000 claims description 8
- 101000579954 Homo sapiens RanBP2-like and GRIP domain-containing protein 3 Proteins 0.000 claims description 8
- 101000665894 Homo sapiens Replication initiator 1 Proteins 0.000 claims description 8
- 101000740180 Homo sapiens Sal-like protein 3 Proteins 0.000 claims description 8
- 101000987025 Homo sapiens Serine/threonine-protein phosphatase 4 regulatory subunit 3A Proteins 0.000 claims description 8
- 101001090074 Homo sapiens Small nuclear protein PRAC1 Proteins 0.000 claims description 8
- 101000910249 Homo sapiens Soluble calcium-activated nucleotidase 1 Proteins 0.000 claims description 8
- 101000692109 Homo sapiens Syndecan-2 Proteins 0.000 claims description 8
- 101000800571 Homo sapiens T-box transcription factor T Proteins 0.000 claims description 8
- 101000653634 Homo sapiens T-box transcription factor TBX15 Proteins 0.000 claims description 8
- 101000800488 Homo sapiens T-cell leukemia homeobox protein 1 Proteins 0.000 claims description 8
- 101000638722 Homo sapiens Thimet oligopeptidase Proteins 0.000 claims description 8
- 101000835083 Homo sapiens Tissue factor pathway inhibitor 2 Proteins 0.000 claims description 8
- 101000637031 Homo sapiens Trafficking protein particle complex subunit 9 Proteins 0.000 claims description 8
- 101000800542 Homo sapiens Transcription factor 24 Proteins 0.000 claims description 8
- 101000946163 Homo sapiens Transcription factor LBX2 Proteins 0.000 claims description 8
- 101000642528 Homo sapiens Transcription factor SOX-8 Proteins 0.000 claims description 8
- 101000652707 Homo sapiens Transcription initiation factor TFIID subunit 4 Proteins 0.000 claims description 8
- 101001030254 Homo sapiens Unconventional myosin-XVB Proteins 0.000 claims description 8
- 101000982057 Homo sapiens Unconventional myosin-XVI Proteins 0.000 claims description 8
- 101000932804 Homo sapiens Voltage-dependent T-type calcium channel subunit alpha-1H Proteins 0.000 claims description 8
- 101000759547 Homo sapiens Zinc finger and BTB domain-containing protein 7A Proteins 0.000 claims description 8
- 101000964762 Homo sapiens Zinc finger protein 569 Proteins 0.000 claims description 8
- 101150037139 KCNJ12 gene Proteins 0.000 claims description 8
- 108010018525 NFATC Transcription Factors Proteins 0.000 claims description 8
- 101710104492 NUP210 Proteins 0.000 claims description 8
- 108060007241 RYR2 Proteins 0.000 claims description 8
- 108091006285 SLC17A9 Proteins 0.000 claims description 8
- 108090001097 Transcription Factor DP1 Proteins 0.000 claims description 8
- 108010027263 homeobox protein HOXA9 Proteins 0.000 claims description 8
- 101000616703 Homo sapiens Alpha-2,8-sialyltransferase 8E Proteins 0.000 claims description 7
- 101001050039 Homo sapiens Anosmin-1 Proteins 0.000 claims description 7
- 101000766268 Homo sapiens Branched-chain-amino-acid aminotransferase, cytosolic Proteins 0.000 claims description 7
- 101000934314 Homo sapiens Cyclin-A1 Proteins 0.000 claims description 7
- 101000813988 Homo sapiens Epidermal growth factor receptor kinase substrate 8-like protein 1 Proteins 0.000 claims description 7
- 101000578251 Homo sapiens Homeobox protein Nkx-3.2 Proteins 0.000 claims description 7
- 101000634171 Homo sapiens Homeobox protein SIX1 Proteins 0.000 claims description 7
- 101000979347 Homo sapiens Nuclear factor 1 X-type Proteins 0.000 claims description 7
- 101001051767 Homo sapiens Protein kinase C beta type Proteins 0.000 claims description 7
- 101000981737 Homo sapiens Protein lifeguard 2 Proteins 0.000 claims description 7
- 101000711846 Homo sapiens Transcription factor SOX-9 Proteins 0.000 claims description 7
- 101000648507 Homo sapiens Tumor necrosis factor receptor superfamily member 14 Proteins 0.000 claims description 7
- 101000964790 Homo sapiens Zinc finger protein 81 Proteins 0.000 claims description 7
- 101000818644 Homo sapiens Zinc finger protein interacting with ribonucleoprotein K Proteins 0.000 claims description 7
- 101000901109 Homo sapiens Achaete-scute homolog 2 Proteins 0.000 claims description 6
- 101000904268 Homo sapiens Glycerol-3-phosphate acyltransferase 1, mitochondrial Proteins 0.000 claims description 6
- 101000775742 Homo sapiens Guanine nucleotide exchange factor VAV3 Proteins 0.000 claims description 6
- 101000578258 Homo sapiens Homeobox protein Nkx-6.2 Proteins 0.000 claims description 6
- 101000971530 Homo sapiens Killer cell lectin-like receptor subfamily G member 2 Proteins 0.000 claims description 6
- 101001126102 Homo sapiens Pleckstrin homology domain-containing family B member 1 Proteins 0.000 claims description 6
- 101001000676 Homo sapiens Polyamine-modulated factor 1 Proteins 0.000 claims description 6
- 101000726110 Homo sapiens Protein crumbs homolog 2 Proteins 0.000 claims description 6
- 101000654448 Homo sapiens Protein transport protein Sec16A Proteins 0.000 claims description 6
- 101000988230 Homo sapiens Protocadherin gamma-A11 Proteins 0.000 claims description 6
- 101000654564 Homo sapiens SH3 domain-containing YSC84-like protein 1 Proteins 0.000 claims description 6
- 101000785703 Homo sapiens Zinc finger protein 273 Proteins 0.000 claims description 6
- 108091006649 SLC9A3 Proteins 0.000 claims description 6
- 101000773237 Homo sapiens Actin, cytoplasmic 2 Proteins 0.000 claims description 5
- 101000613885 Homo sapiens BTB/POZ domain-containing protein KCTD1 Proteins 0.000 claims description 5
- 101000882896 Homo sapiens Claudin-5 Proteins 0.000 claims description 5
- 101000942088 Homo sapiens Cysteine-rich protein 2 Proteins 0.000 claims description 5
- 101000941738 Homo sapiens Cytochrome P450 2F1 Proteins 0.000 claims description 5
- 101000988619 Homo sapiens Hepatocyte nuclear factor 6 Proteins 0.000 claims description 5
- 101000923322 Homo sapiens Phospholipid-transporting ATPase IH Proteins 0.000 claims description 5
- 101000679365 Homo sapiens Putative tyrosine-protein phosphatase TPTE Proteins 0.000 claims description 5
- 101000740205 Homo sapiens Sal-like protein 1 Proteins 0.000 claims description 5
- 101000819088 Homo sapiens Transcription factor GATA-6 Proteins 0.000 claims description 5
- 101000802395 Homo sapiens Zinc finger protein 764 Proteins 0.000 claims description 5
- 108010090763 Shiga Toxin 2 Proteins 0.000 claims description 5
- 108010014480 T-box transcription factor 5 Proteins 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 210000002784 stomach Anatomy 0.000 claims description 3
- 210000004185 liver Anatomy 0.000 claims description 2
- 101001117314 Homo sapiens Prostaglandin D2 receptor 2 Proteins 0.000 claims 6
- 101000785523 Homo sapiens Tight junction protein ZO-2 Proteins 0.000 claims 6
- 101000716068 Homo sapiens C-C chemokine receptor type 6 Proteins 0.000 claims 3
- 101000914299 Homo sapiens CUGBP Elav-like family member 3 Proteins 0.000 claims 3
- 101000915396 Homo sapiens Disabled homolog 2-interacting protein Proteins 0.000 claims 3
- 101000938444 Homo sapiens Exocyst complex component 3 Proteins 0.000 claims 3
- 101000629029 Homo sapiens Myosin regulatory light chain 2, ventricular/cardiac muscle isoform Proteins 0.000 claims 3
- 101000970374 Homo sapiens N-terminal Xaa-Pro-Lys N-methyltransferase 1 Proteins 0.000 claims 3
- 101000616188 Homo sapiens Splicing factor 3B subunit 6 Proteins 0.000 claims 3
- 101000891113 Homo sapiens T-cell acute lymphocytic leukemia protein 1 Proteins 0.000 claims 3
- 101000702553 Schistosoma mansoni Antigen Sm21.7 Proteins 0.000 claims 3
- 101000714192 Schistosoma mansoni Tegument antigen Proteins 0.000 claims 3
- 210000004072 lung Anatomy 0.000 claims 1
- 238000003752 polymerase chain reaction Methods 0.000 description 29
- 230000035945 sensitivity Effects 0.000 description 24
- 230000004083 survival effect Effects 0.000 description 22
- 238000007481 next generation sequencing Methods 0.000 description 19
- 241000894007 species Species 0.000 description 18
- 230000000694 effects Effects 0.000 description 13
- 238000012163 sequencing technique Methods 0.000 description 13
- 230000008901 benefit Effects 0.000 description 12
- 108050001368 Tight junction protein ZO-2 Proteins 0.000 description 11
- 210000004881 tumor cell Anatomy 0.000 description 11
- 238000012795 verification Methods 0.000 description 11
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 10
- 101710201263 Prostaglandin D2 receptor 2 Proteins 0.000 description 9
- 230000007067 DNA methylation Effects 0.000 description 8
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 8
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000006467 substitution reaction Methods 0.000 description 8
- 230000002496 gastric effect Effects 0.000 description 7
- 238000011282 treatment Methods 0.000 description 7
- 101710170319 CUGBP Elav-like family member 3 Proteins 0.000 description 6
- 101710191399 Disabled homolog 2-interacting protein Proteins 0.000 description 6
- 101710191251 E3 SUMO-protein ligase PIAS2 Proteins 0.000 description 6
- 101710170855 Exocyst complex component 3 Proteins 0.000 description 6
- 101000642459 Homo sapiens Transcription factor Sp9 Proteins 0.000 description 6
- 101710138391 N-terminal Xaa-Pro-Lys N-methyltransferase 1 Proteins 0.000 description 6
- 108091028043 Nucleic acid sequence Proteins 0.000 description 6
- 101710190368 Splicing factor 3B subunit 6 Proteins 0.000 description 6
- 238000003556 assay Methods 0.000 description 6
- 238000009585 enzyme analysis Methods 0.000 description 6
- 239000007850 fluorescent dye Substances 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 108010065781 myosin light chain 2 Proteins 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 238000011529 RT qPCR Methods 0.000 description 5
- 108010062276 T-Cell Acute Lymphocytic Leukemia Protein 1 Proteins 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 238000011528 liquid biopsy Methods 0.000 description 5
- 238000002595 magnetic resonance imaging Methods 0.000 description 5
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 5
- 238000012827 research and development Methods 0.000 description 5
- 238000002271 resection Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 5
- 238000002604 ultrasonography Methods 0.000 description 5
- 239000012472 biological sample Substances 0.000 description 4
- 238000001369 bisulfite sequencing Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000001839 endoscopy Methods 0.000 description 4
- 238000009607 mammography Methods 0.000 description 4
- 238000004393 prognosis Methods 0.000 description 4
- 239000000439 tumor marker Substances 0.000 description 4
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 3
- 206010027476 Metastases Diseases 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 3
- 239000000427 antigen Substances 0.000 description 3
- 108091007433 antigens Proteins 0.000 description 3
- 102000036639 antigens Human genes 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 150000001720 carbohydrates Chemical class 0.000 description 3
- 238000002052 colonoscopy Methods 0.000 description 3
- 229940104302 cytosine Drugs 0.000 description 3
- 230000034994 death Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000013399 early diagnosis Methods 0.000 description 3
- 239000012530 fluid Substances 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 230000009401 metastasis Effects 0.000 description 3
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 102000040430 polynucleotide Human genes 0.000 description 3
- 108091033319 polynucleotide Proteins 0.000 description 3
- 239000002157 polynucleotide Substances 0.000 description 3
- 239000002213 purine nucleotide Substances 0.000 description 3
- 150000003212 purines Chemical class 0.000 description 3
- 239000002719 pyrimidine nucleotide Substances 0.000 description 3
- 150000003230 pyrimidines Chemical class 0.000 description 3
- 238000003753 real-time PCR Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 description 3
- 102100033106 ATP-binding cassette sub-family G member 5 Human genes 0.000 description 2
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 2
- 108010077544 Chromatin Proteins 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 101000800387 Homo sapiens ATP-binding cassette sub-family G member 5 Proteins 0.000 description 2
- 101000914324 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 5 Proteins 0.000 description 2
- 101000914321 Homo sapiens Carcinoembryonic antigen-related cell adhesion molecule 7 Proteins 0.000 description 2
- 102100037502 Paired box protein Pax-8 Human genes 0.000 description 2
- 108010047320 Pepsinogen A Proteins 0.000 description 2
- 102100040365 T-cell acute lymphocytic leukemia protein 1 Human genes 0.000 description 2
- 238000002869 basic local alignment search tool Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 210000003483 chromatin Anatomy 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 210000003238 esophagus Anatomy 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 230000012010 growth Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007855 methylation-specific PCR Methods 0.000 description 2
- 238000006116 polymerization reaction Methods 0.000 description 2
- 230000000405 serological effect Effects 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 102100022276 60S ribosomal protein L35a Human genes 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- 206010003445 Ascites Diseases 0.000 description 1
- 102100024290 BTB/POZ domain-containing protein 6 Human genes 0.000 description 1
- 102100025492 CUGBP Elav-like family member 3 Human genes 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical group [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 1
- 208000009458 Carcinoma in Situ Diseases 0.000 description 1
- 102000009410 Chemokine receptor Human genes 0.000 description 1
- 108050000299 Chemokine receptor Proteins 0.000 description 1
- 102100023717 Coiled-coil domain-containing protein 77 Human genes 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 102100024098 Deleted in lung and esophageal cancer protein 1 Human genes 0.000 description 1
- 208000002699 Digestive System Neoplasms Diseases 0.000 description 1
- 102100028571 Disabled homolog 2-interacting protein Human genes 0.000 description 1
- 102100021238 Dynamin-2 Human genes 0.000 description 1
- 102100031780 Endonuclease Human genes 0.000 description 1
- 108010042407 Endonucleases Proteins 0.000 description 1
- 102100030860 Exocyst complex component 3 Human genes 0.000 description 1
- 102000034615 Glial cell line-derived neurotrophic factor Human genes 0.000 description 1
- 206010019375 Helicobacter infections Diseases 0.000 description 1
- 102100034523 Histone H4 Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001053992 Homo sapiens Deleted in lung and esophageal cancer protein 1 Proteins 0.000 description 1
- 102000011782 Keratins Human genes 0.000 description 1
- 108010076876 Keratins Proteins 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 102100031676 Metal transporter CNNM4 Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 101000601385 Mus musculus Sialidase-4 Proteins 0.000 description 1
- 102100026925 Myosin regulatory light chain 2, ventricular/cardiac muscle isoform Human genes 0.000 description 1
- 102100021721 N-terminal Xaa-Pro-Lys N-methyltransferase 1 Human genes 0.000 description 1
- 102100038550 Neurogenin-1 Human genes 0.000 description 1
- 101710096136 Neurogenin-1 Proteins 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 102100040559 Osteopetrosis-associated transmembrane protein 1 Human genes 0.000 description 1
- 206010049082 Pancreatic mass Diseases 0.000 description 1
- 101710105361 Phosphoglucomutase 1 Proteins 0.000 description 1
- 102100030999 Phosphoglucomutase-1 Human genes 0.000 description 1
- 102100029743 Plasma membrane calcium-transporting ATPase 4 Human genes 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 102100034836 Proliferation marker protein Ki-67 Human genes 0.000 description 1
- 102100024218 Prostaglandin D2 receptor 2 Human genes 0.000 description 1
- 102100030546 Protein SNORC Human genes 0.000 description 1
- 102100037729 Sialidase-4 Human genes 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 102100021817 Splicing factor 3B subunit 6 Human genes 0.000 description 1
- 102100023183 Stromal cell-derived factor 2-like protein 1 Human genes 0.000 description 1
- 102100026637 Tight junction protein ZO-2 Human genes 0.000 description 1
- 102100036395 Transcription factor Sp9 Human genes 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102100040110 Tumor necrosis factor receptor superfamily member 10D Human genes 0.000 description 1
- 229910052770 Uranium Inorganic materials 0.000 description 1
- 102100040654 Zinc finger protein 569 Human genes 0.000 description 1
- 101710143078 Zinc finger protein 569 Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000019975 dosage compensation by inactivation of X chromosome Effects 0.000 description 1
- 239000000839 emulsion Substances 0.000 description 1
- 238000012277 endoscopic treatment Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000002575 gastroscopy Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 102000054766 genetic haplotypes Human genes 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 1
- 208000002672 hepatitis B Diseases 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 201000004933 in situ carcinoma Diseases 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 210000004880 lymph fluid Anatomy 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 201000011591 microinvasive gastric cancer Diseases 0.000 description 1
- 238000001821 nucleic acid purification Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007790 scraping Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P35/00—Antineoplastic agents
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
Landscapes
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Pharmacology & Pharmacy (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
提供了特定癌症,如結直腸癌等的特異性甲基化標誌物及其應用。本發明有關於試劑或組件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分特定癌症如結直腸癌患者與非特定癌症,如非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷癌症;或者(3)用於泛癌篩查過程中對特定癌症的組織溯源。例如試劑或元件包含檢測結直腸癌組織特異性甲基化標誌物諸如基因SFN,如SEQ ID No. 52-90的甲基化水平的試劑或組件。本發明用於泛癌種早期篩查過程中對結直腸癌等癌症的組織溯源,達到更好的區分結直腸癌等癌症的目的。
Description
本發明主張享有以下專利申請的優先權權益:申請日2022年7月4日,申請號202210787502.8,發明名稱為“結直腸癌特異性甲基化標誌物及其應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787412.9,發明名稱為“肺癌特異性甲基化標誌物及其診斷肺癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787425.6,發明名稱為“肝癌組織特異性甲基化標誌物及其診斷肝癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210786398.0,發明名稱為“乳腺癌特異性甲基化標誌物及其診斷乳腺癌的應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787313.0,發明名稱為“胃癌及/或食管癌特異性甲基化標誌物及其應用”的中國發明專利申請;申請日2022年7月4日,申請號202210787623.2,發明名稱為“胰腺癌特異性甲基化標誌物及其診斷胰腺癌的應用”的中國發明專利申請。這些申請的內容通過引用方式併入本文。
本發明屬於分子輔助診斷領域,並且具體地有關於癌症特異性甲基化標誌物及其應用,例如結直腸癌組織特異性甲基化標誌物及其診斷結直腸癌的應用。
結直腸癌是人類最常見的腫瘤之一,全球發病率居惡性腫瘤第三位,死亡率居第二位。在中國,結直腸癌的發病率也在不斷升高。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率,早期結直腸癌的5年生存率為90%以上,晚期結直腸癌患者的5年生存率低於10%。從1990年到2015年,美國整體的癌症死亡率下降了25%,其中結直腸癌(男性降低了47%,女性降低了44%),乳腺癌(女性降低了39%)降低最多,癌症死亡率的降低有很重要的一部分原因就是癌症篩查技術的廣泛應用(Byers T等人,2016)。
傳統的結直腸癌篩查方法有免疫糞便潛血檢測(FIT)、腸鏡、腫瘤標誌物(癌胚抗原CEA,糖類抗原CA19-9)檢測等,但是傳統的方法都有一定的局限性,比如腸鏡篩查雖然是消化道癌種的“金標準”,但是腸鏡為侵入性檢測,檢查過程較為痛苦,患者依從性較差;FIT對結直腸癌前病變診斷效能有限;腫瘤標誌物的性能一般較差,只能作為臨床參考,難以大規模篩查應用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等。ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點。已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於結直腸癌組織特異性甲基化標誌物。
肺癌作為全球最高致死原因的癌症。儘管手術、化療、靶向及免疫治療的綜合應用顯著提高了肺癌的生存率,但是與其他癌症相比,肺癌患者的預後仍然相對較差。主要原因為大部分肺癌是在晚期被診斷出來的,這與缺乏普及的肺癌早期篩查有關。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率。約85%肺癌為非小細胞肺癌(NSCLC),早期原位癌患者五年生存率高達55.6%,而中晚期易發生轉移,轉移後患者五年生存率僅4.5%。早期NSCLC患者無明顯症狀,超80%的NSCLC患者確診時,已處於癌症中晚期,並伴隨淋巴結擴散或遠處轉移,存活率較低(Weichert W等人,2014)。從1990年到2015年,美國整體的癌症死亡率下降了25%,其中結男性肺癌患者降幅高達45%。癌症死亡率的降低有很重要的一部分原因就是癌症篩查技術的廣泛應用(Byers T等人,2016)。
傳統的癌症篩查方法有內鏡、影像學檢測(CT、MRI 等)、腫瘤標誌物(如臨床上輔助診斷原發性肝癌的甲胎蛋白,較為廣譜的腫瘤標誌物癌胚抗原,檢測肺癌的腫瘤標誌物細胞角蛋白19Cyfra21-1等)檢測等,但是傳統的方法都有一定的局限性。例如,目前臨床應用最廣泛肺癌早期篩查措施為低劑量CT(LDCT)。雖然LDCT一定程度能檢測出早期NSCLC患者,但其特異性較低,且診斷陽性患者後續需長時間隨訪,不斷複查或其他診療手段進行確診,這些措施會顯著增加患者痛苦,並因為過度診療造成醫療資源浪費。而目前腫瘤標誌物的性能一般較差,只能作為臨床參考,難以大規模篩查應用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於肺癌組織特異性甲基化標誌物。
肝癌在早期往往沒有明顯的臨床症狀和體征,腫瘤腫塊生長緩慢且迅速。大多數患者僅在晚期發現,導致治療選擇有限,預後極差。
最近的生存率資料顯示,中國人群癌症登記處的肝癌5年生存率約為9.8%-12.1%(Zeng H M等,2018),醫院癌症登記處的肝癌5年生存率為11.69%(Chen J G等,2018)。此外,1958-1970年、1971-1982年和1983-1994年接受手術切除的患者的5年生存率分別為4.8%、11.2%和45.4%;小肝癌切除術患者的死亡率為63.8%(Zhou X D等,1996)。在過去的4-50年中,AFP的應用價值和早期檢測的篩查效益的結果還不明確(Chen JG等,2003;Bruix J等,2005;Amarapurkar D等,2009;Santi V等,2010;Kubota H等,2002)。到目前為止,還沒有國際公認的肝癌篩查計畫,學術界也沒有形成科學共識。然而,病例報告和研究報告提供了證據,證明篩查是實現肝癌早期發現、早期診斷和早期治療的有效途徑。篩查對改善預後和降低死亡率具有積極而重要的意義,尤其是在乙型肝炎/肝癌流行區。
DNA甲基化檢測技術被認為是最有潛力的無創癌症篩查手段,已經有技術被證明可以用來進行癌症篩查和組織溯源(E. A. Klein等,2021)。這樣就可以設計出一款檢測多重癌症的檢測手段,同時對多重癌症進行早期檢測。這極大地擴大了篩查範圍,從某一種癌症的高危人群擴展到多種癌症的高危人群,盡可能在一次篩查之內對更廣泛的人群進行檢測,增加受檢者的依從性和擴大可供篩查的人群數量。但是,這種檢測的難點也在於高品質的檢測靶點,找到最具資訊的檢測靶點是此類檢測技術的重點和難點。
本領域中需要用於肝癌組織特異性甲基化標誌物。
乳腺癌是女性的頭號殺手,我國每年約27.88萬人被診斷為乳腺癌,而且隨著生活方式的改變,我國乳腺癌的發病率和死亡率不斷上升。在歐美國家,乳腺癌的5年生存率可達90%,而我國同期資料顯示,經濟發達的上海地區乳腺癌患者的5年生存率為78%,有些地區只有58%(Fan L等人,2014),這很大程度上是歸因於乳腺癌早期篩查的力度。在美國,40歲以上的女性篩查率達到了75%,而在我國,女性篩查率只有21%,84%的患者診斷時已是中晚期,錯過了最佳治療時間。世衛組織已經將早期乳腺癌列為可治癒性疾病,早期乳腺癌患者的5年生存率高達100%,而四期患者僅為21%(Li T等人,2016),因此早期篩查對於乳腺癌患者生存率的提升至關重要。
乳腺超聲,乳腺X線檢查(鉬靶)和核磁共振是常用的乳腺癌篩查方法,但是這些傳統的方法都有一定的技術限制,比較依賴於醫生的操作水平,具有較高的漏診誤診概率。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020);結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,乳腺癌組織特異性甲基化標誌物的發現需要多個癌種的大量甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。本領域中需要用於乳腺癌組織特異性甲基化標誌物。
胃癌和食管癌都是常見的消化道腫瘤。我國是胃癌和食管癌的高發國家。根據2015年中國癌症資料包告,我國胃癌發病率和致死率都在惡性腫瘤中排第二位,食管癌發病率和致死率在惡性腫瘤中分別排第四位和第五位。早期食管癌和癌前病變大部分可通過內鏡下微創治療達到根治效果,5年生存率可達到95%,早期胃癌的5年生存率也超過了90% (Sumyama K.等人 2017), 中晚期食管癌患者生存品質和預後都較差,總體5年生存率不足20%,進展期胃癌的5年生存率低於30%。目前我國食管癌和胃癌早診率都比較低,早期食管癌和胃癌患者都缺乏典型的臨床性狀,大多數患者就診時已是中晚期。因此,要想提高食管癌和胃癌患者的生存率,最有效的方法就是對高風險人群進行早期篩查。
胃癌的篩查方法主要有血清學篩查和內鏡篩查,其中血清學篩查包括血清腫瘤標誌物檢測(癌胚抗原CEA,糖類抗原CA19-9等),血清胃蛋白酶原(pepsinogen,PG)檢測,幽門螺旋桿菌感染檢測等,但是血清學相關方法靈敏度和特異性都比較低,難以大規模人群篩查使用。食管癌的篩查方法以內鏡為主。內鏡及其活檢是診斷胃癌和食管癌的金標準,但是內鏡檢查依賴設備和內鏡醫師資源,檢查費用相對較高,且為侵入性檢測,患者依從性較差,難以大規模人群篩查使用。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020);結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是,組織特異性甲基化標誌物的發現需要多個癌種大量的甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。
胃和食管是人體內臨近的兩個器官,相關檢測陽性樣本可以使用胃鏡可以同時對食管和胃部的病變進行確認,因此在泛癌種篩查過程中的組織溯源階段可以將食管癌和胃癌劃分為一類,尋找兩個癌種特異性的甲基化標誌物,構建模型用以將食管癌和胃癌與其它癌種進行區分。
本領域中需要用於胃癌及/或食管癌組織特異性甲基化標誌物。
癌症篩查通過檢測癌症高危人群的早期相關信號,及時發現癌症早期患者,早期癌症患者可以通過手術切除達到完全治癒的目的,癌症篩查可以大大降低癌症患者的死亡率。胰腺癌是惡性程度最高的消化系統腫瘤,早期發現並手術切除是治癒胰腺癌的唯一途徑。據2018年全球腫瘤流行病資料,胰腺癌占所有腫瘤的2.7%,居第9位,現階段胰腺癌總的5年生存率只有5%左右,主要原因就是胰腺癌難以早期診斷,待確診時大多已達晚期,而I期或者腫瘤直徑小於1cm的早期胰腺癌患者5年生存率可達75%,只有實現對該類患者的早期篩查,才能實現提高胰腺癌生存率的目的。
傳統的胰腺癌篩查方法主要有影像學篩查(彩超,CT,核磁共振等)及血液腫瘤標誌物(主要是糖類抗原CA199檢查)。如果彩超和CT有檢查到胰腺腫塊,或者腫瘤指標CA199明顯升高的情況下,則考慮是胰腺癌的可能性。但是,CA199僅在65%的可切除胰腺癌患者中表達升高,不適用於大規模人群早篩。彩超可以發現直徑2cm以上的腫瘤,CT/核磁共振可以發現1cm以上的胰腺腫瘤,對於低於1cm的胰腺癌早期腫瘤會有漏診,同樣難以應用於大規模人群篩查。
近年來研究火熱的液體活檢,以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,相比傳統方法具有取樣方便,非侵入性,可實現泛癌種早篩以及克服了腫瘤異質性等優點,得到了大量的應用。ctDNA可以從多方面反映癌症的資訊,如突變,片段化長度分佈,甲基化等,其中ctDNA的甲基化以其出眾的性能已經成為癌症早篩產品研究和開發的熱點,已經有眾多ctDNA甲基化早篩的應用,如泛癌種甲基化早篩應用PanSeer在96%的特異性下,在5個癌種(胃癌,食管癌,肝癌,結直腸癌,肺癌)中可以達到88%的敏感性,相比傳統方法可以提前4年發現癌症(Xingdong Chen等人,2020)。結直腸癌中僅使用6個qPCR標誌物構建的機器學習模型就可以在92%的特異性下達到86%的敏感性,達到遠優於傳統癌症篩查方法的效果(Guo-Xiang Cai等人,2021)。
癌症篩查尤其是泛癌種早篩不僅需要預測癌症信號的有無,還需要對陽性的樣本進行組織溯源,而人體不同的位置的癌種具有不同的甲基化特徵(Kundaje A等人,2015),利用這些組織特異的甲基化特徵可以實現組織溯源。但是組織特異性甲基化標誌物的發現需要多個癌種大量的甲基化測序數據以及嚴格的篩選驗證過程,是一項具有較大挑戰性的工作。
本領域中需要用於胰腺癌組織特異性甲基化標誌物。
現有技術中結直腸癌診斷存在上述諸多缺陷。針對本領域中缺乏針對結直腸癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,結直腸癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到結直腸癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對結直腸癌的組織溯源,達到更好的區分結直腸癌的目的。
一方面,本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是結直腸癌組織特異性甲基化標誌物。在一個實施方案中,分離的核酸是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從結直腸癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。在一個實施方案中,變體包含與任一種基因的序列具有至少50%同一性的序列。例如,變體包含與任一種基因的序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。在一個實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區。在一個實施方案中,上游區是基因上游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,分離的核酸包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體:SEQ ID No. 52-90。在一個實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中結直腸癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90。在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物及/或血漿。在一個實施方案中,樣品基因組DNA是血漿中的游離DNA。
在一個方面,本發明提供了一種構建區分結直腸癌與其他非結直腸癌的預測模型的方法,其包括:(1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是140bp-510bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,方法包括(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,通過MethylTitan的方法獲得樣品DNA的甲基化測序數據。在一個實施方案中,步驟(2)包括使用邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中結直腸癌為1,其它癌種為0。可以根據訓練集的樣本確定模型的相關閾值。
在一個方面,本發明提供了本文的方法構建的結直腸癌預測模型。
在一個方面,本發明提供了診斷結直腸癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行本文所述的方法以構建結直腸癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷,大於閾值預測為結直腸癌,反之預測為其它癌種。
在一個方面,本發明提供了方法,其(1)區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種結直腸癌特異性甲基化標誌物的甲基化水平。
在一個方面,本發明提供了一種試劑盒或裝置,其在(1)區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源中應用。在一個實施方案中,該應用包括測定樣品基因組DNA中的本文中所述的一種或多種結直腸癌特異性甲基化標誌物的甲基化水平。
在另一個方面,本發明提供了一種用於檢測結直腸癌組織特異性甲基化標誌物的試劑盒或裝置。在一個實施方案中,試劑盒或裝置包含檢測來自樣品的基因組DNA中的本文所述的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑包含用於檢測結直腸癌特異性甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明的結直腸癌特異性甲基化標誌物的優勢包括:
1. 本發明提供了新的結直腸癌特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對結直腸癌的組織溯源,達到更好的區分結直腸癌的目的;
2. 以結直腸癌腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現結直腸癌早篩;
3. 本發明的結直腸癌特異性甲基化標誌物可以以高的敏感性和特異性檢出結直腸癌。
針對本領域中缺乏針對肺癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,肺癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到肺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對肺癌的組織溯源,達到更好的區分肺癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,非肺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分肺癌與其他非肺癌的癌症的預測模型的方法,其包括:
(1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和
(2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肺癌為1,其它癌種為0。可以據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的肺癌預測模型。
在另一個方面,提供了診斷肺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建肺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值。
在另一個方面,提供了用於檢測肺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是肺癌組織特異性甲基化標誌物。在一個實施方案中,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為120bp-500bp,優選200bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從肺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區。在一個實施方案中,上游區是基因上游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是120bp-500bp,優選200bp-480bp。在一個實施方案中,位點的長度可以是130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的肺癌預測模型進行該方法。
本發明的肺癌組織特異性甲基化標誌物的優勢包括:
1. 本發明提供了新的肺癌組織特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對肺癌的組織溯源,達到更好的區分肺癌的目的;
2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現肺癌早篩;
3. 本發明的肺癌組織特異性甲基化標誌物可以以高的敏感性和特異性檢出肺癌。
急需用於針對肝癌的組織特異性甲基化標誌物。本發明人從7個癌種(肺癌,結直腸癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到肝癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對肝癌的組織溯源,達到更好的區分肝癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肝癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1(T-cell acute lymphocytic leukemia protein 1)基因;TRIM58基因;LBH基因;ABCG5 (ATP Binding Cassette Subfamily G Member 5)基因;PAX8 (Paired Box 8)基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,非肝癌的癌症或泛癌包括結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分肝癌與其他非肝癌的預測模型的方法,其包括:
(1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和
(2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型),例如AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,使用AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肝癌為1,其它癌種為0。
在另一個方面,提供了根據本發明的方法構建的肝癌預測模型。
在另一個方面,提供了診斷肝癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建肝癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。模型預測分值可以使用TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值。
在另一個方面,提供了用於檢測肝癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針;
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是肝癌組織特異性甲基化標誌物。在一個實施方案中,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從肝癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少60%同一性的序列。例如,變體包含與任一種基因的序列具有至少65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區。在一個實施方案中,上游區是基因上游的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度為100bp-550bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,位點的長度可以是110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp、520bp、530bp或540bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的肝癌預測模型進行該方法。
本發明的肝癌甲基化標誌物的優勢包括:
1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對肝癌的組織溯源,達到更好的區分肝癌的目的;
2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現肝癌早篩;
3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出肝癌。
乳腺超聲,乳腺X線檢查(鉬靶)和核磁共振是常用的乳腺癌篩查方法,但是這些傳統的方法都有一定的技術限制,比較依賴於醫生的操作水平。本領域中缺乏針對乳腺癌組織特異性甲基化標誌物。針對這些技術問題,發明人從7個癌種(肺癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到乳腺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對乳腺癌的組織溯源,達到更好的區分乳腺癌的目的。本發明的乳腺癌組織特異性甲基化標誌物是先前沒有描述的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中乳腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。
在一個實施方案中,非乳腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分乳腺癌與其他非乳腺癌的預測模型的方法,其包括:
(1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和
(2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為150bp-500bp,優選200bp-470bp。在一個實施方案中,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的相關閾值。
例如,使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中乳腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的乳腺癌預測模型。
在另一個方面,提供了診斷乳腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建乳腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得預測分值並根據閾值對樣本是否是乳腺癌進行判斷。例如,使用TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷,大於閾值預測為乳腺癌,反之預測為其它癌種。
在另一個方面,提供了用於檢測乳腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是乳腺癌組織特異性甲基化標誌物。在一個實施方案中,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為150bp-500bp。在一個實施方案中,位點的長度為200bp-470bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從乳腺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區。在一個實施方案中,上游區是基因上游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的乳腺癌預測模型進行該方法。
本發明的優勢包括:
1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對乳腺癌的組織溯源,達到更好的區分乳腺癌的目的;
2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現乳腺癌早篩;
3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出乳腺癌。
針對本領域中缺乏針對胃癌及/或食管癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,結直腸癌,胃癌,食管癌,胰腺癌,乳腺癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到胃癌及/或食管癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對胃癌及/或食管癌的組織溯源,達到更好的區分胃癌及/或食管癌的目的。
一方面,本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是胃癌及/或食管癌組織特異性甲基化標誌物。在一個實施方案中,分離的核酸是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從胃癌及/或食管癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在一個實施方案中,變體包含與任一種胃癌及/或食管癌組織特異性甲基化標誌物基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在一個實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區。在一個實施方案中,上游區是基因上游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,分離的核酸包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體:SEQ ID No. 23、72、143、150、152、157和160-187。
在一個實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少60%、65%、70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胃癌及/或食管癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物及/或血漿。在一個實施方案中,樣品基因組DNA是血漿中的游離DNA。
在一個方面,本發明提供了一種構建區分胃癌及/或食管癌與除胃癌和食管癌以外的癌症的預測模型的方法,其包括:(1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。
在一個實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是150bp-500bp。在一個實施方案中,位點的長度可以是200bp-470bp。在一個實施方案中,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
在一個實施方案中,方法包括(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。
在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。在一個實施方案中,通過MethylTitan的方法獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。例如,可以使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
。可以使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胃癌及/或食管癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在一個方面,本發明提供了本文的方法構建的胃癌及/或食管癌預測模型。
在一個方面,本發明提供了診斷胃癌及/或食管癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行本文所述的方法以構建胃癌及/或食管癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。可以使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。
在一個方面,本發明提供了方法,其(1)區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。
在一個方面,本發明提供了一種試劑盒或裝置,其在(1)區分胃癌及/或食管癌癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源中應用。在一個實施方案中,該應用包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。
在另一個方面,本發明提供了一種用於檢測胃癌及/或食管癌組織特異性甲基化標誌物的試劑盒或裝置。
在一個實施方案中,試劑盒或裝置包含檢測來自樣品的基因組DNA中的本文所述的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針。
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
本發明的優勢包括:
1. 本發明提供了新的胃癌及/或食管癌組織特異性甲基化標誌物,可以用於泛癌種早期篩查過程中對胃癌及/或食管癌的組織溯源,達到更好的區分胃癌及/或食管癌的目的;
2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現胃癌及/或食管癌早篩;
3. 本發明的胃癌及/或食管癌組織特異性甲基化標誌物可以以高的敏感性和特異性檢出胃癌及/或食管癌。
針對本領域中缺乏針對胰腺癌組織特異性甲基化標誌物的現狀,本發明人從7個癌種(肺癌,肝癌,胃癌,食管癌,胰腺癌,乳腺癌,結直腸癌)的大量下一代測序(NGS)cfDNA甲基化靶向測序數據中篩選到胰腺癌組織特異性的甲基化標誌物。發明人使用篩選得到的甲基化標誌物進行機器學習模型的構建和驗證,用於泛癌種早期篩查過程中對胰腺癌的組織溯源,達到更好的區分胰腺癌的目的。
一方面,本發明提供了試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胰腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因PGM1 (Phosphoglucomutase 1);基因CELF3 (CUGBP Elav-Like Family Member 3);基因ATP2B4 (ATPase Plasma Membrane Ca2+ Transporting 4);基因SF3B6 (Splicing Factor 3b Subunit 6);基因CNNM4 (Cyclin And CBS Domain Divalent Metal Cation Transport Mediator 4) ;基因SP9(Sp9 Transcription Factor);基因C2orf82(chromosome 2 open reading frame 82);基因NEU4 (Neuraminidase 4);基因RPL35A(Ribosomal Protein L35a);基因HGFAC;基因EXOC3 (Exocyst Complex Component 3);基因GDNF(Glial cell line-derived neurotrophic factor);基因NEUROG1 (Neurogenin 1);基因HIST1H2BA;基因OSTM1 (Osteoclastogenesis Associated Transmembrane Protein 1);基因CCR6 (C-C Motif Chemokine Receptor);基因CCAR2;基因TNFRSF10D(TNF Receptor Superfamily Member 10d);基因TJP2 (Tight Junction Protein 2);基因DAB2IP (DAB2 Interacting Protein);基因NTMT1 (N-Terminal Xaa-Pro-Lys N-Methyltransferase 1);基因MKI67 (Marker Of Proliferation Ki-67);基因PTGDR2 (Prostaglandin D2 Receptor 2);基因CCDC77 (Coiled-Coil Domain Containing 77);基因MYL2 (Myosin Light Chain 2);基因FRY;基因SMEK1;基因BTBD6 (BTB Domain Containing 6);基因PIF1;基因SRL;基因SPNS1;基因DNM2 (Dynamin 2);基因ZNF569 (Zinc Finger Protein 569);基因SDF2L1 (Stromal Cell Derived Factor 2 Like 1);或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,非胰腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
在另一個方面,本發明提供了一種構建區分胰腺癌與其他非胰腺癌的癌症的預測模型的方法,其包括:
(1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;和
(2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
在一個實施方案中,位點的長度為130bp-530bp,優選150bp-480bp。在一個實施方案中,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
在一個實施方案中,甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,基因組DNA是血漿中的游離DNA。
在一個實施方案中,步驟(1)包括獲得樣品DNA的甲基化測序數據。
在一個實施方案中,步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的閾值。
在一個實施方案中,步驟(2)包括使用邏輯回歸模型(python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣品中甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胰腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。
在另一個方面,提供了根據本發明的方法構建的胰腺癌預測模型。
在另一個方面,提供了診斷胰腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行根據本發明的方法以構建胰腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷。在一個實施方案中,使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷,大於閾值預測為胰腺癌,反之預測為其它癌種。
在另一個方面,提供了用於檢測胰腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。
在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,核酸是血漿中的游離DNA。
在一個實施方案中,試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
在一個實施方案中,試劑包含用於檢測甲基化標誌物的寡核苷酸。在一個實施方案中,寡核苷酸是引子及/或探針;
在一個實施方案中,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。
在一個實施方案中,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非胰腺癌的癌症患者的前述特異性甲基化標誌物。在一個實施方案中,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
本發明提供了分離的核酸,其是一種或多種特異性甲基化標誌物。在一個實施方案中,分離的核酸是胰腺癌組織特異性甲基化標誌物。在一個實施方案中,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變。在一個實施方案中,位點的長度為130bp-530bp。在一個實施方案中,位點的長度為150bp-480bp。在一個實施方案中,甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。在一個實施方案中,分離的核酸從樣品分離。在一個實施方案中,樣品是細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,分離的核酸是從胰腺癌患者獲得的。例如,分離的核酸是從血漿中的游離DNA中獲得的。
在本發明的各方面的實施方案中,變體包含與任一種基因的序列具有至少70%同一性的序列。例如,變體包含與任一種基因的序列具有至少75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的序列。
在本發明的各方面的實施方案中,所述區域是所述基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區。在一個實施方案中,上游區是基因上游的2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區。下游區是基因下游的2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp下游區。
在本發明的各方面的實施方案中,位點的長度可以有所變化。在一個實施方案中,位點的長度可以是130bp-530bp。在一個實施方案中,位點的長度可以是150bp-480bp。在一個實施方案中,位點的長度可以是140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp或520bp。
在在本發明的各方面的實施方案中,變體是與上述任一項或多項所示的核苷酸序列具有至少70%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同一性的變體序列。
在一個方面,本發明提供了方法,其(1)區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,包括測定樣品基因組DNA中的本文中所述的一種或多種甲基化標誌物的甲基化水平。在一個實施方案中,利用本發明的胰腺癌預測模型進行該方法。
本發明的優勢包括:
1. 本發明提供了新的甲基化標誌物,可以用於泛癌種早期篩查過程中對胰腺癌的組織溯源,達到更好的區分胰腺癌的目的;
2. 以腫瘤細胞釋放到血漿中的游離DNA(ctDNA)為基礎,為非侵入性方法,可實現胰腺癌早篩;
3. 本發明的甲基化標誌物可以以高的敏感性和特異性檢出胰腺癌。
本發明人從7個癌種大量的NGS甲基化測序數據中篩選到了結直腸癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中結直腸癌的組織溯源提供了重要的技術支援。
本發明人從7個癌種大量的NGS甲基化測序數據中篩選到了肺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中肺癌的組織溯源提供了重要的技術支援。
本發明從7個癌種的大量NGS甲基化測序數據中篩選到了肝癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中肝癌的組織溯源提供了重要的技術支援。
本發明從7個癌種的大量NGS甲基化測序數據中篩選到了乳腺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中乳腺癌的組織溯源提供了重要的技術支援。
本發明人從7個癌種的大量的NGS甲基化測序數據中篩選到了胃癌及/或食管癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中胃癌及/或食管癌的組織溯源提供了重要的技術支援。發明人發現,胃癌及/或食管癌與以下基因區域的甲基化水平相關:SEQ ID No. 23、72、143、150、152、157和160-187。
本發明從7個癌種大量的NGS甲基化測序數據中篩選到了胰腺癌組織特異性的甲基化標誌物,並且在相關驗證資料中能達到很好的組織溯源效果,為泛癌種早篩過程中胰腺癌的組織溯源提供了重要的技術支援。
機器學習建模是為輸入的資料特徵尋找最合適的表現形式的過程,使其能夠解決具體問題,例如分類問題。經過建模之後的資料要比每一個輸入的單個資料特徵具備更佳的區分能力。本文展示了最佳模型以及模型中每個標誌物的分類效果,選擇任意的特徵組合進行建模的區分效果介於最優模型與單個特徵之間。如本文中所示,每一個單獨的標誌物都具備區分效果,在本專利申請實施例中也展示了隨機選擇標誌物進行分類的結果。因此,本專利申請對全部標誌物組合模型進行保護。
發明人發現,結直腸癌與以下基因區域(SEQ ID No. 52-90)的甲基化水平相關:第1號染色體第27189993-27190207位;第1號染色體第27732194-27732394位;第1號染色體第121260989-121261197位;第2號染色體第469568-469933位;第2號染色體第106959197-106959397位;第3號染色體第13323366-13323566位;第3號染色體第69230395-69230599位;第6號染色體第1393206-1393469位;第6號染色體第166580183-166580476位;第7號染色體第29605610-29605810位;第7號染色體第73407894-73408161位;第7號染色體第93519986-93520213位;第7號染色體第150069569-150069875位;第8號染色體第22438141-22438341位;第8號染色體第97506340-97506540位;第8號染色體第141231103-141231303位;第9號染色體第71788926-71789126位;第10號染色體第518081-518444位;第10號染色體第74069147-74069510位;第11號染色體第-1955139-1955372位;第11號染色體第31848632-31848877位;第12號染色體第94605804-94606004位;第13號染色體第49795241-49795441位;第13號染色體第109147964-109148164位;第14號染色體第105102434-105102644位;第15號染色體第45670805-45671005位;第16號染色體第1202353-1202553位;第16號染色體第57025884-57026193位;第17號染色體第11143843-11144043位;第17號染色體第21300616-21300930位;第17號染色體第46796372-46796572位;第17號染色體第73607909-73608115位;第17號染色體第76991129-76991518位;第18號染色體第76150778-76150991位;第19號染色體第2790947-2791147位;第19號染色體第4059528-4059746位;第19號染色體第10823485-10823947位;第19號染色體第39306255-39306455位;第20號染色體第43331809-43332099位元,其中甲基化標誌物的物理位置是參照人全基因組序列hg19確定的。
發明人發現,肺癌與以下基因區域或其上下游區域的甲基化水平相關:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9。
發明人發現,肝癌與以下基因區域或其上下游區域的甲基化水平相關:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;或WISP2基因。
發明人發現,乳腺癌與以下基因區域或其上下游區域的甲基化水平相關:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81。
發明人發現,胰腺癌與以下基因區域或其上下游區域的甲基化水平相關:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1。
DNA甲 基化是表觀遺傳的一種機制,是真核細胞基因組常見的表觀遺傳學修飾,能夠在不改變DNA序列的情況下改變遺傳表現。所謂DNA甲基化是指在DNA甲基化轉移酶(methyltransferase)的作用下,在基因組CpG二核苷酸的胞嘧啶5號碳位共價結合一個甲基基團。DNA甲基化在細胞增殖、分化、發育等方面起重要作用,與腫瘤的發生、發展關係密切,其效應有轉錄抑制、染色質結構調節、X染色體失活、基因組印記等。DNA甲基化異常可以通過影響染色質結構以及癌基因和抑癌基因的表達而參與腫瘤的發生和進展。
如本文所用,“引物”是指在核苷酸聚合作用起始時引導合成的具有特定核苷酸序列的核酸分子。引物通常是人工合成的兩段寡核苷酸序列,一個引物與靶區域一端的一條DNA範本鏈互補,另一個引物與靶區域另一端的另一條DNA範本鏈互補,其功能是作為核苷酸聚合作用的起始點。體外人工設計的引物廣泛用於聚合酶鏈反應(PCR)、qPCR、測序和探針合成等。通常,引物設計為擴增的產物長度為50-150bp、60-140、70-130、80-120bp。本文試劑中所含引物可以是基因組測序的引物,例如全基因組測序引物或針對基因組某一區域的測序引物,也可以是用於擴增特定區域的PCR引物或用於擴增區域中一個或多個甲基化位點的PCR引物。引物可以是全基因組測序引物,所述引物可以獲得很多擴增產物,這些擴增產物可以包含所述區域或在拼接後包含所述區域。根據全基因組測序結果,在測序後獲得該區域中的每個甲基化位元點(CpG)的甲基化狀態,從而獲取整個區域的甲基化水平。引物與感興趣的基因或區域是互補或基本上互補的。
如本文所用,術語“變體”是指與參照序列相比,通過一個或多個核苷酸的插入、缺失或取代使核酸序列發生變化,同時保留其與其他核酸雜交能力的多核苷酸。本文任一實施方案所述的變體包括與參照序列或參照基因具有至少70%,優選至少80%,優選至少85%,優選至少90%,優選至少95%,優選至少97%的序列同一性並保留參照序列或參照基因的甲基化位點的核苷酸序列。可採用例如NCBI的BLASTn計算兩條比對的序列之間的序列同一性。變體還包括在參照序列的核苷酸序列中具有一個或多個突變(插入、缺失或取代)、同時仍保留參照序列甲基化位點的核苷酸序列。多個突變通常指1-10個以內,例如1-8個、1-5個或1-3個。取代可以是嘌呤核苷酸與嘧啶核苷酸之間的取代,也可以是嘌呤核苷酸之間或嘧啶核苷酸之間的取代。取代優選是保守性取代。例如,在本領域中,用性能相近或相似的核苷酸進行保守性取代時,通常不會改變多核苷酸的穩定性和功能。保守性取代例如嘌呤核苷酸之間的(A與G)的互換,嘧啶核苷酸之間的(T或U與C)的互換。因此,在本發明多核苷酸中用來自同一殘基替換一個或幾個位點,將不會在實質上影響其活性。此外,本發明的變體中所含有的本文所述的甲基化位點未發生突變。即本發明方法檢測的是相應序列中的甲基化位元點的甲基化情況,對於這些位元點之外的堿基可以發生突變。
如本文所用,術語“生物樣品”或“樣品”通常指從感興趣的生物來源(例如組織或生物體或細胞培養物)獲得或衍生的樣品。在一些實施方案中,作為樣品來源的生物體是動物或人,優選是人。在一些實施方案中,樣品是或包括生物組織或流體。在一些實施方案中,生物樣品可以是或包括細胞、組織或體液。在一些實施方案中,生物樣品可以是或包括血液、血細胞、無細胞DNA、游離的漂浮核酸、腹水、活組織檢查樣品、外科樣品、含細胞體液、痰、唾液、糞便、尿液、腦脊液、腹膜液、胸膜液、淋巴液、婦科液、分泌物、排泄物、皮膚拭子、陰道拭子、口腔拭子、鼻拭子、洗液如導管洗液或支氣管肺泡洗液、吸出物、刮片等。在一些實施方案中,生物樣品是或包括從單個受試者或從多個受試者獲得的細胞。樣品可以是直接從生物來源獲得的“初級樣品”,或者可以是“處理過的樣品”。
如本文所用,術語“癌症”用於指細胞表現出異常、失控和/或自主生長,使得它們表現出異常升高的增殖速率和/或異常生長表型的疾病或病症。在本發明中,感興趣的癌症可以是結直腸癌。在本發明中,感興趣的癌症可以是肺癌。在本發明中,感興趣的癌症可以是肝癌。在本發明中,感興趣的癌症可以是乳腺癌。在本發明中,感興趣的癌症可以是胃癌和/或食管癌。在本發明中,感興趣的癌症可以是胰腺癌。
如本文所用,術語“診斷”是指確定受試者是否患有或有風險形成癌症的定量概率和/或定性概率。例如,在癌症的診斷中,診斷可包括關於癌症的風險、類型、階段、惡性等的確定。
如本文所用,術語“標誌物”與其在本領域中的用途一致,是指其存在,水平或形式與特定的感興趣的生物事件或狀態相關聯的實體,從而認為是該事件或狀態的“標誌”。本領域技術人員將認識到,在甲基化標誌物的上下文中,甲基化標誌物可以是或包括基因座(例如一個或多個甲基化基因座)和/或基因座的狀態(例如一個或多個甲基化基因座的狀態)。標誌物可以是或包括特定疾病的標誌物,或者可以是特定疾病在受試者中發展、發生或復發的定量概率的標誌物。本發明的甲基化標誌物可以是結直腸癌、肺癌、肝癌、乳腺癌、胃癌和/或食管癌,以及胰腺癌之一的預測、預後和/或診斷的標誌物。
如本文所用,“DNA區域”或“區域”是指較大DNA分子的任何連續部分。在本文中,DNA區域是指感興趣的基因以及其上游和下游的區域。基因或區域的“上游”是指相對于基因或區域5’端的區域。基因或區域的“下游”是指相對于基因或區域3’端的區域。
如本文所用,術語“同一性”是指核酸分子(例如DNA分子和/或RNA分子)之間的總體相關性。用於計算兩個提供的序列之間的同一性百分比的方法是本領域已知的。例如,可以如下計算兩個核酸的同一性百分比:比對兩個序列以達到最佳的比較目的(例如,可以在第一和第二序列中的一個或兩個序列中引入缺口以進行最佳比對,並且為了比較的目的可以忽略不相同的序列);然後比較相應位置的核苷酸;當第一序列中的位置被與第二序列中的相應位置相同的殘基(例如核苷酸或氨基酸)佔據時,那麼分子在該位置是相同的。兩個序列之間的同一性百分數是序列共用的相同位置的數目的函數(考慮到為了最佳比對引入的缺口的數目和每個缺口的長度)。序列的比較和兩個序列之間同一性百分比的確定可以使用諸如BLAST(基本局部比對搜索工具)之類的計算演算法來完成。
如本文所用,術語“甲基化”包括(i)胞嘧啶的任何C5位;(ii)胞嘧啶的N4位;(iii)腺嘌呤的N6位的甲基化;和(iv)其它類型的核苷酸甲基化。甲基化的核苷酸可以稱作“甲基化核苷酸”或“甲基化核苷酸堿基”。在某些實施方案中,如本文所述的甲基化具體指胞嘧啶殘基的甲基化。在一些情況下,甲基化指存在於CpG位點中的胞嘧啶殘基的甲基化。
如本文所用,術語“甲基化分析”指可用於確定甲基化位元點的甲基化狀態或水平的任何技術。
如本文所用,術語“甲基化標誌物”指至少一個甲基化位點和/或至少一個甲基化位元點的甲基化狀態(例如超甲基化位元點)的標誌物。特別地,甲基化標誌物的特徵在於一個或多個核酸位元點的甲基化狀態在第一狀態和第二狀態(例如,在癌變狀態和非癌變狀態之間)之間變化。
如本文所用,“甲基化狀態”指甲基化基因座內的甲基化位點的甲基化數量,頻率或模式。因此,在第一狀態和第二狀態之間甲基化狀態的變化可以是或包括甲基化位元點的數目,頻率或模式的增加,或者可以是或包括甲基化位元點的數目,頻率或模式的減少。在各種情況下,甲基化狀態的改變是甲基化值的改變。在本文中,甲基化狀態可以以甲基化單倍型頻率表示。
如本文所用,術語“甲基化值”是指甲基化狀態的數位表示,例如,以表示甲基化基因座的甲基化頻率或比率的數位的形式。在一些情況下,甲基化值可以通過如下的方法產生,該方法包括在用甲基化依賴性限制性內切酶限制性消化樣品之後定量樣品中存在的完整核酸的量。在一些情況下,甲基化值可以通過包括比較樣品的亞硫酸氫鹽反應後的擴增概況的方法產生。在一些情況下,可以通過比較亞硫酸氫鹽處理和未處理核酸的序列來產生甲基化值。在一些情況下,甲基化值是定量PCR結果,包括定量PCR結果或基於定量PCR結果。本文中,甲基化水平代表一個或多個位點處於甲基化狀態的比例。一個區域(或一組位元點)的甲基化水平是該區域中所有位元點(或組中所有位點)的甲基水平的均值。因此,區域的甲基化水平上升或下降並不表示區域中所有甲基化位元點的甲基化水平都上升或下降。本領域知曉將檢測DNA甲基化的方法(例如簡化甲基化測序)所得結果轉化為甲基化水平的過程。例如,可以利用軟體Bismark(v0.17.0)獲得CpG位點的甲基化水平。檢測DNA甲基化的方法在本領域中是已知的,包括但不限於基於重亞硫酸鹽轉化的PCR(例如甲基化特異性PCR(Methylation-specific PCR, MSP))、DNA測序(如亞硫酸氫鹽測序(Bisulfite sequencing, BS)、全基因組甲基化測序(Whole-genome bisulfite sequencing, WGBS)、簡化甲基化測序(Reduced Representation Bisulfite Sequencing, RRBS))、甲基化敏感的限制性內切酶分析法(Methylation-Sensitive Dependent Restriction Enzymes)、螢光定量法、甲基化敏感性高解析度熔解曲線法(Methylation-sensitivity High-resolution Melting, MS-HRM)、基於晶片的甲基化圖譜分析或質譜(例如飛行質譜)、大規模平行測序技術(例如下一代測序技術),例如合成測序、即時(例如單分子)測序、珠粒乳液測序、奈米孔測序等。在一個或多個實施方案中,檢測包括檢測基因或位點處的任一條鏈。也可以使用簡化基因組甲基化測序(RRBS)檢測DNA甲基化。簡化基因組甲基化測序是利用限制性內切酶對基因組進行酶切,經亞硫酸氫鹽處理,對基因組CpG區域進行測序的技術。例如,簡化基因組甲基化測序所用試劑包括:血漿核酸純化試劑盒、連接酶、重亞硫酸鹽及其衍生物、dNTP、聚合酶、引物、無核酸酶水和/或磁珠等。
如本文所用,標誌物的“特異性”是指以不存在感興趣的事件或狀態為特徵的樣品的百分比,其中標誌物的測量精確地指示不存在感興趣的事件或狀態(真實陰性率)。在各種實施方案中,陰性樣品的表徵不依賴於標誌物,並且可以通過任何相關的測量,例如本領域技術人員已知的任何相關測量來實現。因此,特異性反映當在不表徵感興趣的事件或狀態的樣品中測量時標誌物將檢測到感興趣的事件或狀態的不存在的概率。在感興趣的事件或狀態是結直腸癌的特定實施方案中,特異性指標志物將檢測缺乏結直腸癌的受試者中結直腸癌的不存在的概率。結直腸癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是肺癌的特定實施方案中,特異性指標志物將檢測缺乏肺癌的受試者中肺癌的不存在的概率。肺癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是肝癌的特定實施方案中,特異性指標志物將檢測缺乏肝癌的受試者中肝癌的不存在的概率。肝癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是乳腺癌的特定實施方案中,特異性指標志物將檢測缺乏乳腺癌的受試者中乳腺癌的不存在的概率。乳腺癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是胃癌和/或食管癌的特定實施方案中,特異性指標志物將檢測缺乏胃癌和/或食管癌的受試者中胃癌和/或食管癌的不存在的概率。胃癌和/或食管癌的不存在可以例如通過組織學來確定。在感興趣的事件或狀態是胰腺癌的特定實施方案中,特異性指標志物將檢測缺乏胰腺癌的受試者中胰腺癌的不存在的概率。胰腺癌的不存在可以例如通過組織學來確定。
如本文所用,標誌物的“敏感性”是指以存在感興趣的事件或狀態為特徵的樣品的百分比,其中標誌物的測量精確地指示存在感興趣的事件或狀態(真實陽性率)。在各種實施方案中,陽性樣品的表徵不依賴於標誌物,並且可以通過任何相關的測量,例如本領域技術人員已知的任何相關測量來實現。因此,敏感性反映了當在以感興趣事件或狀態的存在為特徵的樣品中測量時標誌物將檢測到感興趣的事件或狀態的存在的概率。在感興趣的事件或狀態是結直腸癌的特定實施方案中,敏感性指標志物將檢測患有結直腸癌的受試者中結直腸癌的存在的概率。結直腸癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是肺癌的特定實施方案中,敏感性指標志物將檢測患有肺癌的受試者中肺癌的存在的概率。肺癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是肝癌的特定實施方案中,敏感性指標志物將檢測患有肝癌的受試者中肝癌的存在的概率。肝癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是乳腺癌的特定實施方案中,敏感性指標志物將檢測患有乳腺癌的受試者中乳腺癌的存在的概率。乳腺癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是胃癌和/或食管癌的特定實施方案中,敏感性指標志物將檢測患有胃癌和/或食管癌的受試者中胃癌和/或食管癌的存在的概率。胃癌和/或食管癌的存在可以例如通過組織學來確定。在感興趣的事件或狀態是胰腺癌的特定實施方案中,敏感性指標志物將檢測患有胰腺癌的受試者中胰腺癌的存在的概率。胰腺癌的存在可以例如通過組織學來確定。
本文所用術語“受試者”指的是生物體,通常是哺乳動物(例如人)。 在一些實施方案中,在一個實施方案中,受試者患有癌症。在一個實施方案中,受試者患有結直腸癌。在一個實施方案中,受試者患有肺癌。在一個實施方案中,受試者患有肝癌。在一個實施方案中,受試者患有乳腺癌。在一個實施方案中,受試者患有胃癌和/或食管癌。在一個實施方案中,受試者患有胰腺癌。
從結直腸癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從結直腸癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選結直腸癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.3kb上游區和2.3kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體 | 起始位置 | 終止位置 |
Seq ID NO:52 | chr1 | 27189993 | 27190207 |
Seq ID NO:53 | chr1 | 27732194 | 27732394 |
Seq ID NO:54 | chr1 | 121260989 | 121261197 |
Seq ID NO:55 | chr2 | 469568 | 469933 |
Seq ID NO:56 | chr2 | 106959197 | 106959397 |
Seq ID NO:57 | chr3 | 13323366 | 13323566 |
Seq ID NO:58 | chr3 | 69230395 | 69230599 |
Seq ID NO:59 | chr6 | 1393206 | 1393469 |
Seq ID NO:60 | chr6 | 166580183 | 166580476 |
Seq ID NO:61 | chr7 | 29605610 | 29605810 |
Seq ID NO:62 | chr7 | 73407894 | 73408161 |
Seq ID NO:63 | chr7 | 93519986 | 93520213 |
Seq ID NO:64 | chr7 | 150069569 | 150069875 |
Seq ID NO:65 | chr8 | 22438141 | 22438341 |
Seq ID NO:66 | chr8 | 97506340 | 97506540 |
Seq ID NO:67 | chr8 | 141231103 | 141231303 |
Seq ID NO:68 | chr9 | 71788926 | 71789126 |
Seq ID NO:69 | chr10 | 518081 | 518444 |
Seq ID NO:70 | chr10 | 74069147 | 74069510 |
Seq ID NO:71 | chr11 | 1955139 | 1955372 |
Seq ID NO:72 | chr11 | 31848632 | 31848877 |
Seq ID NO:73 | chr12 | 94605804 | 94606004 |
Seq ID NO:74 | chr13 | 49795241 | 49795441 |
Seq ID NO:75 | chr13 | 109147964 | 109148164 |
Seq ID NO:76 | chr14 | 105102434 | 105102644 |
Seq ID NO:77 | chr15 | 45670805 | 45671005 |
Seq ID NO:78 | chr16 | 1202353 | 1202553 |
Seq ID NO:79 | chr16 | 57025884 | 57026193 |
Seq ID NO:80 | chr17 | 11143843 | 11144043 |
Seq ID NO:81 | chr17 | 21300616 | 21300930 |
Seq ID NO:82 | chr17 | 46796372 | 46796572 |
Seq ID NO:83 | chr17 | 73607909 | 73608115 |
Seq ID NO:84 | chr17 | 76991129 | 76991518 |
Seq ID NO:85 | chr18 | 76150778 | 76150991 |
Seq ID NO:86 | chr19 | 2790947 | 2791147 |
Seq ID NO:87 | chr19 | 4059528 | 4059746 |
Seq ID NO:88 | chr19 | 10823485 | 10823947 |
Seq ID NO:89 | chr19 | 39306255 | 39306455 |
Seq ID NO:90 | chr20 | 43331809 | 43332099 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的結直腸癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:位於基因SFN區域內或上下游;位於基因GPR3區域內或上下游;位於基因FCGR1B區域內或上下游;位於基因FAM150B區域內或上下游的;位於基因RGPD3區域內或上下游;位於基因NUP210區域內或上下游;位於基因LMOD3區域內或上下游;位於基因FOXF2區域內或上下游;位於基因TBXT區域內或上下游;位於基因PRR15區域內或上下游;位於基因ELN區域內或上下游;位於基因TFPI2區域內或上下游;位於基因REPIN1區域內或上下游;位於基因PDLIM2區域內或上下游;位於基因SDC2區域內或上下游;位於基因TRAPPC9區域內或上下游;位於基因TJP2區域內或上下游;位於基因DIP2C區域內或上下游;位於基因DDIT4區域內或上下游;位於基因MRPL23區域內或上下游;位於基因PAX6區域內或上下游;位於基因PLXNC1區域內或上下游;位於基因MLNR區域內或上下游;位於基因MYO16區域內或上下游;位於基因TMEM179區域內或上下游;位於基因GATM區域內或上下游;位於基因CACNA1H區域內或上下游;位於基因NLRC5區域內或上下游;位於基因SHISA6區域內或上下游;位於基因KCNJ12區域內或上下游;位於基因PRAC1區域內或上下游;位於基因MYO15B區域內或上下游;位於基因CANT1區域內或上下游;位於基因SALL3區域內或上下游;位於基因THOP1區域內或上下游;位於基因ZBTB7A區域內或上下游;位於基因DNM2區域內或上下游;位於基因LGALS4區域內或上下游;位於基因WISP2區域內或上下游。單獨一個或者多個甲基化標誌物的組合都可以用作結直腸癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
從肺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從肺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選肺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明人發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.2kb上游區和2.2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體 | 起始位置 | 終止位置 |
Seq ID NO:91 | chr1 | 3331940 | 3332307 |
Seq ID NO:92 | chr1 | 10813808 | 10814072 |
Seq ID NO:93 | chr1 | 27687058 | 27687449 |
Seq ID NO:94 | chr1 | 248020790 | 248021176 |
Seq ID NO:95 | chr2 | 39187516 | 39187716 |
Seq ID NO:96 | chr2 | 113931508 | 113931708 |
Seq ID NO:97 | chr2 | 177030134 | 177030449 |
Seq ID NO:98 | chr3 | 124860729 | 124860929 |
Seq ID NO:99 | chr3 | 185973717 | 185973917 |
Seq ID NO:100 | chr5 | 1291139 | 1291339 |
Seq ID NO:101 | chr5 | 92906255 | 92906617 |
Seq ID NO:102 | chr5 | 140892824 | 140893033 |
Seq ID NO:103 | chr5 | 169805839 | 169806039 |
Seq ID NO:24 | chr6 | 1625055 | 1625255 |
Seq ID NO:104 | chr6 | 26240701 | 26240901 |
Seq ID NO:105 | chr7 | 67016160 | 67016360 |
Seq ID NO:106 | chr7 | 127744150 | 127744731 |
Seq ID NO:107 | chr7 | 137347054 | 137347254 |
Seq ID NO:65 | chr8 | 22438141 | 22438341 |
Seq ID NO:108 | chr8 | 22876154 | 22876354 |
Seq ID NO:109 | chr8 | 129103499 | 129103699 |
Seq ID NO:110 | chr8 | 145105489 | 145105984 |
Seq ID NO:111 | chr9 | 127257997 | 127258338 |
Seq ID NO:112 | chr10 | 22634278 | 22634478 |
Seq ID NO:113 | chr10 | 88296342 | 88296594 |
Seq ID NO:114 | chr10 | 123923943 | 123924143 |
Seq ID NO:115 | chr10 | 134016194 | 134016408 |
Seq ID NO:116 | chr10 | 134734173 | 134734395 |
Seq ID NO:117 | chr10 | 135090209 | 135090425 |
Seq ID NO:118 | chr11 | 64333172 | 64333372 |
Seq ID NO:119 | chr11 | 68622069 | 68622269 |
Seq ID NO:120 | chr12 | 58021334 | 58021534 |
Seq ID NO:121 | chr12 | 133029845 | 133030045 |
Seq ID NO:122 | chr13 | 21520235 | 21520435 |
Seq ID NO:123 | chr13 | 114214669 | 114214869 |
Seq ID NO:124 | chr14 | 55243006 | 55243206 |
Seq ID NO:76 | chr14 | 105102434 | 105102644 |
Seq ID NO:125 | chr15 | 41793866 | 41794364 |
Seq ID NO:126 | chr16 | 1037548 | 1037773 |
Seq ID NO:127 | chr16 | 2085778 | 2086156 |
Seq ID NO:128 | chr17 | 75370344 | 75370592 |
Seq ID NO:129 | chr18 | 74818217 | 74818417 |
Seq ID NO:130 | chr18 | 77159233 | 77159590 |
Seq ID NO:131 | chr19 | 10824035 | 10824235 |
Seq ID NO:132 | chr19 | 15580341 | 15580719 |
Seq ID NO:133 | chr20 | 60447728 | 60447992 |
Seq ID NO:134 | chr20 | 61318785 | 61319012 |
Seq ID NO:135 | chr20 | 61606676 | 61606962 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的肺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:位於基因ARHGEF16內或者上游區或下游區;位於基因CASZ1內或者上游區或下游區;位於基因MAP3K6內或者上游區或下游區;位於基因TRIM58內或者上游區或下游區;位於基因ARHGEF33內或者上游區或下游區;位於基因PSD4內或者上游區或下游區;位於基因HOXD4內或者上游區或下游區;位於基因SLC12A8內或者上游區或下游區;位於基因DGKG內或者上游區或下游區;位於基因TERT內或者上游區或下游區;位於基因NR2F1內或者上游區或下游區;位於基因PCDHGC5內或者上游區或下游區;位於基因KCNMB1內或者上游區或下游區;位於基因FOXC1內或者上游區或下游區;位於基因HIST1H4F內或者上游區或下游區;位於基因TYW1內或者上游區或下游區;位於基因LRRC4內或者上游區或下游區;位於基因DGKI內或者上游區或下游區;位於基因PDLIM2內或者上游區或下游區;位於基因RHOBTB2內或者上游區或下游區;位於基因TMEM75內或者上游區或下游區;位於基因OPLAH內或者上游區或下游區;位於基因NR5A1內或者上游區或下游區;位於基因SPAG6內或者上游區或下游區;位於基因WAPAL內或者上游區或下游區;位於基因BTBD16內或者上游區或下游區;位於基因DPYSL4內或者上游區或下游區;位於基因TTC40內或者上游區或下游區;位於基因ADAM8內或者上游區或下游區;位於基因SLC22A11內或者上游區或下游區;位於基因CPT1A內或者上游區或下游區;位於基因B4GALNT1內或者上游區或下游區;位於基因FBRSL1內或者上游區或下游區;位於基因XPO4內或者上游區或下游區;位於基因TFDP1內或者上游區或下游區;位於基因GCH1內或者上游區或下游區;位於基因TMEM179內或者上游區或下游區;位於基因ITPKA內或者上游區或下游區;位於基因SOX8內或者上游區或下游區;位於基因SLC9A3R2內或者上游區或下游區;位於基因SEPT-9內或者上游區或下游區;位於基因MBP內或者上游區或下游區;位於基因NFATC1內或者上游區或下游區;位於基因DNM2內或者上游區或下游區;位於基因RASAL3內或者上游區或下游區;位於基因TAF4內或者上游區或下游區;位於基因NTSR1內或者上游區或下游區;位於基因SLC17A9內或者上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作肺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
從肝癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從肝癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選肝癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;或WISP2基因。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是100bp-550bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的3kb上游區和3kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2.4kb、2.3kb、2.2kb、2.1kb、2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體 | 起始位置 | 終止位置 |
Seq ID NO:136 | chr1 | 47691646 | 47691993 |
Seq ID NO:94 | chr1 | 248020790 | 248021176 |
Seq ID NO:7 | chr2 | 30453572 | 30453772 |
Seq ID NO:137 | chr2 | 44058865 | 44059175 |
Seq ID NO:138 | chr2 | 114034391 | 114034591 |
Seq ID NO:139 | chr3 | 38080591 | 38080791 |
Seq ID NO:140 | chr3 | 49756830 | 49757030 |
Seq ID NO:141 | chr3 | 50377975 | 50378564 |
Seq ID NO:18 | chr3 | 170137183 | 170137383 |
Seq ID NO:142 | chr4 | 10020751 | 10020951 |
Seq ID NO:143 | chr5 | 508551 | 508751 |
Seq ID NO:23 | chr5 | 139047806 | 139048006 |
Seq ID NO:144 | chr6 | 1614911 | 1615144 |
Seq ID NO:104 | chr6 | 26240701 | 26240901 |
Seq ID NO:145 | chr6 | 30095659 | 30095859 |
Seq ID NO:146 | chr7 | 27252672 | 27252872 |
Seq ID NO:147 | chr7 | 30722316 | 30722516 |
Seq ID NO:148 | chr8 | 41424527 | 41424742 |
Seq ID NO:29 | chr8 | 67874783 | 67874983 |
Seq ID NO:149 | chr8 | 145106299 | 145106499 |
Seq ID NO:150 | chr10 | 113943613 | 113943813 |
Seq ID NO:117 | chr10 | 135090209 | 135090425 |
Seq ID NO:41 | chr12 | 52401109 | 52401309 |
Seq ID NO:120 | chr12 | 58021334 | 58021534 |
Seq ID NO:151 | chr12 | 58021577 | 58021823 |
Seq ID NO:152 | chr12 | 131303645 | 131303958 |
Seq ID NO:153 | chr14 | 51027707 | 51028060 |
Seq ID NO:125 | chr15 | 41793866 | 41794364 |
Seq ID NO:154 | chr15 | 65116254 | 65116454 |
Seq ID NO:155 | chr16 | 73097098 | 73097298 |
Seq ID NO:156 | chr17 | 43037283 | 43037636 |
Seq ID NO:128 | chr17 | 75370344 | 75370592 |
Seq ID NO:157 | chr18 | 24130835 | 24131035 |
Seq ID NO:158 | chr19 | 3688030 | 3688230 |
Seq ID NO:132 | chr19 | 15580341 | 15580719 |
Seq ID NO:159 | chr19 | 41641405 | 41641605 |
Seq ID NO:90 | chr20 | 43331809 | 43332099 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的肝癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:TAL1基因內以及其上游區或下游區;TRIM58基因內以及其上游區或下游區;LBH基因內以及其上游區或下游區;ABCG5基因內以及其上游區或下游區;PAX8基因內以及其上游區或下游區;DLEC1基因內以及其上游區或下游區;AMIGO3基因內以及其上游區或下游區;RASSF1基因內以及其上游區或下游區;CLDN11基因內以及其上游區或下游區;SLC2A9基因內以及其上游區或下游區;SLC9A3基因內以及其上游區或下游區;CXXC5基因內以及其上游區或下游區;FOXC1基因內以及其上游區或下游區;HIST1H4F基因內以及其上游區或下游區;TRIM40基因內以及其上游區或下游區;HOXA13基因內以及其上游區或下游區;CRHR2基因內以及其上游區或下游區;AGPAT6基因內以及其上游區或下游區;TCF24基因內以及其上游區或下游區;OPLAH基因內以及其上游區或下游區;GPAM基因內以及其上游區或下游區;ADAM8基因內以及其上游區或下游區;GRASP基因內以及其上游區或下游區;B4GALNT1基因內以及其上游區或下游區;STX2基因內以及其上游區或下游區;ATL1基因內以及其上游區或下游區;ITPKA基因內以及其上游區或下游區;PIF1基因內以及其上游區或下游區;ZFHX3基因內以及其上游區或下游區;C1QL1基因內以及其上游區或下游區;SEPT-9基因內以及其上游區或下游區;KCTD1基因內以及其上游區或下游區;PIP5K1C基因內以及其上游區或下游區;RASAL3基因內以及其上游區或下游區;CYP2F1基因內以及其上游區或下游區;WISP2基因內以及其上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作肝癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的3kb或2kb上游和3kb或2kb下游區內。
從乳腺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從乳腺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選乳腺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2kb上游區和2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體 | 起始位置 | 終止位置 |
Seq ID NO:1 | chr1 | 91182896 | 91183268 |
Seq ID NO:2 | chr1 | 91185256 | 91185556 |
Seq ID NO:3 | chr1 | 110611583 | 110611783 |
Seq ID NO:4 | chr1 | 119549342 | 119549542 |
Seq ID NO:5 | chr1 | 151811354 | 151811554 |
Seq ID NO:6 | chr1 | 237205513 | 237205713 |
Seq ID NO:7 | chr2 | 30453572 | 30453772 |
Seq ID NO:8 | chr2 | 45028929 | 45029292 |
Seq ID NO:9 | chr2 | 45227849 | 45228049 |
Seq ID NO:10 | chr2 | 63275030 | 63275230 |
Seq ID NO:11 | chr2 | 73147428 | 73147715 |
Seq ID NO:12 | chr2 | 74726373 | 74726801 |
Seq ID NO:13 | chr2 | 111876734 | 111876934 |
Seq ID NO:14 | chr2 | 114034788 | 114034988 |
Seq ID NO:15 | chr2 | 177043062 | 177043477 |
Seq ID NO:16 | chr2 | 200327248 | 200327458 |
Seq ID NO:17 | chr3 | 38036014 | 38036227 |
Seq ID NO:18 | chr3 | 170137183 | 170137383 |
Seq ID NO:19 | chr3 | 184301379 | 184301579 |
Seq ID NO:20 | chr4 | 13543558 | 13543849 |
Seq ID NO:21 | chr4 | 44449557 | 44449757 |
Seq ID NO:22 | chr5 | 134374689 | 134374889 |
Seq ID NO:23 | chr5 | 139047806 | 139048006 |
Seq ID NO:24 | chr6 | 1625055 | 1625255 |
Seq ID NO:25 | chr6 | 6003896 | 6004283 |
Seq ID NO:26 | chr7 | 27204459 | 27204659 |
Seq ID NO:27 | chr7 | 96622040 | 96622409 |
Seq ID NO:28 | chr8 | 57069546 | 57069746 |
Seq ID NO:29 | chr8 | 67874783 | 67874983 |
Seq ID NO:30 | chr8 | 86350778 | 86350978 |
Seq ID NO:31 | chr8 | 97157461 | 97157847 |
Seq ID NO:32 | chr9 | 117804 | 118004 |
Seq ID NO:33 | chr10 | 23480625 | 23480825 |
Seq ID NO:34 | chr10 | 102895034 | 102895234 |
Seq ID NO:35 | chr10 | 105036590 | 105036794 |
Seq ID NO:36 | chr10 | 134597986 | 134598186 |
Seq ID NO:37 | chr11 | 31820260 | 31820460 |
Seq ID NO:38 | chr11 | 31839396 | 31839726 |
Seq ID NO:39 | chr12 | 25056205 | 25056405 |
Seq ID NO:40 | chr12 | 50297535 | 50297964 |
Seq ID NO:41 | chr12 | 52401109 | 52401309 |
Seq ID NO:42 | chr13 | 37005935 | 37006328 |
Seq ID NO:43 | chr14 | 61104459 | 61104820 |
Seq ID NO:44 | chr16 | 23847490 | 23847690 |
Seq ID NO:45 | chr17 | 70112878 | 70113078 |
Seq ID NO:46 | chr18 | 44336540 | 44336814 |
Seq ID NO:47 | chr19 | 13123416 | 13123616 |
Seq ID NO:48 | chr19 | 55593530 | 55593730 |
Seq ID NO:49 | chr19 | 58095530 | 58095874 |
Seq ID NO:50 | chrX | 8698966 | 8699166 |
Seq ID NO:51 | chrX | 47666446 | 47666658 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的乳腺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因BARHL2以及其上游區或下游區;基因ALX3以及其上游區或下游區;基因TBX15以及其上游區或下游區;基因C2CD4D以及其上游區或下游區;基因RYR2以及其上游區或下游區;基因LBH以及其上游區或下游區;SIX3以及其上游區或下游區;基因SIX2以及其上游區或下游區;基因OTX1以及其上游區或下游區;基因EMX1以及其上游區或下游區;基因LBX2以及其上游區或下游區;基因BCL2L11以及其上游區或下游區;基因PAX8以及其上游區或下游區;基因HOXD1以及其上游區或下游區;基因SATB2以及其上游區或下游區;基因VILL以及其上游區或下游區;基因CLDN11以及其上游區或下游區;基因EPHB3以及其上游區或下游區;基因NKX3-2以及其上游區或下游區;基因KCTD8以及其上游區或下游區;基因PITX1以及其上游區或下游區;基因CXXC5以及其上游區或下游區;基因FOXC1以及其上游區或下游區;基因NRN1以及其上游區或下游區;基因HOXA9以及其上游區或下游區;基因DLX6以及其上游區或下游區;基因MOS以及其上游區或下游區;基因TCF24以及其上游區或下游區;基因CA3以及其上游區或下游區;基因GDF6以及其上游區或下游區;基因FOXD4以及其上游區或下游區;基因PTF1A以及其上游區或下游區;基因TLX1以及其上游區或下游區;基因INA以及其上游區或下游區;基因NKX6-2以及其上游區或下游區;基因PAX6以及其上游區或下游區;基因BCAT1以及其上游區或下游區;基因FAIM2以及其上游區或下游區;基因GRASP以及其上游區或下游區;基因CCNA1以及其上游區或下游區;基因SIX1以及其上游區或下游區;基因PRKCB以及其上游區或下游區;基因SOX9以及其上游區或下游區;基因ST8SIA5以及其上游區或下游區;基因NFIX以及其上游區或下游區;基因EPS8L1以及其上游區或下游區;基因ZIK1以及其上游區或下游區;基因KAL1以及其上游區或下游區;基因ZNF81。單獨一個或者多個甲基化標誌物的組合都可以用作乳腺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
從胃癌及 / 或食管癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從胃癌及/或食管癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選胃癌及/或食管癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是150bp-500bp。例如,位點的長度可以是160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp或500bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2kb上游區和2kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體編號 | 起始位置 | 終止位置 |
Seq ID NO: 160 | chr1 | 47698162 | 47698362 |
Seq ID NO: 161 | chr1 | 108507595 | 108507795 |
Seq ID NO: 162 | chr1 | 156186299 | 156186499 |
Seq ID NO: 163 | chr1 | 203600773 | 203600973 |
Seq ID NO: 164 | chr2 | 264146 | 264484 |
Seq ID NO: 143 | chr5 | 508551 | 508751 |
Seq ID NO: 23 | chr5 | 139047806 | 139048006 |
Seq ID NO: 165 | chr5 | 140800889 | 140801089 |
Seq ID NO: 166 | chr6 | 1384272 | 1384610 |
Seq ID NO: 167 | chr7 | 64349788 | 64349988 |
Seq ID NO: 168 | chr7 | 139168541 | 139168844 |
Seq ID NO: 169 | chr9 | 126348875 | 126349266 |
Seq ID NO: 170 | chr9 | 139393876 | 139394111 |
Seq ID NO: 150 | chr10 | 113943613 | 113943813 |
Seq ID NO: 171 | chr11 | 2292332 | 2292651 |
Seq ID NO: 72 | chr11 | 31848632 | 31848877 |
Seq ID NO: 172 | chr11 | 60620057 | 60620257 |
Seq ID NO: 173 | chr11 | 73371736 | 73371944 |
Seq ID NO: 174 | chr12 | 114840811 | 114841011 |
Seq ID NO: 152 | chr12 | 131303645 | 131303958 |
Seq ID NO: 175 | chr12 | 133030159 | 133030359 |
Seq ID NO: 176 | chr13 | 113350703 | 113351027 |
Seq ID NO: 177 | chr14 | 105714973 | 105715224 |
Seq ID NO: 178 | chr14 | 105933578 | 105934099 |
Seq ID NO: 179 | chr15 | 53087384 | 53087584 |
Seq ID NO: 180 | chr16 | 30566925 | 30567182 |
Seq ID NO: 181 | chr16 | 33964869 | 33965069 |
Seq ID NO: 182 | chr16 | 51168473 | 51168843 |
Seq ID NO: 183 | chr17 | 79482394 | 79482623 |
Seq ID NO: 184 | chr18 | 19780648 | 19781005 |
Seq ID NO: 157 | chr18 | 24130835 | 24131035 |
Seq ID NO: 185 | chr19 | 41641357 | 41641557 |
Seq ID NO: 186 | chr21 | 9825785 | 9826676 |
Seq ID NO: 187 | chr22 | 19512066 | 19512266 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的胃癌及/或食管癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因TAL1區域內或上游區和下游區;基因VAV3區域內或上游區和下游區;基因PMF1區域內或上游區和下游區;基因ATP2B4區域內或上游區和下游區;基因SH3YL1區域內或上游區和下游區;基因SLC9A3區域內或上游區和下游區;基因CXXC5區域內或上游區和下游區;基因PCDHGA11區域內或上游區和下游區;基因FOXF2區域內或上游區和下游區;基因ZNF273區域內或上游區和下游區;基因KLRG2區域內或上游區和下游區;基因CRB2區域內或上游區和下游區;基因SEC16A區域內或上游區和下游區;基因GPAM區域內或上游區和下游區;基因ASCL2區域內或上游區和下游區;基因PAX6區域內或上游區和下游區;基因PTGDR2區域內或上游區和下游區;基因PLEKHB1區域內或上游區和下游區;基因TBX5區域內或上游區和下游區;基因STX2區域內或上游區和下游區;基因FBRSL1區域內或上游區和下游區;基因ATP11A區域內或上游區和下游區;基因BTBD6區域內或上游區和下游區;基因CRIP2區域內或上游區和下游區;基因ONECUT1區域內或上游區和下游區;基因ZNF764區域內或上游區和下游區;基因IGHV3OR16-17區域內或上游區和下游區;基因SALL1區域內或上游區和下游區;基因ACTG1區域內或上游區和下游區;基因GATA6區域內或上游區和下游區;基因KCTD1區域內或上游區和下游區;基因CYP2F1區域內或上游區和下游區;基因TPTE區域內或上游區和下游區;基因CLDN5內或上游區和下游區。單獨一個或者多個甲基化標誌物的組合都可以用作胃癌及/或食管癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
從胰腺癌患者分離的核酸
本發明提供了分離的核酸,其是從受試者的樣品分離的。例如,分離的核酸是從胰腺癌患者血漿中的游離DNA分離的。分離的核酸是一種或多種特異性甲基化標誌物,優選胰腺癌組織特異性甲基化標誌物。甲基化標誌物是以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1。該位點是甲基化的位點。本領域技術人員應當理解基因組的基因可以存在突變,因此可以想到這些基因的變體也可以作為甲基化標誌物,只要變體中的甲基化位點未發生突變。變體可以包含與任一種基因的序列具有至少70%同一性的序列。選擇作為標誌物的位元點可以包含1個或多個CpG,例如2個CpG、3個CpG、4個CpG、5個CpG、6個CpG、10個CpG、20個CpG或30個CpG。合適的位點的長度可以是130bp-530bp。例如,位點的長度可以是140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp、250bp、260bp、270bp、280bp、290bp、300bp、310bp、320bp、330bp、340bp、350bp、360bp、370bp、380bp、390bp、400bp、410bp、420bp、430bp、440bp、450bp、460bp、470bp、480bp、490bp、500bp、510bp或520bp。
本領域技術人員理解基因與其上游和下游的區域具備相同或相似的甲基化水平或狀態。因此,當本發明發現特定基因內的甲基化位點後可以設想該基因以及在染色體原位的2.5kb上游區和2.5kb下游區也具備相同或相似的甲基化水平或狀態。本發明涵蓋本發明所述的基因以及該基因在其所處的染色體中的2kb、1.9kb、1.8kb、1.7kb、1.6kb、1.5kb、1.4kb、1.3kb、1.2kb、1.1kb、1kb、900bp、800bp、700bp、600bp、500bp、400bp、300bp、200bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp、10bp或5bp上游區和下游區。
在本文中,本發明使用了以下核苷酸序列作為甲基化標誌物。
序列編號 | 染色體 | 起始位置 | 終止位置 |
Seq ID NO:188 | chr1 | 2478439 | 2478810 |
Seq ID NO:189 | chr1 | 64059515 | 64059716 |
Seq ID NO:190 | chr1 | 151693837 | 151694148 |
Seq ID NO:163 | chr1 | 203600773 | 203600973 |
Seq ID NO:191 | chr2 | 24300144 | 24300422 |
Seq ID NO:192 | chr2 | 97427786 | 97428040 |
Seq ID NO:193 | chr2 | 175202377 | 175202577 |
Seq ID NO:194 | chr2 | 233792902 | 233793102 |
Seq ID NO:195 | chr2 | 242743582 | 242743782 |
Seq ID NO:196 | chr3 | 197639716 | 197639916 |
Seq ID NO:197 | chr4 | 3447856 | 3448097 |
Seq ID NO:198 | chr5 | 472963 | 473163 |
Seq ID NO:199 | chr5 | 37840176 | 37840376 |
Seq ID NO:200 | chr5 | 134870613 | 134870990 |
Seq ID NO:201 | chr6 | 25726976 | 25727176 |
Seq ID NO:202 | chr6 | 108353117 | 108353317 |
Seq ID NO:203 | chr6 | 167544878 | 167545117 |
Seq ID NO:204 | chr8 | 22457089 | 22457293 |
Seq ID NO:205 | chr8 | 22457092 | 22457292 |
Seq ID NO:206 | chr8 | 23020937 | 23021137 |
Seq ID NO:68 | chr9 | 71788926 | 71789126 |
Seq ID NO:207 | chr9 | 124461377 | 124461663 |
Seq ID NO:208 | chr9 | 132382275 | 132382649 |
Seq ID NO:209 | chr10 | 130084908 | 130085108 |
Seq ID NO:172 | chr11 | 60620057 | 60620257 |
Seq ID NO:210 | chr12 | 518125 | 518325 |
Seq ID NO:211 | chr12 | 111404033 | 111404233 |
Seq ID NO:212 | chr13 | 32605445 | 32605645 |
Seq ID NO:213 | chr14 | 92040784 | 92040984 |
Seq ID NO:177 | chr14 | 105714973 | 105715224 |
Seq ID NO:154 | chr15 | 65116254 | 65116454 |
Seq ID NO:214 | chr16 | 4253135 | 4253487 |
Seq ID NO:215 | chr16 | 28984534 | 28984734 |
Seq ID NO:88 | chr19 | 10823485 | 10823947 |
Seq ID NO:216 | chr19 | 37957790 | 37957990 |
Seq ID NO:217 | chr22 | 22006617 | 22006817 |
其中染色體位置的座標是參照人全基因組序列hg19確定的。根據篩選出的胰腺癌組織特異性的甲基化標誌物以及其所處的基因,本領域技術人員應當理解,以下各項內的位點可用作甲基化標誌物:基因TNFRSF14以及其上游區或下游區;基因PGM1以及其上游區或下游區;基因CELF3以及其上游區或下游區;基因ATP2B4以及其上游區或下游區;基因SF3B6以及其上游區或下游區;基因CNNM4以及其上游區或下游區;基因SP9以及其上游區或下游區;基因C2orf82以及其上游區或下游區;基因NEU4以及其上游區或下游區;基因RPL35A以及其上游區或下游區;基因HGFAC以及其上游區或下游區;基因EXOC3以及其上游區或下游區;基因GDNF以及其上游區或下游區;基因NEUROG1以及其上游區或下游區;基因HIST1H2BA以及其上游區或下游區;基因OSTM1以及其上游區或下游區;基因CCR6以及其上游區或下游區;基因CCAR2以及其上游區或下游區;基因TNFRSF10D以及其上游區或下游區;基因TJP2以及其上游區或下游區;基因DAB2IP以及其上游區或下游區;基因NTMT1以及其上游區或下游區;基因MKI67以及其上游區或下游區;基因PTGDR2以及其上游區或下游區;基因CCDC77以及其上游區或下游區;基因MYL2以及其上游區或下游區;基因FRY以及其上游區或下游區;基因SMEK1以及其上游區或下游區;基因BTBD6以及其上游區或下游區;基因PIF1以及其上游區或下游區;基因SRL以及其上游區或下游區;基因SPNS1以及其上游區或下游區;基因DNM2以及其上游區或下游區;基因ZNF569以及其上游區或下游區;基因SDF2L1以及其上游區或下游區。單獨一個或者多個甲基化標誌物的組合都可以用作胰腺癌特異性的甲基化標誌物。在一個實施方案中,甲基化標誌物在上述任一基因的2kb上游和2kb下游區內。
表觀遺傳界的先驅Andy Fienberg曾經指出結腸癌中的大多數甲基化改變不僅發生在啟動子中,也不僅是發生在CpG島上,而是發生在其上游2kb的序列中,我們稱之為“CpG島海岸”(Andy Fienberg等人,2009)。CpG島岸甲基化與基因表達密切相關,在哺乳動物中高度保守,可以區分組織類型。在隨後的研究中,研究者們不僅在腸癌種發現了這一現象,在乳腺癌、胃癌、膀胱癌以及一些組織分型中均發現了這些目標甲基化位元點的臨近區域同樣具有重要作用(Guo YL等人,2016;Rao X等人,2013;Dudziec E等人,2011; Chae H等人, 2016)。因此,對這些鄰近區域的保護和目的地區域的保護同樣重要。
用於診斷癌症(結直腸癌、肺癌、肝癌、乳腺癌、或胃癌及 / 或食管癌、或胰腺癌之一)組織的試劑盒
根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷結直腸癌,或區分結直腸癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷肺癌,或區分肺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷肝癌,或區分肝癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷乳腺癌,或區分乳腺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷胃癌及/或食管癌,或區分胃癌及/或食管癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。根據本發明的甲基化標誌物,本領域技術人員可以製備用於檢測這些標誌物的甲基化水平或狀態的試劑盒或裝置,用於診斷胰腺癌,或區分胰腺癌與其他泛癌種。試劑盒或裝置可以包含檢測來自樣品的核酸中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件。例如,試劑或元件可以包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。試劑可以包含用於檢測甲基化標誌物的寡核苷酸。例如,寡核苷酸是引子及/或探針。優選地,引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子。優選地,試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物。對照物可以是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物。優選地,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物。優選地,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物。優選地,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物。優選地,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。對照物可以是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物。優選地,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。對照物可以是來自正常受試者或非胰腺癌的癌症患者的前述特異性甲基化標誌物。優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
用於診斷結直腸癌組織的方法
本發明提供了診斷受試者的結直腸癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種結直腸癌組織特異性甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定結直腸癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷結直腸癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的結直腸癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為結直腸癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為結直腸癌,否則為陰性,即除結直腸癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中結直腸癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷,大於閾值預測為結直腸癌,反之預測為其它癌種。方法可以用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源。
用於診斷肺癌的方法
本發明提供了診斷受試者的肺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種肺癌組織特異性甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的肺癌組織特異性甲基化狀態或水平確定肺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷肺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的肺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為肺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為肺癌,否則為陰性,即除肺癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。方法可以用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源。
用於診斷肝癌的方法
本發明提供了診斷受試者的肝癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定肝癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷肝癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定物件的肝癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為肝癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為肝癌,否則為陰性,即除肝癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如使用MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中肝癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。方法可以用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源。
診斷受試者的乳腺癌的方法
本發明提供了診斷受試者的乳腺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定乳腺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷乳腺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的乳腺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為乳腺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為乳腺癌,否則為陰性,即除乳腺癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括MethylTitan的方法獲得樣品DNA的甲基化測序數據,並且步驟(2)可以包括使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中乳腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷,大於閾值預測為乳腺癌,反之預測為其它癌種。方法可以用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源。
診斷受試者的胃癌及 / 或食管癌的方法
本發明提供了診斷受試者的胃癌及/或食管癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定胃癌及/或食管癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷胃癌及/或食管癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的胃癌及/或食管癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為胃癌及/或食管癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為胃癌及/或食管癌,否則為陰性,即除胃癌和食管癌外的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胃癌及/或食管癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。方法可以用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源。
用於診斷胰腺癌的方法
本發明提供了診斷受試者的胰腺癌的方法,其包括:(1) 在受試者的樣品中測定本發明的一種或多種甲基化標誌物的甲基化狀態或水平;和(2) 基於測定的甲基化狀態或水平確定胰腺癌。在一個實施方案中,受試者是癌症患者或有癌症風險的受試者。在一個實施方案中,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。在一個實施方案中,樣品為細胞、組織、細針穿刺活檢物或血漿。在一個實施方案中,獲得所述甲基化水平資料方法可以是測定核酸序列的甲基化水平的任何合適的方法,例如基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
本發明還提供一種用於診斷胰腺癌的方法,包括:(1)檢測受試者的樣品中本文所述序列的甲基化水平;(2)與對照樣品比較,或者通過計算得出評分;(3)根據評分鑒定受試者的胰腺癌。通常,所述方法在步驟(1)之前還包括:樣品DNA的提取和將DNA上未甲基化的胞嘧啶轉化為不與鳥嘌呤結合的鹼基。在一個或多個實施方案中,與對照樣品比較時,受試者樣品的甲基化水平升高或降低。當甲基化水平滿足某一閾值時,則鑒定為胰腺癌。對所測基因的甲基化水平進行數學分析,獲得得分。對於檢測的樣品而言,當得分大於閾值,則判定結果為胰腺癌,否則為陰性,即非胰腺癌的癌症。本領域知曉常規數學分析的方法以及確定閾值的過程。
本發明還提供了方法,其包括:(1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中本文所述的甲基化標誌物的甲基化水平;和(2)使用甲基化標誌物甲基化水平的資料構建邏輯回歸的機器學習模型。樣品可以為細胞、組織、細針穿刺活檢物或血漿。基因組DNA可以是血漿中的游離DNA。步驟(1)可以包括獲得樣品DNA的甲基化測序數據(例如使用MethylTitan的方法),並且步驟(2)可以包括使用邏輯回歸模型(例如使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型):AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標marker的甲基化水平值,w為甲基化標誌物的係數,b為截距值,y為模型預測分值
;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料,TrainPheno是訓練集樣本的性狀,其中胰腺癌為1,其它癌種為0,並根據訓練集的樣本確定模型的相關閾值。方法還包括使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集:TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料,TestPred為模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷,大於閾值預測為胰腺癌,反之預測為其它癌種。方法可以用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源。
系統或裝置
本發明還提供了系統或裝置。系統或裝置可以包含電腦可讀存儲介質或記憶體,用於存儲程式或指令。程式或指令可以用於執行由本發明的一種或多種結直腸癌組織特異性甲基化標誌物構建的區分結直腸癌與其他非結直腸癌的預測模型,或者用於執行本發明的方法。程式或指令可以用於執行由本發明的區分肺癌與其他非肺癌的預測模型,或者用於執行本發明的方法。程式或指令可以用於執行由本發明的區分肝癌與其他非肝癌的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的區分乳腺癌與其他非乳腺癌的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的一種或多種甲基化標誌物構建的區分胃癌及/或食管癌與除胃癌和食管癌外的癌症的預測模型,或者用於執行本發明的方法。程式或指令用於執行由本發明的區分胰腺癌與其他非胰腺癌的癌症的預測模型,或者用於執行本發明的方法。電腦可讀存儲介質或記憶體包括但不限於有形存儲介質、載波介質或物理傳輸介質。非易失性存儲介質包括例如光碟或磁片,諸如在任何電腦等中的任何存放裝置,易失性存儲介質包括動態儲存裝置器,諸如此類電腦平臺的主記憶體。有形的傳輸介質包括同軸電纜;銅線和光纖,包括構成電腦系統內的匯流排的導線。載波傳輸介質可以採取電信號或電磁信號或者聲波或光波的形式,諸如在射頻和紅外資料通信期間生成的那些。因此,電腦可讀介質的常見形式包括例如:軟碟、軟性磁片、硬碟、磁帶、任何其他磁介質、CD-ROM、DVD或DVD-ROM、任何其他光學介質、穿孔卡片紙帶、具有孔模式的任何其他物理存儲介質、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他記憶體晶片或盒、傳輸資料或指令的載波、傳輸此類載波的纜線或鏈路,或者電腦可以從其讀取程式設計代碼及/或資料的任何其他介質。這些電腦可讀介質的形式中的許多形式可以參與向處理器傳送一個或更多個指令的一個或更多個序列以用於執行。記憶體和處理器可為物理上分離的。在這種情況下,可以經由允許資料傳輸的單元之間的有線和無線連接來實現操作連接。無線連接可使用無線LAN(WLAN)或互聯網。有線連接可通過單元之間的光學和非光學電纜連線實現。用於有線連接的電纜進一步適於高通量資料傳輸。
診斷結直腸癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者;(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源。優選地,非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
用於診斷肺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者;(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源。優選地,非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
用於診斷肝癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者;(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源。優選地,非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
用於診斷乳腺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者;(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源。優選地,非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
診斷胃癌及 / 或食管癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者;(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源。優選地,除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
用於診斷胰腺癌的用途
本發明還提供了分離的核酸或試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者;(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源。優選地,非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。試劑盒或裝置可以包含用於以各種可用的方法測定甲基化水平的試劑。
實施例
下面結合附圖和具體實施例對本發明作進一步詳細的說明。下列實施例中,未注明具體條件的實驗方法,通常按常規條件中所述的方法進行。
實施例 1.1 :甲基化靶向測序篩選結直腸癌特異性的甲基化位點
發明人收集了總計539個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表1.1。
表1.1:各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 352 | 187 |
癌症類型 | ||
食管癌 | 41 | 26 |
肝癌 | 112 | 67 |
胃癌 | 50 | 26 |
肺癌 | 61 | 24 |
乳腺癌 | 35 | 21 |
胰腺癌 | 35 | 17 |
結直腸癌 | 18 | 6 |
年齡 | ||
62 (25-87) | 62 (29-89) | |
性別 | ||
男 | 203 | 116 |
女 | 147 | 69 |
NA | 2 | 2 |
通過申請人自主研發的MethylTitan
TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫(UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段(reads)數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於100的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6、根據訓練集樣本找出結直腸癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中結直腸癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分結直腸癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差;
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的結直腸癌組織特異性的甲基化標誌物具體見表1.2。
這些結直腸癌組織特異性甲基化標誌物在結直腸癌與其他6種癌種中的甲基化水平如下表1.2和圖1。圖2顯示了這些結直腸癌組織特異性甲基化標誌物在訓練集和測試集中結直腸癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表1.2 在訓練集和測試集中甲基化標誌物在結直腸癌和其他6種癌種中的甲基化水平均值
序列編號 | 染色體 | 起始位置 | 終止位置 | 訓練集結直腸癌甲基化水平 | 訓練集其它癌種甲基化水平 | 訓練集檢驗P值 | 測試集結直腸癌甲基化水平 | 測試集其它癌種甲基化水平 | 測試集檢驗P值 |
Seq ID NO:52 | chr1 | 27189993 | 27190207 | 0.0745 | 0.1091 | 1.07E-06 | 0.0688 | 0.1058 | 4.32E-03 |
Seq ID NO:53 | chr1 | 27732194 | 27732394 | 0.3636 | 0.3155 | 6.13E-04 | 0.3641 | 0.3192 | 9.39E-03 |
Seq ID NO:54 | chr1 | 121260989 | 121261197 | 0.0514 | 0.0059 | 3.12E-07 | 0.1942 | 0.0073 | 2.15E-03 |
Seq ID NO:55 | chr2 | 469568 | 469933 | 0.1970 | 0.2414 | 7.38E-05 | 0.1716 | 0.2324 | 9.39E-04 |
Seq ID NO:56 | chr2 | 106959197 | 106959397 | 0.0455 | 0.0157 | 6.03E-04 | 0.1178 | 0.0153 | 5.40E-03 |
Seq ID NO:57 | chr3 | 13323366 | 13323566 | 0.1386 | 0.0996 | 7.85E-04 | 0.2158 | 0.1011 | 6.85E-04 |
Seq ID NO:58 | chr3 | 69230395 | 69230599 | 0.0478 | 0.0198 | 1.32E-04 | 0.1510 | 0.0188 | 2.89E-02 |
Seq ID NO:59 | chr6 | 1393206 | 1393469 | 0.1268 | 0.0953 | 7.66E-04 | 0.1520 | 0.0954 | 4.83E-03 |
Seq ID NO:60 | chr6 | 166580183 | 166580476 | 0.0099 | 0.0045 | 2.11E-04 | 0.0982 | 0.0043 | 2.12E-02 |
Seq ID NO:61 | chr7 | 29605610 | 29605810 | 0.0525 | 0.0768 | 1.00E-03 | 0.0453 | 0.0741 | 3.10E-02 |
Seq ID NO:62 | chr7 | 73407894 | 73408161 | 0.8797 | 0.9032 | 2.02E-05 | 0.8307 | 0.9016 | 2.79E-03 |
Seq ID NO:63 | chr7 | 93519986 | 93520213 | 0.8777 | 0.9536 | 1.48E-04 | 0.7874 | 0.9456 | 2.60E-02 |
Seq ID NO:64 | chr7 | 150069569 | 150069875 | 0.2240 | 0.2610 | 1.72E-04 | 0.2145 | 0.2532 | 1.30E-02 |
Seq ID NO:65 | chr8 | 22438141 | 22438341 | 0.2437 | 0.1898 | 4.34E-04 | 0.3034 | 0.1929 | 7.15E-03 |
Seq ID NO:66 | chr8 | 97506340 | 97506540 | 0.0442 | 0.0020 | 1.91E-08 | 0.1432 | 0.0032 | 1.15E-04 |
Seq ID NO:67 | chr8 | 141231103 | 141231303 | 0.0045 | 0.0045 | 7.85E-05 | 0.0039 | 0.0014 | 4.13E-03 |
Seq ID NO:68 | chr9 | 71788926 | 71789126 | 0.0997 | 0.0283 | 4.58E-06 | 0.2984 | 0.0332 | 9.39E-03 |
Seq ID NO:69 | chr10 | 518081 | 518444 | 0.8334 | 0.8790 | 3.56E-04 | 0.7317 | 0.8751 | 3.15E-02 |
Seq ID NO:70 | chr10 | 74069147 | 74069510 | 0.2333 | 0.2977 | 1.00E-04 | 0.2215 | 0.2922 | 2.84E-02 |
Seq ID NO:71 | chr11 | 1955139 | 1955372 | 0.0600 | 0.0886 | 2.40E-04 | 0.0543 | 0.0835 | 2.99E-02 |
Seq ID NO:72 | chr11 | 31848632 | 31848877 | 0.7953 | 0.8574 | 3.77E-04 | 0.7137 | 0.8562 | 3.67E-02 |
Seq ID NO:73 | chr12 | 94605804 | 94606004 | 0.8280 | 0.8066 | 2.31E-03 | 0.8271 | 0.8041 | 3.99E-02 |
Seq ID NO:74 | chr13 | 49795241 | 49795441 | 0.3309 | 0.4102 | 1.32E-04 | 0.2944 | 0.4093 | 1.46E-02 |
Seq ID NO:75 | chr13 | 109147964 | 109148164 | 0.1532 | 0.0706 | 7.70E-05 | 0.2773 | 0.0705 | 6.43E-03 |
Seq ID NO:76 | chr14 | 105102434 | 105102644 | 0.0853 | 0.1092 | 6.03E-04 | 0.0533 | 0.1050 | 3.06E-03 |
Seq ID NO:77 | chr15 | 45670805 | 45671005 | 0.3644 | 0.1164 | 3.80E-05 | 0.5362 | 0.1532 | 7.37E-03 |
Seq ID NO:78 | chr16 | 1202353 | 1202553 | 0.0071 | 0.0110 | 2.53E-04 | 0.0068 | 0.0115 | 2.74E-02 |
Seq ID NO:79 | chr16 | 57025884 | 57026193 | 0.0960 | 0.0521 | 8.52E-06 | 0.1549 | 0.0568 | 2.15E-03 |
Seq ID NO:80 | chr17 | 11143843 | 11144043 | 0.9656 | 0.9577 | 9.23E-04 | 0.9670 | 0.9597 | 3.21E-02 |
Seq ID NO:81 | chr17 | 21300616 | 21300930 | 0.1674 | 0.1465 | 1.37E-03 | 0.2256 | 0.1483 | 3.15E-02 |
Seq ID NO:82 | chr17 | 46796372 | 46796572 | 0.0249 | 0.0348 | 3.60E-04 | 0.0076 | 0.0380 | 3.17E-02 |
Seq ID NO:83 | chr17 | 73607909 | 73608115 | 0.0800 | 0.1190 | 3.14E-06 | 0.0691 | 0.1146 | 2.48E-03 |
Seq ID NO:84 | chr17 | 76991129 | 76991518 | 0.1856 | 0.2014 | 6.13E-04 | 0.2812 | 0.1950 | 2.74E-02 |
Seq ID NO:85 | chr18 | 76150778 | 76150991 | 0.0427 | 0.0681 | 1.51E-04 | 0.0303 | 0.0641 | 5.38E-04 |
Seq ID NO:86 | chr19 | 2790947 | 2791147 | 0.0700 | 0.0555 | 1.39E-03 | 0.0774 | 0.0575 | 3.86E-02 |
Seq ID NO:87 | chr19 | 4059528 | 4059746 | 0.4205 | 0.4580 | 3.50E-04 | 0.3743 | 0.4532 | 4.62E-03 |
Seq ID NO:88 | chr19 | 10823485 | 10823947 | 0.0320 | 0.0042 | 2.99E-06 | 0.1698 | 0.0043 | 1.33E-04 |
Seq ID NO:89 | chr19 | 39306255 | 39306455 | 0.2731 | 0.3094 | 3.36E-04 | 0.2454 | 0.3071 | 2.60E-02 |
Seq ID NO:90 | chr20 | 43331809 | 43332099 | 0.4648 | 0.5273 | 2.94E-04 | 0.4661 | 0.5213 | 4.40E-02 |
以單個結直腸癌組織特異性甲基化標誌物Seq ID NO:52為例,查看該結直腸癌組織特異性標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖3和圖4所示,可看出該結直腸癌組織特異性標誌物的甲基化水平在結直腸癌中和其他癌種相比具有顯著性的差異(wilcox檢驗:P <= 0.05),是良好的結直腸癌組織特異性甲基化標誌物。
實施例
1.2
:單個結直腸癌組織特異性甲基化標誌物的判別性能
為了驗證單個結直腸癌組織特異性甲基化標誌物的判別性能,在實施例1.1劃分的訓練集中使用單個結直腸癌組織特異性甲基化標誌物甲基化水平的資料構建邏輯回歸模型,並確定閾值後,然後在測試集進行預測。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(結直腸癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是結直腸癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
39個結直腸癌組織特異性的甲基化標誌物在訓練集和測試集中的表現如表1.3所示,在訓練集中每個結直腸癌組織特異性甲基化標誌物都可以達到0.70以上的AUC,準確率達到了77%以上,在測試集中單個結直腸癌組織特異性甲基化標誌物最低AUC也達到了0.70以上,準確率達到了70%以上,可看出這些結直腸癌組織特異性甲基化標誌物都是較好的結直腸癌組織特異性的標誌物,可以較好地區分結直腸癌與其它癌種。
表1.3 單個結直腸癌組織特異性甲基化標誌物的判別性能
序列編號 | 訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 |
Seq ID NO:52 | 0.8317 | 0.6111 | 0.8024 | 0.0518 | 0.7926 | 0.8158 | 0.6667 | 0.7845 | 0.7807 |
Seq ID NO:53 | 0.7262 | 0.4444 | 0.8024 | 0.0532 | 0.7841 | 0.7827 | 0.3333 | 0.8785 | 0.8610 |
Seq ID NO:54 | 0.8018 | 0.6667 | 0.8024 | 0.0509 | 0.7955 | 0.8209 | 0.8333 | 0.7072 | 0.7112 |
Seq ID NO:55 | 0.7656 | 0.6111 | 0.8024 | 0.0527 | 0.7926 | 0.8738 | 0.8333 | 0.8122 | 0.8128 |
Seq ID NO:56 | 0.7265 | 0.4444 | 0.8024 | 0.0511 | 0.7841 | 0.8066 | 0.5000 | 0.7293 | 0.7219 |
Seq ID NO:57 | 0.7212 | 0.4444 | 0.8024 | 0.0519 | 0.7841 | 0.8849 | 0.8333 | 0.8066 | 0.8075 |
Seq ID NO:58 | 0.7553 | 0.4444 | 0.8024 | 0.0512 | 0.7841 | 0.7284 | 0.5000 | 0.7901 | 0.7807 |
Seq ID NO:59 | 0.7217 | 0.4444 | 0.8024 | 0.0517 | 0.7841 | 0.8112 | 0.6667 | 0.8564 | 0.8503 |
Seq ID NO:60 | 0.7415 | 0.5000 | 0.8024 | 0.0511 | 0.7869 | 0.7394 | 0.6667 | 0.7735 | 0.7701 |
Seq ID NO:61 | 0.7162 | 0.5556 | 0.8024 | 0.0517 | 0.7898 | 0.7247 | 0.6667 | 0.7459 | 0.7433 |
Seq ID NO:62 | 0.7873 | 0.5556 | 0.8024 | 0.0514 | 0.7898 | 0.8333 | 0.6667 | 0.7624 | 0.7594 |
Seq ID NO:63 | 0.7532 | 0.5556 | 0.8024 | 0.0514 | 0.7898 | 0.7339 | 0.5000 | 0.7735 | 0.7647 |
Seq ID NO:64 | 0.7505 | 0.5000 | 0.8024 | 0.0522 | 0.7869 | 0.7680 | 0.6667 | 0.8453 | 0.8396 |
Seq ID NO:65 | 0.7330 | 0.3889 | 0.8024 | 0.0538 | 0.7813 | 0.7947 | 0.3333 | 0.8453 | 0.8289 |
Seq ID NO:66 | 0.8113 | 0.7222 | 0.8024 | 0.0510 | 0.7983 | 0.8499 | 0.8333 | 0.8232 | 0.8235 |
Seq ID NO:67 | 0.7645 | 0.5000 | 0.8024 | 0.0511 | 0.7869 | 0.8177 | 0.5000 | 0.8343 | 0.8235 |
Seq ID NO:68 | 0.8104 | 0.6667 | 0.8024 | 0.0499 | 0.7955 | 0.7827 | 0.8333 | 0.7680 | 0.7701 |
Seq ID NO:69 | 0.7369 | 0.5000 | 0.8024 | 0.0516 | 0.7869 | 0.7238 | 0.5000 | 0.7569 | 0.7487 |
Seq ID NO:70 | 0.7601 | 0.5000 | 0.8024 | 0.0543 | 0.7869 | 0.7293 | 0.3333 | 0.8287 | 0.8128 |
Seq ID NO:71 | 0.7443 | 0.5556 | 0.8024 | 0.0519 | 0.7898 | 0.7265 | 0.5000 | 0.7901 | 0.7807 |
Seq ID NO:72 | 0.7358 | 0.4444 | 0.8024 | 0.0525 | 0.7841 | 0.7155 | 0.5000 | 0.8177 | 0.8075 |
Seq ID NO:73 | 0.6989 | 0.5556 | 0.8024 | 0.0516 | 0.7898 | 0.7109 | 0.5000 | 0.8177 | 0.8075 |
Seq ID NO:74 | 0.7553 | 0.4444 | 0.8024 | 0.0550 | 0.7841 | 0.7624 | 0.5000 | 0.8011 | 0.7914 |
Seq ID NO:75 | 0.7648 | 0.3889 | 0.8024 | 0.0514 | 0.7813 | 0.7993 | 0.6667 | 0.8287 | 0.8235 |
Seq ID NO:76 | 0.7265 | 0.5000 | 0.8024 | 0.0519 | 0.7869 | 0.8297 | 0.5000 | 0.7680 | 0.7594 |
Seq ID NO:77 | 0.7622 | 0.6111 | 0.8024 | 0.0505 | 0.7926 | 0.7845 | 0.8333 | 0.7403 | 0.7433 |
Seq ID NO:78 | 0.7433 | 0.6111 | 0.8024 | 0.0512 | 0.7926 | 0.7311 | 0.6667 | 0.7845 | 0.7807 |
Seq ID NO:79 | 0.8009 | 0.6111 | 0.8024 | 0.0517 | 0.7926 | 0.8435 | 0.8333 | 0.7293 | 0.7326 |
Seq ID NO:80 | 0.7179 | 0.4444 | 0.8024 | 0.0512 | 0.7841 | 0.7228 | 0.6667 | 0.7790 | 0.7754 |
Seq ID NO:81 | 0.7096 | 0.3889 | 0.8024 | 0.0516 | 0.7813 | 0.7238 | 0.5000 | 0.8066 | 0.7968 |
Seq ID NO:82 | 0.7362 | 0.6667 | 0.8024 | 0.0514 | 0.7955 | 0.7233 | 0.5000 | 0.7569 | 0.7487 |
Seq ID NO:83 | 0.8160 | 0.6667 | 0.8024 | 0.0522 | 0.7955 | 0.8379 | 0.5000 | 0.7901 | 0.7807 |
Seq ID NO:84 | 0.7262 | 0.6667 | 0.8024 | 0.0516 | 0.7955 | 0.7311 | 0.1667 | 0.7790 | 0.7594 |
Seq ID NO:85 | 0.7529 | 0.5000 | 0.8024 | 0.0517 | 0.7869 | 0.8932 | 0.6667 | 0.7901 | 0.7861 |
Seq ID NO:86 | 0.7093 | 0.3333 | 0.8024 | 0.0512 | 0.7784 | 0.7127 | 0.5000 | 0.7680 | 0.7594 |
Seq ID NO:87 | 0.7372 | 0.5000 | 0.8024 | 0.0522 | 0.7869 | 0.8131 | 0.8333 | 0.7459 | 0.7487 |
Seq ID NO:88 | 0.8167 | 0.6111 | 0.8024 | 0.0511 | 0.7926 | 0.9383 | 1.0000 | 0.7735 | 0.7807 |
Seq ID NO:89 | 0.7379 | 0.5556 | 0.8024 | 0.0521 | 0.7898 | 0.7339 | 0.5000 | 0.8011 | 0.7914 |
Seq ID NO:90 | 0.7405 | 0.5556 | 0.8024 | 0.0537 | 0.7898 | 0.7053 | 0.5000 | 0.7735 | 0.7647 |
實施例
1.3
:所有目標結直腸癌組織特異性甲基化標誌物的機器學習模型
本實施例使用所有的39個結直腸癌組織特異性甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分結直腸癌的樣本。使用實施例1.1中訓練集的樣本進行模型訓練,再使用測試集的樣本對模型的效果進行測試,具體步驟如下:
使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(結直腸癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是結直腸癌進行判斷。
訓練集和測試集中模型預測分值分佈分別見圖5,從圖中可看出結直腸癌和其它癌種樣本模型分值具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖6,在測試集中,結直腸癌與其它癌種區分的AUC達到了0.902,設置閾值為0.076,大於該值預測為結直腸癌,反之預測為其它癌種,在特異性為85%時,敏感性達到了66.7%,樣本整體預測的準確率達到了84.5%, 可以較好的區分從7種癌症樣本中區分出結直腸癌。
實施例
1.4
:結直腸癌組織特異性標誌物組合
1
機器學習模型
為了驗證相關結直腸癌組織特異性甲基化標誌物組合的效果,本實施例從所有39個結直腸癌組織特異性甲基化標誌物中選取了Seq ID NO:52, Seq ID NO:59, Seq ID NO:62, Seq ID NO:64, Seq ID NO:73, Seq ID NO:83,一共6個結直腸癌組織特異性甲基化標誌物構建新的機器學習模型。
機器學習模型構建的方法同實施例1.3一致,相關樣本只選用了目標的6個結直腸癌組織特異性甲基化位元點的資料,該模型在訓練集和測試集中的模型得分見圖7,該模型ROC曲線見圖8。可看出該模型在訓練集和測試集中,結直腸癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.931,閾值設成0.055時,大於該值預測為結直腸癌,小於該值預測為其他癌種,在特異性為93.4%時,敏感性達到了66.7%,整體的準確率達到了92.5%,說明了該結直腸癌組織特異性標誌物組合構建模型良好的性能。
實施例
1.5
:結直腸癌組織特異性標誌物組合
2
機器學習模型
該實施例從39個結直腸癌組織特異性甲基化標誌物中選擇了另一個結直腸癌組織特異性甲基化標誌物的組合:Seq ID NO:52, Seq ID NO:54, Seq ID NO:61, Seq ID NO:64, Seq ID NO:66, Seq ID NO:69, Seq ID NO:71, Seq ID NO:74, Seq ID NO:76, Seq ID NO:87,一共10個結直腸癌組織特異性甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例1.3一致,相關樣本只使用了目標10個結直腸癌組織特異性甲基化位元點的資料。該模型在訓練集和測試集中的模型得分見圖9,ROC曲線見圖10。從圖中可看出該模型在訓練集和測試集中,結直腸癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),該模型測試集的AUC達到了0.902,閾值設置為0.059時,在特異性為90.6%時,敏感性達到了66.7%,整體的準確性可達到89.8%,同樣可以較好的區分結直腸癌和其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了39個結直腸癌特異性的甲基化標誌物,根據這些結直腸癌組織特異性甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中較好的區分出結直腸癌的樣本,對泛癌種早篩過程中結直腸癌的組織溯源提供了重要的參考。
>Seq ID NO:52
ACACCGTGCTGGGCCTGCTGGACAGCCACCTCATCAAGGAGGCCGGGGACGCCGAGAGCCGGGTCTTCTACCTGAAGATGAAGGGTGACTACTACCGCTACCTGGCCGAGGTGGCCACCGGTGACGACAAGAAGCGCATCATTGACTCAGCCCGGTCAGCCTACCAGGAGGCCATGGACATCAGCAAGAAGGAGATGCCGCCCACCAACCCCATC
>Seq ID NO:53
GAGGCTTCGCAAGGCCGGCTGCTACAAAGTGCCGAGCTTGGCTGCATAGATTTTAATGAGAGCGTCAGGCAGAGCTGTGCTGTTGCTCTCCGGGACTTGCAGATCATTACCAAACCAACTGTAGGATGAGAACATAGCACATCGAAACCCTAGGAGGTCACTGAGCTAATGATCTAATCCTACCTTCCGCAGGCAGTGCCC
>Seq ID NO:54
GGCCCCTCCCATTCCGCCTTTTCTTCAGCGTCCTGCCCGCGGCACTGGCTGCGGGTGCCGGGCCACCTGCGAGTGTGCGGAGGGATTCCGGACACCCGCGGCGGCGAGCTGAGGGAGCAGTCTCCACGAGAACTGAGGCGGACCCTCTGGCGCCATGCGCGCCCTCCCCGGCCTGCTGGGGGCGAGGGCGCCTACGCCCCGGCTGCTTC
>Seq ID NO:55
TGTGTGCACATTGGGGAGCCTCCGCATGGGTGAGTTCAATGCTCTGTTCTTCGTGCTGAAGGTGGAACTCATATGCAATGGCGTTTATTTTTCCCCTGACGACTATAAATTTTCCCTGATAATCTGGGGCCAGAGTCCACTGGTGCAGCAGGTGGGATGCGGGCGGCGGATGGAGTCCCTGAGCTGGGGAGGACTGTGCAGCTCCCTCGGTGACGCTGAGCCCGTCTGGGCATTCATGCGATACGCAGCGCTCTTTACTGCGGGTCCCATCTACAATAATGTTTATCCCGCAGGTGTTTAATTCTCATAGCACAGCTAGGCTAGCAGAGTTTTTAAGGTAAATTAACCAGAATAGACATGATCATG
>Seq ID NO:56
ACTTCAGTCGTTCCGTGTCAGCCTCCACCCCTGGTAGCACCAGAGCCTCCCAGGCGTCCCCGCAGTCCGAGCCAGCCTTAGCACCCAGCGCTTTCTTGCTGTCGCCTGGTTGTTCCCGCGGCGGCCGAGCTCAGCACCTCTCACACTCCCTGCCTCTCGAGGACTCTGCTTGTTCCTCATCACAGCACGGTTGCTCTCGCA
>Seq ID NO:57
GGGCACAGAGCAGCAGAAACCCCGCCCCAGAGACACCGAAGCCTCCCAGCCCCCTTGTCCTGCCCCAGATGGGCGCCCGAAGGTCCACACGGTGAGGCTGCTCCGGGTTTCGACACCGACACTCATGGGAGGCAAACGGGAACCCGGCTGGCGGGCTGCGAGCCGGTAGGGACGCTGGGGTCCAGGGCTGCTGGACAGCCC
>Seq ID NO:58
TGACACTATACTGTCCCTCGGTGTCATTCTCATAGACATAACCACCACTGTAATAAAAGTCACACTCTGCATAGGGTGTGTACCCGGCAATGTAGTAACTGGAAGACGGTGGCTCCTGACTCTTTGAGTAAACACCATTCCTCAAACTATCCTTTTGTGCTAGGTTGGGCATGCTTCCTGAATTTGAAGTAGAAACATTCTGTTT
>Seq ID NO:59
CCGGCCCTGTTGCCATCTCCCTGGAGCGCCAGCGGTGGAGGCTTCGGAGGAGCCGGCCGGATGCACCGGGACCCCGCGGGGCCTAGTTGGGAGCGCGCCGCCCACTGAGGCCTGGGGGCCCGGCGAGGCGCGGGGGTGGCCAAGGCAGTCTCCCCGGCACACAGATCAGCACATGTCTACGCGCACACACCCAGCACGACCCTCCCTCCCCCAGCACACCCCAAGGGCCGCGCCCTCCGCTCCTGGGCCTGGTGGCCATGGTCC
>Seq ID NO:60
ACGCAGCTGGGCGCCTGCGGCTCCGGCTTGCCCCCCGGCACCCATTCCCCGTTCACGTACTTCCAGCGGTGGTTGTCCGCCGCCACGAAGTCCAGCAGGAAGGAGTACATGGCGTTGGGGTCCAGGCCAGACACGTTCACCTTCAGCACCGGAAACATCCTCCTGGAAAACACGGGGCGGGCGCAGGAGGACCCCGACACTGACCAGGTAGGCCGGAGGCAGAAGCTGGGCACAGAGGCCTCAGTTATTTCGGGGCACAGAGGAGCCCCCTGGGGAACGTCCGAGGGTGACTCC
>Seq ID NO:61
CTGGAAGACACTTCCGCCAGCACCCTATGGGGCGCAGTGGCGTCTAATGCTAATGTGGGCTACGTAGCTACGGGATTGGGTCGCTCCGACCCTGGCCGATCCGGTGCCAGACAGCATAAGGGAGGAAAGGGGACTGGGGGGGGCACGTGACTTCAACCAACCCAGTAACCAAGTTTTGTTTTCTTCCCCAGCACAGGCCGC
>Seq ID NO:62
CAAGGGAGTAAGTGTTCCTAAAGGTGTGACTTGTGTGACCATCCAAAGGCTGCCGGGGCGGGGGGATCCCAGAGAGCACAACATGGCAATCACGAAAATATGTTGGTGTCATTTCTCGGTCTTCAAAAATGACGGACACTGCTGGTCGCTGTGGCTTCCTCCTACGCGTTCGGTCACTCCTGCACATGTCCGCAGTAGTGGTGCTCTCGGGGACCCCCTCGCCACCCCACAATACCGCTCACCACATGGCCAAACAGGTTCGTCTTTT
>Seq ID NO:63
TCCATGGTGCAGGGGGTCGGGCGGCCCGCTGGGCAAGGCGTCCGAGAAAGCGCCTGGCGGGAGGAGGTGCGCGGCTTTCTGCTCCAGGCGGCCCGGGTGCCCGCTTTATGCGGGGCGAGCGTCCGGCCGACCCCCGCCGGGGCGGAGCCTGAGGGGTGGCTGATTCATGCACGGGGACTGTCACCCCGCCGCCCCCGCGCTGCAAACTGTGTAAGAGGGAGAGGAATT
>Seq ID NO:64
CAAGAAGACGCACCTGGTGGCGCACTCGCGCGTGCACTCCGGCGAGCGGCCCTTCGCCTGCGAGGAGTGCGGCCGCCGCTTCTCCCAGGGCAGCCATCTGGCGGCGCATCGGCGCGACCACGCCCCCGATCGGCCCTTCGTGTGTCCCGACTGCGGCAAGGCCTTCCGCCACAAACCCTACCTGGCGGCGCACCGGCGCATCCACACCGGCGAGAAGCCCTACGTCTGCCCCGACTGCGGCAAAGCCTTCAGCCAGAAGTCCAACCTGGTGTCGCACCGGCGCATCCACACGGGCGAGCGGCCCTAC
>Seq ID NO:65
CGGGCCAGCGCCCTGGGGCTTCCGTATCACAGGGGGCAGGGATTTCCACACGCCCATCATGGTGACTAAGGTAAGGATGGTGGCTCAAAGAGATGAGAAGGTCCTGCCAGAAGCGAGGTCGGCCCTGTTCACCCCACTCTGCACAGATGGCTTGCTTTTTCTGTTCTGGAGCTAGGGATCTGCTGCTGCCTGGCGTGCTGG
>Seq ID NO:66
GCGCCCCCGAGCCCCGAGCCCGAGTCCCCGAGCCTGAGCCGCAATCGCTGCGGTACTCTGCTCCGGATTCGTGTGCGCGGGCTGCGCCGAGCGCTGGGCAGGAGGCTTCGTTTTGCCCTGGTTGCAAGCAGCGGCTGGGAGCAGCCGGTCCCTGGGGAATATGCGGCGCGCGTGGATCCTGCTCACCTTGGGCTTGGTGGC
>Seq ID NO:67
GCCCGCGGCACGTAGCtttgcactgacattcacttgctaccggcatatctgtcttggcttccttggtgcttccaaaccaacaattgggaagggttgccaaaagattaagaaaaatgtacagggtaaacatccgaactgaggtatgcaataaataaacttttcaaatgaatagagaaacggcaggagagagtctgctttaat
>Seq ID NO:68
CCTgccgccgccgccgcctcccgcccccggccAGGAGTCGCGCGTGACGCGGTTCGCCGCAGGAGCCTCGAAGGCGCGGCGCCGGCGAGCCCTTCCCCGGCAGGCGCGTGGGTGGTAGCGGCCAATTTGACAGTTTcccgggccgggcggccagcgcggaggcgccacgctcgggtcgggggcgggctgacgccgccgccg
>Seq ID NO:69
ATTAAAAAGTTATTTAACAGTGACACCTAAAAAAGAAAAATTTGGCACGAGATTATAATCTTTTTAATTAATATGCAATTCTGAATAGTAGCCAACATGGGCTTGTAAACCACGTGAAGAGCTATTTACCGGACACTGGCGTCTCCCGAGAGGGTGTGTCCGTGCAGAAAGCTGGAGGCCCCTCGCGTGCTGCAGGTCCACGCCCACTGCACTTCTGCCTCGCCCAGTGGCTGGGCACAGGCACCGTCCTGGCACAGGTGGCAGATGGACGTATTGTATCACCCCACCCCGTGCTTACCTGACCGATAGCGCTCATCTCGTGACCCTGAAGACCGTCGGCGGTGGTAGCGAGAGGCGGAGGAAG
>Seq ID NO:70
CTGATTACAGTCCGGAGCCATGATGGGCTCCCAGTTGCCACCTTTTCCAAGAAGCTGACTTTTGAGGAATCCGCCTGGCCACGGGAATCACACCATGTTTGCACTGCCCTCAGCTGTTGATTACACCCTCATCCGCGCAACCGGCATCCAGGAAGAACACTTTCTTCCTCACAGGGTGTCTCCTCTCCTGTTTTCATGTTTATGGCATCAGGTGGTTTGCAGAGTGCTCCACACCCAGACATGTGCGTCCAGTGAGGTCAGCTGAGAAAACAACAGCTTGCCCACCACCCTGCTCCCCCCTCATTCTGGGAGCTACAGGCTGGGGCCACGGTCACCCCTGGGCACACGCCCCCACCCCCACCTT
>Seq ID NO:71
AGACCCCCTTCTCTGGCTGCAGGAGAAGCGCCGTGCAGAGAGAGCGGAGCAGCAGAGGATTCGTGCAGAGAAGGAGAGGGAGCGCCAGAACAGACTGGCGGTGAGGGCACCATCCGCACTGCTGCCTCATCAGAGAATGAGCCCCAGGCCCAGAGAAATGCAGGGGGCTGAGGCCTTCCTTCTCCCGGGGTTCCCATTGTCATTGGCCAATGATCAGAACCACTGGCTAAGGCC
>Seq ID NO:72
TCTGCTGGTCGTGGGCTCGGCCCCCAGGCGCCAGGCCGAGTGCCCACCTCGGCTTCTTTAGGGGGCCTACAGCGGGCAGCCGAGCGGCTGGCGGACCCGGAGCTTGGGAGGCGACCGCCAGGCTGGTGCCCGGCCTGACCCGGCGTTcgcggccgcccgctcgcccgccgcgggccgggAGCGTACAGGAGTGTGACGCAGATTGTGAAAACAGAAGGGAGGGAGTTGGGTCATTTCCTTCGCTAA
>Seq ID NO:73
acgttgggaggccgaggcgggcggatcacgaggtcaggagatcgagaccaccccggctaaaacggtgaaaccccgtctctactaaaaatacaaaaaattagccgggcgtggtggcgggcgcctgtagtcccagctacttgggaggctgaggcaggagaatggcgtgaacccgggaggcggagcttgcagtgagccgagatc
>Seq ID NO:74
CTTCCTGCCCTTTCTGTGCCTCAGCATCCTCTACGGGCTCATCGGGCGGGAGCTGTGGAGCAGCCGGCGGCCGCTGCGAGGCCCGGCCGCCTCGGGGCGGGAGAGAGGCCACCGGCAGACCGTCCGCGTCCTGCGTAAGTGGAGCCGCCGTGGTTCCAAAGACGCCTGCCTGCAGTCCGCCCCGCCGGGGACCGCGCAAAC
>Seq ID NO:75
ACGACCCGCGCTGCGGCGGGCACCAcgcggggggcgcgcggggaggggagaggcggggccggcggggACTGTGTCGCCGCCGACGCCGCGGCTGCGGGTCGCAGAGGCGGGCAGAGAGAGCCGCCGCCGAGCGGGTGGCGGAGCAGTCCCCAGCCTCCAGCCGGCCTGGCTGCGCGCAACCGCGCCGGCCCCGGGCACAGG
>Seq ID NO:76
AGTGCTGCACTGGGGCCCCGGGAAGCAGAAGACGGCTCCTGGCACATCTCCTGGGTGCATCTGTGGATTGCTGGGGCCCCCAGCAGCTCTCCCAATCCCCAGAAACCCCTCCTGGATCTGCTGTATCCACCTGGAGCCTCTTGGTGCACAGCGGCACACACAATACCTCCACTCTCCACCCCGAAGGATGCCCACTGCAGCGGGGTCCTCA
>Seq ID NO:77
ccccATTGGCTGCCGGGAACAGGTGGTGGGGCCGGCGTAGCGCCCCGAATTAGGAACTGTCGGGAAGCGCCGCGGCCGCTGGCTCGAGCCTCCGATGCTTGCCCTTTTTTAGCCAGCGGGGCCACTGACGGCTTCTGTTGCACGTCCGGACCCGGACCCAGACCCGAGCGTCGCAAGAAGGCCCGTTGGAGTCTCGCGCAA
>Seq ID NO:78
GCAGCGGGGTTGGAGGATGCAGGAGCACCAGGCTGCCGTCCCCAGGGTCCCCCAGATCCCCACGCGGGAGGGGACCGGAGACGAGGACAAGTTCGCGGAAACTGCCCGTGCGTGTCGGGGAGAGATGCGAGTGCAGGAGCGCCCAGCCGTAAAGCACAcccccgcccgcccccgcgccccATCACACACGCGCGCGCGGGC
>Seq ID NO:79
aatccaataggaccggtgtccttataagagaggagatggacacatgaagacagagacatacggggatcagacaatcatggacggaggaggaagagagtgcggcgatgcatctaggagccacaggacacctagaatggccagcagccggtgggaaccaggagaggcaaggacggatcctctcctccagccttcagagggagcccggccctgaccacacctcgatctcagactctgacctccagaactgcgagagaagaaatctcagttgttttaatgtacgcagcttgtggcactttgtgacagcagATAC
>Seq ID NO:80
GCGTGTGTCTCCCTCGCTCACTCTCGCACACGTTCCGGCACTAGTGCAGGCGGCGAGCCGGCGGCTCTCCGCTCGCTCGCTCCGGCAGCTGCGTTCCCGCCTcgccccgccgccgccgccgccgccgccgccgccgcctctgcagtcgcagccgGGCATGGTGAGTGAGTGAGGTCCAGCCGCCGCGCGCTCTCCCGGCTC
>Seq ID NO:81
CTGCAGGCTCTCGAGCAAGGGCCACCCCAAAGAACGCAGGAGGCCTCAGCTTCTCTTGCCTGAGATCGCTGCCGTGTGGGGCTTCAGCGCCCGGCTGCCTGTGGGGAGCGGATCACCGGCGGTTTCATCCCCGTGCACTCTTGTCTGATGAAATATAAATAGCACGCGATGTTTTCGAGCAAGGCTAGGGAAGCGTCTGTGGGTCGTCCTCCCGCCCGGCAGAGGCTGATGAGCTGGCCTGGGGACGGGAAGGAGATGGGAGCTCCTGAATAAATCATCGTGGGAGCTGGGCTAATGCACTGGCCACGGGCAGCG
>Seq ID NO:82
TCCCGGCTGGAAAGGAAGCCCTGCGCTCGAAGCGCCCCACGCCAGACGGAGTGGCCCCTGCGCCTCCCCGCGCGCCGGCGCGCCCTGTTCACCTTCGACTGGATGTTACCGAGCCAGGGAGAGACCCGGAGATCGAGTGTTTGATCTTCCCTTGCTCCAGGATCCTGAATTCTTTAAacacactcgcacgcgctcgcacac
>Seq ID NO:83
CCAGGGCCAGGTACCACACCTGGATGCTCCTGGGCTGCCTCCCGGTGCTTGTTCCCAGGCCATCGGGACGCCCTGGCTGGGAGCATCACCGAGTGCCTGCCGCCTGAGGTTCCTGCCCGGCCCAGCCTGACTCTCCCAGCAGACATTGACCTGTTCCCTTTCTCCAGCTTCGTCGCCATCGGCTTTCAGGTGGGCGCCCAGGCCTAA
>Seq ID NO:84
AGGGCGTTGTAGTTGGACACCCAGTTCTCGTGGTCCACGCTGCCCTTGTAGCCCACCACCTTCACCCACTCCGGGTTCTCGTTCACCACATCACCCGTAGTGGTCGTCCACTCCTTGCCCAGGCCGCCCACGTACAGACGCTCGTCCTTCACTGCCAGCCATTCGGCCTTGAAGCCTGGCCAAGCAGAGTGTCCTTAGGccccgcacccagctcccgccgcacccctgcacctggctcccacccggccccgcacctgtccttagaccccgcacctgactcccgcccggctccacacctgcctcccctccggcccgcacctggctcccgcccAGGGCCGGCCGGCTGCCCTCCCCTCAGCTCCTGAAGGTTCAGTGACCACTCTCAAGTCT
>Seq ID NO:85
CGGAGCTGCCGGCCTTTGCAGCCTTCAGAGTCTCCAGGTTCTTCCTCCGCACTTGTGGGACTGAAGGCCGCTGGAGCAGATGACTCACGCTCCCACAGGCTTCGGTCCACACTTTCAGAGAACACGGTGGCTGTGACCGGAGGCTCCACGCGCCTGTCTGAGGAAGATCCTGCTTCCTCCCTGCAGTTTCTGCCGCTTCGCTCCGGCCTCACCG
>Seq ID NO:86
TGAGAAAATATGTCTAAACAGCACGCCTCTCCAGCCTCTCCCAGAGCCAGCAGCCTTGAACCCTGACCCCGTCTGGCCTCTTTCCCTGGCCCGGGAAGGCGGGTATTTGTTTCTCTCTGAATGACTGAACTTGGCCCCCTTGGCTTCTGCCTCTGCGCCCTCCGGCGGGGGTGACCTCATGTCCTCGGGCGTCCTCCTCAC
>Seq ID NO:87
tttacagatgagaatgccggggcccagagagggctgcagtcctggcctaaggatgcccggcAGGGCTGACTCCCAGGGGCTGGGGGCCAGGAAATGATGGAGGGGCCGGTCCCCCCACCCACCCAGGGCAAGGCCCTGCCCTCGCCCTGGAAACTAAACTCGCTCTGAGACAACTGACCCACGCCCTCACTCCAGGAACACAAGCCACCTGCCGGCCAC
>Seq ID NO:88
GTGTTTGAGAAGGACTTCGGCCCCATAGACCCGGAGTGCACCTGCCCCACGTGCCAAAAGTAGGCAGGATGGCACTGGGAGCTGGGGCAGGGCATGGAGGGGACAGGGCCTGGCCGTGCTGAGCTGTCCCCTGCCGCTCTACAGGCACAGCCGCGCCTTCCTGCACGCACTGCTGCACAGTGACAACACGGCCGCGCTGCACCACCTCACGGTCCACAACATCGCCTACCAGGTGAGCCAGTGCCCGGGGCAAGGTGGGCGGGGGTGTCCTAGGTGCGTATGCCCCACGCTGACCTCCCCTCCCCGCAGCTGCAGCTCATGAGCGCCGTCCGCACCAGCATCGTGGAGAAGCGCTTCCCGGACTTCGTGCGGGACTTCATGGGCGCCATGTACGGGGATCCCACCCTCTGTCCCACCTGGGCCACTGACGCTCTGGCCTCTGTGGGAATCACACTGGGCTGAC
>Seq ID NO:89
AGAGCTTGGAGAAGGTGACGGTTTTCAGTTCCTTGTTCTCAGTCGTGGCCTGGACCGACTTCACGAGGTCTTGGGTCTGCAGCATGCTCATGTTCCAGGACGCCTGGTACCGAGGGTGTTGAGAGAGAACGAGGAGAGAGATTAGCAGGGGCCAATCAGGATAAAGCATGAGAGCACCCTGCACCCTGGTTGGTCGCCTGG
>Seq ID NO:90
TGGGGCACTGGGGTCTTCCTGTCCCACGTGCCCTCCACCCTGGGCTTCTGGAAGCTGGTCTAGATGCCCCTAGCTGCCGCCTGGGCAGCCCATATGCCCACGCCGGTCCCTGATAGTGAACTGGCCCGTAAGGGGACCAGGTCTCGGGATCTGAGCATGGAGCAGGGGCTGCGCCCAGGAGATAGGGTGTGGCTAGACTTTCCCCTGCTGGTCCTTTCCGGGGATCTGAGGGGAAACTTCTCCTGGGGACACACCCGGGTAGCTCAGAGATGGAAGAAAAGGTCTCCATTA
實施例
2.1
:甲基化靶向測序篩選肺癌特異性的甲基化位點
發明人收集了總計490例各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表2.1,訓練集中肺癌樣本總數為51個,測試集中肺癌樣本總數為20個。
表2.1 各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 319 | 171 |
癌症類型 | ||
食管癌 | 37 | 21 |
肝癌 | 113 | 66 |
胃癌 | 46 | 25 |
肺癌 | 51 | 20 |
乳腺癌 | 20 | 20 |
胰腺癌 | 33 | 13 |
結直腸癌(也稱腸癌) | 19 | 6 |
年齡 | ||
中值(最小值-最大值) | 62.5 (25-87) | 61.5 (29-89) |
性別 | ||
男 | 193 | 107 |
女 | 123 | 63 |
NA | 3 | 1 |
通過申請人自主研發的MethylTitan
TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料預處理的資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化haplotype,對於目的地區域內的每一個甲基化haplotype都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段(reads)數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出肺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中肺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分肺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差;
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
這些甲基化標誌物在肺癌與其他6種癌種中的甲基化水平如下表2.2和圖11和圖12所示。這些甲基化標誌物在訓練集和測試集中肺癌與其它癌種相比都具有顯著性的差異(u檢驗,p值小於0.05),且甲基化水平也具有較大差別。
表2.2 在訓練集和測試集中甲基化標誌物在肺癌與其他6種癌種中的甲基化水平均值
序列編號 | 染色體 | 起始位置 | 終止位置 | 訓練肺癌甲基化水平 | 訓練集其它癌種甲基化水平 | 訓練集P值 | 測試集肺癌甲基化水平 | 測試集其它癌種甲基化水平 | 測試集P值 |
Seq ID NO:91 | chr1 | 3331940 | 3332307 | 0.9065 | 0.8441 | 6.27E-17 | 0.9010 | 0.8496 | 2.39E-07 |
Seq ID NO:92 | chr1 | 10813808 | 10814072 | 0.9243 | 0.8983 | 6.34E-10 | 0.9200 | 0.8978 | 0.000348 |
Seq ID NO:93 | chr1 | 27687058 | 27687449 | 0.7343 | 0.5534 | 3.55E-15 | 0.7266 | 0.5554 | 1.52E-07 |
Seq ID NO:94 | chr1 | 248020790 | 248021176 | 0.9819 | 0.9268 | 1.70E-15 | 0.9822 | 0.9224 | 1.78E-06 |
Seq ID NO:95 | chr2 | 39187516 | 39187716 | 0.0851 | 0.1521 | 1.13E-11 | 0.0772 | 0.1458 | 1.06E-06 |
Seq ID NO:96 | chr2 | 113931508 | 113931708 | 0.9253 | 0.7354 | 2.56E-17 | 0.8978 | 0.7491 | 3.39E-07 |
Seq ID NO:97 | chr2 | 177030134 | 177030449 | 0.7891 | 0.6280 | 9.10E-18 | 0.7666 | 0.6282 | 3.84E-07 |
Seq ID NO:98 | chr3 | 124860729 | 124860929 | 0.0221 | 0.1243 | 4.18E-14 | 0.0394 | 0.1213 | 6.17E-06 |
Seq ID NO:99 | chr3 | 185973717 | 185973917 | 0.1360 | 0.2115 | 4.38E-15 | 0.1520 | 0.2187 | 9.34E-06 |
Seq ID NO:100 | chr5 | 1291139 | 1291339 | 0.8525 | 0.8181 | 6.73E-15 | 0.8471 | 0.8141 | 4.05E-06 |
Seq ID NO:101 | chr5 | 92906255 | 92906617 | 0.0866 | 0.2398 | 2.79E-17 | 0.1143 | 0.2239 | 6.26E-07 |
Seq ID NO:102 | chr5 | 140892824 | 140893033 | 0.0036 | 0.0474 | 9.42E-15 | 0.0038 | 0.0435 | 4.13E-07 |
Seq ID NO:103 | chr5 | 169805839 | 169806039 | 0.0026 | 0.0248 | 7.53E-12 | 0.0031 | 0.0174 | 2.46E-05 |
Seq ID NO:24 | chr6 | 1625055 | 1625255 | 0.0035 | 0.0694 | 7.97E-13 | 0.0018 | 0.0622 | 8.32E-06 |
Seq ID NO:104 | chr6 | 26240701 | 26240901 | 0.8681 | 0.6695 | 2.37E-14 | 0.8370 | 0.6826 | 7.85E-06 |
Seq ID NO:105 | chr7 | 67016160 | 67016360 | 0.0167 | 0.0500 | 3.29E-08 | 0.0299 | 0.0493 | 0.004434 |
Seq ID NO:106 | chr7 | 127744150 | 127744731 | 0.0251 | 0.0576 | 3.62E-15 | 0.0321 | 0.0597 | 5.54E-07 |
Seq ID NO:107 | chr7 | 137347054 | 137347254 | 0.0222 | 0.0357 | 1.27E-16 | 0.0250 | 0.0355 | 0.000189 |
Seq ID NO:65 | chr8 | 22438141 | 22438341 | 0.0542 | 0.1723 | 1.47E-18 | 0.0724 | 0.1687 | 2.39E-07 |
Seq ID NO:108 | chr8 | 22876154 | 22876354 | 0.0453 | 0.1601 | 1.55E-14 | 0.0426 | 0.1474 | 8.98E-07 |
Seq ID NO:109 | chr8 | 129103499 | 129103699 | 0.9196 | 0.8333 | 3.08E-15 | 0.9165 | 0.8475 | 3.09E-06 |
Seq ID NO:110 | chr8 | 145105489 | 145105984 | 0.9238 | 0.7506 | 1.08E-13 | 0.9013 | 0.7626 | 2.05E-05 |
Seq ID NO:111 | chr9 | 127257997 | 127258338 | 0.1914 | 0.3323 | 7.34E-16 | 0.1992 | 0.3263 | 2.84E-08 |
Seq ID NO:112 | chr10 | 22634278 | 22634478 | 0.0520 | 0.2211 | 4.90E-12 | 0.0414 | 0.2117 | 1.62E-07 |
Seq ID NO:113 | chr10 | 88296342 | 88296594 | 0.2455 | 0.4593 | 6.24E-16 | 0.2603 | 0.4507 | 2.64E-07 |
Seq ID NO:114 | chr10 | 123923943 | 123924143 | 0.0186 | 0.0731 | 2.13E-15 | 0.0266 | 0.0707 | 3.93E-07 |
Seq ID NO:115 | chr10 | 134016194 | 134016408 | 0.0020 | 0.0209 | 1.70E-14 | 0.0020 | 0.0226 | 4.23E-06 |
Seq ID NO:116 | chr10 | 134734173 | 134734395 | 0.0055 | 0.0349 | 1.90E-13 | 0.0133 | 0.0352 | 0.001343 |
Seq ID NO:117 | chr10 | 135090209 | 135090425 | 0.0034 | 0.0544 | 8.09E-09 | 0.0037 | 0.0485 | 0.000708 |
Seq ID NO:118 | chr11 | 64333172 | 64333372 | 0.0298 | 0.0551 | 2.50E-12 | 0.0315 | 0.0616 | 2.32E-05 |
Seq ID NO:119 | chr11 | 68622069 | 68622269 | 0.9370 | 0.8254 | 2.94E-14 | 0.9449 | 0.8403 | 1.24E-07 |
Seq ID NO:120 | chr12 | 58021334 | 58021534 | 0.9297 | 0.8120 | 3.46E-15 | 0.9067 | 0.8419 | 4.23E-06 |
Seq ID NO:121 | chr12 | 133029845 | 133030045 | 0.0083 | 0.0577 | 1.22E-14 | 0.0120 | 0.0526 | 1.16E-05 |
Seq ID NO:122 | chr13 | 21520235 | 21520435 | 0.9415 | 0.7899 | 3.13E-14 | 0.9246 | 0.7933 | 4.33E-06 |
Seq ID NO:123 | chr13 | 114214669 | 114214869 | 0.0022 | 0.0128 | 1.19E-13 | 0.0024 | 0.0115 | 7.20E-06 |
Seq ID NO:124 | chr14 | 55243006 | 55243206 | 0.9292 | 0.7749 | 3.53E-18 | 0.9058 | 0.7895 | 2.11E-07 |
Seq ID NO:76 | chr14 | 105102434 | 105102644 | 0.9126 | 0.8633 | 3.58E-11 | 0.9079 | 0.8671 | 5.29E-06 |
Seq ID NO:125 | chr15 | 41793866 | 41794364 | 0.0452 | 0.2092 | 2.65E-14 | 0.0689 | 0.1965 | 1.09E-05 |
Seq ID NO:126 | chr16 | 1037548 | 1037773 | 0.9153 | 0.8697 | 4.58E-16 | 0.9113 | 0.8726 | 3.09E-06 |
Seq ID NO:127 | chr16 | 2085778 | 2086156 | 0.0384 | 0.1241 | 1.08E-15 | 0.0444 | 0.1177 | 1.04E-06 |
Seq ID NO:128 | chr17 | 75370344 | 75370592 | 0.0022 | 0.0568 | 1.25E-12 | 0.0133 | 0.0624 | 0.004994 |
Seq ID NO:129 | chr18 | 74818217 | 74818417 | 0.8893 | 0.7320 | 4.95E-17 | 0.8785 | 0.7391 | 6.81E-08 |
Seq ID NO:130 | chr18 | 77159233 | 77159590 | 0.9140 | 0.8171 | 2.45E-18 | 0.8941 | 0.8148 | 7.78E-07 |
Seq ID NO:131 | chr19 | 10824035 | 10824235 | 0.5478 | 0.4511 | 1.18E-13 | 0.5446 | 0.4558 | 9.56E-08 |
Seq ID NO:132 | chr19 | 15580341 | 15580719 | 0.9229 | 0.8061 | 5.76E-16 | 0.9165 | 0.8158 | 2.84E-08 |
Seq ID NO:133 | chr20 | 60447728 | 60447992 | 0.0094 | 0.0535 | 2.74E-10 | 0.0145 | 0.0527 | 0.00069 |
Seq ID NO:134 | chr20 | 61318785 | 61319012 | 0.0252 | 0.0583 | 1.32E-12 | 0.0335 | 0.0575 | 0.001949 |
Seq ID NO:135 | chr20 | 61606676 | 61606962 | 0.0055 | 0.0329 | 5.92E-16 | 0.0077 | 0.0299 | 6.11E-07 |
以單個肺癌組織特異性甲基化標誌物Seq ID NO:91為例查看該肺癌組織特異性標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖13和圖14所示,可看出該肺癌組織特異性標誌物的甲基化水平在肺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的肺癌組織特異性甲基化標誌物。
實施例
2.2
:單個肺癌組織特異性甲基化標誌物判別性能
為了驗證單個肺癌組織特異性甲基化標誌物的區分肺癌與其它6個癌種的潛力,使用單個肺癌組織特異性甲基化標誌物的甲基化水平資料在實施例2.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標肺癌組織特異性甲基化標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(肺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肺癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個肺癌組織特異性甲基化標誌物邏輯回歸模型的效果見表2.3,從該表中可看出,所有的肺癌組織特異性甲基化標誌物在測試集和訓練集都可以達到0.67以上的AUC和0.58以上的準確率,都是較好的肺癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO: 132,Seq ID NO: 111,Seq ID NO: 129都可以在測試集中80%以上的特異性下達到75%以上的敏感性,整體準確性達到80%以上。
表2.3 單個肺癌組織特異性甲基化標誌物邏輯回歸模型的表現
訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 | |
Seq ID NO:91 | 0.8657 | 0.8235 | 0.7687 | 0.1709 | 0.7774 | 0.8470 | 0.8500 | 0.7616 | 0.7719 |
Seq ID NO:92 | 0.7682 | 0.8431 | 0.5784 | 0.1613 | 0.6207 | 0.7338 | 0.7500 | 0.6026 | 0.6199 |
Seq ID NO:93 | 0.8438 | 0.7647 | 0.8097 | 0.2094 | 0.8025 | 0.8530 | 0.8000 | 0.8477 | 0.8421 |
Seq ID NO:94 | 0.8479 | 0.7843 | 0.8396 | 0.1700 | 0.8307 | 0.8195 | 0.7000 | 0.7748 | 0.7661 |
Seq ID NO:95 | 0.7954 | 0.8235 | 0.7015 | 0.1702 | 0.7210 | 0.8268 | 0.8000 | 0.7020 | 0.7135 |
Seq ID NO:96 | 0.8704 | 0.8235 | 0.7985 | 0.2131 | 0.8025 | 0.8424 | 0.7500 | 0.7947 | 0.7895 |
Seq ID NO:97 | 0.8757 | 0.8431 | 0.8246 | 0.2006 | 0.8276 | 0.8407 | 0.7500 | 0.7881 | 0.7836 |
Seq ID NO:98 | 0.8297 | 0.8431 | 0.7276 | 0.1835 | 0.7461 | 0.8013 | 0.7500 | 0.7086 | 0.7135 |
Seq ID NO:99 | 0.8426 | 0.8627 | 0.7164 | 0.1710 | 0.7398 | 0.7950 | 0.8000 | 0.7152 | 0.7251 |
Seq ID NO:100 | 0.8402 | 0.8431 | 0.7612 | 0.1633 | 0.7743 | 0.8076 | 0.9000 | 0.7550 | 0.7719 |
Seq ID NO:101 | 0.8699 | 0.8235 | 0.7910 | 0.1992 | 0.7962 | 0.8341 | 0.8000 | 0.7616 | 0.7661 |
Seq ID NO:102 | 0.8383 | 0.8431 | 0.6978 | 0.1665 | 0.7210 | 0.8397 | 0.8500 | 0.7483 | 0.7602 |
Seq ID NO:103 | 0.7981 | 0.7647 | 0.6940 | 0.1619 | 0.7053 | 0.7798 | 0.7500 | 0.7152 | 0.7193 |
Seq ID NO:24 | 0.8109 | 0.8039 | 0.7127 | 0.1719 | 0.7273 | 0.7955 | 0.9000 | 0.6490 | 0.6784 |
Seq ID NO:104 | 0.8330 | 0.8235 | 0.7575 | 0.2106 | 0.7680 | 0.7977 | 0.7000 | 0.7616 | 0.7544 |
Seq ID NO:105 | 0.7387 | 0.7451 | 0.6604 | 0.1635 | 0.6740 | 0.6805 | 0.5000 | 0.7351 | 0.7076 |
Seq ID NO:106 | 0.8437 | 0.8431 | 0.7313 | 0.1633 | 0.7492 | 0.8358 | 0.8500 | 0.7682 | 0.7778 |
Seq ID NO:107 | 0.8619 | 0.8431 | 0.7836 | 0.1606 | 0.7931 | 0.7450 | 0.5000 | 0.7748 | 0.7427 |
Seq ID NO:65 | 0.8849 | 0.9020 | 0.7724 | 0.1862 | 0.7931 | 0.8470 | 0.8500 | 0.7682 | 0.7778 |
Seq ID NO:108 | 0.8355 | 0.7843 | 0.8172 | 0.1919 | 0.8119 | 0.8291 | 0.7500 | 0.7947 | 0.7895 |
Seq ID NO:109 | 0.8446 | 0.8824 | 0.7090 | 0.1754 | 0.7367 | 0.8116 | 0.8000 | 0.7020 | 0.7135 |
Seq ID NO:110 | 0.8242 | 0.8039 | 0.7388 | 0.2037 | 0.7492 | 0.7828 | 0.7500 | 0.7152 | 0.7193 |
Seq ID NO:111 | 0.8525 | 0.8235 | 0.8060 | 0.1954 | 0.8088 | 0.8742 | 0.8000 | 0.8543 | 0.8480 |
Seq ID NO:112 | 0.8008 | 0.8431 | 0.6642 | 0.1886 | 0.6928 | 0.8522 | 0.9500 | 0.6093 | 0.6491 |
Seq ID NO:113 | 0.8534 | 0.7843 | 0.8097 | 0.2131 | 0.8056 | 0.8457 | 0.8000 | 0.8013 | 0.8012 |
Seq ID NO:114 | 0.8466 | 0.8627 | 0.7201 | 0.1675 | 0.7429 | 0.8404 | 0.9000 | 0.7152 | 0.7368 |
Seq ID NO:115 | 0.8349 | 0.8235 | 0.7761 | 0.1614 | 0.7837 | 0.8070 | 0.7500 | 0.7285 | 0.7310 |
Seq ID NO:116 | 0.8208 | 0.7451 | 0.7985 | 0.1629 | 0.7900 | 0.7070 | 0.4500 | 0.8212 | 0.7778 |
Seq ID NO:117 | 0.7445 | 0.7843 | 0.6381 | 0.1680 | 0.6614 | 0.7139 | 0.7500 | 0.5629 | 0.5848 |
Seq ID NO:118 | 0.8051 | 0.7647 | 0.7276 | 0.1621 | 0.7335 | 0.7808 | 0.5500 | 0.7616 | 0.7368 |
Seq ID NO:119 | 0.8318 | 0.8235 | 0.7799 | 0.1873 | 0.7868 | 0.8556 | 0.8000 | 0.7483 | 0.7544 |
Seq ID NO:120 | 0.8439 | 0.8627 | 0.7239 | 0.1863 | 0.7461 | 0.8070 | 0.8500 | 0.7020 | 0.7193 |
Seq ID NO:121 | 0.8368 | 0.8235 | 0.7164 | 0.1668 | 0.7335 | 0.7917 | 0.8000 | 0.7152 | 0.7251 |
Seq ID NO:122 | 0.8314 | 0.8627 | 0.7127 | 0.1935 | 0.7367 | 0.8066 | 0.8500 | 0.6821 | 0.7018 |
Seq ID NO:123 | 0.8236 | 0.6863 | 0.7836 | 0.1604 | 0.7680 | 0.7990 | 0.7000 | 0.8079 | 0.7953 |
Seq ID NO:124 | 0.8805 | 0.8431 | 0.8172 | 0.2016 | 0.8213 | 0.8487 | 0.8000 | 0.8543 | 0.8480 |
Seq ID NO:76 | 0.7879 | 0.7255 | 0.7239 | 0.1667 | 0.7241 | 0.8036 | 0.8000 | 0.7219 | 0.7310 |
Seq ID NO:125 | 0.8324 | 0.7255 | 0.8097 | 0.2132 | 0.7962 | 0.7927 | 0.6500 | 0.8013 | 0.7836 |
Seq ID NO:126 | 0.8551 | 0.7843 | 0.7873 | 0.1665 | 0.7868 | 0.8116 | 0.7000 | 0.7417 | 0.7368 |
Seq ID NO:127 | 0.8504 | 0.7451 | 0.8657 | 0.1824 | 0.8464 | 0.8272 | 0.4000 | 0.9073 | 0.8480 |
Seq ID NO:128 | 0.8074 | 0.8431 | 0.7090 | 0.1684 | 0.7304 | 0.6768 | 0.4500 | 0.6689 | 0.6433 |
Seq ID NO:129 | 0.8669 | 0.8431 | 0.7985 | 0.1990 | 0.8056 | 0.8632 | 0.8000 | 0.8212 | 0.8187 |
Seq ID NO:130 | 0.8824 | 0.8824 | 0.8022 | 0.1805 | 0.8150 | 0.8311 | 0.7500 | 0.7616 | 0.7602 |
Seq ID NO:131 | 0.8236 | 0.7451 | 0.7910 | 0.1788 | 0.7837 | 0.8589 | 0.7500 | 0.8278 | 0.8187 |
Seq ID NO:132 | 0.8538 | 0.8431 | 0.8134 | 0.1906 | 0.8182 | 0.8742 | 0.7500 | 0.8411 | 0.8304 |
Seq ID NO:133 | 0.7741 | 0.8235 | 0.6530 | 0.1657 | 0.6803 | 0.7205 | 0.8000 | 0.6093 | 0.6316 |
Seq ID NO:134 | 0.8090 | 0.8431 | 0.6828 | 0.1634 | 0.7085 | 0.6990 | 0.6000 | 0.7020 | 0.6901 |
Seq ID NO:135 | 0.8537 | 0.7843 | 0.7836 | 0.1628 | 0.7837 | 0.8344 | 0.8000 | 0.7881 | 0.7895 |
實施例
2.3
:所有目標肺癌組織特異性甲基化標誌物的機器學習模型
本實施例使用所有的48個肺癌組織特異性甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出肺癌的樣本。具體的步驟與實施例2.2一致,只是相關樣本帶入了所有48個目標甲基化標誌物的資料。具體如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(肺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3.使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖15,從圖中可看出肺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖16,在測試集中,肺癌與其它癌種區分的AUC達到了0.903,設置閾值為0.336,大於該值則預測為肺癌,反之預測為其它癌種,在特異性為94.7%時,敏感性達到了80.0%,樣本整體預測的準確率達到了85.0%, 可以很好地從7種癌症樣本中區分出肺癌樣本。
實施例
2.4:
肺癌組織特異性甲基化標誌物組合
1
機器學習模型
為了驗證相關肺癌組織特異性甲基化標誌物組合的效果,本實施例從所有48個肺癌組織特異性甲基化標誌物中隨機選取了一共10個肺癌組織特異性甲基化標誌物Seq ID NO:92, Seq ID NO:95, Seq ID NO:99, Seq ID NO:103, Seq ID NO:112, Seq ID NO:76, Seq ID NO:126, Seq ID NO:128, Seq ID NO:133, Seq ID NO:135的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例2.2一致,但相關樣本只使用了該實施例中的10個肺癌組織特異性甲基化標誌物的資料,該模型在訓練集和測試集中的模型得分見圖17,該模型ROC曲線見圖18。可看出該模型在訓練集和測試集中,肺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.895,閾值設成0.226時,大於該預測值為肺癌,小於該預測值為其他癌種,特異性為88.7%時,敏感性達到了80.0%,整體的準確率達到了87.7%,說明了該組合模型良好的性能。
實施例
2.5
:肺癌組織特異性甲基化標誌物組合
2
機器學習模型
該實施例使用另一肺癌組織特異性甲基化標誌物組合:Seq ID NO:112, Seq ID NO:124, Seq ID NO:128, Seq ID NO:130, Seq ID NO:133一共5個肺癌組織特異性甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例2.2一致,但相關樣本只使用了該實施例中的5個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖19,ROC曲線見圖20。從圖中可看出該模型在訓練集和測試集中,肺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.253時,測試集中在特異性為95.4%時,敏感性達到了75.0%,整體的準確性可達到93.0%,同樣可以較好的區分肺癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了48個肺癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出肺癌的樣本,這些甲基化標誌物都是良好的肺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中肺癌的組織溯源提供了重要的參考。
本文中使用的序列:
>Seq ID NO:91
CTGGCCCTGACAGACTGCAGACCAGACCGGGGCATTGTTCTCTTTCTCGGCCTTCCCCGCCGTGGACGGGCCCCCCACCTGGTTTGTGAAACCTGCGCCCAGGCTGAGTTCACAGCTAAACTTAGCGCCTCCCATTGTTTCCCCGGGGCCGTGGAGTTTGGTTAATAACTTCCCCTGATTTTCCTCGGGATGGGCTGGAAAGAGCCACGAGCCAGCCAGGCGCATCCTGCGTTTGTTTGTGCGGGGAGCGAGGCCGGGAATATCTGATCGGGCGGAGCAAGCCGGGCGGGAGAGGCCCACCCAGGCCCGAGGAAGGGAGCCCAGCGGGGGGCAGTTTCCATTGTCCCTCCTGCCCGCTGCCCCCACGG
>Seq ID NO:92
CGAGAGAGTGCATTCAAGAAGGGCGATCCGGGCACATATGCGACCTGTGAGAGGCGGAGTCGGTGACAGGTGGGTCTTGTTTTTTAATAAAGAGCTTGTTCCTaatcagatcatggcactcagaactcttcaaaaagcttcttatttcactctgggtaaaagccagagttctcacaatggcctgcaaggcctacgggatctgagggccccccaccctgaccccctcgacttcagatggcatctgcccctcactctgctctagcca
>Seq ID NO:93
CCCAGTCCACAGGGCTCGAACTCTCAGGTCCTACGAGCCCGCCCACTAGGCCCCGCCCACAGGAGCCGCTCCGCTCGTGGCCCGGCTCACTCGGCCCTCGCGAGCCCTCAGCCCCACCCGCGCTGCCACGCACCGCACCTGCTGTCCCGCTCCGGGATCTCCTTGATGGCGATGCGCACCCTCGTGTGGCGATCGCGGCCCGCGTACACCACCCCATACGTGCCCTTGCCCAGCACCAGCCGCTCGCCCGTCTCCGTGTACTCATAATCAAACTGCCGGGCGCGGGGTGAGATGGGAGTTCAGCAGGGCCCGCGGCCCCTCGCCCTCCGCGAGCTCCCAGTCCCGCGTCCTCACCTCCAACATCTCCCCCGCGCCCTCCGCCTCCTCCGCGG
>Seq ID NO:94
GCGTGCGGCGGCTGGGGTTgggcgcggggcccggggcgcggcgATGCGCGCGGCACGGCGAGGACCTGAGCCGCTTCTGCGAGGAGGACGAGGCGGCGCTGTGCTGGGTGTGCGACGCCGGCCCCGAGCACAGGACGCACCGCACGGCGCCGCTGCAGGAGGCCGCCGGCAGCTACCAGGTGAggcgccccccggcgggggctgcgggcgcTGCGGTGACCGGGAAGCGGGCGACAGTCCGGAGCGGAGCCGCCGAGGCCACCCGTCTCCTGAGCGGCTCCCACGGCCGCTCCCCCCACCGCGCGCCGTCCCCCCCGCCCACGCGGCTCACTCAGTGTGGGTCTCTTTGCCTTGGCTGTGGTAACCCCCTTTGCGACACACACCCAT
>Seq ID NO:95
CAAACTGGAGGCGGCGGCGCAGGCGCACGGCAAGGCCAAGCCGCTGAGCCGCTCTCTCAAAGAGTTCCCGCGTGCGCCGCCAGCCGACGGCGTGGCCCCACGCCTCTACAGCACGCGCAGCAGCAGCGGCGGCCGCGCGCCCATCAAGGCCGAgcgcgccgcgcaggcgcacggcccggccgccgccgccgtcgccgcccg
>Seq ID NO:96
TGAGGAGGAGCGGAAGTCGGAAGCTCCAGCCGTCACAGCCACATTCACTGGGCAAGCCGACTGTGAGCCAGGAAGTGCTCTTGGGGAGCCCAGGCCAAGCCATCCATTCTTGGGTCCTTTGGAGGTGAGCTAAGTGGGTCTGCCTAGGTTGGGGCTGGTGGAACCTGTGGGAGCAGGGAATGTGGAGAGTCACATGTGGGT
>Seq ID NO:97
AGCGGTTgcggcgggccggcgggcccggggAAGCGGGCGGTGGCCGCTCAGAGAATACCTTCCTTCCGGCAGGAGACCGTTTGGCCCTGTATTCCGGGCCTGCGGTTGGGCCTCCAAGCTGAGTTGGGCAACTTCCCAGCACCGCAAGAAAGGGCGAGCCAGACCTATTTGGCACCCCTTTCCCAGGAGGAGCAGGGGATGGCGCCGGCGGAGTTTGGGGAGGCTGCCCTGGCCAGTTCCCCGGGCTAGAGGGTGGAGGAGAGGAGGAGGGAGAGGAAAGGGCAGCTGAGGACTTGGAAGAAATGAGAAGCCGTGC
>Seq ID NO:98
GGGCGCAGGAAGAGCGGCTCTGCGAGGAAAGGGAAAGGAGAGGCCGCTTCTGGGAAGGGACCCGCACGACGACGCCCGAAGGGCGTCGGGGGAAGTGGTAGGCCCCGGAGACTGCGCGAGGCTCCTCAGCAAAGGAAGTGGGCGCGGCGCGCACGCAAGACCTCGCACCCGGCCTCGCGCGCCGCCTCTGGACAGCCCAGC
>Seq ID NO:99
AAAACTAATGTTTCTTCCTCCTTCTGTGATCTTCCTTCTTTCTGTTTTGAGCAGCTTCTATCACCTGTGTCCTCTGCGGATGAACTGCATAAAGCTCTCCGCCAAAGCCTACTTCTCCCTCATGGTGGAGAGGGAGCCGTGTGAGTAGTCCGGTACCGCAGCCATCCACCCTCTGCAGATCAGCTTTTCCTTCCTTGGCTC
>Seq ID NO:100
ACTCACCCTGCACGGGACAGGGACACCCGGGGACAGTGCCTCACTCACCCTACACGTGACAGGGACACCTGGGGACCGCGCCTCACTCACCCTGCACGTGACAGGGACACCCGGGGACAGTGCCTCACTCACCCTATACCTGGGAGGGACACCCAGGGACGGTGCCTCACTCACCCTACACGTGACAGGGACACCTGGGGC
>Seq ID NO:101
CCAACTGCCCGCGCGGAACCGGGCCGTGGGCCTGGGGTTCGGGAAGCGTGCGCCACCCCCGGTCGGGCCTGGCTTCCTTCTTGAATGCCCCCGGCGCAGGCCCGGTGCTTTGTCCCTCCGGCCTTCTCAAGGAGTGGTGGCCTTCTGCGGGGGCGAGAGCACGGCCTCTAGCCTTCCGCCGACGTCTCAGTGCGCAGATAccgcggcccgggcccctccgccgcgcgggggACCGCACTAGCGTCGACCTCCCGGCAGCCAACCCCGCGCGCAAGGCTCCGCGGCCGGATATGGGCCTAGCTTCCGGGATCCGCTCCCTGCGGGGCCGCGCTTAGGGTCGGAGTTCGCTAGTCCAGGGAAAGG
>Seq ID NO:102
GCGTGTCAGTGTGCAGTGGAGTGTGCAGTCTAAGCTTGCGGCTGTCTCCAGGCAGAAGAGGAGAccccggcgcgggcgggggcgggTTGGCGCCGGGCAAACGCCTTGGGTAGAGGGGAGAGGACGTTTCGTTAGTTCCCGCCCCTTCCTGACTAAAATTGCCTACCCGAAGCGCCCCGGAGGGCTTCACGGGAGGAGGGTAGACTCTCC
>Seq ID NO:103
GGAATAGGACGCTGGTTTCGTTCCCCCGAGGTGCGGAGAAGCAGTAGAAGACCTGCTGCTCTTGGAATTTGGCTCTGACCTTCTCCACGTCGGCCCGGGCCGTCTGGTAATTGTCCACGCTGCCTGGGATGTAGGAGCACTGTGGGGAGAAACAAGAGCAGCTGTGGGCTTGGAAATCCCCATTTCTTAGCCAAGGGCTTG
>Seq ID NO:24
CTTAATGCtttttttttttttttttttttttttttATAACATGAAGTTGTCAGGGACGCTCCTATGAGAACTGTTTGGAATTGCTGCACTTCTCTGGCTAGGAGGGAAGTGAGTAAATCACCAGGCGCCCCTCCCAGCTGCCCGTGTCCCTGCGCCGCTCAGCTCCTGCCGCAGGGCTGGCCGCGCCAAGCGCGCGTCCTA
>Seq ID NO:104
CAAGCGCCATCGCAAAGTGCTGCGTGACAACATACAGGGCATCACGAAGCCCGCCATCCGTCGCTTGGCCCGACGCGGCGGCGTGAAACGCATTTCGGGCCTCATTTATGAGGAGACCCGCGGTGTTCTTAAGGTGTTCCTGGAGAATGTGATACGGGACGCCGTAACCTACACGGAGCACGCCAAGCGTAAGACAGTCAC
>Seq ID NO:105
AGCCGTGGCTTCCCGTGGCTGCACTTGGAAAAAGCACTCGACGCTGCCCGGGCAGCTTTCCATCTCAAGTGGGAACGCGGCTGCCGGCTGTCTCCGCTCTTCAAAGTTAGTGGAGGCTCATTTGGAATAAACTCTTCTCTTCTGCTTCCCAGTCAGGCCCTGGTGGAATACAGAGTCTGTCCTGATCCCTGCCCTTTGACA
>Seq ID NO:106
ctcggcaacgcgccctcggcccgcagcctcctgccCCCTGTGCCCCGCTTCGGCCCCCAGCGCAGCTGCAGAGGGGCCCCCCTCGACGCATACACTCAAGAGCCCGACCGCGCGGCTGAAATCGCGGAGCTCGGAGCCGCGGCTGGCTGAGCGATCGCGGTTCCTGGGCTGCGTGCGCGCCCCTTGGAGCTGAAAGGAGCGCCAGGATCGGGGGCGCTGCACCGGGCTGGGCCCCTCAACGCTCGCAGACCGGGCCGGGCTGCAGCTGGAGATGGCAGCAATCCCGGGAGGTCTCCGGGCCTCTTCAGGGTGCGTCCAGGAGGCGGGTTCCGTGCGACGCGGCGCAGCCCACCCCCACGAGACCGCTTAACTTCGCGGGGGCAGCCTCGGGCGCTCGGAGACGCGGAGGCCCAGACTGCAGCCTCCGGATGCTGGAAGCCCAGACTCCCTGGGGTCACCGGCTCTCCCGCCACCCCAGCTGCAAAGAGTCCCATTGCTTCACCGTCCGGAGCTTAGTCTCCTTGTTCCTCTACCAGTCCCTCCCTCCGCAGGTCTCTGGGGACTTCTGACCGCCTGTTCTTA
>Seq ID NO:107
atctcggctcactgcaagctctgcctcccgggttcacgccattctcctgcctcagcctcccaagtagctgggactacaggtgcccgccaccacgcccggctaattttttgtatttttagtagagacggggtttcactgtgttagccgggatggtctcgatctcctgatctcgtgatccacctgccttggcctcccaaagtg
>Seq ID NO:65
CGGGCCAGCGCCCTGGGGCTTCCGTATCACAGGGGGCAGGGATTTCCACACGCCCATCATGGTGACTAAGGTAAGGATGGTGGCTCAAAGAGATGAGAAGGTCCTGCCAGAAGCGAGGTCGGCCCTGTTCACCCCACTCTGCACAGATGGCTTGCTTTTTCTGTTCTGGAGCTAGGGATCTGCTGCTGCCTGGCGTGCTGG
>Seq ID NO:108
TGGCGGCAAAGAGGGGTTTGGTCTCGGGGCTTAAATGGCACCAGACTCTTGCTTTTGCCCATCTGGAGACTGCAGGCTCCCTTCCTTACCCTCAGAGAGTGCTTATGGTGGGTGTTTTTGCGGGGCTGCAATAGGGGCCAAAAGTCAGGGAAAGGGGCACTGACCTGTAGTGAAAGGCCACAGGACACAGCCTTATTACTG
>Seq ID NO:109
CTGGTGCTCTGCAGTGGCAGGGCTGAGATGATTATACAACCTGCACTCCAGGCCAAGTCCGGTACTCGTCCCAGCTGTCGGCTAAGCCTGCACTGCTATGGGTGAGGGAATCACTCCTCTCCAGCTGGCTTTCTCACGCTGGAGAAGCCTGACCTTTATTCAGAATCATCCTCCAGCGCCCACATCACACAGCACCCTGGC
>Seq ID NO:110
CTGCCGGCTGGGCACGCGCCAAAAGCAGCCCTGGGCCCTGGGTATCGCGCTTGGGGGGAGGGTACCCCCGCCGGCTGGGCACGCGCCAAGAGCAGCCCTGGGCCCTGGGTATCGTGCTTAGGGGGAGGGTATCGGAGCGGGAAGTGGACCTGGGGAGCGCCGTCGGCTGAGGCTCTGGCTGATGCCGCCCTCCCCCGGATCCCCCAGGGACCGCGCTGAGCACCTCCGTGCTCCACCAGTCCATGGCCTCCTCCCCCAAGATGCCGAGGCGGTGAGTTGCGACCTGGATGTAGGCACTGCCCGCCCGAAGCGCGCGGAGGGGCCCTGGCCTTGATGACACCGCCCCCCTACCAGGGCCCTGGAGCAGGAGAAAGGGCGCCACCTCTACCTGGCCGGCCTTCCCGGCAGAAGCCGCCGAGCTAAGCCCTGGAGAGGTCGGCGCCTGGACTACATCACGTACCGCGGAGTTCCCGGGTGGCTGGGCCTGCGGCACTGG
>Seq ID NO:111
TGAGGAGATAAGGCTTCAGGCCAAAAGCAGATGGGTCACGGTGACCCGGCTGGCCCAGCCCTGGGAGCAGGCTCTGTACCCAGACCTTAGACCCTGGATGGGGCAGCCCTGCCCAGTGAGGCTGATAGGGGTGCCAGGGGCACAGAGCCACAATATGGTCGCTGAGGCTTTGGTGCCCCGTGCCCTGCATTCGAGCCCCCATCCGGCCATGCATCCTCCACCCTAATTTCCTGTTTTGTGAAGCAGGAAATGTAATTTCTCTCTTTTTTGGTTAAAACGTAAGAACACACATTGGGATGTATGGGAATCGGTGGACCTGCTGTTGGTTCTTACGTGGATGCT
>Seq ID NO:112
CGAGTCCTCGAGCTCGGGCGTCTTCGCGCCGCCGCCCCGCTCAGTGCGCCCAGGCACCGCGGCCGTGACGTCACGCCCGGGACTGGCCGTTGCAGCAAGACGGCCGCGTTCCGGTTCCGGTAGGTTGCCCGGGAGACGCGGGTACACAGAGAAGCGGCTCCCGTCGGAGGCCGAGTCGTCGCCACGATCGCCCCCTTGGTG
>Seq ID NO:113
AGCCGCGGCGGATTAGGCCGCCCGCCCCAACCTGGGCTTTGATCTTATCTGAGACTTGTGAGTCCAAAAGGGCTTAGCAACCGCAGCCATGGCAGCCCCAACGACGTGAACATCCGCACCTCTGAGCCTCCCCCTGAGAAGTACCTTCGAGGTGAGGCCTGCGCAGCCCCAGGAAGAGGGTGTGGGCGCAAACCTGAGGTGGGGAGCAAGGCCCGCCGGCTACACGGTTCCTGCCATCCTCGCTGCGCCCTTT
>Seq ID NO:114
TGCGCTCTGGTGGACGTTCCGTCTAGTTAGCCTAAGCATCATCCACATACTCTGGTGAACACTCGAGGACAAGGCCGCTTGCTATTATTAGTAAAGGGCCGAACCGTCCTGTCATTGGTGGAGGCAGTGCTTGACTGTGCATCGATCCAGGAATCCGATCTTTTCTCTCAACCACAGAGCTAACGTGCTCAGAAGTGGCCT
>Seq ID NO:115
GCCTGCCGTGGTCATAAGTCAGGGCCGAGTGGCGCTGGAGGACGGGAAGATGTTTGTCACCCCGGGGGCGGGCCGCTTCGTCCCTCGGAAAACATTCCCGGACTTTGTCTACAAGAGGATCAAAGCTCGCAACAGGGTAGGGCGGCACCCGCAAGGGTGTTGTGCAGGTAGGCAGGTGGGCGCTGAGTTCTAGGCCCAGAACGCACCCCTGGTCA
>Seq ID NO:116
GGGCGACCCCGGGGGCTGGGCCTCCCCTGGCTGGTGTCCACCCTCTCGGCCAGCACAGGGGTTCACCTTCAGGAGCCACTCAACGGCATCCTCCCCTGGAGCCCGTGCCGCCCTCACTGCCCCTGGGCAGGGCCCCGCAGCACCTCCTGCTGGGTGTAGGTGCTGTCTCGGCCCCACAGCCAGCAGTGGACATGCACCTGACCCCCAGGCAGCCAGCAGCACA
>Seq ID NO:117
TCGCGTCCTGCGGGGAGAGCCACCCTGCCCCGCGCTGCGCCCGGGACGGTTCCCTGGAACCACTCACCAGGCAGCATCATCGCGCCCAGCAGCCAGAGCCCGAGGCCGCGCATGGCCGGGTCGGGGAGCAGAGGCGGAGGTGACAGCCCCGCGGGACACGGTCTGGTTCCTGCGCTCCTGGCCCGAGGCTCTTTTccgcgcgccccgccccggcgcc
>Seq ID NO:118
TACCACTTTCCTAGAGACCATGGCCATGCTCCTAGAGGGTGAACCTGCATTCGCTGACCCCTCCATGCAAccccacttcactgatggggaaagaggatcccagaggggtaaggaacaagcccaaaataatagagcCTGCATTGGAACCGGGCTGAGCTAACACTTGGCTTACCGGCACTGTCACTGCCAGGGCCCGCGCGA
>Seq ID NO:119
CCTCCTCTAAGGCCCAGGGTCGGGGGAGGTGGGGAGGGAGCGGCCGACCGGCCGAATAGCGCTGCTTTCTTTGTTTTTCATGCAACATAATTCCATGGCCAGTCCAGGCGCTGCAGCCCCCTCCCCTGCCGGCCCCGGCGCCCGCGCAGGACCGCAGAGGGGCTGGGGGTCCAGGGCGCAGTCTAGTTCCAGGGCGCCCGC
>Seq ID NO:120
CGCGTGACCGTGCGCCAGCTCCCCGTGGGGCTCCTGCCAGGGTCGACCGGGAGGGGGTGCCACTCACCCAGATGAGCCACGCGGCTGAGGCGGGGGTCGAAACCGACCTCGCGCACCTTGTCAGTCCGCGCCAGGAAGAAGTTAACCACGCCGTCGGTGACCACGCAGCCTGGGAAGCCGACGAGCTCGTGGTGGAAGCCG
>Seq ID NO:121
CCATCCTCAGGCCTGGCGTTGGCTGCTCCTTGGCTTGTGTGCCCCTCCCTGCACCCCAATATGCCAGGATCTCCCCGCACCTCCTCATTCTACCATCACCTCACGGAGACATCCTGGTCACCCCGTGAGGCATTGCTCACGCCCTCCCCGGCACTCCACAGCCTTGAAGGGCACTGACCGCCAGTGCCTCCACCCACTGTG
>Seq ID NO:122
AGGGCTCCGGAAAACTGCGTTCTCACAAGACCAAAGGGAGGGGAGGGAGGGGGAGATGTGGCTGCAAGTGCAGTTGGAGAGGGTGTGAAGAGATCGGGAGTCCTCTGCGAGGCTCTGGAGCACCCGGCGCCTAAGAGGCTAGTGCGCCCCGTGCCGCTGCGGTAGGACCTGGCGGTCCGCAGCTCCTGAAGGGCCTGGCCG
>Seq ID NO:123
GTCACGGGTCTGGACGGGGTCGCAGGTCTGGACGGGGTCGCAGGTCTGGATGGGGTCGCACAGCTTTGGACCGGGTCGCGGGTCTGGACGGGGTCGCGGGTCTGGACGGGGTTGCACAGGTCTGGATGGGGTCGCACAGGTCTGGACGGGGTCGCGAAGGTCTGGACAGGGTCGTGGGTCTGGACAGGGTCGCAGGTCTGG
>Seq ID NO:124
TGCAAGCCCCTTTTCTAGAAGTTAGAGTTCTCCTGGGATCTTTGCCTCCCAAATTCTTGCTGGCGGCTCTGCTCTCCACCCCAGTGGGGCTGAACTAACAAGTTCCCCTTTTGCTTTTCTCACCAGAACCTGTGGTTTGCCAACCCCGGGGGCAGCAATAGCATGCCAAGCCGCACCCACAGCTCAGTCCAGAGGACCCGC
>Seq ID NO:76
AGTGCTGCACTGGGGCCCCGGGAAGCAGAAGACGGCTCCTGGCACATCTCCTGGGTGCATCTGTGGATTGCTGGGGCCCCCAGCAGCTCTCCCAATCCCCAGAAACCCCTCCTGGATCTGCTGTATCCACCTGGAGCCTCTTGGTGCACAGCGGCACACACAATACCTCCACTCTCCACCCCGAAGGATGCCCACTGCAGCGGGGTCCTCA
>Seq ID NO:125
TCCTGAAGCGCTGCTCGGAGCCGGAGCGCTACTGCCTGGCGCGGCTGATGGCTGACGCGCTGCGCGGCTGCGTGCCTGCCTTCCACGGCGTGGTGGAGCGCGACGGCGAAAGCTACCTGCAGCTGCAGGACCTGCTCGATGGCTTCGACGGACCTTGTGTGCTCGACTGCAAAATGGGCGTCAGGTATGCGTGCCCTGCCAGGTCGGTTGGGGGGATCAAGTAGGGGTCCGGGGCCGGGACAGCTGCTTGAGGGGGACCCGGGGCGAGTGCTCGAAGGGGTCTCCGTGTGCGCCCCCTCATGCCCTGGCCGCTGCCTGCGCCCCCACAGGACTTACCTAGAGGAGGAGCTGACCAAGGCCCGTGAGCGGCCCAAGCTGCGGAAGGACATGTACAAGAAAATGCTGGCGGTGGATCCTGAAGCTCCCACGGAGGAGGAGCACGCGCAGCGCGCCGTCACCAAGCCGCGCTACATGCAGTGGCGGGAAGGCATCAGCTCCA
>Seq ID NO:126
ACCTGAGGCTGGTGCGGGGGCGTCTCGGGGCTGGGGGCCACCCCTGGGGTGCAGACACCCGGCTTCTCAAGGCATCTTGGTCGGGGGTGGCAGAGGATGCACTGCTCACAGGAACCCAAATTCGAAAGACAGCCGCATCTACAATTTTAACACGGTGGCCTGGGTAGGGGGCCACCCACCCCGTCTCCTTGCCCGCCTGGCCGCCCTGCCCCTCACCCCACAGTGG
>Seq ID NO:127
CCTGCCCCAGCCCCTGCTTGCTGGGCCCACGGGGGTGGGGCGGCTCATTTTCCTGGAATGTGAAAGCAAACAGAGCCGCCACCGCAGCCAGCCCCACGGAGGCCTCTGGAGAGAAAACAAAACTGCTGGCCTAGGAGCGCCTGCCCCACGCTCTGGAGGAGAGCCCGGGGCAGGGGGACGCACAGGCAGAGCCCTCAGGGACAACCGCCCCAGGAGGCCAACGGCGACAGTTCATCCCACCTGGTGCTTCCTCCCACCCTGCCTGTGCGCCACGCTGGCCTCGAGCCAAAGGAATTCTCCCAGCAACCCGGGAAGGCGGCTGGGCCCGTCGGGGAGGCTTCTGGGTTTGAAAACAGGCTTTGCCCAAGTTCCCACAGCT
>Seq ID NO:128
TTTGGCTCTCTCCTGTCTTCGGGGTTTACAAAGTGTGTTGGGACTTGCGGGGCTGCTCTGTCCAAGCCTGGGTCTGGCGTCCGCGTCTCTGAGCCTGTGAGTGCGTGCGCTTTCCTGCGTCCTCTTGACTGCCGGTGCTGGGGCTCTGCGTCCTGCGTCCGCGGGAGTAAATACAGCAGGCGAAGGGGAAGCTCACACAATGGTCTCCAGCGCTCTGGGGCAGGGCTTCTGAGGGGCGGGCCTGCCTCT
>Seq ID NO:129
ATTGTGTTCCTCAAAAGTCTCTCTTTAGAAAAGAGAATTGCCTGACAGCTGAGCTTTTCCATCTCCCATGTTACCGGGGTCCCTTTTTGGTGGCTCAGGAAGACTGGCTGAGGACACTTTTCTGCAGGCGGGCACCCCCATCACCCCACAGCCACTGGAAGGATTGCTGAGAAGAGAAGCAAACGCCTACAGCACAGTCGC
>Seq ID NO:130
CCACACGGAACGATGGCTTATCACTGGAGAAAACCAGCCAGTGAAAGGGTCGCGGGAGAAGCCCGGGGACGACCCTGGGACTGGAGGGTTTCTCGCCTCTGGAAAAGGCAGTGCCCGCGGGGCAGGCCAGAGGGAGCGCTCCGAGGAGCTTTGGGGTTGCCAGCCTTGACACGCGCACCCCTCCGCCCGGGCCGGCTCCCCTCCGCCCTCAGACTCCCACCATCCTCCTACTATTCCACATGTCGGGTGTATATGGTGCGGAGAGCCCGGGGGAAGTTAGAACACGCGGCGGGAGAGGCAGGCCCAGGGCGGCCTCAGCTAAGCAGCCCGGCTTTCCGGATCCCCGCCGCGCACAGGC
>Seq ID NO:131
TAACTTACAGAGTGTGTCTGTGTCTTCTTGAGGAAGTGGCCTGTCTGGGTCCCCCTCCCAGTCTGAGCGTCATTGCAGTGGAATATCTCCCCTTCTCACCAATCATAACACGTCACTGTGGCAGCAGCGGATAGCTGGAAACCACCTGCCAGTGCCCAGCATGTAGGGCGTGCCCCTAGAGCGGGAGCTGCCACCTGCTTC
>Seq ID NO:132
GGCTGTGCGGGCACAGCTGTTACAGGCAGGGGGCAGGGGCCTCGTGGAGCTTGTGTAGACGGAGGGGCGGCGGGCCGTGTAGTGCAGGCTGCGAAGACTCACCGCGGTGAAGTGCGGCCAGGTGCGCAGCAGGTCGAAGAGCGCGTCGCCGGGGCAGTCGGTGCGCACCAGCTGGCGGTGGCCCAGCAGCGCGTAGTCTGGCCGCAGGAGGCCGGCGCGCACCGCACAACTCGGGAGCGTGTCGCGCACCGTGCGCAGAGCGGCCTCGGTGGGCAGCGCCGCGGTGTAGTTGCCCACTATGGCCACGCCGAAGCCCCGGGAGTTGTGGCCGAGCGTGTGGGCGCCCACCCAGTGCCAGCCGCGTCCCTCGTACACGTAG
>Seq ID NO:133
CAGCAGGGCAAGCTGAGCACACACGTGTGCAGAGCCAGGGCAGGAACACCGGAAGGTGGCGGGCAGAGTCCAGCCCCAGGACTTCCAGGTGAGAGAGCCCGCCGTGCCAGCATCAGGAGACAGCAGTCAGGAGCTCACAGAGCGGGGCCTCCACCGGGTACAGCGCTAGCACAGAGTTGGTGCTCAGTAGGCAGGGACTAAAGCCCCCACCCACCACTGCTCCCAGCAGAGCTTGGTCCTCAGACCTGGAGATGTCCTGAGGCCA
>Seq ID NO:134
GTGGCGTCCAGGGCAGGGCAGGTGCGTCATCCGGGCGGGATGCAGAGACACGTCCTTCCACCAACCATCTGAGGAGCACTTGGCACCCACACAATGAGCCCGGCAAGGGCCACGCCAGGAGGCAGCGCACGGGGCAGAGCCTCTGAGCCAGAGAGGGGGAGGTCCCTTGGGAGGCCCCTGCCATCCCCCGCTCTGGGTGGGCCTCTCCAGCCAGACTCTGCGCCCCAA
>Seq ID NO:135
GTTGGAGGAGGGAAGGCTGTTCACTGAGAGAGCAGACCCAGGAGCCCCAGTGGCAGAAGGGGCCCGGCAGGGAGTGCTGGGCAGGGAGCGCCCATGTGCCCACCCGAGTGCCAGTGCCAGCCAGCTGCTGCCCGGAGAGCCCCGGCCCTCTGTAGCTATCTGGCCTCTGCTCATGGCTGTTGCTCAGAGAGAATCTGACCAGCACTGACTTCACCTCCGCCCACCCCCTGAGGCGGCAGCTGGACCTCAGCGTTGCTTCAGGAAGAAGTCCTCAGCCAATAGTGTCC
實施例
3.1
:甲基化靶向測序篩選肝癌特異性的甲基化位點
發明人收集了總計494個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表3.1,訓練集中肝癌樣本總數為104個,測試集中肝癌樣本總數為59個。
表3.1 各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 329 | 165 |
癌症類型 | ||
食管癌 | 40 | 22 |
肝癌 | 104 | 59 |
胃癌 | 46 | 23 |
肺癌 | 60 | 23 |
乳腺癌 | 35 | 21 |
胰腺癌 | 29 | 12 |
結直腸癌(也稱為腸癌) | 15 | 5 |
年齡 | ||
62 (25-87) | 61 (29-89) | |
性別 | ||
男 | 185 | 103 |
女 | 141 | 60 |
NA | 3 | 2 |
通過申請人自主研發的MethylTitan
TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2. Illumina測序及數據預處理
a)文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出肝癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中肝癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分肝癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差;
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的肝癌組織特異性的甲基化標誌物具體見表3.2。
這些甲基化標誌物在肝癌與其他6種癌種中的甲基化水平如下表3.2和圖21,圖22所示:這些甲基化標誌物在訓練集和測試集中肝癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表3.2 在訓練集和測試集中甲基化標誌物在肝癌與其他6種癌種中的甲基化水平均值
序列編號 | 染色體 | 起始位置 | 終止位置 | 訓練集肝癌甲基化水平 | 訓練集其它癌種甲基化水平 | 訓練集P值 | 測試集肝癌甲基化水平 | 測試集其它癌種甲基化水平 | 測試集P值 |
Seq ID NO:136 | chr1 | 47691646 | 47691993 | 0.0804 | 0.0279 | 9.09E-23 | 0.0772 | 0.0247 | 8.95E-15 |
Seq ID NO:94 | chr1 | 248020790 | 248021176 | 0.1135 | 0.0183 | 6.61E-26 | 0.1173 | 0.0159 | 4.47E-14 |
Seq ID NO:7 | chr2 | 30453572 | 30453772 | 0.1455 | 0.0270 | 1.29E-26 | 0.1623 | 0.0255 | 2.51E-15 |
Seq ID NO:137 | chr2 | 44058865 | 44059175 | 0.3151 | 0.5156 | 6.91E-28 | 0.3330 | 0.5176 | 2.08E-16 |
Seq ID NO:138 | chr2 | 114034391 | 114034591 | 0.0619 | 0.0101 | 4.50E-23 | 0.0759 | 0.0078 | 3.42E-15 |
Seq ID NO:139 | chr3 | 38080591 | 38080791 | 0.1816 | 0.0477 | 6.25E-29 | 0.1711 | 0.0413 | 9.29E-16 |
Seq ID NO:140 | chr3 | 49756830 | 49757030 | 0.4504 | 0.1095 | 3.59E-25 | 0.4547 | 0.1091 | 1.48E-14 |
Seq ID NO:141 | chr3 | 50377975 | 50378564 | 0.1625 | 0.0181 | 1.82E-25 | 0.1571 | 0.0184 | 1.56E-15 |
Seq ID NO:18 | chr3 | 170137183 | 170137383 | 0.8731 | 0.9790 | 1.02E-28 | 0.8809 | 0.9813 | 1.61E-12 |
Seq ID NO:142 | chr4 | 10020751 | 10020951 | 0.6689 | 0.2845 | 5.26E-26 | 0.6362 | 0.2836 | 5.63E-13 |
Seq ID NO:143 | chr5 | 508551 | 508751 | 0.8746 | 0.9060 | 2.93E-20 | 0.8764 | 0.9084 | 5.97E-12 |
Seq ID NO:23 | chr5 | 139047806 | 139048006 | 0.8805 | 0.9690 | 1.02E-24 | 0.8623 | 0.9696 | 1.64E-09 |
Seq ID NO:144 | chr6 | 1614911 | 1615144 | 0.5692 | 0.7574 | 5.62E-27 | 0.5792 | 0.7600 | 5.36E-13 |
Seq ID NO:104 | chr6 | 26240701 | 26240901 | 0.2864 | 0.0631 | 5.81E-26 | 0.2600 | 0.0593 | 2.16E-15 |
Seq ID NO:145 | chr6 | 30095659 | 30095859 | 0.1131 | 0.0110 | 9.49E-31 | 0.1204 | 0.0098 | 2.62E-18 |
Seq ID NO:146 | chr7 | 27252672 | 27252872 | 0.0710 | 0.0064 | 1.01E-28 | 0.0785 | 0.0044 | 1.88E-14 |
Seq ID NO:147 | chr7 | 30722316 | 30722516 | 0.0545 | 0.0289 | 7.83E-19 | 0.0697 | 0.0231 | 9.04E-14 |
Seq ID NO:148 | chr8 | 41424527 | 41424742 | 0.1419 | 0.0309 | 2.02E-25 | 0.1444 | 0.0250 | 1.20E-14 |
Seq ID NO:29 | chr8 | 67874783 | 67874983 | 0.1321 | 0.0442 | 4.88E-22 | 0.1261 | 0.0451 | 5.21E-14 |
Seq ID NO:149 | chr8 | 145106299 | 145106499 | 0.2748 | 0.0596 | 3.56E-25 | 0.2752 | 0.0574 | 8.28E-16 |
Seq ID NO:150 | chr10 | 113943613 | 113943813 | 0.2241 | 0.0190 | 3.83E-34 | 0.1883 | 0.0155 | 1.63E-17 |
Seq ID NO:117 | chr10 | 135090209 | 135090425 | 0.0761 | 0.0035 | 4.97E-23 | 0.0757 | 0.0026 | 1.05E-13 |
Seq ID NO:41 | chr12 | 52401109 | 52401309 | 0.0661 | 0.0037 | 4.38E-27 | 0.0469 | 0.0043 | 1.02E-14 |
Seq ID NO:120 | chr12 | 58021334 | 58021534 | 0.2416 | 0.0780 | 2.40E-27 | 0.1946 | 0.0694 | 2.03E-13 |
Seq ID NO:151 | chr12 | 58021577 | 58021823 | 0.2200 | 0.0341 | 1.82E-25 | 0.1711 | 0.0319 | 3.14E-12 |
Seq ID NO:152 | chr12 | 131303645 | 131303958 | 0.0457 | 0.0016 | 6.38E-27 | 0.0358 | 0.0018 | 5.30E-14 |
Seq ID NO:153 | chr14 | 51027707 | 51028060 | 0.0915 | 0.0074 | 9.60E-28 | 0.1047 | 0.0070 | 1.33E-14 |
Seq ID NO:125 | chr15 | 41793866 | 41794364 | 0.3178 | 0.0928 | 5.33E-28 | 0.2990 | 0.0899 | 6.17E-15 |
Seq ID NO:154 | chr15 | 65116254 | 65116454 | 0.0811 | 0.0072 | 5.36E-27 | 0.0725 | 0.0062 | 3.26E-13 |
Seq ID NO:155 | chr16 | 73097098 | 73097298 | 0.0972 | 0.0264 | 3.14E-23 | 0.1062 | 0.0271 | 2.20E-12 |
Seq ID NO:156 | chr17 | 43037283 | 43037636 | 0.1007 | 0.0119 | 5.00E-29 | 0.1100 | 0.0092 | 1.27E-19 |
Seq ID NO:128 | chr17 | 75370344 | 75370592 | 0.1036 | 0.0082 | 1.51E-25 | 0.1128 | 0.0091 | 4.00E-15 |
Seq ID NO:157 | chr18 | 24130835 | 24131035 | 0.7455 | 0.8084 | 5.08E-17 | 0.7542 | 0.8159 | 8.92E-09 |
Seq ID NO:158 | chr19 | 3688030 | 3688230 | 0.8134 | 0.9352 | 6.24E-23 | 0.8200 | 0.9413 | 1.48E-14 |
Seq ID NO:132 | chr19 | 15580341 | 15580719 | 0.1309 | 0.0355 | 4.88E-27 | 0.1295 | 0.0315 | 4.53E-16 |
Seq ID NO:159 | chr19 | 41641405 | 41641605 | 0.1689 | 0.0218 | 1.70E-27 | 0.1463 | 0.0171 | 6.17E-15 |
Seq ID NO:90 | chr20 | 43331809 | 43332099 | 0.3645 | 0.4339 | 1.55E-20 | 0.3621 | 0.4294 | 1.32E-11 |
根據上表可知,以單個肝癌甲基化標誌物Seq ID NO:137為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖23和圖24所示,可看出該肝癌標誌物的甲基化水平在肝癌中相比其它癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的肝癌組織特異性甲基化標誌物。類似地,其他肝癌甲基化標誌物也是良好的肝癌組織特異性甲基化標誌物。
實施例
3.2
:單個肝癌甲基化標誌物判別性能
為了驗證單個肝癌甲基化標誌物的區分肝癌與其它6個癌種的潛力,使用單個肝癌甲基化標誌物的甲基化水平資料在實施例3.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(肝癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3.使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肝癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個肝癌甲基化標誌物邏輯回歸模型的效果見表3.3,從該表中可看出,所有的肝癌甲基化標誌物在測試集和訓練集都可以達到0.76以上的AUC和0.70以上的準確率,都是較好的肝癌組織特異性標誌物,其中表現優異的肝癌標誌物如Seq ID NO: 156,Seq ID NO: 145,Seq ID NO: 150都可以在80%左右的特異性下達到83%以上的敏感性,整體準確性達到80%左右。
表3.3 單個肝癌甲基化標誌物邏輯回歸模型的表現
序列編號 | 訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 |
Seq ID NO:136 | 0.8343 | 0.7115 | 0.8000 | 0.3097 | 0.7720 | 0.8606 | 0.6949 | 0.8585 | 0.8000 |
Seq ID NO:94 | 0.8582 | 0.7692 | 0.8000 | 0.2897 | 0.7903 | 0.8507 | 0.7966 | 0.7925 | 0.7939 |
Seq ID NO:7 | 0.8637 | 0.7596 | 0.8000 | 0.2800 | 0.7872 | 0.8681 | 0.7797 | 0.7642 | 0.7697 |
Seq ID NO:137 | 0.8731 | 0.8558 | 0.8000 | 0.2842 | 0.8176 | 0.8823 | 0.8136 | 0.8019 | 0.8061 |
Seq ID NO:138 | 0.8368 | 0.7692 | 0.8000 | 0.3011 | 0.7903 | 0.8663 | 0.7797 | 0.8019 | 0.7939 |
Seq ID NO:139 | 0.8806 | 0.8558 | 0.8000 | 0.2717 | 0.8176 | 0.8740 | 0.7288 | 0.8019 | 0.7758 |
Seq ID NO:140 | 0.8528 | 0.7692 | 0.8000 | 0.2375 | 0.7903 | 0.8572 | 0.7627 | 0.7075 | 0.7273 |
Seq ID NO:141 | 0.8553 | 0.7981 | 0.8000 | 0.2680 | 0.7994 | 0.8710 | 0.8475 | 0.7736 | 0.8000 |
Seq ID NO:18 | 0.8791 | 0.7981 | 0.8000 | 0.2865 | 0.7994 | 0.8278 | 0.7288 | 0.7642 | 0.7515 |
Seq ID NO:142 | 0.8593 | 0.8173 | 0.8000 | 0.2675 | 0.8055 | 0.8347 | 0.7966 | 0.7925 | 0.7939 |
Seq ID NO:143 | 0.8136 | 0.6058 | 0.8000 | 0.3190 | 0.7386 | 0.8190 | 0.5593 | 0.8208 | 0.7273 |
Seq ID NO:23 | 0.8496 | 0.7500 | 0.8000 | 0.2967 | 0.7842 | 0.7784 | 0.6102 | 0.8208 | 0.7455 |
Seq ID NO:144 | 0.8665 | 0.8173 | 0.8000 | 0.2728 | 0.8055 | 0.8350 | 0.7458 | 0.7358 | 0.7394 |
Seq ID NO:104 | 0.8590 | 0.8077 | 0.8000 | 0.2530 | 0.8024 | 0.8690 | 0.8136 | 0.8208 | 0.8182 |
Seq ID NO:145 | 0.8856 | 0.8558 | 0.8000 | 0.2826 | 0.8176 | 0.9050 | 0.8475 | 0.8208 | 0.8303 |
Seq ID NO:146 | 0.8742 | 0.7788 | 0.8000 | 0.2998 | 0.7933 | 0.8527 | 0.7966 | 0.7925 | 0.7939 |
Seq ID NO:147 | 0.8012 | 0.7404 | 0.8000 | 0.3130 | 0.7812 | 0.8463 | 0.6610 | 0.8396 | 0.7758 |
Seq ID NO:148 | 0.8550 | 0.7500 | 0.8000 | 0.2830 | 0.7842 | 0.8588 | 0.7288 | 0.8113 | 0.7818 |
Seq ID NO:29 | 0.8284 | 0.7308 | 0.8000 | 0.2940 | 0.7781 | 0.8498 | 0.7119 | 0.8585 | 0.8061 |
Seq ID NO:149 | 0.8507 | 0.7596 | 0.8000 | 0.2740 | 0.7872 | 0.8729 | 0.7797 | 0.8113 | 0.8000 |
Seq ID NO:150 | 0.9148 | 0.8462 | 0.8044 | 0.2464 | 0.8176 | 0.8961 | 0.8305 | 0.8585 | 0.8485 |
Seq ID NO:117 | 0.8364 | 0.6923 | 0.8000 | 0.2971 | 0.7660 | 0.8454 | 0.6441 | 0.8774 | 0.7939 |
Seq ID NO:41 | 0.8673 | 0.8077 | 0.8000 | 0.3009 | 0.8024 | 0.8598 | 0.7288 | 0.8019 | 0.7758 |
Seq ID NO:120 | 0.8692 | 0.8173 | 0.8000 | 0.2739 | 0.8055 | 0.8412 | 0.7119 | 0.8585 | 0.8061 |
Seq ID NO:151 | 0.8550 | 0.7404 | 0.8000 | 0.2646 | 0.7812 | 0.8232 | 0.7627 | 0.8113 | 0.7939 |
Seq ID NO:152 | 0.8554 | 0.7981 | 0.8000 | 0.3080 | 0.7994 | 0.8388 | 0.7458 | 0.7358 | 0.7394 |
Seq ID NO:153 | 0.8721 | 0.8077 | 0.8000 | 0.2907 | 0.8024 | 0.8582 | 0.7797 | 0.7925 | 0.7879 |
Seq ID NO:125 | 0.8739 | 0.8558 | 0.8000 | 0.2613 | 0.8176 | 0.8628 | 0.8305 | 0.7830 | 0.8000 |
Seq ID NO:154 | 0.8667 | 0.7788 | 0.8000 | 0.2941 | 0.7933 | 0.8382 | 0.7288 | 0.8019 | 0.7758 |
Seq ID NO:155 | 0.8380 | 0.7500 | 0.8000 | 0.2984 | 0.7842 | 0.8257 | 0.7797 | 0.7642 | 0.7697 |
Seq ID NO:156 | 0.8812 | 0.8654 | 0.8000 | 0.2861 | 0.8207 | 0.9228 | 0.8305 | 0.7925 | 0.8061 |
Seq ID NO:128 | 0.8533 | 0.7212 | 0.8000 | 0.2910 | 0.7751 | 0.8639 | 0.7797 | 0.8302 | 0.8121 |
Seq ID NO:157 | 0.7847 | 0.5769 | 0.8000 | 0.3254 | 0.7295 | 0.7650 | 0.5424 | 0.8019 | 0.7091 |
Seq ID NO:158 | 0.8356 | 0.7404 | 0.8000 | 0.2863 | 0.7812 | 0.8575 | 0.7627 | 0.7925 | 0.7818 |
Seq ID NO:132 | 0.8670 | 0.8462 | 0.8000 | 0.2940 | 0.8146 | 0.8782 | 0.7966 | 0.8491 | 0.8303 |
Seq ID NO:159 | 0.8691 | 0.7692 | 0.8000 | 0.2707 | 0.7903 | 0.8620 | 0.7458 | 0.8208 | 0.7939 |
Seq ID NO:90 | 0.8159 | 0.6250 | 0.8000 | 0.3336 | 0.7447 | 0.8136 | 0.6441 | 0.7453 | 0.7091 |
實施例
3.3
:所有目標肝癌甲基化標誌物的機器學習模型
本實施例使用所有的37個肝癌甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出肝癌的樣本。具體的步驟與實施例3.2一致,只是相關資料帶入了所有37個目標肝癌甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(肝癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是肝癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖25,從圖中可看出肝癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖26,在測試集中,肝癌與其它癌種區分的AUC達到了0.906,設置閾值為0.297,大於該值則預測為肝癌,反之預測為其它癌種,在特異性為91.5%時,敏感性達到了76.3%,樣本整體預測的準確率達到了86.1%, 可以很好地從7種癌症樣本中區分出肝癌樣本。
實施例
3.4:
肝癌甲基化標誌物組合
1
機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有37個肝癌甲基化標誌物中隨機選取了一共9個肝癌甲基化標誌物Seq ID NO:18, Seq ID NO:143, Seq ID NO:23, Seq ID NO:147, Seq ID NO:150, Seq ID NO:117, Seq ID NO:153, Seq ID NO:156, Seq ID NO:157的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例3.2一致,但相關樣本只使用了該實施例中的9個肝癌甲基化標誌物的資料,該模型在訓練集和測試集中的模型得分見圖27,該模型ROC曲線見圖28。可看出該模型在訓練集和測試集中,肝癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.955,閾值設成0.265時,大於該值預測為肝癌,小於該值預測為其他癌種,特異性為93.4%時,敏感性達到了76.3%,整體的準確率達到了87.3%,說明了該組合模型良好的性能。
實施例
3.5
:肝癌甲基化標誌物組合
2
機器學習模型
該實施例使用另一肝癌甲基化標誌物組合:Seq ID NO:138, Seq ID NO:143, Seq ID NO:23, Seq ID NO:145, Seq ID NO:150, Seq ID NO:151, Seq ID NO:152, Seq ID NO:125, Seq ID NO:156, Seq ID NO:132一共10個肝癌甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例3.2一致,但相關樣本只使用了該實施例中的10個肝癌甲基化標誌物的資料。該模型在訓練集和測試集中的模型得分見圖29,ROC曲線見圖30。從圖中可看出該模型在訓練集和測試集中,肝癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.279時,在特異性為91.5%時,敏感性達到了74.6%,整體的準確性可達到85.5%,同樣可以較好的區分肝癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了37個肝癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出肝癌的樣本,這些甲基化標誌物都是良好的肝癌組織特異性的甲基化標誌物,對泛癌種早篩過程中肝癌的組織溯源提供了重要的參考。
>Seq ID NO:136
GGGCAGAGAGAGGAACTCACGCACCGAGACGTGAGAAGAGGCAGACAAAGTTAGCGCCACGTGGGGCTAGGGCGGGAGGCCGGTTGGGGCTAGGGTGGGAGGGAAAGAGGGTCTCTGGATTGGGAGAAGGGAGGGGTGCCTGGGagacacagagactgagggccaaaaggacagagatggaggaagacgacagagacaccggaagaaaaggaatacagccagcgacagaaacacagaAGGGGAAATCAGGAGGAAGGAAATGTACAAGGAGGCAAGAAAGAGATTACTCTGTCCCCTTTCTCAGGCCTAAAGGGAAGAGGAGGGAACAAATTCCGGATCGTGCTCTTT
>Seq ID NO:94
GCGTGCGGCGGCTGGGGTTgggcgcggggcccggggcgcggcgATGCGCGCGGCACGGCGAGGACCTGAGCCGCTTCTGCGAGGAGGACGAGGCGGCGCTGTGCTGGGTGTGCGACGCCGGCCCCGAGCACAGGACGCACCGCACGGCGCCGCTGCAGGAGGCCGCCGGCAGCTACCAGGTGAggcgccccccggcgggggctgcgggcgcTGCGGTGACCGGGAAGCGGGCGACAGTCCGGAGCGGAGCCGCCGAGGCCACCCGTCTCCTGAGCGGCTCCCACGGCCGCTCCCCCCACCGCGCGCCGTCCCCCCCGCCCACGCGGCTCACTCAGTGTGGGTCTCTTTGCCTTGGCTGTGGTAACCCCCTTTGCGACACACACCCAT
>Seq ID NO:7
CCTCGGAGAAGACGTGGGAGTCAAGGATGGGGGGCGGCGTGCACACCGCCCGCCCACACCTTCTGCCCCCGCTGCAGACCGGGCGTATGTGTGTCTCCAATGGAAAAATCCTACCCAGGACGACACCACATCCTTGCTCCCACAAATAAAACCTTCCACGGAACTCAGGGCTGCAGACCAGCCCTTCGCAAGCCAACGCGC
>Seq ID NO:137
AAGGTACTCAGTTTGCCCTCTGTGAGCGGGGGGCTGCACCCACCTTCTTCTGGAAGGAGCCGGGATTGCCGCGGCGGATGGCCAGCAGCGCGGTGTAGTGCAGCGTCTCGCGCACGGTGAGGCTGCTCAGCAGGGTGTCGCTCTGCAGGAGACTCGGGCGTCAGTGTAGCCTAAgcccccggggcgggcgggggggccAGGGGTGTGGGGGACGCGCCCACCTGCAGGACGTAGGAGAAGCAGTCCTGGAACTGCTCCCGGCGCAGCGCCCGGCCGTTCACATACACCTCCCCCAGGAAGGTCCCCGCGCG
>Seq ID NO:138
AGGAAAGATGGACCTCCAGAGCCGAGCAGAAGTGCCATTGCACCAGCTTGGCGCAGAAGTGCCATTGCACCAGCTTGGCATGGGCACCGGGCACTGCACATTAGGCCTCAGGGATGGTCCTGGCGATGTCTGGTATCGTACCACGGTTTGGCTAAAGATTAAGGGACTAAAACCTGATCCTGACCTTAGATAGTGGCCTAG
>Seq ID NO:139
GACAATGCTGAAGACACAAATGTTTACAATGACCACAGCGATGACGGGATCCGAGAGAAAGGCAAGGCGGAAGGGGTGAGGCCGGAAGCCGAAGTGCCGCAGGGAGTTAGCGGCGTCTCGGTTGCCATGGAGACCAGGAGCTCCAAAACGCGGAGGTCTTTAGCGTCCCGGACCAACGAGTGCCAGGGGACAATGTGGGCG
>Seq ID NO:140
GGAGTCCGGGGTGCCTAACCCAACGCGCAGCATGCAGAGCAGTGTCCCCAGCAGCACCAACCAGGTCATGGCGGCGACCACCAGGGACAGTACAGAGCAGCTCTGTGCAGGTTGCAGTTCCAGGACTCACCCTCTTCTGCTCTAGTGCGACATGGGTGGCACCGGATGGCCCTTGCCGAGGAGGCACGGCGGGTTCTTGCC
>Seq ID NO:141
GCCACTACTCACGCGCGCACTGCAGGCCTTTGCGCACGACGCCCCAGATGAAGTCGCCACAGAGGTCGCACCACGTGTGCGTGGCGGGCCCCGCGGGCTGGAAGCGGTGGCCACGGCCAGGGACCAGCTGCCGTGTGGGGTTGCACGCGGTGCCCCGCGCGATGCGCAGCGCGTTGGCACGCTCCAGCCGGGTGCGGCCCTTCCCAGCGCGCCCAGCGGGTGCCAGCTCCCGCAGCTCAATGAGCTCAGGCTCCCCCGACATGGCCCGGTTGGGCCCGTGCTTCGCTGGCTTTGGGCGCTAGCAAGCGCGGGCCGGGCGGGGCCACAGGGCGGGCCCCGACTTCAGCGCCTCCCCCAGGATCCAGACTGGGCGGCGGGAAGGAGCTGAGGAGAGCCGCGCAATGGAAACCTGGGTGCAGGGACTGTGGGGCCCGAAGGCGGGGCTGGGCGCGCTCTCGCAGAGCCCCCCCCGCCTTGCCCTTCCTTCCCTCCTTCGTCCCCTCCTCACACCCCACCCCGGACGGCCACAACGACGGCGACCGCAAAGCACCACGCGGAGATACCCGTGTTTCTGGAGGCCAGCTTTACTG
>Seq ID NO:18
TTGGGTACGTTTTTGACATCCCTAGTCCCACCTTGTTGTAAAAGAATTAGGCAGCCCCGAacttaacttctctaggccgcagtattcttatctggaatttgagataatagtggcaATGTGGCCGGTGGTAACACTGGCCGGGTCCCTTTGAGAATGAACAAACCGGAACACCTAATAGGAACTGAGTCCGTGTTAATTACT
>Seq ID NO:142
GAGGGAAGACCTGGAACGTTCCCTCAGCTGGGGGAGGCCTTCCGGAGGAGAAGTCTTTGTCCTTGGCTGGGGTAGAGACAGAGAGAAGAGACGCAAGTTGGGGACCTGCAAGTAGGGTTCCAGTCCAGGTCCGCGTGCGCAGGCCGGGCGCCCTCAGGTTTAGCGGCCACGCCCTTGCGTTCCTTCCGGGTTGCGTGAGGA
>Seq ID NO:143
CAGCCCATAGCGCGCCTGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAAACTCAGGCCTCAGCGCGCCCGGGGATGGAGATGCCGCAGGGAGACGCAGCCCATAGCGCGCCTGGGATGGAGATGCCG
>Seq ID NO:23
TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg
>Seq ID NO:144
TGTTAGTTTCGCTGGGTTCCTCGCGGGCTGGGTCGGGGTGCCGGGAAGCGCGCGCTGAGGGAGGGTGGCAGGCGCGCGGTGCCGGGGACGGGGACGGGGCGGGGGGCGCCGAGCCGGGAGAAGCGCCCTCGGGGCTCCGGCCGAGAAGCTCGGAGGAGCCCGCTCCCTCGCCCGGTCACCCCGCGTCTCCGCCTGGCGCCGCAGGGCCCCGCCGAGCTCTCACTTCCTCCTCGC
>Seq ID NO:104
CAAGCGCCATCGCAAAGTGCTGCGTGACAACATACAGGGCATCACGAAGCCCGCCATCCGTCGCTTGGCCCGACGCGGCGGCGTGAAACGCATTTCGGGCCTCATTTATGAGGAGACCCGCGGTGTTCTTAAGGTGTTCCTGGAGAATGTGATACGGGACGCCGTAACCTACACGGAGCACGCCAAGCGTAAGACAGTCAC
>Seq ID NO:145
CTCACCTGTTCCTTCTCTATCCACTGAGCCCTGACACGTAGGACCAGCGCTACTAACAGACTTGTTTTCCGGTTCAGCTCCCCTTAGGGCTCCTGTTGGAAACCGACCCTATCTGGGGAGCCTGTCTGGGCCACTCCCATTGCCGGAGAACTCTCCTGGGGCGGGGAGATGGCccaggtttgtggggcttgaaagcttaca
>Seq ID NO:146
ATAATTATGTCGTACAGTCGCAAACATTATTCCGTTCTTACTGTAAACGGCCCCGGCCACCTTTACGAGAAACCAGGAAACTTCTGAGAGTTACTAGCAGCGTTTACGCGGGCAAACTGAGTTCTTTTTCTTTCTCTCCCGGATTGTTCGAAGTATCTATCGGGCGGCTTCGATGCCAGGTTCAGAGGCGCGCCAGGGAGA
>Seq ID NO:147
TGTGCGGGGATCGCAGGCCCCCGAGCTGCAGGGGGCAGCAAAGCGCGCCCACCTGCCCGCCTGCCCGAGGAGAACACCGCAGCTCTGCTAATCGAGGGACAGCCGCAACCCAAAGTTCGGCAGCTTTCCGCCTGAGCTTCCCCTCCCTGAGCGAGGACACTGGAGGGAGGCAGAGACGGAGAGCCCATGGGCAGATCTGCA
>Seq ID NO:148
GGGGTGTGCGAGCCCGGGGGAGCGCAGGGAAGGGCGGGTTGGGCTGCAGGTGGGAATGTGCGGTCCTTCTGCGCCCTCAACAGAGCTTCCTTCCTTTTTGCCAAGGTCCCCGTGCCGCCTTCAGCGCGCCTCCTTATGCACCTCTACCTCTGCTGCAGCGTACCTCTTCCGCAGCCCTAGCGGCCTCCCCGAGGGGCGCCGCGGCCTCGGCTGTCC
>Seq ID NO:29
GACCTGGCCCACCGGAGAGGCTACGCCGGGGGCTGAGGCGGCTTAGAGGGTCATTAATCAAACCCTccggcggggcgggctcgggggcggggcgTCCTCCTGGCCCCGCCCCTCGGCTCACTGCCTCACGCTGCTTTCCCCGAGGCGCCTCGCTGAGGGCGGCGTGTGGAGAGTTTGGGGTGTCTGCCGCCGGCTGCGGTG
>Seq ID NO:149
CGACCCCGGCGGTGGGGCGGGGTCCTCCGGGTCCCCATAGCCACCGCCGCCGGGCGTGTGGAGACAGAACACATCCTGTTGGCGCGGGGGGGGGCGGGGAGGCGGGCTCAGTGCAGGCGTGGCCCCTCCCTGTCACCTGCGCAGTCCCCTCCCCACCGGGCAGCGTCCATCACCCGCCCCCATGGACCACGGAGGCCCGGT
>Seq ID NO:150
AGCGTGAGCGGATCCGAGGGTGTAATGTGTGTACTCGAGTGTGCGTGCCTGTGTGTGGCTAAAGATAGTGTGTGAGCGCCTGGACAGATGGTTACCCTGCCTAGGCCATGCGTGTGTGAGTGTGTGTGGGTACCTCATTCTGCTTTGTGTAAATTCAGCTTATCCGGGAGCTTGTCCCTCTTCCAGGCTCTGTTGGGAATG
>Seq ID NO:117
TCGCGTCCTGCGGGGAGAGCCACCCTGCCCCGCGCTGCGCCCGGGACGGTTCCCTGGAACCACTCACCAGGCAGCATCATCGCGCCCAGCAGCCAGAGCCCGAGGCCGCGCATGGCCGGGTCGGGGAGCAGAGGCGGAGGTGACAGCCCCGCGGGACACGGTCTGGTTCCTGCGCTCCTGGCCCGAGGCTCTTTTccgcgcgccccgccccggcgcc
>Seq ID NO:41
TGCTGACTCCGCAGTGCCCTCTCCTCGGCGTCCGCGGAGTCCCCCACCTTCTTCCCCGGCCCGCTGGGTGCCTCGACTCCCCGCGTTCCCCGCTGCTGCGAAGGCCGTGGCCCTCGCCTGCACACCGCGCCCAGGCTCGGTGGCTCTTAACTCCGCGCCCCATGCACGCCCCCTCTCTCCCTCCTTGACTCCTCCCAGCAC
>Seq ID NO:120
CGCGTGACCGTGCGCCAGCTCCCCGTGGGGCTCCTGCCAGGGTCGACCGGGAGGGGGTGCCACTCACCCAGATGAGCCACGCGGCTGAGGCGGGGGTCGAAACCGACCTCGCGCACCTTGTCAGTCCGCGCCAGGAAGAAGTTAACCACGCCGTCGGTGACCACGCAGCCTGGGAAGCCGACGAGCTCGTGGTGGAAGCCG
>Seq ID NO:151
TCCACGCTCAGCAGCTGCCGATAAGTGGTGGCAAAGCCGGAGATCTCGCGCACCGCGCCCCCCACCTGCAGGGAGAGGGAGGTTGCCTCCAGGCGGGCCTGGGATAGGGGACCCGAAGGGGTCAAGGTCTGCGCTCCGGTGCCTTCGGGGGTACCCCTGCCCCATCCTCTTCCGCTTCACCCCTGCAGGACCCAGACAGTTCCCAGGCCCCACTTCGTGGTTCTCTCTTTGTCCTAGGGCTGGCCGT
>Seq ID NO:152
GGCGGTGCTGGGACCGGGGACCCGCCCAGGACCGGCTGCCTCTGGCGCCACCTGGCGGCCGCCGTGCCCAGCCCTGCCCCGGGTCCTGAGGTTGACGGGGGACCTCCGGGAGGGCAGCAGCCCGGGGATCGCCCTGCTCACCGGGACCTAAGCAGAGCGCCTGCCCGAGAATAGGGAGACACGCGGGAGGCGGAGCACAGTAGTCCCCCTTCCTCCCTCCCACCCTCCCCTCTTCCTTTAGGAACAAGGCGGGAAGGCCAAGAGCCTGTCCCTCTCTGCGTTACCCCGGGCCCATCACTGGGAGAGAGGAATCA
>Seq ID NO:153
TGGTACCCCATTCAGACCAGCCCCAAGGGTGGCTTTGTTCTTTGATTTTACCTTTTGGAGACATTGGGCTCATGATTCAGCACCAGGCCGAGGGGAGGGGAAAGGAGAGGCGAGACCCAGTATGTTCACACCGCGAGTGGGTGGGCGGTGCTCACGCAGGCGGAGAAGAACGGGCGCAGCGATGCGGAAGAAATCGCGGCCCCGCCCGCCTTGCTGCTCCAGACCTAGTTCTGGACGGTTAGTGTGGGCAGGCTGGGCGTCTTTTTGTCGTAGGTTCCCGATTTCTTGCAGTCACAGTGCTAAACTCACCAGCATCTTAGGAACGAAAGCCCTCTAAGGCATTTATTTTATTAT
>Seq ID NO:125
TCCTGAAGCGCTGCTCGGAGCCGGAGCGCTACTGCCTGGCGCGGCTGATGGCTGACGCGCTGCGCGGCTGCGTGCCTGCCTTCCACGGCGTGGTGGAGCGCGACGGCGAAAGCTACCTGCAGCTGCAGGACCTGCTCGATGGCTTCGACGGACCTTGTGTGCTCGACTGCAAAATGGGCGTCAGGTATGCGTGCCCTGCCAGGTCGGTTGGGGGGATCAAGTAGGGGTCCGGGGCCGGGACAGCTGCTTGAGGGGGACCCGGGGCGAGTGCTCGAAGGGGTCTCCGTGTGCGCCCCCTCATGCCCTGGCCGCTGCCTGCGCCCCCACAGGACTTACCTAGAGGAGGAGCTGACCAAGGCCCGTGAGCGGCCCAAGCTGCGGAAGGACATGTACAAGAAAATGCTGGCGGTGGATCCTGAAGCTCCCACGGAGGAGGAGCACGCGCAGCGCGCCGTCACCAAGCCGCGCTACATGCAGTGGCGGGAAGGCATCAGCTCCA
>Seq ID NO:154
TCGTGGGCGGGGAGCCGCAGGGTGCTGCGCCCGGCCTCGGCGAAACGCGTGAAGAGGCGCGCGGCGCGCAGAGGAAAGCAgcgcggccgccccgcgggcccTGGCGCTTGCAGCCGCAGCATCAACTCGCGGCGCTCGTTGCGACCCAGGCTCAGCTCCGCGGTGCGCAGGGCCTGGCGCCTTCGCGGCTGCCCGCCCGGG
>Seq ID NO:155
TTAAGCTGCCCGAGCCCGGGGAAGGGGCTGCTCTCATCCTGGAGCGAGGTGCAGCCACCGGCAGCTGTGATTTAGGGGTCAAGTCCGAGATCACCTTTCTCCTGCCTCTGGAAATGGCAGAAGATGAGATAGGGAGGGAGAAACTAGAGAGTGGCAGCCAGGCGCAGCACGTGGGCTCCATCCATCCGACACCCCCATCGC
>Seq ID NO:1156
AACAGTCCTATTGTACAAATATATAGCGCGGGCTGGGCGGGGGCGGTCAACCCCGGTTCCCTGGCACGGGGACAGGGCGCGCTGGGCCCGGCTCTGCAGCGAGCCGGTGGGAGGGCCTAGCTGTGGCCCAGGCGGTGTTGAGCACGGGCCGGGGGCGTCATAGCCGGGGAGGGCCGGGCAGCGAGCGGGTGGGCGAGGGGCGAGTCATCGTCTGCCCCGCCCGGAGGGGACCCCGGCGGGTGAGGGACGTGGGTGGAGGGAGACGTGGGGAGCTCAGTCGGAGTAGATGATGAAGCCAGAGAACGTGCTGTATTTGTTGCTGTTGCCGCCGTGTGCTTTGCCTCCATCCAGCTT
>Seq ID NO:128
TTTGGCTCTCTCCTGTCTTCGGGGTTTACAAAGTGTGTTGGGACTTGCGGGGCTGCTCTGTCCAAGCCTGGGTCTGGCGTCCGCGTCTCTGAGCCTGTGAGTGCGTGCGCTTTCCTGCGTCCTCTTGACTGCCGGTGCTGGGGCTCTGCGTCCTGCGTCCGCGGGAGTAAATACAGCAGGCGAAGGGGAAGCTCACACAATGGTCTCCAGCGCTCTGGGGCAGGGCTTCTGAGGGGCGGGCCTGCCTCT
>Seq ID NO:157
TTTTCGGGCCGCGGTGCGGAGAACTCAGGTGGGTGCCCGGCAAGTTACCTACCAGGGGCTGTTCCCCCGCGACCCTCGCCATAAGCGCAGGGACCCGGGGGCCGCGCTGGCTCCGGGCTGCGCTCCTGGCTTGGCAGGGGACCAGGCCCACGCTGCAGCCTGGGAGCGGAGCCGCCCCCCAGGTCTCCCCACCTCTGCGGG
>Seq ID NO:158
CGGGGCCGACGGGATGGGTCAGGGTGCACAGAGCACACGCCAGCCCCTGGGGGAAGCCCGGCCCGTGCGGGCTGCGGGAGATCCTGATGGGCCCCGAGCTGAGGCTCCCGCAGCCAGGGTCTGCGCGTGGTCCCCACCTCCTTGCGCGCTCCGTCTCCAGCACAGCAGAGGTGGACGCCCCTCGCGGCTGGCTCCCCAGCG
>Seq ID NO:132
GGCTGTGCGGGCACAGCTGTTACAGGCAGGGGGCAGGGGCCTCGTGGAGCTTGTGTAGACGGAGGGGCGGCGGGCCGTGTAGTGCAGGCTGCGAAGACTCACCGCGGTGAAGTGCGGCCAGGTGCGCAGCAGGTCGAAGAGCGCGTCGCCGGGGCAGTCGGTGCGCACCAGCTGGCGGTGGCCCAGCAGCGCGTAGTCTGGCCGCAGGAGGCCGGCGCGCACCGCACAACTCGGGAGCGTGTCGCGCACCGTGCGCAGAGCGGCCTCGGTGGGCAGCGCCGCGGTGTAGTTGCCCACTATGGCCACGCCGAAGCCCCGGGAGTTGTGGCCGAGCGTGTGGGCGCCCACCCAGTGCCAGCCGCGTCCCTCGTACACGTAG
>Seq ID NO:159
AGCGCTGCGGGACGCGTTAGTGCTACAGGCGGATGCGGTCTCCGGCCGCGGGTCCATGGCAGTCTTCGAACGCTTCACACGCGGAAACAGTGAGGCCCCGGCGCTGGACTTGCCGGTCCGGACGCTCCAGGCTGGGCGGGTAAATGGTAGAGGCGGGCAAATGGGGGCGGGGCCTAATAGAGACTCCAGCTAATGAGGTGC
>Seq ID NO:90
TGGGGCACTGGGGTCTTCCTGTCCCACGTGCCCTCCACCCTGGGCTTCTGGAAGCTGGTCTAGATGCCCCTAGCTGCCGCCTGGGCAGCCCATATGCCCACGCCGGTCCCTGATAGTGAACTGGCCCGTAAGGGGACCAGGTCTCGGGATCTGAGCATGGAGCAGGGGCTGCGCCCAGGAGATAGGGTGTGGCTAGACTTTCCCCTGCTGGTCCTTTCCGGGGATCTGAGGGGAAACTTCTCCTGGGGACACACCCGGGTAGCTCAGAGATGGAAGAAAAGGTCTCCATTA
實施例
4.1
:甲基化靶向測序篩選乳腺癌特異性的甲基化位點
發明人收集了總計541個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表4.1,訓練集中乳腺癌樣本總數為37個,測試集中乳腺癌樣本總數為17個。
表4.1 各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 354 | 187 |
癌症類型 | ||
食管癌 | 41 | 26 |
肝癌 | 112 | 67 |
胃癌 | 50 | 26 |
肺癌 | 60 | 24 |
乳腺癌 | 35 | 21 |
胰腺癌 | 37 | 17 |
結直腸癌(附圖中稱為腸癌) | 19 | 6 |
年齡 | ||
中值(最小值-最大值) | 62(25-87) | 62(29-89) |
性別 | ||
男 | 202 | 116 |
女 | 149 | 69 |
NA | 3 | 2 |
通過MethylTitan的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段(reads)數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出乳腺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中乳腺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分乳腺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式(公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差);
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的乳腺癌組織特異性的甲基化標誌物具體表4.2。這些甲基化標誌物在乳腺癌與其他6種癌種中的甲基化水平如下表4.2和圖31和圖32所示。這些甲基化標誌物在訓練集和測試集中乳腺癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表4.2 在訓練集和測試集中甲基化標誌物在乳腺癌與其他6種癌種中的甲基化水平均值
序列編號 | 染色體 | 起始位置 | 終止位置 | 訓練集中乳腺癌甲基化水平 | 訓練集中其它癌種甲基化水平 | 訓練集P值 | 測試集中乳腺癌甲基化水平 | 測試集中其它癌種甲基化水平 | 測試集P值 |
Seq ID NO:1 | chr1 | 91182896 | 91183268 | 0.0961 | 0.1583 | 8.00E-09 | 0.0963 | 0.1670 | 4.72E-05 |
Seq ID NO:2 | chr1 | 91185256 | 91185556 | 0.0721 | 0.1127 | 2.78E-09 | 0.0740 | 0.1198 | 7.66E-06 |
Seq ID NO:3 | chr1 | 110611583 | 110611783 | 0.0013 | 0.0370 | 4.93E-10 | 0.0045 | 0.0388 | 7.37E-06 |
Seq ID NO:4 | chr1 | 119549342 | 119549542 | 0.9598 | 0.8995 | 6.44E-09 | 0.9571 | 0.8965 | 2.65E-05 |
Seq ID NO:5 | chr1 | 151811354 | 151811554 | 0.0091 | 0.0442 | 9.07E-10 | 0.0113 | 0.0546 | 4.89E-05 |
Seq ID NO:6 | chr1 | 237205513 | 237205713 | 0.0223 | 0.0583 | 7.11E-09 | 0.0238 | 0.0572 | 4.78E-06 |
Seq ID NO:7 | chr2 | 30453572 | 30453772 | 0.0012 | 0.0177 | 8.92E-09 | 0.0028 | 0.0250 | 4.17E-05 |
Seq ID NO:8 | chr2 | 45028929 | 45029292 | 0.8754 | 0.8182 | 1.17E-08 | 0.8756 | 0.8164 | 1.55E-05 |
Seq ID NO:9 | chr2 | 45227849 | 45228049 | 0.0553 | 0.1220 | 4.60E-09 | 0.0561 | 0.1297 | 5.39E-06 |
Seq ID NO:10 | chr2 | 63275030 | 63275230 | 0.0001 | 0.0143 | 1.38E-08 | 0.0009 | 0.0105 | 1.55E-05 |
Seq ID NO:11 | chr2 | 73147428 | 73147715 | 0.0010 | 0.0244 | 1.43E-10 | 0.0033 | 0.0243 | 4.08E-07 |
Seq ID NO:12 | chr2 | 74726373 | 74726801 | 0.0315 | 0.0715 | 1.86E-08 | 0.0296 | 0.0752 | 2.78E-06 |
Seq ID NO:13 | chr2 | 111876734 | 111876934 | 0.0211 | 0.2837 | 1.30E-09 | 0.0353 | 0.2986 | 7.63E-07 |
Seq ID NO:14 | chr2 | 114034788 | 114034988 | 0.0016 | 0.0304 | 3.17E-11 | 0.0035 | 0.0363 | 0.000265 |
Seq ID NO:15 | chr2 | 177043062 | 177043477 | 0.0190 | 0.0420 | 1.95E-08 | 0.0198 | 0.0420 | 2.86E-05 |
Seq ID NO:16 | chr2 | 200327248 | 200327458 | 0.9730 | 0.8934 | 2.25E-09 | 0.9721 | 0.8875 | 3.55E-06 |
Seq ID NO:17 | chr3 | 38036014 | 38036227 | 0.0093 | 0.0489 | 2.49E-08 | 0.0100 | 0.0494 | 1.51E-05 |
Seq ID NO:18 | chr3 | 170137183 | 170137383 | 0.0206 | 0.0703 | 1.85E-08 | 0.0217 | 0.0775 | 1.67E-05 |
Seq ID NO:19 | chr3 | 184301379 | 184301579 | 0.9705 | 0.9159 | 3.14E-09 | 0.9692 | 0.9071 | 1.91E-05 |
Seq ID NO:20 | chr4 | 13543558 | 13543849 | 0.9537 | 0.9100 | 2.70E-09 | 0.9506 | 0.9068 | 1.17E-05 |
Seq ID NO:21 | chr4 | 44449557 | 44449757 | 0.8543 | 0.7997 | 6.87E-09 | 0.8618 | 0.8047 | 1.07E-06 |
Seq ID NO:22 | chr5 | 134374689 | 134374889 | 0.9213 | 0.8603 | 1.89E-09 | 0.9298 | 0.8652 | 4.07E-08 |
Seq ID NO:23 | chr5 | 139047806 | 139048006 | 0.9774 | 0.9386 | 1.38E-06 | 0.9773 | 0.9286 | 0.000967 |
Seq ID NO:24 | chr6 | 1625055 | 1625255 | 0.0013 | 0.0518 | 1.16E-08 | 0.0034 | 0.0506 | 4.64E-05 |
Seq ID NO:25 | chr6 | 6003896 | 6004283 | 0.9398 | 0.8699 | 2.26E-08 | 0.9333 | 0.8641 | 3.27E-05 |
Seq ID NO:26 | chr7 | 27204459 | 27204659 | 0.0362 | 0.1325 | 9.07E-10 | 0.0501 | 0.1448 | 8.24E-05 |
Seq ID NO:27 | chr7 | 96622040 | 96622409 | 0.0524 | 0.1281 | 7.59E-10 | 0.0609 | 0.1341 | 0.000322 |
Seq ID NO:28 | chr8 | 57069546 | 57069746 | 0.0216 | 0.0570 | 1.70E-10 | 0.0247 | 0.0582 | 2.51E-05 |
Seq ID NO:29 | chr8 | 67874783 | 67874983 | 0.0306 | 0.0781 | 2.05E-08 | 0.0365 | 0.0825 | 4.78E-06 |
Seq ID NO:30 | chr8 | 86350778 | 86350978 | 0.0015 | 0.0207 | 1.37E-08 | 0.0018 | 0.0229 | 5.15E-05 |
Seq ID NO:31 | chr8 | 97157461 | 97157847 | 0.0039 | 0.0487 | 1.42E-09 | 0.0019 | 0.0558 | 4.01E-09 |
Seq ID NO:32 | chr9 | 117804 | 118004 | 0.0568 | 0.1926 | 2.30E-10 | 0.0720 | 0.2057 | 6.37E-06 |
Seq ID NO:33 | chr10 | 23480625 | 23480825 | 0.9224 | 0.8703 | 5.31E-09 | 0.9129 | 0.8700 | 0.000622 |
Seq ID NO:34 | chr10 | 102895034 | 102895234 | 0.9497 | 0.8766 | 1.46E-09 | 0.9508 | 0.8755 | 7.23E-06 |
Seq ID NO:35 | chr10 | 105036590 | 105036794 | 0.0111 | 0.0339 | 1.29E-09 | 0.0114 | 0.0324 | 3.84E-06 |
Seq ID NO:36 | chr10 | 134597986 | 134598186 | 0.9558 | 0.8595 | 2.36E-09 | 0.9520 | 0.8540 | 1.50E-05 |
Seq ID NO:37 | chr11 | 31820260 | 31820460 | 0.0475 | 0.1192 | 1.24E-08 | 0.0454 | 0.1203 | 2.78E-06 |
Seq ID NO:38 | chr11 | 31839396 | 31839726 | 0.0377 | 0.0687 | 7.85E-09 | 0.0387 | 0.0731 | 1.04E-05 |
Seq ID NO:39 | chr12 | 25056205 | 25056405 | 0.9542 | 0.8429 | 1.33E-08 | 0.9588 | 0.8388 | 4.75E-07 |
Seq ID NO:40 | chr12 | 50297535 | 50297964 | 0.0134 | 0.0375 | 1.55E-08 | 0.0128 | 0.0399 | 1.38E-06 |
Seq ID NO:41 | chr12 | 52401109 | 52401309 | 0.0011 | 0.0248 | 3.01E-09 | 0.0024 | 0.0197 | 1.26E-05 |
Seq ID NO:42 | chr13 | 37005935 | 37006328 | 0.0142 | 0.0537 | 2.28E-08 | 0.0136 | 0.0535 | 2.01E-06 |
Seq ID NO:43 | chr14 | 61104459 | 61104820 | 0.8405 | 0.7660 | 2.48E-08 | 0.8452 | 0.7607 | 2.32E-06 |
Seq ID NO:44 | chr16 | 23847490 | 23847690 | 0.0003 | 0.0117 | 1.37E-08 | 0.0019 | 0.0118 | 4.24E-05 |
Seq ID NO:45 | chr17 | 70112878 | 70113078 | 0.0644 | 0.1565 | 5.30E-11 | 0.0718 | 0.1586 | 1.44E-05 |
Seq ID NO:46 | chr18 | 44336540 | 44336814 | 0.0241 | 0.0715 | 1.61E-08 | 0.0239 | 0.0758 | 1.75E-07 |
Seq ID NO:47 | chr19 | 13123416 | 13123616 | 0.8069 | 0.6605 | 1.81E-08 | 0.7977 | 0.6483 | 9.29E-06 |
Seq ID NO:48 | chr19 | 55593530 | 55593730 | 0.0026 | 0.0343 | 1.03E-09 | 0.0054 | 0.0456 | 1.59E-05 |
Seq ID NO:49 | chr19 | 58095530 | 58095874 | 0.0473 | 0.1208 | 1.70E-10 | 0.0570 | 0.1365 | 3.61E-05 |
Seq ID NO:50 | chrX | 8698966 | 8699166 | 0.0953 | 0.0656 | 4.39E-07 | 0.0862 | 0.0649 | 0.000439 |
Seq ID NO:51 | chrX | 47666446 | 47666658 | 0.2792 | 0.1960 | 4.48E-11 | 0.2771 | 0.1943 | 1.97E-06 |
以單個甲基化標誌物Seq ID NO:21為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖33和圖34所示,可看出該標誌物的甲基化水平在乳腺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的乳腺癌組織特異性甲基化標誌物。
實施例
4.2
:單個甲基化標誌物判別性能
為了驗證單個甲基化標誌物的區分乳腺癌與其它6個癌種的潛力,使用單個甲基化標誌物的甲基化水平資料在實施例4.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1、使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值(W
TX就是每個標誌物的甲基化水平值*對應的係數,為矩陣運算,需要先轉置
T):
2、使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(乳腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3、使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是乳腺癌進行判斷。
4、統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個甲基化標誌物邏輯回歸模型的效果見表4.3,從該表中可看出,所有的甲基化標誌物的在測試集和訓練集都可以達到0.70以上的AUC和0.73以上的準確率,都是較好的乳腺癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO:31,Seq ID NO:22都可以在測試集中80%左右的特異性下達到70%以上的敏感性,AUC達到了0.85左右,整體準確性達到80%左右。
表4.3 單個甲基化標誌物邏輯回歸模型的表現
序列編號 | 訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 |
Seq ID NO:1 | 0.7904 | 0.5714 | 0.8024 | 0.1030 | 0.7802 | 0.7619 | 0.5714 | 0.8012 | 0.7754 |
Seq ID NO:2 | 0.7997 | 0.6286 | 0.8024 | 0.0995 | 0.7857 | 0.7900 | 0.5238 | 0.8072 | 0.7754 |
Seq ID NO:3 | 0.8142 | 0.6286 | 0.8024 | 0.0985 | 0.7857 | 0.7906 | 0.6190 | 0.8554 | 0.8289 |
Seq ID NO:4 | 0.7924 | 0.6286 | 0.8024 | 0.1026 | 0.7857 | 0.7711 | 0.6190 | 0.8072 | 0.7861 |
Seq ID NO:5 | 0.8091 | 0.6857 | 0.8024 | 0.0988 | 0.7912 | 0.7613 | 0.4286 | 0.8012 | 0.7594 |
Seq ID NO:6 | 0.7915 | 0.6000 | 0.8024 | 0.0987 | 0.7830 | 0.7969 | 0.7143 | 0.7771 | 0.7701 |
Seq ID NO:7 | 0.7895 | 0.5714 | 0.8024 | 0.0968 | 0.7802 | 0.7639 | 0.3810 | 0.8494 | 0.7968 |
Seq ID NO:8 | 0.7871 | 0.6000 | 0.8024 | 0.1022 | 0.7830 | 0.7794 | 0.6190 | 0.8012 | 0.7807 |
Seq ID NO:9 | 0.7953 | 0.6286 | 0.8024 | 0.1042 | 0.7857 | 0.7952 | 0.5238 | 0.8373 | 0.8021 |
Seq ID NO:10 | 0.7856 | 0.5714 | 0.8024 | 0.0966 | 0.7802 | 0.7794 | 0.5714 | 0.7952 | 0.7701 |
Seq ID NO:11 | 0.8241 | 0.7429 | 0.8024 | 0.0974 | 0.7967 | 0.8308 | 0.6667 | 0.8193 | 0.8021 |
Seq ID NO:12 | 0.7829 | 0.6000 | 0.8024 | 0.0997 | 0.7830 | 0.8046 | 0.5714 | 0.8373 | 0.8075 |
Seq ID NO:13 | 0.8050 | 0.6286 | 0.8024 | 0.1450 | 0.7857 | 0.8219 | 0.6190 | 0.8253 | 0.8021 |
Seq ID NO:14 | 0.8356 | 0.7429 | 0.8024 | 0.0979 | 0.7967 | 0.7324 | 0.3333 | 0.7952 | 0.7433 |
Seq ID NO:15 | 0.7825 | 0.5714 | 0.8024 | 0.0973 | 0.7802 | 0.7699 | 0.4762 | 0.8072 | 0.7701 |
Seq ID NO:16 | 0.8015 | 0.5714 | 0.8024 | 0.1068 | 0.7802 | 0.8012 | 0.6667 | 0.8313 | 0.8128 |
Seq ID NO:17 | 0.7802 | 0.5429 | 0.8024 | 0.0994 | 0.7775 | 0.7798 | 0.4762 | 0.8253 | 0.7861 |
Seq ID NO:18 | 0.7830 | 0.6000 | 0.8024 | 0.1008 | 0.7830 | 0.7783 | 0.5238 | 0.8193 | 0.7861 |
Seq ID NO:19 | 0.7986 | 0.6571 | 0.8024 | 0.1015 | 0.7885 | 0.7762 | 0.4286 | 0.7831 | 0.7433 |
Seq ID NO:20 | 0.7999 | 0.6000 | 0.8024 | 0.0998 | 0.7830 | 0.7837 | 0.5238 | 0.8193 | 0.7861 |
Seq ID NO:21 | 0.7918 | 0.6286 | 0.8024 | 0.1016 | 0.7857 | 0.8178 | 0.7143 | 0.7590 | 0.7540 |
Seq ID NO:22 | 0.8030 | 0.4857 | 0.8024 | 0.1026 | 0.7720 | 0.8597 | 0.8095 | 0.7892 | 0.7914 |
Seq ID NO:23 | 0.7409 | 0.5429 | 0.8024 | 0.0994 | 0.7775 | 0.7080 | 0.4286 | 0.7952 | 0.7540 |
Seq ID NO:24 | 0.7871 | 0.6000 | 0.8024 | 0.1006 | 0.7830 | 0.7622 | 0.4762 | 0.8012 | 0.7647 |
Seq ID NO:25 | 0.7812 | 0.5714 | 0.8024 | 0.1043 | 0.7802 | 0.7678 | 0.6190 | 0.8253 | 0.8021 |
Seq ID NO:26 | 0.8091 | 0.5429 | 0.8024 | 0.1084 | 0.7775 | 0.7527 | 0.4762 | 0.8072 | 0.7701 |
Seq ID NO:27 | 0.8106 | 0.6571 | 0.8024 | 0.1050 | 0.7885 | 0.7289 | 0.4286 | 0.8133 | 0.7701 |
Seq ID NO:28 | 0.8228 | 0.6571 | 0.8024 | 0.0986 | 0.7885 | 0.7719 | 0.5714 | 0.7892 | 0.7647 |
Seq ID NO:29 | 0.7820 | 0.4857 | 0.8024 | 0.1004 | 0.7720 | 0.7969 | 0.6190 | 0.7952 | 0.7754 |
Seq ID NO:30 | 0.7857 | 0.6286 | 0.8024 | 0.0970 | 0.7857 | 0.7605 | 0.4286 | 0.7952 | 0.7540 |
Seq ID NO:31 | 0.8052 | 0.6857 | 0.8024 | 0.1003 | 0.7912 | 0.8867 | 0.7143 | 0.8614 | 0.8449 |
Seq ID NO:32 | 0.8204 | 0.6286 | 0.8024 | 0.1163 | 0.7857 | 0.7927 | 0.4762 | 0.8133 | 0.7754 |
Seq ID NO:33 | 0.7941 | 0.5714 | 0.8024 | 0.1011 | 0.7802 | 0.7166 | 0.4762 | 0.8253 | 0.7861 |
Seq ID NO:34 | 0.8051 | 0.6857 | 0.8024 | 0.1053 | 0.7912 | 0.7909 | 0.5238 | 0.8072 | 0.7754 |
Seq ID NO:35 | 0.8062 | 0.6000 | 0.8024 | 0.0973 | 0.7830 | 0.8001 | 0.5714 | 0.8012 | 0.7754 |
Seq ID NO:36 | 0.8010 | 0.6000 | 0.8024 | 0.1093 | 0.7830 | 0.7800 | 0.5238 | 0.8072 | 0.7754 |
Seq ID NO:37 | 0.7865 | 0.5714 | 0.8024 | 0.1045 | 0.7802 | 0.8046 | 0.6190 | 0.8133 | 0.7914 |
Seq ID NO:38 | 0.7906 | 0.6286 | 0.8024 | 0.0982 | 0.7857 | 0.7854 | 0.6190 | 0.7831 | 0.7647 |
Seq ID NO:39 | 0.7859 | 0.6000 | 0.8055 | 0.1126 | 0.7857 | 0.8287 | 0.5714 | 0.8133 | 0.7861 |
Seq ID NO:40 | 0.7845 | 0.6286 | 0.8024 | 0.0975 | 0.7857 | 0.8144 | 0.6190 | 0.8133 | 0.7914 |
Seq ID NO:41 | 0.7990 | 0.6571 | 0.8024 | 0.0974 | 0.7885 | 0.7826 | 0.6190 | 0.8434 | 0.8182 |
Seq ID NO:42 | 0.7811 | 0.6000 | 0.8024 | 0.0991 | 0.7830 | 0.8092 | 0.5714 | 0.8434 | 0.8128 |
Seq ID NO:43 | 0.7803 | 0.5714 | 0.8024 | 0.1061 | 0.7802 | 0.8072 | 0.6190 | 0.8133 | 0.7914 |
Seq ID NO:44 | 0.7857 | 0.5714 | 0.8024 | 0.0965 | 0.7802 | 0.7636 | 0.4762 | 0.8434 | 0.8021 |
Seq ID NO:45 | 0.8320 | 0.6286 | 0.8024 | 0.1079 | 0.7857 | 0.7806 | 0.4762 | 0.8313 | 0.7914 |
Seq ID NO:46 | 0.7842 | 0.4857 | 0.8024 | 0.1004 | 0.7720 | 0.8417 | 0.6667 | 0.8253 | 0.8075 |
Seq ID NO:47 | 0.7832 | 0.5714 | 0.8024 | 0.1227 | 0.7802 | 0.7871 | 0.5238 | 0.8373 | 0.8021 |
Seq ID NO:48 | 0.8076 | 0.6571 | 0.8024 | 0.0984 | 0.7885 | 0.7788 | 0.5238 | 0.8554 | 0.8182 |
Seq ID NO:49 | 0.8228 | 0.6857 | 0.8024 | 0.1046 | 0.7912 | 0.7662 | 0.5714 | 0.8072 | 0.7807 |
Seq ID NO:50 | 0.7528 | 0.3714 | 0.8024 | 0.0982 | 0.7610 | 0.7232 | 0.2381 | 0.7952 | 0.7326 |
Seq ID NO:51 | 0.8333 | 0.6857 | 0.8024 | 0.1086 | 0.7912 | 0.8095 | 0.5238 | 0.7952 | 0.7647 |
實施例
4.3
:所有目標甲基化標誌物的機器學習模型
本實施例使用所有的51個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出乳腺癌的樣本。具體的步驟與實施例4.2一致,只是相關樣本帶入了所有51個目標甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(乳腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是乳腺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖35,從圖中可看出乳腺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖36,在測試集中,乳腺癌與其它癌種區分的AUC達到了0.921,設置閾值為0.178,大於該值則預測為乳腺癌,反之預測為其它癌種,在特異性為90.4%時,敏感性達到了85.7%,樣本整體預測的準確率達到了89.8%, 可以很好地從7種癌症樣本中區分出乳腺癌樣本。
實施例
4.4:
甲基化標誌物組合
1
機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有51個甲基化標誌物中隨機選取了一共8個甲基化標誌物Seq ID NO:16, Seq ID NO:20, Seq ID NO:22, Seq ID NO:31, Seq ID NO:32, Seq ID NO:36, Seq ID NO:48, Seq ID NO:51的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例4.2一致,但相關樣本只使用了該實施例中的8個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖37,該模型ROC曲線見圖38。可看出該模型在訓練集和測試集中,乳腺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.893,閾值設成0.143時,大於該值預測為乳腺癌,小於該值預測為其他癌種,特異性為88.6%時,敏感性達到了66.7%,整體的準確率達到了86.1%,說明了該組合模型良好的性能。
實施例
4.5
:甲基化標誌物組合
2
機器學習模型
該實施例使用另一甲基化標誌物組合:Seq ID NO:5, Seq ID NO:11, Seq ID NO:14, Seq ID NO:27, Seq ID NO:28, Seq ID NO:32, Seq ID NO:45, Seq ID NO:49, Seq ID NO:51一共9個甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例4.2一致,但相關樣本只使用了該實施例中的9個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖39,ROC曲線見圖40。從圖中可看出該模型在訓練集和測試集中,乳腺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05)。測試集中,AUC達到了0.894,閾值設置為0.135時,測試集中在特異性為86.7%時,敏感性達到了90.5%,整體的準確性可達到87.1%,同樣可以較好的區分乳腺癌與其它癌種。
本專利從7個癌種的甲基化NGS測序數據中篩選出了51個乳腺癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出乳腺癌的樣本,這些甲基化標誌物都是良好的乳腺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中乳腺癌的組織溯源提供了重要的參考。
>Seq ID NO:1
GTAATTGGGAAGTGGCAATCTGTGGATACTTTCGACACAACTTTTTTTCTTTTATGCAAAAAGTAGGGGTGGAAAGAAAAAAGATGCGGGGGGCGGGGGGAGTTAAAAAAATTTCTGAGAAAACTCGGAACTTGCGCTCCAGGAACGACTGCGCACGTGGCgcggcggtggcggcgcggaggacccaggcgaaggcgaaggcgaaggcgaaggcgcaggcgaaggcgaaggcgcaggcggcgggaagctacgccaaagccgccgccgccgccgctgccggggtctgcccacagcctggcaccgggcggcagcggtggcggcggcggacgcggcaggtgcagcgACCGCGAAGCCCGGGCGGCCGCGCGCCCTC
>Seq ID NO:2
CGGGGTTGGTGAGCCGAGGCGGGGACTCCGGACGTGCTCCATCCCGGCAGGGGCCGACAGTGGCCAGAGGGGTGCGGGGAGGCCCTCGGGAACGGGTGACTGGGCCCCGCCGGGTGGGGTCGGGCCACTGTAGGCTGGAGCGGGGTTGGATCAAATGCCTTTGGCGCGGGAACTGAGTGCTGGCCCGGGAGACCCTCCGGAGAGCTCGCGGGctcggcctcggcctcggcctcggccttcggccGCGGTTACCGAAACACAGACGGTAGACTTGTGGAGGTGGCTTATCCGAGGCCGCAGG
>Seq ID NO:3
TGTCGGTGCCGGATGCGGCGCGCCTAGCAGGGACGCGGGCCTGGGGGGGTGGCTCCTGCCCGACGCGGAGCGCTGAGCCAGGCCGGGTACCTGTCTCTGGCGGTGCTCACCGCACTGCGCGGCCTCTGCCGTCTGGCTGGGATCAGAGGAGCCAGGCCAACTGCTTCTCATTAAGTCCCAACTGTGGTTTTTATCAGGAAA
>Seq ID NO:4
GCGCCGGAGCCAGGCGGGAAAGGGACTACAGCCGCCCGCCGTTGTAGCGCAGGAAGCGGGCGGTGCCAACACACACCTCGCAGCTCTGCACGTTCTTCGTGTCTTGGAGGAGAGTAGAGCCTCCGTGTGAAGCTCCGTCCGCACCTGACGAAGAGGAGGGCGTCTTGCGCCACTCCAGCGACTCTGCGATGTTAAGACGCA
>Seq ID NO:5
CGCTTGTGGGCGGGCCCGGGGCGCGACGCTTGGAGAACAGGCCGGAAGGCGCCCAACGGGCCGCAGGCTCCGCGGCCCCCACCTTATAGCCAGCTTTTTCCAAGAGCCACATGCGGTGGGTGGGGTAATGGAATTCCGAATTCCGCAGGGCCGAGAGGGTCCAAATCCCGTCTCAGATGGGAGTGCTCGGCGGAGCGGGGC
>Seq ID NO:6
ACCGCCGGCTGCAGGCAGCGAGCGCGGCTGGGCTGCGGGGCTGCTTCCCCGCGTCCTCCGGGCCCGGGCCGCCCTCCTCCCGCACAGTGCGGAGCAGGGAGGCCCCGCGCCTCGACCACCCGCGCCCGAGCGTCCGCGCCTCCTCCTCCGCTCTGCAGGCGGGGACCGCCCGGCGCTCGGCACCCGGCAGCGCGGCCCCCT
>Seq ID NO:7
CCTCGGAGAAGACGTGGGAGTCAAGGATGGGGGGCGGCGTGCACACCGCCCGCCCACACCTTCTGCCCCCGCTGCAGACCGGGCGTATGTGTGTCTCCAATGGAAAAATCCTACCCAGGACGACACCACATCCTTGCTCCCACAAATAAAACCTTCCACGGAACTCAGGGCTGCAGACCAGCCCTTCGCAAGCCAACGCGC
>Seq ID NO:8
GGTGCAGCAGCTTCCTTTTAATTGTGACGGTGCGGCCGCTTGGGCGTGATCCCTTGGCTGGGGCTGCAGGGGGCCCGTCCTCCAGGGGCGCAGAGGGAAGGACCAGCGTTTCCAAGCCGGGCTCTGGCCGCCGGCGCGAGAGCGAGGCCAAGGTCTGGGGGCAGTTCAGGGGGACCCCGAAGTCGGGACGGCCCAGAAACGCTTTGCCCACAGCCACCGCCCTTTCCTTTGTGAGTTTCCCCAAAGCCGTCGGTGCGACCCGGCGCCGACTCTCCTCCTCTTCTCCCTGCGAgggcccgcgccgcccgggcccAGTCCTGGGGGATAGATCCCTCGGGGCCCAACGGCTGGGCCACCGCCGGTC
>Seq ID NO:9
TGCTGCACTGCGGTCTTTGGAGGCCTAGGTCGCCCAGAGTAGGCGGAGCCCTGTATCCCTCCTGGAGCCGGCCTGCGGTGAGGTCGGTACCCAGTACTTAGGGAGGGAGGACGCGCTTGGTGCTCAGGGTAGGCTGGGCCGCTGCTAGCTCTTGATTTAGTCTCATGTCCGCCTTTGTGCCGGCCTCTCCGATTTGTGGGT
>Seq ID NO:10
TCTGCGGGCCGGAGCAGAACTTCCGCCCCTGGTCAGATCCCTCGGCCTCAGATCCAAAGCCCTCCCCTTGTCCCAAGTGTCCTCCAGAGCCTGGCCGGGCCTGGAGGTCACCTGGATGCTGGATCCTTGTCTCCACACCCAGCTCCCTCGCCCCTTCCCGGCTCGAGGGCCTTGAGCTGGACGGCTTCACCTCCTCCAGTG
>Seq ID NO:11
CCAGCGGGTACGTTATCGAGTAGCACAAACAGTTGGATTTTTCCCTCAAGAACCGAGTCTGGACGCGGAGATGGAGCCAAGTGTGGCTGCATTTTCGGACCCGGAAATCCGTTGGGCACTGAAGGACTTTTCGAACCCTGTAGCGCTGTTGCTTCGCGGTCCATCGTCGCCGCTGCAGACGGATGCGCTCCCCGGCGGCTCTACGCCCTCCAGTCCCGGCCAGGCCTCTGGGCTGGGAGCCGAGCCGTCTCGGGCCCTCCGGCGCCGCGTTTTCTAGAGAACCGGGTC
>Seq ID NO:12
CTGGGACAAAGGTTTGAGACGGGGAACCAGGAGGAGAGAGGTGAGGAAAAGGCTAAGTCAGAGTCCGCGACCTTGCCGGCTCTATACCTTCAGAGGGCTGCAGAGCGCGCGCGTCAAGTCCGCGGAAAGTTTTACTAGTCAGCTCCTCCAGCGCGCACAGCGGCGACGTTGGACCCGGACCCGACTCTGGAAGCTGCGGCGCAGAGGGTGCTCGGGGGACCATGCGCGGGGCTAGGATGTCTGCGATGCTTAAGAGTGTCCGGGGTGTTCGGGGCTCGCGTCCCGAGTTCATGGTCGGCCGGGCTGGGGCGGTCCGGCTGTCCGTTGCGCTAGGCTCCGCAAACGCCTGGGCCCCAGTGCTCGGCTCCCAATCCGGGCCCCCAGCCTCGGACCCGCCCCCGGCTCTGGGCCCGAGTCCCGTGTGCCCCT
>Seq ID NO:13
GCGGAGCATTGCGGCGTGCGGCGGGCTTCGGGCTCTCAGCCCGCGCAGCAAGTTGTGTTGCTTTTCCCCGGGTGCGACGCGGGACGGCCGCGAAGAGCAAAGTTCGTCCGCGGTAGGAACTTCGAGGCCCGGTTAGGACCGATCTCCGGCCTCCGAGTCTACTTAGCCGTGTCCACGCTCGTGCCTTTTCCCTCTTGCAGC
>Seq ID NO:14
GAGCATTCGTCTGCAGCTCTAGAGAGAACCCGAGTGAGAAATCTTCCGGCGCCCCAGGGGGTTCCCGCTCCCCTCCTAGTTGGGCCATGGCCCTGGGACTGGAGACTGCGCCGCAGAGCCCGGGCCCCCGCAGTGCGCTTGGCTAAATAGAGATCTCAGCCTCGCTGCGCGCCCGATCCGACCCTCCTTATTATAACAAAT
>Seq ID NO:15
TTTTCTCTGTGTGTGTCTAGGGTTGGGGGCAGGAGAGGTTAGTTCTATTAAGAGTTCATCAATCACCCGGTGTGCACTTTTCGCTCGACAGCGGTTCCTCCTACTTCAGAGCAAGTCTGGGCCAGCTGGGATCCGACCAGAAATCGCAAGCGGAGGAGACGCAGTAGCGCAGGCTGAGCGCTAACTGAAGGCGCGACCTGAGCCCGGCGCCTGCTGGGGAGCTGCGCAGCCAGGACAGCGGTCGGCAGCACAGGGCCTGGGCGCAGGGCCCGCCGTCACCACCTCACGTCGGAAGCCAGCACTGCTGCCCGCCAGCCCTGCCGCCTGCCCTCGGACTTCCCAGGGCGCCCAGGGTCCTCCCAACGCGCCTGCACCCACACCCGCCCCTGAGCCACAGTGACCTTGCATTCCCCGCC
>Seq ID NO:16
GACTGACCGGAGCGCAGGGCGGGGGACACTTACTTCGTTATCCGCACGCCTTCCTCGTTGGCATCAGAGCCGGACAAATCCCAACCCGCGCCAGGCAAAGATAAATGACTCCTGGCTCCCCCGGCAGCTCAGGGGGTCTGGGCGGGGGCGGAGAGGGAAGGAAGCCGTCGGCCGCCGGAGGTAGAGACTGTGGAGGTCCTCCTCCCGGCCC
>Seq ID NO:17
GGCAGTCTTGGGATGGCCATCGTCCACATCCCTGAATGGGGCAAGCCGGGAGGGGTTGGGtaacacctttattgagatacaactcatacgccatacgattcacccatttaaagtacatatacatgtcagtgatttttaacagttgtgtgcaaccatcaccacaattttagaacattttcatcaccctaaaaagaagccccatacccctttgcca
>Seq ID NO:18
TTGGGTACGTTTTTGACATCCCTAGTCCCACCTTGTTGTAAAAGAATTAGGCAGCCCCGAacttaacttctctaggccgcagtattcttatctggaatttgagataatagtggcaATGTGGCCGGTGGTAACACTGGCCGGGTCCCTTTGAGAATGAACAAACCGGAACACCTAATAGGAACTGAGTCCGTGTTAATTACT
>Seq ID NO:19
agcggccctggcaCAGCTGGCGGCGGCGCGGGCTCCTCAGGCCGCCCCCGTCCTTCACCGCGCGCTCCCGCGCTGGGGCTGCTCGGCGGCGCCCGCTCCTTAGTATTCCCCCCACGGAGCCCAgccgcgccgccgcagccggcccgggggaggggcgccccgcACGGCTAAGCTCTCTGCGTCCCCGGGGCGGACGCGGGG
>Seq ID NO:20
gtCAGCGCCGGTCCGGAGCCGGAGCGCGGGAATCACTCGCTGCCTCAGCCCAAGCGGGTTCACTGGGTGCCTGCGGCAGCTGCGCAGGTGGAGAGCGCCCAGCCTGGGAGGCAGTAGTACGGGTAATAGTAGGAGGGCTGCAGTGGCAGAAGCGAGGGTGGCCGCAGCACTTCGCCGGGCAGGTATTGTCTCTGGTCGTCGCGCACCAGCACCTTTACGGCCACCTTCTTGGCGGCGGGCGCCGAGGCCAGCAGGTCGGCTGCCATCTGCCGGCGCTTTGTCTTGTAGCGAC
>Seq ID NO:21
AAACGCCGGGGCTGCGAACTTACGGAAGAAAATGTACTCGGTGTAGCTGCTCCAGATCTTGTCGTCGCGGTACTGGTTGACGAAGGCGGCGGTGCCCGAGGAGTTACACGCCACCATGTGGAAGCCGGCCTCGGACAGGCGATCAAAGGCCTGCTCCAAGTAGGTGAACTTGAGGTAGAAGCGGGACGTGTACTTCTCCGG
>Seq ID NO:22
GGCGCGGACCGACGTCTGCTGCTTTTCTGCGGCATTGCTGCCcgaacgaacgaacgaacgaacgaacgaaGCGGTTTCGTTTAGGAAAAATACCCTCTTGACGCGAAGCCACGGCTGAAGTCCCGGGCCACGCAGAGGGGCCAGCAATTCCATGGGTGGTGGGGCCCTCCATCCCTGGACGCAGCGGGGAGCAGCGGGCGG
>Seq ID NO:23
TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg
>Seq ID NO:24
CTTAATGCtttttttttttttttttttttttttttATAACATGAAGTTGTCAGGGACGCTCCTATGAGAACTGTTTGGAATTGCTGCACTTCTCTGGCTAGGAGGGAAGTGAGTAAATCACCAGGCGCCCCTCCCAGCTGCCCGTGTCCCTGCGCCGCTCAGCTCCTGCCGCAGGGCTGGCCGCGCCAAGCGCGCGTCCTA
>Seq ID NO:25
ACGGCCAAACCCCGAGGCGCGGGACTGGAAGGACAGGTACCAGGCTGCGGGCGCGCGGCTGTGGCCATCTCTTTCCGCCCTGAGGCCGACGAACCCGGCTGGAAGCTGAGTGCCTAGCGGCCCAAAGCAGCCCGGGCGCCGGGAGGGCGCCAGAGAAGCACAGCGTTAGGGCGGGGAAGAAAGGGTGAATCTCAGAATCGAAATCCGCACTGGCGCCCACGACCCTGGGCGCCGGCCTGGTCCTCGGCAGCTTTCTGGCGGCTGCGCTTGTGTGTGAATGTGTCCCGGGAGGACCGGACACCTCAATCCCCCGGCCCCCAACGCGGGCGCCTGTCCGCGAGCGCCGGGCCAGACGCCGAAGAGGAAGGTGACCGAACCCGTAGCAGCT
>Seq ID NO:26
TGGAGGCGGCGGCGGATTTGAAGGGAGGAGACACTTACTGGGATCGATGGGGGGCTTGTCTCCGCCGCTCTCATTCTCAGCATTGTTTTCAGAGAAGGCGCCTTCGCTGGGTTGTTTTTCTCTATCAACTGGAGGAGAACCACAAGCATAGTCAGTCAGGGACAAAGTGTGAGTGTCAAGCGTGGGACAGTCACCCCTTCT
>Seq ID NO:27
GTCGAGGGGCTACAGATGCCCGCATTGGGCTTCTTAGCGGCCTAGGCTGATGCCTGGAGGTAGGGGGGATTGGGTTTGGCTGGCGACTAGCTTTAATGCCCATCGAGTTCCTGGGACACCCAAGTTCAGCACTTCTGCATGAAACCGAAACGGCCAGGGAGGGGCGGAGTGGGCCGAGGCTGAGGGAGCGGCGGTGTTGACGCCCTCTTCCCACCCAGGATCGATCGATCGGTAGGGAATTTTTTATCTTTGGGAAGGAGAGGTGAGGAAGCGGACCTAAAACGAGGGGAAAATTCGAATTTAATATCCTGTATAGGAGGTCAAAAGAAAAAAAATGATGGCGAGGAATGCAGAGGGCCCTAAATGGACC
>Seq ID NO:28
aaaagtagaaaaacctatgtggacgcatcaacagatgctgaaaaggcatttcctagaagtcggcagccaaacttggtaaTTCTTGCGTGTGATAAAGGCAGCCGTCTGTTCTGCTCAGAAGGGGTTTCCTAACAGGAGGGGCCGAATGCAGGCGTCACATCCACGCCGCCCCAGGTCGTACACCTAGGCCGTCCGGGCTGT
>Seq ID NO:29
GACCTGGCCCACCGGAGAGGCTACGCCGGGGGCTGAGGCGGCTTAGAGGGTCATTAATCAAACCCTccggcggggcgggctcgggggcggggcgTCCTCCTGGCCCCGCCCCTCGGCTCACTGCCTCACGCTGCTTTCCCCGAGGCGCCTCGCTGAGGGCGGCGTGTGGAGAGTTTGGGGTGTCTGCCGCCGGCTGCGGTG
>Seq ID NO:30
CGCCTGCATTTCTGCACGTCGGCGCCGGTTAGAAACCCTGCAGTTTTGAGAGAGAAGAAGAGGAGATGGAGGGGCCAGGAGCCACGACTCCCGGGAGAGCGCAGGGAGGGGCGTGGGTGCCCCTTCGCCCACCTCCGCCCCCGTCACCTCGACAGCTGTCCCGCTCTTGGAATTCATTGGCTTCCTCTACCCGGCCTCCCA
>Seq ID NO:31
AGCTCCAAGCACAGCTGCTTCCAGGGCTGGTGGCGCAGGCCCTGCCACACGTCGAAGACTTCCCAGCCGGCCGGCGGCGCCCCCTGCGGGTCCAGGGTCCGCGCGTCCAGCAGTAGGGGCGAAAGGCAAGGGAAGAGCTGCACGTGGAGCGGCCCGGCTGGTGGCCCCCAGGGCGCTGAGGGCGCCTGGCGAAAGAGCCGCAGCTCCGCGCCCACCAGCTCTTCTTTGTCTGAGAGCATGGACACATCAAACAAATACTTCTGTCTCCGGAGAGGAGTGTGCGAGAGATCGTCTGCGAGATAAAAAATAATTACAGTCAGTTTCACTTAAGGGGGAGATCAGCCCGGTGCTCTTCGGCCGCCCCGGGAGGAAAAGGGCGGGGAGTGG
>Seq ID NO:32
GGGGCTTTGCCGGCTGCCGGGCATCTTCAGAGGCCGCCGCAGACCTTGGCGGTGCCCTGAACTCGGTGCCAAACTCTGAGGGGTCGCTCGGGCCGCCGCCGCCCTCGATGTGCTCTCGGGGAAGCGCAACCCCGCCCCACCGGGCCACCTGCAGCCCCGGCTGGAGCGACTGCTCTAGGAACTGCTGGCTCGCCGCCTCCT
>Seq ID NO:33
TATACTCTGCAAACTGTGCAAAAGCCCTTGAAAAGTCCAGAGATGGGACAGAAGCCCCCAGCAGAACCCAGGCCGGAGCCCCGCGCACCTCGGATAAGGGGGTGGCGGAATGCACCCACCTGGTCCCTGAGGGCAGCACCCTTAGATTGCCCAGGCTGCCGCGGAGGAGGACGATCGCCGCGCGGGCTCCGCTCTCGCCGT
>Seq ID NO:34
CGAAGTCGGCGGCGCCGAGACGGGCGGGCCTTGGGGCAGGAGGAAGGAATTGGAGTTTCCTCTTTTTCTGAACGAAGGCGAGGAATCTGCCTGGGATTCCGCCTACGGGGCCACAAAGGAAGCCATGGCCCCACGATTCTACCACAACATTTCTGACGCTGGGAAAGGAGTGGGGGATGCGGCCTCAGACCTTGGAACGCT
>Seq ID NO:35
GCGACAGAGCTGTGTGGTTTCCGGATGGGAAACCTCAGTCGTTTAGGCACCCCTCCGCTCGAGTCACTTCCGAAGCAGTCGATTCTTGGGGAGAAGCGCTGCGGAAAGGGGCGACTCCGATGCAGATGGCCCTGTCCCGGCGCCCCAGGTCGTCGCGCGCGCAGCTGCGGTAGTCACTGCGCCTCCCCGCCCCCACTCCTGGATG
>Seq ID NO:36
GGGTACGCGGCTCACCCGCCCTTTCGGGAACCCCCAAGCGCGTCCGAATCCGCCCCGAGGCGAGGCGGGCCGGGCCGTACCTGCTGCTCCGTCCCCGGCTCCGTCCCGGGCTCCTGGCGGCTGTCGCTGCGGTTCCTTCCCGCGGGCCGGGCCCCTTCCCTGCGCCTTCGCCGCCTCCTCGCGCCTGCCCGGGGCCCGCAG
>Seq ID NO:37
GCGCGTTAAAGTGAAAAGCCCCTGGACTAGCTCCACCTCCGGCCCCAACCATCACAGGCGGACCCTAGCTGATTTGACTCTCACTTCCCGCCCTCAGACTGCCGGCGACGAAAATCCGCCCGAATCGGGCGCCACCTCTGGTGGAAGCTGCTGTCCTCGGCTTCTGCCCAACTCCAAGAAGCGGAAGGGGGGTGTATCCTG
>Seq ID NO:38
GCCGGTTCCCACACTTCTCACCGCCGCTCGGCAGGGGAAGTGGCAGATCTGACAGCCGCGTTCTACGCGAGGACCTGCCCCAGAGTTTAAATGTCAATGATAAGAAAAGAGGGTGCTCAGGCAGGCGCTAACTTTCCTTAATATCCACGCCAGCGCCGTCCTCATTGGCTGCCCGGCCCGCGTGACGTCATGGCGGCTAGAGTTGGGCACAGCTCTGCGCCGACTAGTTTTCCGGCCGGGCGGGAGCCTGCTTCTCCCCACCCAGGGTCCGGCCGGCTCCAACCcctgctttggccttccttggcccggcctgtgactgctctagcccggc
>Seq ID NO:39
CGCGCCACGAACGAGCGCCTTTCCAAGCGCAGATATTTCGCGAGCATCCTTGTTTATTAAACAACCTCTAGGTGAATGGCCGGGAAGCGCCCCTCGGTCAAGGCTAAGGAAACCTCGGAGAAACTACATTAGGGCAGCTTTTCCACCGACTCCAAATCCAACTGACAAAAAGCAGTTTCTGCCCTCGAGAGTTTGCGGGCG
>Seq ID NO:40
GGTGCAGGCTGGGGAGATGCCGGTACCTTTCCCTGGGTCATGGTGCCGTCTCTCGGGGAAGGGGTCCCTGAGGCCCGGGTGGCCGCTTGGGTAACCGCAGCCTGCCTGCGTCTCTTCCTTCCTCCGCGTGGGTTCTAGCAACATCCACTGCAGCCGGGCCAGGCGAGCCGGCGCGTACCATCGGCGCGGGGGGAGGAGAGGGCCGGGCCTGGGAAGATGCTGCGGAGGACGCTGCGGATTCGCGAGCCCGGGGTAAGGCGGCGGcgcaccgccccctcccgccgcttcccccccaccccgccccccaccgccgcccttagccctcccccgGGATGAGAGAGAGTCGCGCTGCGGAGCAACCCCAGTGGATGGGTCCGCGGGGGCTGAGCGGGCGGAGGACGCGGGAACTCCGTGACACCGACCAGCTGAC
>Seq ID NO:41
TGCTGACTCCGCAGTGCCCTCTCCTCGGCGTCCGCGGAGTCCCCCACCTTCTTCCCCGGCCCGCTGGGTGCCTCGACTCCCCGCGTTCCCCGCTGCTGCGAAGGCCGTGGCCCTCGCCTGCACACCGCGCCCAGGCTCGGTGGCTCTTAACTCCGCGCCCCATGCACGCCCCCTCTCTCCCTCCTTGACTCCTCCCAGCAC
>Seq ID NO:42
GAGCCGCGCCCTCGGGCCAGCGTGGGCAGGGCGCCGCAGCCTGCGCAGCCCCGAGGACCCCGCGTCGCTCTCCCGAGCCAGGGTTCTCAGGAGCGGGCCGCGCAGGAGACGTTAGAGGGGGTTGTTAGCGGCTGTTGGGAGAACGGGTCACGGAAACAGTCCCTTCCAAAGCCGGGGCCATCGTGGGGTGGGCGAGTCCGCCCTCCCAGGCCGGGGGCGCGGACCAGAGGGGACGTGTGCAGACGGCCGCGGTCAGCCCCACCTCGCCCGGGCGGAGACGCACAGCTGGAGCTGGAGGGCCGTCGCCCGTTGGGCCCTCAGGGGCCTGAACGCCCAGGGGTCGCGGCGAGTCCACCCGGAGCGAGTCAGGTGAGCAGGTCGCCATGGCGATGCG
>Seq ID NO:43
CCCAAGCCCCTAGAGCAGAGGCCGCGCTAGCCTGCAGGGGTCGACGCAGGGCCGGAGGCAGCGGCTTTTCCTTCCCACTCCGGGTTGACCCTAAAGACACGATTTAACGTGGCGGCGGCAGCTGCCCACGCTGTCTGGAGGAGCAGGGCGCCTGGGATGCGGCGGCGAAACTGGCCCGGAGGGGGGCCCAGGCCTCACGCGCCCGGCTCTCTCCCAGCTCTCCTCCTCCTCCTTCTCGGGCTCAGAAAGCCTTCCAGCCGCGGCCCCAGCCCTCCCCCCAGCCTGTGCTGGGCTCCGCTTTCCCTCCATCAACTCCAAGCCGAATTCAATCCGAGAAGGCTCCTTTGAGCTTTTGTGTTTGC
>Seq ID NO:44
GCGCAAGATGGCTGACCCGGCTGCGGGGCCGCCGCCGAGCGAGGGCGAGGAGAGCACCGTGCGCTTCGCCCGCAAAGGCGCCCTCCGGCAGAAGAACGTGCATGAGGTCAAGAACCACAAATTCACCGCCCGCTTCTTCAAGCAGCCCACCTTCTGCAGCCACTGCACCGACTTCATCTGGTGAGCGCGCGCGCGCAGGGC
>Seq ID NO:45
GGTGCCACAGCTAAGGACAGATATTTTCGCAAAACCCAGAATGAAAAAAGAGCACGCTCCCTTTGGGAGCGCTGTCCCTTTGGGACTGGGGCCTTCCACTCCCACCCCTCCTTTTTCCCTGATCGGCTCCGCAGCTCCACGACAAGCCAGCTGGTCTGGTCTCTGACTTGGGCTCCGGTCCGTACCCCCGGGGCGCCCTGC
>Seq ID NO:46
cccggggggcgcgcggccgACTTGGCGCCTCACGGTGCGGTCAGGCAGGCGGGGGACTTCGAGGGGCAAAGTTTCTGGTTGGCGCGGCCGGAGCTGGGGGCATCCAAGCGTCGCAGGCGCTGGGGCGGCAAGCAGGACAGGGCCGGTGGCAGGGAGCTCTGCCGCGGCCAGGGGCCTTCCCCACCCCCGGGTACCTTTACCTCCAGGCGCCGGTGCCGGGTAGCCGCCGATTTCCCCGCGGAGGGGAGACGCCAGGTGCCACGAGCCGGAGGCGG
>Seq ID NO:47
GGGGTTCAGGGCCGCCTGTGCCTCAGTTTCTCTCCTCCTGCGCCCATCCTGACATCCGACGGAGGATAATGCGCGTTGGAGGGCTTTGGCCGTGAATGCGATGTTGATGATTGCTGTGATTCTTTGGGTGCTTGGGAGAGTTTGGGGTTTAACTGCCCCCAAATCCGAGGACAGCTTGGGGGCGTCCCTTCGGAGAGGATC
>Seq ID NO:48
GTACGCCTTCAGCCTGCTGGTGAGGAcgcgcccgcccctgggccggggcgcgggcACGACGAACCTGTCCCGTCCCCGCACCCACGCCAACCACCTCCCTCCCCACGCCCCAGGCCCGGCTGCGCGGCAACATCGCCGACCCCTCCTCTCCGGAGCTGTTGCACTTCCTTTTCGGGCCTCTGCAGATGGTGAGACCCGCCC
>Seq ID NO:49
CAGCGCTTGGGTGCATCCAGACCGTCAGAGCTTTGGGAGCGCTTTGTTTGGCGACAGTCGGAAGGCGCGAGGGGAGGGGTCCTCCCGCTGAACAGTGGGGGTTCTAAGGGTCGGCGGCGGCGGGGTTGACGGCTTTGCCTAGGTCCCTCCGCCCGTAGCTGTCGGGTCCCGGCCCCGCTCTGCCCACAGACTCCGATGGCTGCGGCCGCGCTGAGGGCCCCGACTCAGGTGAGCGCTGCCTCTACTGGGCCTCACCCTCCATCCCCAAATTAGTGCCTTCTTGGGTCACTACGGTCGAGATCCTCATGTCCAGTACAGTGGGGGCTCGTGGGTGGGGTCCCTATT
>Seq ID NO:50
CTCGCGCAAGTCCCGCGGGGGTCCGCGCCACAGGGCAGAGTCCCGGCAACCCGCTGGAGCCAAGCGCGCGGCTCCCGGAGCCTCCCACACAAGCGCGCGCGCACACACACATACTCCCCACCCTCAGGCTGAAAGAACCTACGTTCGGGGTTTGGGGGACGGTTCCCCCGGGACTCGTTGAGGAGTATCCGAATACGGCCC
>Seq ID NO:51
GCAGGAGGAGGTGGGGAGGGGCACTGCCTGCGGAAGGTAGGATTAGATCATTAGCTCAGTGACCTCCTAGGGTTTCGATGTGCTGTGTTCTCATCCTACAGTTGGTTTGGTAATGATCTGCAAGTCCCGGAGAGCAACAGCAAAGCTCTGCCTGATGCTCTCATTAAAATCTATGCAGCCAAGCTCAGCACTTTGTCACAGCCGGCCTTGCGA
實施例
5.1
:甲基化靶向測序篩選食管癌
/
胃癌特異性的甲基化位點
發明人收集了總計424個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表5.1,將其中食管癌和胃癌歸為一類,訓練集中該類樣本總數為71個,測試集中該類樣本總數為40個。
表5.1 各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 279 | 145 |
癌症類型 | ||
食管癌 | 36 | 19 |
肝癌 | 112 | 63 |
胃癌 | 35 | 21 |
肺癌 | 29 | 8 |
乳腺癌 | 18 | 13 |
胰腺癌 | 33 | 16 |
結直腸癌(附圖中稱為腸癌) | 16 | 5 |
年齡 | ||
62 (25-87) | 59 (29-89) | |
性別 | ||
男 | 167 | 94 |
女 | 109 | 50 |
NA | 3 | 1 |
通過申請人自主研發的MethylTitan
TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a) 文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c) 使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c) 使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段(reads)數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b) 去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出胃癌及/或食管癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中胃癌及/或食管癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分胃癌及/或食管癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差;
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的胃癌及/或食管癌組織特異性的甲基化標誌物見表5.2。這些甲基化標誌物在胃癌及/或食管癌與其他5種癌種中的甲基化水平如下表5.2和圖41。如圖42所示,這些甲基化標誌物在訓練集和測試集中胃癌及/或食管癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表5.2 在訓練集和測試集中甲基化標誌物在胃癌及/或食管癌與其他5種癌種中的甲基化水平
序列編號 | 染色體編號 | 起始位置 | 終止位置 | 訓練集食管癌和胃癌甲基化水平 | 訓練集其它癌種甲基化水平 | 訓練集P值 | 測試集食管癌和胃癌甲基化水平 | 測試集其它癌種甲基化水平 | 測試集P值 |
160 | chr1 | 47698162 | 47698362 | 0.0134 | 0.0364 | 1.39E-07 | 0.0131 | 0.0392 | 0.012659548 |
161 | chr1 | 108507595 | 108507795 | 0.0433 | 0.0949 | 5.55E-10 | 0.0405 | 0.0805 | 0.000212937 |
162 | chr1 | 156186299 | 156186499 | 0.5288 | 0.6273 | 1.75E-13 | 0.5638 | 0.6357 | 0.000107605 |
163 | chr1 | 203600773 | 203600973 | 0.1142 | 0.1198 | 1.08E-13 | 0.1144 | 0.1198 | 7.35E-06 |
164 | chr2 | 264146 | 264484 | 0.9736 | 0.9400 | 1.88E-08 | 0.9687 | 0.9457 | 3.18E-05 |
143 | chr5 | 508551 | 508751 | 0.9095 | 0.8858 | 8.49E-12 | 0.9080 | 0.8848 | 4.18E-08 |
23 | chr5 | 139047806 | 139048006 | 0.0346 | 0.0560 | 4.50E-08 | 0.0353 | 0.0596 | 0.00027747 |
165 | chr5 | 140800889 | 140801089 | 0.2668 | 0.2331 | 0.000252807 | 0.2543 | 0.2284 | 0.005519831 |
166 | chr6 | 1384272 | 1384610 | 0.0346 | 0.0144 | 1.23E-07 | 0.0379 | 0.0229 | 7.17E-06 |
167 | chr7 | 64349788 | 64349988 | 0.0603 | 0.0405 | 0.010490338 | 0.0668 | 0.0422 | 0.007951273 |
168 | chr7 | 139168541 | 139168844 | 0.9776 | 0.9512 | 1.50E-10 | 0.9760 | 0.9531 | 0.00016264 |
169 | chr9 | 126348875 | 126349266 | 0.1089 | 0.0938 | 2.50E-13 | 0.1059 | 0.1005 | 0.032540507 |
170 | chr9 | 139393876 | 139394111 | 0.2767 | 0.2529 | 1.58E-10 | 0.2715 | 0.2529 | 0.000107605 |
150 | chr10 | 113943613 | 113943813 | 0.9807 | 0.8596 | 1.82E-14 | 0.9707 | 0.8699 | 2.84E-05 |
171 | chr11 | 2292332 | 2292651 | 0.0187 | 0.0621 | 8.22E-07 | 0.0217 | 0.0496 | 0.004160485 |
72 | chr11 | 31848632 | 31848877 | 0.2673 | 0.2362 | 3.01E-08 | 0.2572 | 0.2376 | 0.001212792 |
172 | chr11 | 60620057 | 60620257 | 0.3088 | 0.2591 | 1.01E-14 | 0.3024 | 0.2630 | 8.23E-08 |
173 | chr11 | 73371736 | 73371944 | 0.4915 | 0.4059 | 1.06E-15 | 0.4684 | 0.4023 | 1.34E-06 |
174 | chr12 | 114840811 | 114841011 | 0.2587 | 0.2187 | 1.31E-09 | 0.2351 | 0.2152 | 0.001444121 |
152 | chr12 | 131303645 | 131303958 | 0.0017 | 0.0271 | 2.07E-09 | 0.0026 | 0.0227 | 5.74E-05 |
175 | chr12 | 133030159 | 133030359 | 0.2222 | 0.1883 | 2.12E-09 | 0.2176 | 0.1924 | 0.001046491 |
176 | chr13 | 113350703 | 113351027 | 0.1885 | 0.1647 | 1.29E-11 | 0.1844 | 0.1665 | 0.000149358 |
177 | chr14 | 105714973 | 105715224 | 0.0080 | 0.0196 | 3.01E-08 | 0.0078 | 0.0203 | 3.27E-05 |
178 | chr14 | 105933578 | 105934099 | 0.2055 | 0.1807 | 1.64E-14 | 0.2003 | 0.1850 | 2.16E-05 |
179 | chr15 | 53087384 | 53087584 | 0.3078 | 0.2601 | 1.42E-11 | 0.2886 | 0.2672 | 0.001643314 |
180 | chr16 | 30566925 | 30567182 | 0.2600 | 0.2289 | 1.13E-12 | 0.2531 | 0.2291 | 4.47E-06 |
181 | chr16 | 33964869 | 33965069 | 0.8656 | 0.8184 | 3.90E-12 | 0.8648 | 0.8174 | 6.65E-06 |
182 | chr16 | 51168473 | 51168843 | 0.6309 | 0.5560 | 1.47E-12 | 0.6150 | 0.5498 | 2.51E-05 |
183 | chr17 | 79482394 | 79482623 | 0.0894 | 0.1307 | 1.37E-10 | 0.0884 | 0.1178 | 1.23E-05 |
184 | chr18 | 19780648 | 19781005 | 0.2751 | 0.2242 | 8.67E-17 | 0.2666 | 0.2289 | 1.80E-08 |
157 | chr18 | 24130835 | 24131035 | 0.1311 | 0.1674 | 5.21E-10 | 0.1315 | 0.1704 | 2.02E-07 |
185 | chr19 | 41641357 | 41641557 | 0.0153 | 0.0557 | 1.51E-06 | 0.0100 | 0.0444 | 0.001242335 |
186 | chr21 | 9825785 | 9826676 | 0.7634 | 0.7143 | 4.06E-13 | 0.7455 | 0.7054 | 1.27E-06 |
187 | chr22 | 19512066 | 19512266 | 0.0073 | 0.0246 | 3.85E-07 | 0.0071 | 0.0247 | 0.002545967 |
以單個甲基化標誌物Seq ID NO:172為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖43和圖44所示,可看出該標誌物的甲基化水平在食管癌和胃癌中相比其它5個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的食管癌和胃癌組織特異性甲基化標誌物。
實施例
5.2
:單個甲基化標誌物判別性能
為了驗證單個甲基化標誌物的區分食管癌和胃癌與其它5個癌種的潛力,使用單個甲基化標誌物的甲基化水平資料在實施例5.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練:AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(食管癌/胃癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是食管癌/胃癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個標誌物的邏輯回歸模型的效果見表5.3。從該表中可看出,所有的標誌物在測試集和訓練集中都可以達到0.59以上的AUC和0.56以上的準確率,都是較好的食管癌和胃癌組織特異性標誌物,其中表現優異的標誌物如Seq ID NO: 172,Seq ID NO: 173,Seq ID NO: 184都可以在70%以上的特異性下達到60%的敏感性,準確性達到70%左右。
表5.3 單個標誌物邏輯回歸模型的表現
序列編號 | 訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 |
Seq ID NO: 160 | 0.7020 | 0.7606 | 0.6298 | 0.2590 | 0.6631 | 0.6194 | 0.6000 | 0.6190 | 0.6138 |
Seq ID NO: 161 | 0.7422 | 0.7042 | 0.6827 | 0.2670 | 0.6882 | 0.6898 | 0.6500 | 0.6286 | 0.6345 |
Seq ID NO: 162 | 0.7891 | 0.7606 | 0.6683 | 0.2641 | 0.6918 | 0.6993 | 0.5250 | 0.6667 | 0.6276 |
Seq ID NO: 163 | 0.7917 | 0.8310 | 0.6827 | 0.2545 | 0.7204 | 0.7333 | 0.7500 | 0.6381 | 0.6690 |
Seq ID NO: 164 | 0.7187 | 0.7183 | 0.6394 | 0.2601 | 0.6595 | 0.7154 | 0.5750 | 0.7524 | 0.7034 |
Seq ID NO: 143 | 0.7675 | 0.7746 | 0.6731 | 0.2566 | 0.6989 | 0.7886 | 0.7750 | 0.7238 | 0.7379 |
Seq ID NO: 23 | 0.7125 | 0.7324 | 0.6298 | 0.2567 | 0.6559 | 0.6860 | 0.7250 | 0.5524 | 0.6000 |
Seq ID NO: 165 | 0.6383 | 0.6479 | 0.6106 | 0.2510 | 0.6201 | 0.6369 | 0.6500 | 0.6381 | 0.6414 |
Seq ID NO: 166 | 0.7008 | 0.6761 | 0.6731 | 0.2519 | 0.6738 | 0.7301 | 0.6750 | 0.7143 | 0.7034 |
Seq ID NO: 167 | 0.5918 | 0.5775 | 0.5577 | 0.2526 | 0.5627 | 0.6299 | 0.6500 | 0.5333 | 0.5655 |
Seq ID NO: 168 | 0.7504 | 0.8310 | 0.6010 | 0.2575 | 0.6595 | 0.6936 | 0.7750 | 0.5429 | 0.6069 |
Seq ID NO: 169 | 0.7872 | 0.8028 | 0.6971 | 0.2546 | 0.7240 | 0.5994 | 0.5500 | 0.6095 | 0.5931 |
Seq ID NO: 170 | 0.7501 | 0.7183 | 0.7115 | 0.2560 | 0.7133 | 0.6993 | 0.5750 | 0.6762 | 0.6483 |
Seq ID NO: 150 | 0.8011 | 0.9437 | 0.6154 | 0.2861 | 0.6989 | 0.7168 | 0.7500 | 0.5714 | 0.6207 |
Seq ID NO: 171 | 0.6905 | 0.6056 | 0.7163 | 0.2671 | 0.6882 | 0.6421 | 0.5750 | 0.6857 | 0.6552 |
Seq ID NO: 72 | 0.7154 | 0.6620 | 0.7308 | 0.2567 | 0.7133 | 0.6633 | 0.5000 | 0.7048 | 0.6483 |
Seq ID NO: 172 | 0.8041 | 0.6901 | 0.7740 | 0.2601 | 0.7527 | 0.7819 | 0.6250 | 0.7238 | 0.6966 |
Seq ID NO: 173 | 0.8154 | 0.7324 | 0.7500 | 0.2644 | 0.7455 | 0.7527 | 0.6250 | 0.7524 | 0.7172 |
Seq ID NO: 174 | 0.7367 | 0.8028 | 0.5625 | 0.2515 | 0.6237 | 0.6605 | 0.5750 | 0.6190 | 0.6069 |
Seq ID NO: 152 | 0.7308 | 0.6901 | 0.6635 | 0.2585 | 0.6703 | 0.7029 | 0.6750 | 0.6571 | 0.6621 |
Seq ID NO: 175 | 0.7335 | 0.7183 | 0.7308 | 0.2566 | 0.7276 | 0.6657 | 0.5750 | 0.6381 | 0.6207 |
Seq ID NO: 176 | 0.7651 | 0.7606 | 0.6923 | 0.2547 | 0.7097 | 0.6948 | 0.6500 | 0.6476 | 0.6483 |
Seq ID NO: 177 | 0.7154 | 0.6761 | 0.6923 | 0.2553 | 0.6882 | 0.7150 | 0.6500 | 0.6952 | 0.6828 |
Seq ID NO: 178 | 0.8016 | 0.6338 | 0.8269 | 0.2567 | 0.7778 | 0.7202 | 0.5000 | 0.7333 | 0.6690 |
Seq ID NO: 179 | 0.7646 | 0.7324 | 0.7212 | 0.2577 | 0.7240 | 0.6583 | 0.5250 | 0.6381 | 0.6069 |
Seq ID NO: 180 | 0.7790 | 0.6620 | 0.7692 | 0.2573 | 0.7419 | 0.7392 | 0.5500 | 0.7524 | 0.6966 |
Seq ID NO: 181 | 0.7720 | 0.7183 | 0.7596 | 0.2652 | 0.7491 | 0.7345 | 0.6250 | 0.7238 | 0.6966 |
Seq ID NO: 182 | 0.7775 | 0.7183 | 0.7596 | 0.2766 | 0.7491 | 0.7183 | 0.5000 | 0.8095 | 0.7241 |
Seq ID NO: 183 | 0.7509 | 0.6761 | 0.7212 | 0.2638 | 0.7097 | 0.7271 | 0.6250 | 0.7333 | 0.7034 |
Seq ID NO: 184 | 0.8275 | 0.6620 | 0.8125 | 0.2623 | 0.7742 | 0.7967 | 0.6250 | 0.7429 | 0.7103 |
Seq ID NO: 157 | 0.7426 | 0.6479 | 0.7356 | 0.2599 | 0.7133 | 0.7729 | 0.7000 | 0.7238 | 0.7172 |
Seq ID NO: 185 | 0.6825 | 0.5634 | 0.7452 | 0.2668 | 0.6989 | 0.6610 | 0.4250 | 0.7524 | 0.6621 |
Seq ID NO: 186 | 0.7846 | 0.6620 | 0.8173 | 0.2661 | 0.7778 | 0.7533 | 0.4000 | 0.9048 | 0.7655 |
Seq ID NO: 187 | 0.6961 | 0.7183 | 0.6106 | 0.2569 | 0.6380 | 0.6507 | 0.5250 | 0.6286 | 0.6000 |
實施例
5.3
:所有目標甲基化標誌物的機器學習模型
本實施例使用所有的34個甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出胃癌及/或食管癌的樣本。具體的步驟與實施例5.2一致,只是相關資料帶入了所有34個目標甲基化標誌物的資料。具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標甲基化標誌物的甲基化水平值,w為不同甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(食管癌/胃癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是食管癌/胃癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖45,從圖中可看出胃癌及/或食管癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖46。在測試集中,胃癌及/或食管癌與其它癌種區分的AUC達到了0.922,設置閾值為0.346,大於該值則預測為胃癌及/或食管癌,反之預測為其它癌種。在特異性為95.2%時,敏感性達到了75%,樣本整體預測的準確率達到了89.7%,可以較好地從7種癌症樣本中區分出胃癌及/或食管癌。
實施例
5.4:
甲基化標誌物組合
1
機器學習模型
為了驗證相關標誌物組合的效果,本實施例從所有34個甲基化標誌物中隨機選取了一共7個甲基化標誌物Seq ID NO: 165, Seq ID NO: 167, Seq ID NO: 169, Seq ID NO: 150, Seq ID NO: 172, Seq ID NO: 174, Seq ID NO: 179的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例5.2一致,但相關樣本只使用了該實施例中的7個標誌物的資料,該模型在訓練集和測試集中的模型得分見圖47,該模型ROC曲線見圖48。可看出該模型在訓練集和測試集中,胃癌及/或食管癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.917,閾值設成0.30時,大於該值預測為胃癌及/或食管癌,小於該值預測為其他癌種,特異性為91.4%時,敏感性達到了70%,整體的準確率達到了85.5%,說明了該組合模型良好的性能。
實施例
5.5
:甲基化標誌物組合
2
機器學習模型
該實施例使用另一甲基化標誌物組合:Seq ID NO: 143, Seq ID NO: 23, Seq ID NO: 172, Seq ID NO: 174, Seq ID NO: 177, Seq ID NO: 178, Seq ID NO: 180, Seq ID NO: 183, Seq ID NO: 186一共9個甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例5.2一致,但相關樣本只使用了該實施例中的9個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖49,ROC曲線見圖50。從圖中可看出該模型在訓練集和測試集中,胃癌及/或食管癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05),閾值設置為0.285時,在特異性為91.4%時,敏感性達到了62.5%,整體的準確性可達到83.4%,同樣可以較好的區分胃癌及/或食管癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了34個食管癌和胃癌特異性的甲基化標誌物,根據這些甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中較好地區分出胃癌及/或食管癌的樣本,這些甲基化標誌物都是良好的胃癌及/或食管癌組織特異性的甲基化標誌物,對泛癌種早篩過程中胃癌及/或食管癌的組織溯源提供了重要的參考。
本文中使用的標誌物的序列:
>Seq ID NO: 160
CGGCTCCGGAACGCGCTGCGGGGAGCGTTGGACGCGCTGTCTAGGACCCAGCAGATCCAGCCCCCATCTCTAATCCCAAGGCCTCTCAGGAACCCCAGCTTCCCACAACCTCAGTCCCTTAACCTTTCAGACACCTTTCTTCAGCGACTCTCACCCCAGCACTCTGTCCCTACCTCTGAAGACCACCATGATACCAAAATC
>Seq ID NO: 161
CCGGCCCTTTCCCCGCGCGGGATCGAGGGAGCAGGAGCCGCGGCTGACGGGTCGCGGGCGCCGCGCTAGGCTCGGCTCCGGTCCCGGCCCGGGTGCGCCGCGACCCGGCCGCCGCTGCAGCGAGTCCCGCGCGCTCTCCGTGCGCCCCGGCCGGCTCGGCGGCGGCTGCCGCGCACAGGCTTCCGACTCCAGCGCCCGGCC
>Seq ID NO: 162
GCCTACCGGTGACCCGGCTAGCCGGCCGTGCTCCTGCTTGAGCCGCCTGCTGGGGCCCGCGGGCCTGCTGATCTCTCGCGCGTCCGAGCGTCCCGACTCCCGGTGCCGGCCCGGGTCCGGGTCTCTGACCCACCCGGGGGCGGCGGGGAAGGCGGCGAGGGCTACCCTGCCCCCGTGCGCTCTCCGCTgcgggcgcccggg
>Seq ID NO: 163
TAAGACGGGCTGTTAGTATTGAGCCCgggaagttagcaatatctaacaaagctacgtacacatttacccagcaatcctacgtctaggaatttatccagaaggtgctcattcacaaatatggaaagctacgtacaaggtgatttttgtttgtttgtttgtttgttttttgagacagagtctcgctctgtcgcccaggctgga
>Seq ID NO: 164
ACCACGCGCCCGCCGGGCCGCGCTCAGGCCTTCGCCCTCAGGGACTTCGGAACCGCCCCGTCCTCAAGATCGAAAAGCCCAGAGCCCCGCGGCGGCTCCAAGCACGGTGTTGGGGGTGGGGGTCTCAGGGAGCGCCCAGGCCCAAGGCCGCCCTGGTCCGGCGTGGACCCCGCGGGGCTCAAGGCAGGTTCCCCGCGTGACCCGCCCAGCCCCTCTATGCGAACTCGAACGACAGGCACCACAGCCCGCCACGTGCGCGAGACTCGCGCTGTGCCCCAACCCAGGTGGGCGGCCCGCGGAGCCGCGAGGCCTGAGCCCGCCCTGCAGGTGACCCGCGGC
>Seq ID NO: 143
CAGCCCATAGCGCGCCTGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAGACACAGCCCATAGTGTGCCCGGGATGGAGATGCCGCAGGGAAACTCAGGCCTCAGCGCGCCCGGGGATGGAGATGCCGCAGGGAGACGCAGCCCATAGCGCGCCTGGGATGGAGATGCCG
>Seq ID NO: 23
TTGAAAGCCTCTAATTGCTGCGCCTGGTGGCACCGTGGAATGAGGGGAGGCCAGCCTTCTCGGTGCGGAATCTCCTTGGCCCAGGCCTTCCCAGGCTGCCCGTCCCGCCGCGGCTCAGGGCGCCTCCCGGCTCCCTGCCGCCTCCCAGCCGGACGCGGACGTGCCTGCGCGGCTCTGGCGGCCGCGTCTgccgccccggcg
>Seq ID NO: 165
TCCGATATTCGGTGCCAGAAGAGACCGAAAAGGGCTCCTTCGTGGGCAATATCTCCAAGGACCTGGGGCTGGAGCCCCGGGAGCTGGCGAAGCGCGGAGTCCGCATCGTCTCCAGAGGGAAGACACAGCTTTTCGCTGTGAATCCGCGAAGCGGCAGCTTGATCACGGCAGGCAGGATAGACCGGGAGGAGCTCTGTGAGA
>Seq ID NO: 166
AAAGCCCTGCCCGGGCTGGGTTGGGACCTCCAGGGCGCTTCCCCGCGCGGCCGCAGCCGGCCAGCCTCTGGTCTCGGTTGGAGGGCATCGCAGGCGCGGCCTGGCGACCTCCGGGCGCCTTTGGCTGGTGTCTTCCGTAGCCCTCGGCGCGCACCCTCCCGCGTGCAGTGCCCGGAGTGACCTCTTCAGGCCCCGCGGGCGCCTCCTGGGTGGGCCCCGCGGCCCCTCCAACCCTGCCCAGCGTGTGTGCGCGGCCTAGCCATCTTTCTCCCCAGCCTGGGAAGGCGGGCGGGAGGAGGGGATCCGAGGCCGGGGGCCGCGGAGCAAAAGGCACGCGGA
>Seq ID NO: 167
GGAGCGCGGAGCCCCTTCCCACTCGGGCTCGGGTGGCCTCACCTTTCCTGGGGCTGCGTCCCCGCGGGACGCCAGGTTCCCGGTTTCTTCTAGGTCGCCCTGGTTCCTGGCAGCTCCTGGTGCCACGCGGTCCTCTACGGTCTCCTCTGACCTGAGAGGGACAGTGAGATGGGGCTGGCGGGGATGGGGGTCCCCGCGCTG
>Seq ID NO: 168
CTGAGGTTCTGCTGCCCCGACCCCCTTCGGGACACAGCCCCGGCCTCCACCAGGCACTGGGAGGGAGCTGAGAACGGCAGCGGGGCCAGGCGAGGGTTGCAGGGTGGGCGGGAGCTCTCGGGAGAAAAGCAGAACACCAGCGGAGGCTTGTGGCAGGGAACCCGGAGCCCCGCCTGACCCTTCCCTCTTCTTTGTCTCTGACCTCACCCATTTTCCCCTCCAGCCCTATGCCGGGGTGTTGGTTTTGAGAGTTACAGTTTGGGCGGGGAAGGATTGGCCAAGCCTGTCTGGATCCTGGGACCTC
>Seq ID NO: 169
TGGCAAGGCCTCTTCCAAAAGGGCTGGCGTGGACTCAAGGGCCTTCCTGAAGCTCACTGTTCCCAAGGAAAGAATTGGAGCCCAGCTCGCTGGACAGTGCCCGGTCCCCCAAAGGATCAAGGCAACTAGGGGAATGAAGAAAGGCAAGAAAAACTCAAACTGGGGGTGGGGACAGGAAGCGCGGATGAGAAGAAAGCCAGACCGTCGCCAGGTGCCGGTGCCTCTCATCTTAACCATGCCATCAGTCAGGGACACTAGCATCTCTGCATGGGAACCAAGTGggggcgcagagaggtcaaacaagctgcccaaagtcagagctaggaagcagcagtcaacttttgaacacagtcttattgcgggatctggccagcagcccgcaatgcaacggg
>Seq ID NO: 170
TGAGGAGGGGCCCGGATGGGGGCAGGGGCTGTGCTGCCCACAGACAGGCCCCTTGGTGACAGTGGGATCCATCGTGACCACGTGTGGCCTCATTTAATCCTCACTGTGGTCCTAGCTGCCATGACCACCTACAAAACAGAGAGGTCAAGTCCCTGCCCCCAACGGCGGTTACAGCTGGCACTCAGGAAGCCGGGCTCACGGCCCTACAGCCGTCTCAGAACCGCCGAGCTAGTGTC
>Seq ID NO: 150
AGCGTGAGCGGATCCGAGGGTGTAATGTGTGTACTCGAGTGTGCGTGCCTGTGTGTGGCTAAAGATAGTGTGTGAGCGCCTGGACAGATGGTTACCCTGCCTAGGCCATGCGTGTGTGAGTGTGTGTGGGTACCTCATTCTGCTTTGTGTAAATTCAGCTTATCCGGGAGCTTGTCCCTCTTCCAGGCTCTGTTGGGAATG
>Seq ID NO: 171
GCCAGGGTCTCAGCCAATCGTGGGCCACCCGTTTGGCCAATCGCGCAGGGCGCGGCTCCACGCCCGGCCCCATTGAGGAAGCGCGTACGCGTGGCGCGTGGCTCACGGGGAGCATCGCTAACAAAGCTGGGTTCCTGCTGGGCCCCGCCCTGCTCCTCGCCCCCGCGACTGGGCTGGGCGCGCTGTCCCCTAGCGCAGCTATGTCCCGAGCGCGCCCCCACCTGTGCGTTAATCTACTGGGAATGGGGGTGGACTGCGCCTTACCTGGGGCGGGGTGGGGCTTAAGGAGTGGTCGAGACTGAGGCGGGGTGGGAGGTTCA
>Seq ID NO: 72
TCTGCTGGTCGTGGGCTCGGCCCCCAGGCGCCAGGCCGAGTGCCCACCTCGGCTTCTTTAGGGGGCCTACAGCGGGCAGCCGAGCGGCTGGCGGACCCGGAGCTTGGGAGGCGACCGCCAGGCTGGTGCCCGGCCTGACCCGGCGTTcgcggccgcccgctcgcccgccgcgggccgggAGCGTACAGGAGTGTGACGCAGATTGTGAAAACAGAAGGGAGGGAGTTGGGTCATTTCCTTCGCTAA
>Seq ID NO: 172
GACGCTGCGCAGCTGCCCAGCAGCCAGCCGAGGAGACGCGCGGGGCCCCGCGGTTCCTCCGGGCGGCTGCAGAGAGCTAAAGGGGAGGCCGAGCGGGCGGTGGAGGAGGTGCGGCGGCGGCGGCTGCTTCCCGCGCCACCCAGCTCGCTGTCGTCCACCAGCACGCTCTCCAGCACCGTGCGCAGCGAGCGCCGCAGCTTG
>Seq ID NO: 173
GGGTAGGGGACCAAATCCGGGCCAGGGAGTTCCTGGGCACCTGACATGGTTGGATTCCCCAGGTGCGCGTCTACAGCCCGTACCAAGACTACTACGAGGTGGTGCCCCCCAATGCACACGAGGCCACGTATGTCCGCAGCTACTACGGACCGCCCTACGCAGGTAAGTCTCCAGCGTGCCCCGGGGCTTGCCTCGATCCAGCACCGATT
>Seq ID NO: 174
ATGTGACACCTTATTTAAAAATTACCAGGATCTACTGAGGGGCCGACTTGAGCGCCCAGTGCGTCCTGGGTTTTGGGCGCAGAGCGCAAGGTGAGGCTCCTCCCTCTGCCTGGGCCCAGGTTGTAGCCTGGCGAACCCGAGGCTCCTGGTGCCCTCCGGGCAGAGCTCTGTGCGCTCCCAGCGGCCGGTGATGGCGCGCCA
>Seq ID NO: 152
GGCGGTGCTGGGACCGGGGACCCGCCCAGGACCGGCTGCCTCTGGCGCCACCTGGCGGCCGCCGTGCCCAGCCCTGCCCCGGGTCCTGAGGTTGACGGGGGACCTCCGGGAGGGCAGCAGCCCGGGGATCGCCCTGCTCACCGGGACCTAAGCAGAGCGCCTGCCCGAGAATAGGGAGACACGCGGGAGGCGGAGCACAGTAGTCCCCCTTCCTCCCTCCCACCCTCCCCTCTTCCTTTAGGAACAAGGCGGGAAGGCCAAGAGCCTGTCCCTCTCTGCGTTACCCCGGGCCCATCACTGGGAGAGAGGAATCA
>Seq ID NO: 175
TGGGGGGCAGCCTCCGTGGCCAAGGGTCTCCCAGGCTGCTGTCAGGCCAGGCTCGCCAGCCGGGCTCCTGATCACCTTCCTGGGCCAGCCTCTCCAGGAACCCAGGAGCCAGAGGGCGGCTGATGTAACTGAATTCCAGAATCCGTCATGAGCCGGGAAGTGAGTGCCTGCGGTTTGTGGGGCTGAGGTGACCGGCCAACG
>Seq ID NO: 176
CGCCCCTGCCACGCCCAGCAGCCTTTCTGCCTCTGCGCTTGCCTCCTCCGGTTGGAGCGAGTGACCCGTTCTGCCGAAGTCCAGTCCCGTGTGTGCTGCGGCCCCGTCTCTCTCCCTCTCTGAGTGACACTGTCTGCCCTGCTGCTTGCCGTCCCGCTGTTGGCACCGCTTTAGACCCCATATTTCCCAGCGGTCACCGTGCTCATTTTTGGCTTCCAGCTACCGTTTTTCTTAGGTTACCCCGCGTAGCTGGCCCGTCCTTCCTTCTCCTGTCTCTTCTGTGCCTACCGCGGGGGGTTCCCTTACCAAGGTCTCCATCACCCCC
>Seq ID NO: 177
ctcgggcagggtcgCAGGGGCGGGGGTGGCAGGGGAGCGGGTGGCAGCCCCGCGGGTCACAGCGCCGCCGCCGCCCATGCTGCTGCCCCTAGCCTGCCTGCACGGCCGCGTCGCTCAGTGCCTGACCTCCTTGCTTTTGCTTGCAGAGCCGCTCCCGAggccccggcgcggcgcgagggcgcggggcgcggcgtccacaggcgccgaggctgcccccgccgccccgcccgcgAAGATGGCGGCGGAACTCTA
>Seq ID NO: 178
GACCCCAGGCCCCTTGGGGAAGAGCAGATAGGACCAAGCCTAGCATGAGGAGGCCAGGTGTGTGGGGCCCGGGTGTGCAAGTGCTGGGCCTGCCAGTGTGGATGTGCCTGGAGCCCCTTCGCCAGGCGGCTTTCACTGACGGTGCTGGCCAGGGCAGCAGGGCCGGTTTGGCGACCTGGAGGTGGATATGGGTAGTGGCTGCCCAGCCCAGCCAACCCTGTCCCCTTGGGGCATTCTCTCGAGGCTGCTGGGTGTCCTGGCAGGCACGTCCTGTGGGGTCAGCACGCCGGCTGCAGCGCAGGGTGGGCCTGAGATCGGGTGCCGGGCCCCCCATCTCCACCTGTCTGGACACGCACCCCTGGCCTGTCCTTGCAGCTTCCTCCCGACATCCCTTGGCGGTGTCTGTGTCTCGGCCCCAGCCCCAGCCCTCCTTTCCTGGGGCACCCTCCCAGCCATCTGGTATTGGGGCTGCCCCCATTGCCTAGTCCTGGGCCCAGGGCCAGCCCACTCTGGGCTGGCTTT
>Seq ID NO: 179
CTCTGATCCACGGGGCTTGGACCAGCCACCCCACCCGAGGGCGGCTGAGGACTGGGCGGCCGAGCTCGCGGCCCACTTAGCTAATGCCGGGTAATGCCGACCCCGGCCCAAGAGCAGCAGCTGCACTTGGGAAGGAAAACTCTTTAAACAAATCATTTTGGTGTCTAATCAATTAGTGTTTGCGCAGTCAAGTACCGTAGA
>Seq ID NO: 180
CAGAGCTCTGGCTGAAGCGGCGGCCACAGTCGGCGCAGCCATAGGGTTTCTCGCCGGTGTGGACGCGCAGGTGCGAAGTCAGCGCCGAGCGCTGCGTGAAGGCCCGGCCACACTCCAGACAGCGGTGGGGCCGCTCCCCACGATGGATGGCCCGGTGTTTGCTCAGGGAGGAAGCGTGGCCGAAGCCCTTGCCGCAGTCAGTGCAGTGGAAGGGCTTCTCGCCAGTGTGACTGTAGACGTGCTCCACCAGTGTGGAGC
>Seq ID NO: 181
CCTTCCCGCTAGGGCGTCTCGAGGGTAGGGGGCCGGACGCCTGTCGCCCCCTCctcgtccgcccccgccgtccaggtacctagcgcgttctggcgcggaggtttaaggaccccttggggggttgtccgtccgcccatgggtcgggtgcggtgggcccgcgggGGAGTCCGTTCGGGAGGGGCCCGCCCCTCCCTCGCCTCC
>Seq ID NO: 182
GCCTGCCCCTCTCGGTGGGCGGCAGCCCCCCGGATCACTTCCCTCAGATGTCCCCAGGCCCTGTCCCTGGGCGTAAAGGGCGCGCAGCCCGGGGCAGCCCCTCCTCGCCACGCCCAGCGATGGGAAGTTGTGGACGTCGTCTGTGCAACGGAAACAGCTCCATCTGGCCCGCGCAGAACCAGAGTTCTGGCTGGAACTCCGGCCTTCAATCCGTGTCCCCACTCTTGGGGAAAAAATGTCACTCCTGGAGCGGAGGGGACGGGACAGGAGAGAGGAGAGCGAGAAATCTGTCCCTCTAAATGTTCGGGTGCCAAGCCTTCGGGGTGATTCTCAGCATCAATCACGACGTCGCGCAACCCTCTCCCCTGCCC
>Seq ID NO: 183
CCGGAGCCGGGAGAGTCGGCAGCTGCACTTCCGCCAGAGGTGGGTGTGTCCTTCACATTTCAGGAAGGGAGACTTGGGGCCTGGAGAAGCGATGTGATTTTTCTTTTCTAGTTCAGTGCTGGTTTTGATGGCTTTTTATCATGACCTTGTTATGTCTTATTTTAGTTTCGGCCCATTTAGTGGATACGACAACAGTGGCCCAGGGAGGTATGGCAGAGCTGAGGCTTAAC
>Seq ID NO: 184
AGAGAGCACCAATCCCGAGAACAGCGAGCTCAAGTATTCGGGTCAAGATGGGCTCTACATAGGCGTCAGTCTCGCCTCGCCGGCCGAAGTCACGTCCTCCGTGCGACCGGATTCCTGGTGCGCCCTGGCCCTGGCCTGAGCCCACGCCGCCAGGAGGCAGGGAGGGCTCCGCCGCGGGCCTCACTCCACTCGTGTCTGCTTTTGTGCAGCGGTCCAGACAGTGGCGACTGCGCTGACAGAACGTGATTCTCGTGCCTTTATTTTGAAAGAGATGTTTTTCCCAAGAGGCTTGCTGAAAGAGTGAGAGAAGATGGAAGGGAAGGGCCAGTGCAACTGGGCGCTTGGGCCACTCCAGCCA
>Seq ID NO: 157
TTTTCGGGCCGCGGTGCGGAGAACTCAGGTGGGTGCCCGGCAAGTTACCTACCAGGGGCTGTTCCCCCGCGACCCTCGCCATAAGCGCAGGGACCCGGGGGCCGCGCTGGCTCCGGGCTGCGCTCCTGGCTTGGCAGGGGACCAGGCCCACGCTGCAGCCTGGGAGCGGAGCCGCCCCCCAGGTCTCCCCACCTCTGCGGG
>Seq ID NO: 185
CACAGTGCGGCTGGGCCCGCGCCCTGCGGTGGTGCTGTGCGGCTACGCAGCGCTGCGGGACGCGTTAGTGCTACAGGCGGATGCGGTCTCCGGCCGCGGGTCCATGGCAGTCTTCGAACGCTTCACACGCGGAAACAGTGAGGCCCCGGCGCTGGACTTGCCGGTCCGGACGCTCCAGGCTGGGCGGGTAAATGGTAGAGG
>Seq ID NO: 186
TCGGCCTgcggcgcgtgcgggggaggagacggttccgggggaccggccgcgactgcggcggcggtggtggggggagccgcggggatcgccgagggccggtcggccgccccgggtgccgcgcggtgccgccggcggcggtgAGGCCCCGCGCGTGTGTCCCGGCTGCGGTCGGCCGCGCTCGAGGGGTCCCCGTGGCGTCCCCTTCCCCGCCGGCCGCCTTTCTCGCGCCTTCCCCGTCGCCCCGGCCTCGCCCGTGGTCTCTCGTCTTCTCCCGGCCCGCTCTTCCGAACCGGGTCGGCGCGTCCCCCGGGTGCGCCTCGCTTCCCGGGCCTGCCGCGGCCCTTCCCCGAGGCGTCCGTCCCGGGCGTCGGCGTCGGGGAGAGCCCGTCCTCCCCGCGTGGCGTCGCCCCGTTCGGCGCGCGCGTGCGCCCGAGCGCGGCCCGGTGGTCCCTCCCGGACAGGCGTTCGTGCGACGTGTGGCGTGGGTCGACCTCCGCCTTGCCGGTCGCTCGCCCTTTccccgggtcggggggtggggcccgggccggggcctcggccccggtcgcggtcccccgtcccgggcgggggcgggcgcgccggccggccTCGGTCGGCCCTCCCTTGGCCGTCGTGTGGCGTGTGCCACCCCTgcgcccgcgcccgccggcggggctcggagccgggcttcggccgggccccgggccctcgaccgggaccggtgcgcgggcgctgcggccgcacggcgcgactgtccccgggccgggcaccgcggtccgcctctcgctcgccgcccggacgtcggggccgccccgcggggcgggcggagcgccgtccccgcctcgccgccgcccgcgggcgccggccgcgcgcgcgcgcgcgtggccgccggtcc
>Seq ID NO: 187
CTGAAGTTAGGGAAACAACGGCTCTTGAGGGGTAGCTGAGGGCGCGGGACCGCTCCCCGCCCGGCAGCCGCCCCCAGCCCCACCCGCCGTTGTCCTAGTCGCGGCCGAGCGCATTCTGGGCTGGCCTAGGGCGCGCTTCTTGGGCCGCCTCCCTGCGCGTCCCGGCCCCGTCACTTCAGAAGGCGCTCGACCCCCAGTCTG
實施例
6.1
:甲基化靶向測序篩選胰腺癌特異性的甲基化位點
發明人收集了總計541個各個癌種的患者,所有入組患者簽署知情同意書。將這些樣本按照一定的比例分為訓練集和測試集,其中訓練集用於下述機器學習模型的構建,測試集用於模型的性能測試,樣本資訊見下表6.1,訓練集中胰腺癌樣本總數為37個,測試集中胰腺癌樣本總數為17個。
表6.1 各個癌種血漿樣本數量統計表
訓練集 | 測試集 | |
總數 | 354 | 187 |
癌症類型 | ||
食管癌 | 41 | 26 |
肝癌 | 112 | 67 |
胃癌 | 50 | 26 |
肺癌 | 60 | 24 |
乳腺癌 | 35 | 21 |
胰腺癌 | 37 | 17 |
結直腸癌(附圖中稱為腸癌) | 19 | 6 |
年齡 | ||
中值(最小值-最大值) | 62(25-87) | 62(29-89) |
性別 | ||
男 | 202 | 116 |
女 | 149 | 69 |
NA | 3 | 2 |
通過申請人自主研發的MethylTitan
TM的方法獲得目標樣本血漿cfDNA的甲基化測序數據,鑒別出其中的DNA甲基化分類標誌物。過程如下:
1、血漿cfDNA樣本的提取
採用streck血液收集管收集患者2ml全血樣本,及時離心分離血漿(3天內),轉運至實驗室後,採用QIAGEN QIAamp Circulating Nucleic Acid Kit試劑盒根據說明書提取cfDNA。
2、Illumina常規測序及數據預處理
a)文庫用Illumina Nextseq 500測序儀進行雙端測序。
b) Pear (v0.6.0) 軟體將Illumina Hiseq X10/ Nextseq 500/Novaseq測序儀下機的雙端150bp測序的同一片段雙端測序數據合併成一條序列,最短重疊長度20 bp,合併之後最短30bp。
c)使用Trim_galore v 0.6.0、cutadapt v1.8.1軟體對合併後的測序數據進行去接頭處理。在序列的5’ 端去除接頭序列為“AGATCGGAAGAGCAC”,並去除兩端測序品質值低於20的鹼基。
3、測序數據比對
本文使用的參考基因組資料來自UCSC資料庫 (UCSC: HG19, http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。
a) 首先將HG19使用Bismark軟體分別進行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鳥嘌呤(GA)的轉化,並且分別對轉換後的基因組使用Bowtie2軟體構建索引。
b) 將Illumina Nextseq 500測序儀的下機資料同樣進行CT和GA轉化。
c)使用Bowtie2軟體分別將轉化後的序列比對到轉化後的HG19參考基因組,最短種子序列長度20,種子序列不允許錯配。
4、甲基化單倍型頻率(MHF)的計算
對於每個目的地區域HG19的CpG位元點,根據上述比對結果,獲取每個位點對應的甲基化狀態。本文中位點的核苷酸編號對應於HG19的核苷酸位置編號。一個目標甲基化區域可能有多個甲基化單倍型,對於目的地區域內的每一個甲基化單倍型都需要進行該值的計算,MHF的計算公式示例如下:
其中i表示目標甲基化區間,h表示目標的甲基化單倍型,N
i表示位於目標甲基化區間的讀段(reads)數目,N
i,h表示包含目標甲基化單倍型的讀段數目。
5、甲基化數據矩陣
a) 將訓練集和測試集的各個樣本的甲基化測序數據(甲基化單倍型頻率)分別合併成資料矩陣,對每個深度低於200的位點做缺失值處理。
b)去除缺失值比例高於10%的位點。
c) 對於資料矩陣的缺失值,利用KNN演算法進行缺失資料插補。
6. 根據訓練集樣本找出胰腺癌組織特異性甲基化標誌物
a) 計算每一個甲基化單倍型標誌物在訓練集中胰腺癌與其它癌種相比的AUC並從高到低排序,篩選出可較好區分胰腺癌與其它癌種的甲基化標誌物作為候選標誌物;
b) 使用上一步構建的甲基化標誌物在訓練集構建邏輯回歸模型,然後使用測試集樣本驗證模型的效果。該步驟主要基於python3 sklearn包linear_model模組的LogisticsRegression函數進行,具體步驟:
1. 使用StandardScaler對訓練集資料進行標準化,並保存標準化轉換公式,其中公式為:x*=(x-u)/σ,μ為所有樣本資料的均值,σ為所有樣本資料的標準差;
2. 將標準化之後的資料登錄LogisticsRegression函數,訓練邏輯回歸模型;
3. 將標準化公式應用到測試集資料對測試集進行標準化;
4. 將訓練好的邏輯回歸模型應用於測試集樣本進行測試。
篩選出的胰腺癌組織特異性的甲基化標誌物具體見表6.2。相關甲基化標誌物位於目標基因內或者該目標基因上游區或下游區,其中單獨一個或者多個甲基化標誌物的組合都可以用作為胰腺癌特異性的甲基化標誌物。
這些甲基化標誌物在胰腺癌與其他6種癌種中的甲基化水平如下表6.2和圖51。如圖52所示,這些甲基化標誌物在訓練集和測試集中胰腺癌與其它癌種相比都具有顯著性的差異(u檢驗p值小於0.05),且甲基化水平也具有較大差別。
表6.2 在訓練集和測試集中甲基化標誌物在胰腺癌與其他6種癌種中的甲基化水平均值
序列 編號 | 染色體號 | 起始位置 | 終止位置 | 訓練集胰腺癌甲基化水平 | 訓練集其它癌種甲基化水平 | 訓練集P值 | 測試集胰腺癌甲基化水平 | 測試集其它癌種甲基化水平 | 測試集P值 |
188 | chr1 | 2478439 | 2478810 | 0.9710 | 0.9757 | 1.90E-05 | 0.9727 | 0.9761 | 0.00421757 |
189 | chr1 | 64059515 | 64059716 | 6.00E-06 | 3.20E-06 | 0.000367771 | 3.59E-06 | 1.43E-05 | 0.000283244 |
190 | chr1 | 151693837 | 151694148 | 0.0367 | 0.0294 | 1.39E-07 | 0.0316 | 0.0290 | 0.02656304 |
163 | chr1 | 203600773 | 203600973 | 0.1207 | 0.1174 | 0.000320212 | 0.1210 | 0.1173 | 0.010844674 |
191 | chr2 | 24300144 | 24300422 | 0.0685 | 0.0425 | 0.000608133 | 0.0592 | 0.0377 | 0.00266093 |
192 | chr2 | 97427786 | 97428040 | 0.7339 | 0.7583 | 0.0001068 | 0.7381 | 0.7577 | 0.006165148 |
193 | chr2 | 175202377 | 175202577 | 0.0792 | 0.0587 | 3.38E-05 | 0.0694 | 0.0561 | 0.009570827 |
194 | chr2 | 233792902 | 233793102 | 0.2257 | 0.1911 | 0.000203849 | 0.2243 | 0.1900 | 0.000241991 |
195 | chr2 | 242743582 | 242743782 | 0.4684 | 0.4437 | 1.01E-07 | 0.4583 | 0.4404 | 0.006415082 |
196 | chr3 | 197639716 | 197639916 | 0.1420 | 0.1666 | 4.62E-06 | 0.1443 | 0.1678 | 0.004972397 |
197 | chr4 | 3447856 | 3448097 | 0.6195 | 0.6502 | 0.00039985 | 0.6342 | 0.6551 | 0.011535211 |
198 | chr5 | 472963 | 473163 | 0.2103 | 0.1876 | 1.52E-05 | 0.2085 | 0.1805 | 0.000674975 |
199 | chr5 | 37840176 | 37840376 | 0.0926 | 0.0797 | 7.33E-06 | 0.0907 | 0.0857 | 0.011535211 |
200 | chr5 | 134870613 | 134870990 | 0.7870 | 0.8070 | 7.59E-05 | 0.7974 | 0.8029 | 0.011116448 |
201 | chr6 | 25726976 | 25727176 | 0.0499 | 0.0411 | 0.00016002 | 0.0484 | 0.0408 | 0.002420541 |
202 | chr6 | 108353117 | 108353317 | 0.1415 | 0.1251 | 1.49E-06 | 0.1514 | 0.1234 | 2.05E-07 |
203 | chr6 | 167544878 | 167545117 | 0.1394 | 0.1103 | 5.48E-06 | 0.1219 | 0.1109 | 0.021769949 |
204 | chr8 | 22457089 | 22457293 | 0.1409 | 0.1162 | 0.000110324 | 0.1397 | 0.1122 | 0.00921508 |
205 | chr8 | 22457092 | 22457292 | 0.1395 | 0.1150 | 0.000141349 | 0.1391 | 0.1108 | 0.008007897 |
206 | chr8 | 23020937 | 23021137 | 0.0727 | 0.0563 | 1.06E-06 | 0.0641 | 0.0570 | 0.0357202 |
68 | chr9 | 71788926 | 71789126 | 0.1415 | 0.1184 | 0.00017154 | 0.1413 | 0.1233 | 0.001680839 |
207 | chr9 | 124461377 | 124461663 | 0.3620 | 0.3000 | 0.000127166 | 0.3604 | 0.2956 | 0.000680513 |
208 | chr9 | 132382275 | 132382649 | 0.0580 | 0.0470 | 3.64E-06 | 0.0551 | 0.0474 | 0.001189567 |
209 | chr10 | 130084908 | 130085108 | 0.1470 | 0.1294 | 0.000332034 | 0.1439 | 0.1241 | 0.000781175 |
172 | chr11 | 60620057 | 60620257 | 0.2427 | 0.2777 | 8.53E-07 | 0.2486 | 0.2783 | 0.00070306 |
210 | chr12 | 518125 | 518325 | 0.4681 | 0.4839 | 1.57E-06 | 0.4731 | 0.4828 | 0.039070472 |
211 | chr12 | 111404033 | 111404233 | 0.1315 | 0.1501 | 6.17E-05 | 0.1317 | 0.1542 | 0.001668207 |
212 | chr13 | 32605445 | 32605645 | 0.9482 | 0.9555 | 0.000680276 | 0.9501 | 0.9566 | 0.010318429 |
213 | chr14 | 92040784 | 92040984 | 0.0422 | 0.0133 | 2.12E-05 | 0.0266 | 0.0131 | 0.003467684 |
177 | chr14 | 105714973 | 105715224 | 0.0157 | 0.0147 | 0.000247799 | 0.0119 | 0.0153 | 0.01469282 |
154 | chr15 | 65116254 | 65116454 | 0.0035 | 0.0374 | 0.000306421 | 0.0022 | 0.0425 | 0.003840347 |
214 | chr16 | 4253135 | 4253487 | 0.1351 | 0.1157 | 4.38E-06 | 0.1334 | 0.1162 | 0.012874722 |
215 | chr16 | 28984534 | 28984734 | 0.2213 | 0.2034 | 3.20E-05 | 0.2285 | 0.2030 | 0.003230395 |
88 | chr19 | 10823485 | 10823947 | 0.9364 | 0.9429 | 4.71E-05 | 0.9353 | 0.9377 | 0.011535211 |
216 | chr19 | 37957790 | 37957990 | 0.0104 | 0.0093 | 2.06E-06 | 0.0090 | 0.0101 | 0.011535211 |
217 | chr22 | 22006617 | 22006817 | 0.8478 | 0.8776 | 0.000273367 | 0.8575 | 0.8723 | 0.011394126 |
以單個甲基化標誌物Seq ID NO:202為例查看該標誌物在七個癌種中甲基化水平在訓練集和測試集中的分佈分別如圖53和圖54所示,可看出該標誌物的甲基化水平在胰腺癌中相比其它6個癌種都具有顯著性的差異(wilcox test: P <= 0.05),是良好的胰腺癌組織特異性甲基化標誌物。
實施例
6.2
:單個胰腺癌甲基化標誌物判別性能
為了驗證單個胰腺癌甲基化標誌物的區分胰腺癌與其它6個癌種的潛力,使用單個胰腺癌甲基化標誌物的甲基化水平資料在實施例6.1訓練集資料中訓練模型,並使用測試集樣本對模型的性能進行驗證,具體步驟如下:
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標標誌物的甲基化水平值,w為不同胰腺癌標誌物的係數,b為截距值,y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno),其中TrainData是訓練集樣本中目標甲基化位元點的資料,TrainPheno是訓練集樣本的性狀(胰腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集樣本中目標甲基化位元點的資料,TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胰腺癌進行判斷。
4. 統計模型的AUC,並根據確定的閾值統計敏感性、特異性,準確性等指標。
本實施例中單個胰腺癌甲基化標誌物邏輯回歸模型的效果見表6.3,從該表中可看出,所有的胰腺癌甲基化標誌物在測試集和訓練集中都可以達到0.60以上的AUC和0.68以上的準確率,都是較好的胰腺癌組織特異性標誌物,其中表現優異的胰腺癌標誌物如Seq ID NO: 194,Seq ID NO: 189都可以在測試集中75%以上的特異性下達到40%以上的敏感性,整體準確性達到73%以上。
表6.3 單個胰腺癌甲基化標誌物邏輯回歸模型的表現
序列編號 | 訓練集AUC | 訓練集敏感性 | 訓練集特異性 | 閾值 | 訓練集準確率 | 測試集AUC | 測試集敏感性 | 測試集特異性 | 測試集準確率 |
Seq ID NO:188 | 0.7061 | 0.5135 | 0.7603 | 0.1046 | 0.7345 | 0.6941 | 0.4706 | 0.7647 | 0.7380 |
Seq ID NO:189 | 0.6707 | 0.4595 | 0.7603 | 0.1045 | 0.7288 | 0.7540 | 0.4118 | 0.8235 | 0.7861 |
Seq ID NO:190 | 0.7591 | 0.6757 | 0.7603 | 0.1046 | 0.7514 | 0.6426 | 0.3529 | 0.7588 | 0.7219 |
Seq ID NO:163 | 0.6767 | 0.5135 | 0.7603 | 0.1046 | 0.7345 | 0.6692 | 0.5294 | 0.7353 | 0.7166 |
Seq ID NO:191 | 0.6718 | 0.4865 | 0.7603 | 0.1049 | 0.7316 | 0.7054 | 0.4118 | 0.7882 | 0.7540 |
Seq ID NO:192 | 0.6918 | 0.4865 | 0.7603 | 0.1062 | 0.7316 | 0.6844 | 0.4706 | 0.7529 | 0.7273 |
Seq ID NO:193 | 0.7076 | 0.4865 | 0.7603 | 0.1051 | 0.7316 | 0.6727 | 0.5294 | 0.8000 | 0.7754 |
Seq ID NO:194 | 0.6850 | 0.5135 | 0.7603 | 0.1066 | 0.7345 | 0.7571 | 0.5294 | 0.7529 | 0.7326 |
Seq ID NO:195 | 0.7695 | 0.6486 | 0.7603 | 0.1056 | 0.7486 | 0.6834 | 0.4118 | 0.7647 | 0.7326 |
Seq ID NO:196 | 0.7250 | 0.6216 | 0.7603 | 0.1063 | 0.7458 | 0.6900 | 0.6471 | 0.7353 | 0.7273 |
Seq ID NO:197 | 0.6689 | 0.3784 | 0.7603 | 0.1068 | 0.7203 | 0.6675 | 0.3529 | 0.8529 | 0.8075 |
Seq ID NO:198 | 0.7145 | 0.5135 | 0.7603 | 0.1057 | 0.7345 | 0.7362 | 0.4118 | 0.8000 | 0.7647 |
Seq ID NO:199 | 0.7189 | 0.5135 | 0.7603 | 0.1048 | 0.7345 | 0.6675 | 0.5294 | 0.7059 | 0.6898 |
Seq ID NO:200 | 0.6967 | 0.5135 | 0.7603 | 0.1051 | 0.7345 | 0.6685 | 0.4118 | 0.7235 | 0.6952 |
Seq ID NO:201 | 0.6831 | 0.5676 | 0.7603 | 0.1046 | 0.7401 | 0.7076 | 0.5294 | 0.7588 | 0.7380 |
Seq ID NO:202 | 0.7354 | 0.5135 | 0.7603 | 0.1050 | 0.7345 | 0.8730 | 0.8824 | 0.8176 | 0.8235 |
Seq ID NO:203 | 0.7207 | 0.6216 | 0.7603 | 0.1056 | 0.7458 | 0.6488 | 0.5294 | 0.8000 | 0.7754 |
Seq ID NO:204 | 0.6969 | 0.4054 | 0.7603 | 0.1050 | 0.7232 | 0.6737 | 0.4706 | 0.7824 | 0.7540 |
Seq ID NO:205 | 0.6936 | 0.3514 | 0.7603 | 0.1049 | 0.7175 | 0.6775 | 0.4706 | 0.7765 | 0.7487 |
Seq ID NO:206 | 0.7432 | 0.5946 | 0.7603 | 0.1052 | 0.7429 | 0.6009 | 0.3529 | 0.7412 | 0.7059 |
Seq ID NO:68 | 0.6837 | 0.4054 | 0.7603 | 0.1055 | 0.7232 | 0.7161 | 0.6471 | 0.7706 | 0.7594 |
Seq ID NO:207 | 0.6970 | 0.4054 | 0.7603 | 0.1091 | 0.7232 | 0.7360 | 0.5294 | 0.8000 | 0.7754 |
Seq ID NO:208 | 0.7363 | 0.5676 | 0.7603 | 0.1047 | 0.7401 | 0.7239 | 0.7059 | 0.7824 | 0.7754 |
Seq ID NO:209 | 0.6771 | 0.4595 | 0.7603 | 0.1052 | 0.7288 | 0.7330 | 0.5294 | 0.7882 | 0.7647 |
Seq ID NO:172 | 0.7428 | 0.5405 | 0.7603 | 0.1075 | 0.7373 | 0.7353 | 0.4706 | 0.7941 | 0.7647 |
Seq ID NO:210 | 0.7342 | 0.5946 | 0.7603 | 0.1051 | 0.7429 | 0.6152 | 0.4118 | 0.7412 | 0.7112 |
Seq ID NO:211 | 0.6918 | 0.4865 | 0.7603 | 0.1056 | 0.7316 | 0.7163 | 0.4706 | 0.8471 | 0.8128 |
Seq ID NO:212 | 0.6637 | 0.3784 | 0.7603 | 0.1047 | 0.7203 | 0.6706 | 0.4118 | 0.8176 | 0.7807 |
Seq ID NO:213 | 0.7045 | 0.4595 | 0.7603 | 0.1044 | 0.7288 | 0.6990 | 0.4118 | 0.7706 | 0.7380 |
Seq ID NO:177 | 0.6756 | 0.4865 | 0.7603 | 0.1045 | 0.7316 | 0.6606 | 0.5294 | 0.7882 | 0.7647 |
Seq ID NO:154 | 0.6674 | 0.4054 | 0.7603 | 0.1073 | 0.7232 | 0.6950 | 0.4118 | 0.7706 | 0.7380 |
Seq ID NO:214 | 0.7200 | 0.5135 | 0.7603 | 0.1052 | 0.7345 | 0.6644 | 0.5882 | 0.7647 | 0.7487 |
Seq ID NO:215 | 0.7041 | 0.5405 | 0.7603 | 0.1053 | 0.7373 | 0.7007 | 0.4706 | 0.7588 | 0.7326 |
Seq ID NO:88 | 0.6982 | 0.5405 | 0.7603 | 0.1046 | 0.7373 | 0.6675 | 0.5294 | 0.7059 | 0.6898 |
Seq ID NO:216 | 0.7361 | 0.4595 | 0.7603 | 0.1045 | 0.7288 | 0.6675 | 0.4118 | 0.7706 | 0.7380 |
Seq ID NO:217 | 0.6847 | 0.4595 | 0.7603 | 0.1063 | 0.7288 | 0.6678 | 0.4706 | 0.7941 | 0.7647 |
實施例
6.3
:所有目標胰腺癌甲基化標誌物的機器學習模型
本實施例使用所有的36個胰腺癌甲基化標誌物的甲基化水平構建了邏輯回歸的機器學習模型,用以從多個癌種資料中準確區分出胰腺癌的樣本。具體的步驟與實施例6.2一致,只是相關樣本帶入了所有36個目標胰腺癌甲基化標誌物的資料。
1. 使用python (V3.9.7)中的sklearn (V1.0.1)包中的邏輯回歸模型:AllModel = LogisticRegression(),該模型的公式如下,其中x為樣本目標胰腺癌甲基化標誌物的甲基化水平值,w為不同胰腺癌甲基化標誌物的係數,b為截距值(參數是通過訓練邏輯回歸模型得到的),y為模型預測分值:
2. 使用訓練集的樣本進行訓練: AllModel.fit (Traindata, TrainPheno), 其中TrainData是訓練集的資料(甲基化單倍型頻率),TrainPheno是訓練集樣本的性狀(胰腺癌為1,其它癌種為0),並根據訓練集的樣本確定模型的相關閾值。
3. 使用測試集的樣本進行測試: TestPred = AllModel.predict_proba(TestData)[:, 1],其中TestData為測試集資料(甲基化單倍型頻率),TestPred為模型預測分值,使用該預測分值並根據上述閾值對樣本是否是胰腺癌進行判斷。
訓練集和測試集中模型預測分值分佈見圖55,從圖中可看出胰腺癌和其它癌種樣本模型分值都具有顯著的差異(wilcox test: P <= 0.05)。ROC曲線見圖56,在測試集中,胰腺癌與其它癌種區分的AUC達到了0.921,設置閾值為0.124,大於該值則預測為胰腺癌,反之預測為其它癌種,在特異性為93.5%時,敏感性達到了70.6%,樣本整體預測的準確率達到了91.4%, 可以很好地從7種癌症樣本中區分出胰腺癌樣本。
實施例
6.4
:胰腺癌甲基化標誌物組合
1
機器學習模型
為了驗證胰腺癌標誌物組合的效果,本實施例從所有36個胰腺癌甲基化標誌物中隨機選取了一共11個胰腺癌甲基化標誌物Seq ID NO:190, Seq ID NO:195, Seq ID NO:202, Seq ID NO:203, Seq ID NO:206, Seq ID NO:172, Seq ID NO:210, Seq ID NO:211, Seq ID NO:213, Seq ID NO:154, Seq ID NO:214的甲基化水平的資料構建新的機器學習模型。
機器學習模型構建的方法也同實施例6.3一致,但相關樣本只使用了該實施例中的11個胰腺癌標誌物的資料,該模型在訓練集和測試集中的模型得分見圖57,該模型ROC曲線見圖58。可看出該模型在訓練集和測試集中,胰腺癌樣本分值同其他癌種分值具有顯著差異(wilcox test: P <= 0.05),該模型測試集AUC達到了0.931,閾值設成0.114時,大於該值預測為胰腺癌,小於該值預測為其他癌種,特異性為92.4%時,敏感性達到了64.7%,整體的準確率達到了89.8%,說明了該組合模型良好的性能。
實施例
6.5
:胰腺癌甲基化標誌物組合
2
機器學習模型
該實施例使用另一胰腺癌甲基化標誌物組合:Seq ID NO:195, Seq ID NO:196, Seq ID NO:199, Seq ID NO:202, Seq ID NO:203, Seq ID NO:210, Seq ID NO:211, Seq ID NO:213, Seq ID NO:154, Seq ID NO:216一共10個胰腺癌甲基化標誌物進行機器學習模型的構建。
該模型構建方法同樣與實施例6.3一致,但相關樣本只使用了該實施例中的10個標誌物的資料。該模型在訓練集和測試集中的模型得分見圖59,ROC曲線見圖60。從圖中可看出該模型在訓練集和測試集中,胰腺癌樣本得分顯著高於其它癌種得分(wilcox test: P <= 0.05)。測試集中,AUC達到了0.909,閾值設置為0.111時,測試集中在特異性為91.2%時,敏感性達到了58.8%,整體的準確性可達到88.2%,同樣可以較好的區分胰腺癌與其它癌種。
本發明從7個癌種的甲基化NGS測序數據中篩選出了36個胰腺癌特異性的甲基化標誌物,根據這些胰腺癌甲基化標誌物的甲基化水平資料構建的機器學習模型可以從7個癌種的資料中很好地區分出胰腺癌的樣本,這些甲基化標誌物都是良好的胰腺癌組織特異性的甲基化標誌物,對泛癌種早篩過程中胰腺癌的組織溯源提供了重要的參考。
雖然已經描述了多個實施方案,但是顯而易見的是,基本公開和實施例可以提供利用或包含在本文所述的標誌物和方法中的其它實施方案。因此,應當理解的是,本發明的範圍由從公開和申請專利範圍中可以理解的範圍來限定,而不是由特定實施例來限定。
胰腺癌甲基化標誌物的序列如下:
>Seq ID NO:188
CCTAGCGCCAGGGCGGGGCGTGGGCTGAGCAGCCCCTCCCATGGAGGGAGCGGCCAGTCTACATATTGGAGGTGGGGCTCTGGGGAAAGGGTGTTGTTAGGAAGGCGGTTTGAGGCAGCGGGAGGTGGGGATGCGCCCGGCGGGGAGGGGCAGGTGTGTGGGGAGGGCCTGGGGAGCGCCTCCCCAGCCGGGCAGCGCTTCCCCAGCCAGGCCCCGCAGCTGGACCCCGGCTCCGTCCAGCCTGGGAAAGGACTCCACGGTTTATGCTGAAGTGGTGGTGGGGTGGGTGAACGCTGCGCAATGGAAGGGCATGGCCCTGTGCTAATTGCCCCGGGGTGTGGGGCTGTGGAGGCACTGCGGGGGGGATGTGCT
>Seq ID NO:189
GGTTTCCACCTCCCGCTCCTCCCTCTCCTTCGCGCTCGCTCTTCTGGCCTGGAGGCCCGACGGAGGTCGCCGGGCTGGGGAAAGTGGCCACGGGACCCGGCAGACCTGCTCGCCTGACTCCCGGGGCGCCGGGAGGTGCGGGCGCGGAGCCTCCCAAGGTCACGCCCGACTCTCCGTCTCTAGCCGCTGCCTTCCCTCTCCC
>Seq ID NO:190
CCGGGAAAGGCGATCCTTTAGAGACCCACCCCCCAAGCCCCCGCCCCGGAGCTCACCCCTCAGTTCCCTCAGCCCCTAGCCCCTGCTTCGCTGAAGGGGCCGGGCTTGGGGGCAgggcggggccgggggcggggcctcgccggctcgcggccggTCGCCTTGACGACCGCAGCAAGATGGAGACGCTGCCAGGCTTGCTGCAGCGGCCCGACCCCGGGGCGCTTAGCGCAGCGCAGCTGGAGCAGCTGCGAAAATTCAAGGTGGGTGCGCCCGCGCCCCCATCCAGCGTCCACCAAAGTGTAGCTGCCCCAG
>Seq ID NO:163
TAAGACGGGCTGTTAGTATTGAGCCCgggaagttagcaatatctaacaaagctacgtacacatttacccagcaatcctacgtctaggaatttatccagaaggtgctcattcacaaatatggaaagctacgtacaaggtgatttttgtttgtttgtttgtttgttttttgagacagagtctcgctctgtcgcccaggctgga
>Seq ID NO:191
TGTGTCACGGCTGACGCTGTAACTATACCCAGAATCTCCGTCCCTGGAGGGGCCCTCAGGTTGAGCGTCAGCTGATCGGGCCTCAGTAATCCCCGCTGCGACGCCCGTCCGGACTCCCACCTCAACCCCGCCGCGGCGGCCCCAGTCCGCGTGCCACCCTTCCAGTTCACTCTTTATTTCCTCATATCAGCTTTAAACGGCTCTGGAGGAAGCACCGGGTTTCTTGGCCTGTCTATTGTGAATCTTCTCCAGGTTTGCTCTGGAAAGGCCTGGGGTGGC
>Seq ID NO:192
CTATAATGACCTCGTGAAAGAGGAGCTCAATATGATCCAGGGTGCCCTGGAACTACGGACCAAAACTGTAGAGGATATCATGACCCAGCTCCAGGACTGCTTCATGATCCGCAGCGATGCCATCCTGGACTTCAACACCATGTCGGAGATAATGGAAAGCGGCTATACTCGCATCCCGGTGTTCGAAGACGAGCAGTCCAATATTGTAGATATTCTCTACGTCAAAGACTTGGCCTTTGTGGACCCCGATGACTG
>Seq ID NO:193
CCCCCAGGGCCCGGGCTGGGCGCGAGGTGGAGCCGCTCAGGGCTCCCGGGCTGCGGTTCGCCCGCTGTGCGAGGAGCTCCCCTCTGCCTTCCGCGCCCGGATAAGAATCGAACGCGTGGTCCGGAAACAAAAGCGAACCATCCTCCGACACAAACACTTTAAAAACTGTACTCCCAGACGTACACATACACCGGAGACCTA
>Seq ID NO:194
CACGGCAACGAGggaggcgggaggggcgcgcgcggcgggggcgaggccgggcggcggcggggcgggggcgCCCGGGCTGGGCGCGACCCGGGCCCCGCGAGCGCCGACTGCGGGCTGGGGCCTGCCGCGGGCTCGCGCCTTCCTCCCCCGCGCCGCCGTGCCCCGACCCGGAGAGGGGCAGAGCTGCGGAGGCCCTGGAGC
>Seq ID NO:195
AGGGGCCGGGCCGGGGACGAGGCCTCCTGCGGACACCAGCTCCTCTCTCCGCCGTCACCGGGGAGGCCGGGGATCCTTGCAGGGCTTCTGGGGCGTTGGGAAACCCAGGCCCGCCGGCCACGGCTCTAAAATGAAGAGGGCGGAGACCCCAGTGAAGAGCACCCCCCGCAATCCGCGCAGATCCCTCCCAGAGAAGGCCCT
>Seq ID NO:196
TCCCTTTACCAGCTGGGATCCCGGGCTTTCAGTTCCCTGCAACTCCTGTTCACCAACACTGCAGAGCCACGTGGCGCGGCACTGTGTGGACTGCGTGTGTCCCTAACGAGACGAGCACAATCCCGTGAGCTGAACAGAGGTGCCCACTGAAGGACAGAAACGGCGCTCCAAGGGCACAAGGCTGTGGGGCTTAAAAAGGGG
>Seq ID NO:197
GGCACAAGAAGAGGACGTTCCTGCGGCCACGTATCATCGGCGGCTCCTCCTCGCTGCCCGGCTCGCACCCCTGGCTGGCCGCCATCTACATCGGGGACAGCTTCTGCGCCGGGAGCCTGGTCCACACCTGCTGGGTGGTGTCGGCCGCCCACTGCTTCTCCCACAGGTGCACCTCCTCTGGGCCCCAGTCACCTGCCCTGAGGCCCCACACACCATCCAGCGTCACTATGCGCCTGTCCCCA
>Seq ID NO:198
GGAACCTTGGGCTGGTTTCACGCAAATCCGTTTGGGGCGAGCCTCGGTTTCCCGGCAGCGGTGGGAAAGGGCGCGAGCGGCCAGCCATGGCGCGCGGACCCTTCCCGCCGGCGGCGTCACAGCGGCGTCTCCTCCTGCTCCAGCGCGTGCGGCGGTGCGTGGCACGAGGGCGGCAGCGACGCCAGCTTCAGCAgcgcgggg
>Seq ID NO:199
TCCGGGGTGGGGGAGGGGAGGCGCGGGGCCCCGGGAGGGAGGGGTCGGGAGGCGTCGGCTGGGCCTGGCGGTGGGGGAGGAGAGGAGAGCAGCGAGGAGGCCCTGGAGTTCCCGAGGCGGGGGGCCGGGGTGCGAGTGGGCGACGCGAGGCGCCCCTCCCTGGGCTGCAGGGAGAGCGCTGAGAGCGCGGAGACGCCGCGG
>Seq ID NO:200
CATCTATTGCCTGCTGACTAGGGGAGGGGGAAAGTAACAGTGTCTACAAAGGGCCTAGTGGTAAGGAATGAAACAGGGCGTTGTGTGGAGCAAGTCTTTGGGCAGGCTTGGGAAGGAGAAAACAGGGTCGCCGGGGCGGTAGGTGAAGTCTTCGGAGGCGGCTGGGCTACTGGGGTCAGAGAGCGGGGAGGCGGCGGCGGCACCTGAGCCCCAGGACTCCGCGTCGCTGGCGGGGCTTGGGGGACCGGGCAGGCAGGGGACGCACTGCGGCGGCAGGAGGCGCTCCCGGGCACCGCCTCCGGGCAGCCCTTGATCCGCCAGGCGCAGTGTCTCGGCCAGAGCCCAGATGTAGTTGTAGGCGAAGCGCAGCGTCTCGAT
>Seq ID NO:201
AAATACCGCATCTTTCATCCTCCAGTTCTGTTTGTTTACTTGGCGAGACTTGGAGCTGAGGTCATTTGGAGCTGTTTAATACTGAAGAGCTGTTGAGCACTGGAAAGTGCTGTGTAACCCTGGAAAAGAACCGTGTAACGCTGCAGAAGTGTGTGGTAGCTATGCCGGAGGTGTCATCTAAAGGTGCTACCATTTCCAAGA
>Seq ID NO:202
AATTTGTTCAAAGTGTACTATTCTTTTGGCATACTGTTAAGTCCACAAATACTATATGTGACATTTTGTCTTCAGATtgatgcaggatttttcttggccccttcactggactcccaaccggagggaacacttgctcggcccaccacattcaaccccttgtgggtgggagcctgtgagcgagtgagtgcaggatccagccgg
>Seq ID NO:203
GCCGTCCCTCCCTTTTTGGCCCCCGCTGCTCTTCCCATCGTCATCAACTCAGCCTCCACGTGATGGGGAGGTCACTCCCTCCCATCCGGTCCCAGCCCCACTCACCTGGGAACCCGTGCCGCTGGCCCCACCTTGGCCTAGCATCCGTCCAACCCTGCAGCGACCGCTCCCCACAGCCCCTGCTCCCTTGTTCTCCAGAGCCGCGCCCCTGCTGCAGGCCTCCCCCTCGCTGTCCCCAAG
>Seq ID NO:204
ccgcccccccagccccgcTGGGAGTGTCTGGGGGCCGCGCCCAGCTGGGTCGGGACGCGCTCCCTGAGCTGCCCGAGCTCCGCGGGGACTCGGGCCGGGATCCTCGGGCGGCTGCATTGGCCGGGGCCGGGGCCGGGAGCGGGCCATGATGGGCCGGCGGCGCGCCTTCGCCGTGGACGGCCGGGGTGAGTCACCCACCCCCAGG
>Seq ID NO:205
cccccccagccccgcTGGGAGTGTCTGGGGGCCGCGCCCAGCTGGGTCGGGACGCGCTCCCTGAGCTGCCCGAGCTCCGCGGGGACTCGGGCCGGGATCCTCGGGCGGCTGCATTGGCCGGGGCCGGGGCCGGGAGCGGGCCATGATGGGCCGGCGGCGCGCCTTCGCCGTGGACGGCCGGGGTGAGTCACCCACCCCCAG
>Seq ID NO:206
cgaacgaacgaacgaacgaaAGAGGCAACCGCTCTGTGGCTTCCTGAGGTTCACTCCGGGGTTTCCATCTTGACTCCCTCCCTCCGCTGATTCTGGAACTTCCTCTGGGGCAGCTCAGTGCGGTCCTCGCCGCACGGGACAGCCAGGGGGAGCGCGCGCTCTGCTCCCTCGCGGCCCGGTCGCTCCTGCCCAGCCCGGGCA
>Seq ID NO:68
CCTgccgccgccgccgcctcccgcccccggccAGGAGTCGCGCGTGACGCGGTTCGCCGCAGGAGCCTCGAAGGCGCGGCGCCGGCGAGCCCTTCCCCGGCAGGCGCGTGGGTGGTAGCGGCCAATTTGACAGTTTcccgggccgggcggccagcgcggaggcgccacgctcgggtcgggggcgggctgacgccgccgccg
>Seq ID NO:207
gcgacgtggcgggcggggtgggctgggccgcgctgcgcgggccgggccgtcggcgctcggtcggcgggcgggcggcgcgggccgcgagctgctggggccgagcccgagcccggcccgccctcggccgcgcggccgcccagcaagggtgcgggtcccgcgcgggtcccggcccgccgccgccgcgcTAACCCCGCCTCCCCTTCCCCCTCTTGTCCCCCCGTGCGCAGGGCTTCCTCAGCCGCCGCCTCAAGGGCTCCATCAAGCGCACCAAGAGCCAGCCCAAGCTG
>Seq ID NO:208
GCGGGGACACAAGGGACCACCCCCCACCGGAAATGACTcgggcccgccccccgggccccgcggggccTCACTCAGTGGCTCCGGCTCCTCGGCGCACTTCTCCTGGAGCTGGTGCAGGAACTCACGGAACCTGCTGGGGAGGAGCTCTCCTAGGAAGGCGCCCAAGAAGTCGGGGTCCTCCCTGGCCACGCGCCTCCGGGGGCGCTCGCGCTCTCCAGGCCCTGGCTGCCTGGGCGCCGATTCCCGGGACGCGCCGGCCGACAGCAGGGGAGGCGGCAGCAGGGACCGCAGCAGCCCCCGCTTCCGCACGGCCCGCCGGGTCGCGGTGAGCAAGGCGGGCAGGCGCGGCGGGAGGCGTCCGACGCCCACCCCGGG
>Seq ID NO:209
CCGTAGTTGTCTCCTGGCTCCTGGGGTCCGCGGAGCTCTAGATGTACCTGCAGCTCCTCCCGAGTCCTGCAAGCCACCCTTGTCCCTCTTCTCCCGCTCACCCCCCGGCCCCCCCATCTCTTTTGCTATTCCGGGGAAGGCCACGCAGGGTGCAACCCGGACGCGCCCCCGGGGGAAGCCCGCGACGCAGCAGCCACACCC
>Seq ID NO:172
GACGCTGCGCAGCTGCCCAGCAGCCAGCCGAGGAGACGCGCGGGGCCCCGCGGTTCCTCCGGGCGGCTGCAGAGAGCTAAAGGGGAGGCCGAGCGGGCGGTGGAGGAGGTGCGGCGGCGGCGGCTGCTTCCCGCGCCACCCAGCTCGCTGTCGTCCACCAGCACGCTCTCCAGCACCGTGCGCAGCGAGCGCCGCAGCTTG
>Seq ID NO:210
actttgggaggccgaggcaggtggatcacaaggtcaggagttcgagaccagcctggccaatatggtgaaaccctgtctctactaaaaataacaaaaattcgccaggcgtagtggtgcacacctgtagtcccagctacttggaaggctgaggcaggagaatcgcttgaacccagaaggcagaggttgcagtgagccgagatc
>Seq ID NO:211
CCTGGACGGCTCCAGGCTGCAGATGGCCATGTATAATTCACGGGATTTGTAAGACTCTGCATCTGCTCCGTTGCTCATTCTTCAGTTGTCAGACAGACATAATCCCGAGCCTCTTATTTTATAACACAGATCTGCCAACGGGAGTGGGGAGGGGAGCCGGGGAGGCAGAGCCGCTGCCAGGAGAACTCAGAAATAATTTGG
>Seq ID NO:212
GCGCTCCCGGCCCATCCCTTAGCCCCGCGGCGGCCGTGTGGGCCGGAGGCTGCCTGCACCGCGTCAGGGAGGCCGGCCTAGAAACCCTCCCTCCCAGAAGAAAGCCGATCCCAGTTCAGGTGGGGTCTTCCTCGGTTGCGTACCTGGCTGGAGCCGAGCTGGTGGGCGGCCGGCAGCCGGCGTTTCTGGTGATGACAGCCC
>Seq ID NO:213
CTGTTCGCTCTCTCCCGCCAGGATCCGAGTTCTTGTTCCCCGACAACTCGTGGGAGTGCCCGCTCCAGCGTGGTTTCTCCTTCTCCGGGAACGGCCCCAGTGAGCAGAAGAGCTGGGTCTGGATTGCATGGCTCTGTCTCCCAGCCATGGTTGACTAATTTAGGGACACTCATGGCTCTGGACTCCTGCAGCCAGCCAGAC
>Seq ID NO:177
ctcgggcagggtcgCAGGGGCGGGGGTGGCAGGGGAGCGGGTGGCAGCCCCGCGGGTCACAGCGCCGCCGCCGCCCATGCTGCTGCCCCTAGCCTGCCTGCACGGCCGCGTCGCTCAGTGCCTGACCTCCTTGCTTTTGCTTGCAGAGCCGCTCCCGAggccccggcgcggcgcgagggcgcggggcgcggcgtccacaggcgccgaggctgcccccgccgccccgcccgcgAAGATGGCGGCGGAACTCTA
>Seq ID NO:154
TCGTGGGCGGGGAGCCGCAGGGTGCTGCGCCCGGCCTCGGCGAAACGCGTGAAGAGGCGCGCGGCGCGCAGAGGAAAGCAgcgcggccgccccgcgggcccTGGCGCTTGCAGCCGCAGCATCAACTCGCGGCGCTCGTTGCGACCCAGGCTCAGCTCCGCGGTGCGCAGGGCCTGGCGCCTTCGCGGCTGCCCGCCCGGG
>Seq ID NO:214
TCTCAAGCCCTACCTGTTATCTCAAGCCCTACCTGTGATCTCATGCTGCCGGAGCTCATTGTACTTGTAGGACTGCTCCAGAGGCTTGATGGATGAGTGGTAGATCTTCCGAAGCCGCTGCAGCACCGCTGGAGACAGAGAGGGCCGGGGGAAGAGCATCACGCAGGTGCGATCCAGGCAGCTCCTCCATTGTGGAGGGGCCTCACCACCCAGGGCAGCTCCACCCCTGCCTGGTGGGCAGCAAGTGCTGTTTGCAGCCCAGCGACTGTGCAATGTATTTGCATATGGGGAGCTGGCCCACATCTCAACTCGCAGAAACCTCCAAATGAAAAGGCATTCTCCTACCCACCCCC
>Seq ID NO:215
ggtgggaggctgaggcgggcagatcacttgaggtcaggagttcaagaccagcctggccaacctgctgaaagcccatctctaccaaaaatacaaaaaattagccgggtgtggtggcacgtgcctgttatcccagctacttgggaggctgaggcacaagaatcgcttggaccccggaagtggaggttgcagtgagccgagatc
>Seq ID NO:88
GTGTTTGAGAAGGACTTCGGCCCCATAGACCCGGAGTGCACCTGCCCCACGTGCCAAAAGTAGGCAGGATGGCACTGGGAGCTGGGGCAGGGCATGGAGGGGACAGGGCCTGGCCGTGCTGAGCTGTCCCCTGCCGCTCTACAGGCACAGCCGCGCCTTCCTGCACGCACTGCTGCACAGTGACAACACGGCCGCGCTGCACCACCTCACGGTCCACAACATCGCCTACCAGGTGAGCCAGTGCCCGGGGCAAGGTGGGCGGGGGTGTCCTAGGTGCGTATGCCCCACGCTGACCTCCCCTCCCCGCAGCTGCAGCTCATGAGCGCCGTCCGCACCAGCATCGTGGAGAAGCGCTTCCCGGACTTCGTGCGGGACTTCATGGGCGCCATGTACGGGGATCCCACCCTCTGTCCCACCTGGGCCACTGACGCTCTGGCCTCTGTGGGAATCACACTGGGCTGAC
>Seq ID NO:216
GCAAATGACAGTCACTTCACGCCAGACTCTCACAGTCCTTCACACGCCACTCCCACTGCCTCAGGGAACCACAAGCACAGGCATCGCCCCGCCCGGCGTCCTCCTCCAAAGATTGGGGCACCAGGACCGCGGGCCCCCACTCCCACCCAGCACAAAGAGTCCGGCGCTCAGAGCTAGCGGTTTCCCGAGGACTCACCACCA
>Seq ID NO:217
CTGCGTGAGTCAGCTGTGTCTGAGGAGGGGATCCTGGGCTGGGCTGGGCGGCCCTACTCGGCGGGTCAGGCGGAGGGGCGCGGCCGGGATCCCGGGGGCCCTCTTTGGAGCAGGGAACTCTAGAAGGGCGGGGAGCCCCCATCCTCTGCTCCACTCTGGGCCTCCAGGCAGAAGAATATGTTAGAAAAGAATCCAGAGTGT
無
圖1:所選結直腸癌特異性標誌物在訓練集中甲基化水平。
圖2:所選結直腸癌特異性標誌物在測試集中甲基化水平。
圖3:結直腸癌(附圖中也稱腸癌)特異性Seq ID NO:52在訓練集各個癌種中的甲基化水平。
圖4:結直腸癌特異性Seq ID NO:52在測試集各個癌種中的甲基化水平。
圖5:AllModel在訓練集和測試集中結直腸癌和其它癌種模型分值分佈。
圖6:AllModel在訓練集和測試集中的ROC曲線。
圖7:結直腸癌特異性標誌物組合1模型的分值。
圖8:結直腸癌特異性標誌物組合1模型的ROC曲線。
圖9:結直腸癌特異性標誌物組合2模型分值。
圖10:結直腸癌特異性標誌物組合2模型ROC曲線。
圖11:所選肺癌組織特異性甲基化標誌物在訓練集中甲基化水平。
圖12:所選肺癌組織特異性甲基化標誌物在測試集中甲基化水平。
圖13:肺癌組織特異性甲基化標誌物Seq ID NO:91在訓練集各個癌種中的甲基化水平。
圖14:肺癌組織特異性甲基化標誌物Seq ID NO:91在測試集各個癌種中的甲基化水平。
圖15:所有肺癌組織特異性甲基化標誌物在訓練集和測試集中肺癌和其它癌種模型分值分佈。
圖16:所有肺癌組織特異性甲基化標誌物在訓練集和測試集中的ROC曲線。
圖17:肺癌組織特異性甲基化標誌物組合1模型的分值。
圖18:肺癌組織特異性甲基化標誌物組合1模型的ROC曲線。
圖19:肺癌組織特異性甲基化標誌物組合2模型分值。
圖20:肺癌組織特異性甲基化標誌物組合2模型ROC曲線。
圖21:肝癌甲基化標誌物在訓練集中甲基化水平。
圖22:肝癌甲基化標誌物在測試集中甲基化水平。
圖23:肝癌甲基化標誌物Seq ID NO:137在訓練集各個癌種中的甲基化水平。
圖24:肝癌甲基化標誌物Seq ID NO:137在測試集各個癌種中的甲基化水平。
圖25:所有肝癌標誌物在訓練集和測試集中肝癌和其它癌種模型分值分佈。
圖26:所有肝癌甲基化標誌物在訓練集和測試集中的ROC曲線。
圖27:肝癌甲基化標誌物組合1模型分值。
圖28:肝癌甲基化標誌物組合1模型的ROC曲線。
圖29:肝癌甲基化標誌物組合2模型分值。
圖30:肝癌甲基化標誌物組合2模型ROC曲線。
圖31:所選乳腺癌甲基化標誌物在訓練集中甲基化水平。
圖32:所選乳腺癌甲基化標誌物在測試集中甲基化水平。
圖33:乳腺癌甲基化標誌物Seq ID NO:21在訓練集各個癌種中的甲基化水平。
圖34:乳腺癌甲基化標誌物Seq ID NO:21在測試集各個癌種中的甲基化水平。
圖35:所有乳腺癌甲基化標誌物在訓練集和測試集中乳腺癌和其它癌種模型分值分佈。
圖36:所有乳腺癌甲基化標誌物在訓練集和測試集中的ROC曲線。
圖37:乳腺癌甲基化標誌物組合1模型分值。
圖38:乳腺癌甲基化標誌物組合1模型的ROC曲線。
圖39:乳腺癌甲基化標誌物組合2模型分值。
圖40:乳腺癌甲基化標誌物組合2模型ROC曲線。
圖41:所選胃癌及/或食管癌組織特異性甲基化標誌物在訓練集中甲基化水平。
圖42:所選胃癌及/或食管癌組織特異性甲基化標誌物在測試集中甲基化水平。
圖43:胃癌及/或食管癌組織特異性甲基化標誌物Seq ID NO:172在訓練集各個癌種中的甲基化水平。
圖44:胃癌及/或食管癌組織特異性甲基化標誌物Seq ID NO:172在測試集各個癌種中的甲基化水平。
圖45:所有胃癌及/或食管癌組織特異性甲基化標誌物在訓練集和測試集中胃癌及/或食管癌和其它癌種模型分值分佈。
圖46:所有胃癌及/或食管癌組織特異性甲基化標誌物在訓練集和測試集中的ROC曲線。
圖47:胃癌及/或食管癌組織特異性甲基化標誌物組合1模型的分值。
圖48:胃癌及/或食管癌組織特異性甲基化標誌物組合1模型的ROC曲線。
圖49:胃癌及/或食管癌組織特異性甲基化標誌物組合2模型分值。
圖50:胃癌及/或食管癌組織特異性甲基化標誌物組合2模型ROC曲線。
圖51:胰腺癌標誌物在訓練集中甲基化水平。
圖52:胰腺癌標誌物在測試集中甲基化水平。
圖53:胰腺癌標誌物Seq ID NO:202在訓練集的各個癌種中的甲基化水平。
圖54:胰腺癌標誌物Seq ID NO:202在測試集的各個癌種中的甲基化水平。
圖55:所有胰腺癌標誌物在訓練集和測試集中胰腺癌和其它癌種模型分值分佈。
圖56:所有胰腺癌標誌物在訓練集和測試集中的ROC曲線。
圖57:胰腺癌標誌物組合1模型分值。
圖58:胰腺癌標誌物組合1模型的ROC曲線。
圖59:胰腺癌標誌物組合2模型分值。
圖60:胰腺癌標誌物組合2模型ROC曲線。
TW202403054A_112124613_SEQL.xml
Claims (84)
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分結直腸癌患者與非結直腸癌的癌症患者,(2) 用於診斷或輔助診斷結直腸癌;或者(3)用於泛癌篩查過程中對結直腸癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中結直腸癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp。
- 如請求項1所述的用途,其中所述非結直腸癌的癌症或泛癌包括肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 如請求項1或2所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90。
- 如請求項1-3中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項1-4中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分結直腸癌與其他非結直腸癌的預測模型的方法,其包括: (1)獲得結直腸癌樣品和非結直腸癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp;優選地,所述非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項6所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 52-90; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項6或7所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項6-8中任一項所述的方法,其中步驟(2)包括使用邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
- 如請求項6-9中任一項所述的方法構建的結直腸癌預測模型。
- 一種診斷結直腸癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項6-9中任一項所述的方法以構建結直腸癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是結直腸癌進行判斷。
- 一種用於檢測結直腸癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種結直腸癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述結直腸癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域包含以下基因以及該基因在其所處的染色體中的2.3kb上游區和2.3kb下游區:基因SFN;基因GPR3;基因FCGR1B;基因FAM150B;基因RGPD3;基因NUP210;基因LMOD3;基因FOXF2;基因TBXT;基因PRR15;基因ELN;基因TFPI2;基因REPIN1;基因PDLIM2;基因SDC2;基因TRAPPC9;基因TJP2;基因DIP2C;基因DDIT4;基因MRPL23;基因PAX6;基因PLXNC1;基因MLNR;基因MYO16;基因TMEM179;基因GATM;基因CACNA1H;基因NLRC5;基因SHISA6;基因KCNJ12;基因PRAC1;基因MYO15B;基因CANT1;基因SALL3;基因THOP1;基因ZBTB7A;基因DNM2;基因LGALS4;或基因WISP2;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變; 優選地,其中所述位點的長度為140bp-510bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID No. 52-90。
- 如請求項12所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項12或13所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非結直腸癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非結直腸癌的癌症是肺癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肺癌患者與非肺癌的癌症患者,(2) 用於診斷或輔助診斷肺癌;或者(3)用於泛癌篩查過程中對肺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp。
- 如請求項15所述的用途,其中所述非肺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 如請求項15或16所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135。
- 如請求項15-17中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項15-18中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分肺癌與其他非肺癌的癌症的預測模型的方法,其包括: (1)獲得肺癌樣品和非肺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp;優選地,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項20所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 24、65、76和91-135; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項20或21所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項20-22中任一項所述的方法,其中步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
- 如請求項20-23中任一項所述的方法構建的肺癌預測模型。
- 一種診斷肺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項20-23中任一項所述的方法以構建肺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肺癌進行判斷,大於閾值預測為肺癌,反之預測為其它癌種。
- 一種用於檢測肺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.2kb上游區和2.2kb下游區:基因ARHGEF16;位於基因CASZ1;基因MAP3K6;基因TRIM58;基因ARHGEF33;基因PSD4;基因HOXD4;基因SLC12A8;基因DGKG;基因TERT;基因NR2F1;基因PCDHGC5;基因KCNMB1;基因FOXC1;基因HIST1H4F;基因TYW1;基因LRRC4;基因DGKI;基因PDLIM2;基因RHOBTB2;基因TMEM75;基因OPLAH;基因NR5A1;基因SPAG6;基因WAPAL;基因BTBD16;基因DPYSL4;基因TTC40;基因ADAM8;基因SLC22A11;基因CPT1A;基因B4GALNT1;基因FBRSL1;基因XPO4;基因TFDP1;基因GCH1;基因TMEM179;基因ITPKA;基因SOX8;基因SLC9A3R2;基因SEPT-9;基因MBP;基因NFATC1;基因DNM2;基因RASAL3;基因TAF4;基因NTSR1;基因SLC17A9;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為120bp-500bp,優選200bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 24、65、76和91-135。
- 如請求項26所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項26或27所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肺癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非肺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分肝癌患者與非肝癌的癌症患者,(2) 用於診斷或輔助診斷肝癌;或者(3)用於泛癌篩查過程中對肝癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中肝癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp。
- 如請求項29所述的用途,其中所述非肝癌的癌症或泛癌包括結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 如請求項29或30所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
- 如請求項29-31中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項29-32中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分肝癌與其他非肝癌的癌症的預測模型的方法,其包括: (1)獲得肝癌樣品和非肝癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp;優選地,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項34所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項34或35所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項34-36中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
- 如請求項34-37中任一項所述的方法構建的肝癌預測模型。
- 一種診斷肝癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項34-37中任一項所述的方法以構建肝癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是肝癌進行判斷,大於閾值預測為肝癌,反之預測為其它癌種。
- 一種用於檢測肝癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種肝癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述肝癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的3kb上游區和3kb下游區:TAL1基因;TRIM58基因;LBH基因;ABCG5基因;PAX8基因;DLEC1基因;AMIGO3基因;RASSF1基因;CLDN11基因;SLC2A9基因;SLC9A3基因;CXXC5基因;FOXC1基因;HIST1H4F基因;TRIM40基因;HOXA13基因;CRHR2基因;AGPAT6基因;TCF24基因;OPLAH基因;GPAM基因;ADAM8基因;GRASP基因;B4GALNT1基因;STX2基因;ATL1基因;ITPKA基因;PIF1基因;ZFHX3基因;C1QL1基因;SEPT-9基因;KCTD1基因;PIP5K1C基因;RASAL3基因;CYP2F1基因;WISP2基因;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為100bp-550bp,優選150bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 7、18、23、29、41、90、94、104、117、120、125、128、132和136-159。
- 如請求項40所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項40或41所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非肝癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非肝癌的癌症是結直腸癌、肺癌、胃癌、食管癌、胰腺癌及/或乳腺癌。
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分乳腺癌患者與非乳腺癌的癌症患者,(2) 用於診斷或輔助診斷乳腺癌;或者(3)用於泛癌篩查過程中對乳腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中乳腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp。
- 如請求項43所述的用途,其中所述非乳腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
- 如請求項43或44所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51。
- 如請求項43-45中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項43-46中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分乳腺癌與其他非乳腺癌的癌症的預測模型的方法,其包括: (1)獲得乳腺癌樣品和非乳腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp;優選地,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項48所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 1-51; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項48或49所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項48-50中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的閾值。
- 如請求項48-51中任一項所述的方法構建的乳腺癌預測模型。
- 一種診斷乳腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項48-51中任一項所述的方法以構建乳腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是乳腺癌進行判斷。
- 一種用於檢測乳腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種乳腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述乳腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因BARHL2;基因ALX3;基因TBX15;基因C2CD4D;基因RYR2;基因LBH;SIX3;基因SIX2;基因OTX1;基因EMX1;基因LBX2;基因BCL2L11;基因PAX8;基因HOXD1;基因SATB2;基因VILL;基因CLDN11;基因EPHB3;基因NKX3-2;基因KCTD8;基因PITX1;基因CXXC5;基因FOXC1;基因NRN1;基因HOXA9;基因DLX6;基因MOS;基因TCF24;基因CA3;基因GDF6;基因FOXD4;基因PTF1A;基因TLX1;基因INA;基因NKX6-2;基因PAX6;基因BCAT1;基因FAIM2;基因GRASP;基因CCNA1;基因SIX1;基因PRKCB;基因SOX9;基因ST8SIA5;基因NFIX;基因EPS8L1;基因ZIK1;基因KAL1;基因ZNF81;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 1-51。
- 如請求項54所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項54或55所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非乳腺癌的癌症患者的前述特異性甲基化標誌物;優選地,所述非乳腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、胰腺癌及/或肺癌。
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胃癌及/或食管癌患者與除胃癌和食管癌以外的癌症患者,(2) 用於診斷或輔助診斷胃癌及/或食管癌;或者(3)用於泛癌篩查過程中對胃癌及/或食管癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胃癌及/或食管癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp。
- 如請求項57所述的用途,其中所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
- 如請求項57或58所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
- 如請求項57-59中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項57-60中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分胃癌及/或食管癌與除胃癌和食管癌以外的癌症的預測模型的方法,其包括: (1)獲得胃癌及/或食管癌樣品和除胃癌和食管癌以外的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp;優選地,所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項62所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID No. 23、72、143、150、152、157和160-187; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項62或63所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項62-64中任一項所述的方法,其中步驟(2) 包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練,並根據訓練集的樣本確定模型的相關閾值。
- 如請求項62-65中任一項所述的方法構建的胃癌及/或食管癌預測模型。
- 一種診斷胃癌及/或食管癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項62-65中任一項所述的方法以構建胃癌及/或食管癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以得到模型預測分值,使用預測分值並根據閾值對樣本是否是胃癌及/或食管癌進行判斷,大於閾值預測為胃癌及/或食管癌,反之預測為其它癌種。
- 一種用於檢測胃癌及/或食管癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胃癌及/或食管癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胃癌及/或食管癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域包含以下基因以及該基因在其所處的染色體中的2kb上游區和2kb下游區:基因TAL1;基因VAV3;基因PMF1;基因ATP2B4;基因SH3YL1;基因SLC9A3;基因CXXC5;基因PCDHGA11;基因FOXF2;基因ZNF273;基因KLRG2;基因CRB2;基因SEC16A;基因GPAM;基因ASCL2;基因PAX6;基因PTGDR2;基因PLEKHB1;基因TBX5;基因STX2;基因FBRSL1;基因ATP11A;基因BTBD6;基因CRIP2;基因ONECUT1;基因ZNF764;基因IGHV3OR16-17;基因SALL1;基因ACTG1;基因GATA6;基因KCTD1;基因CYP2F1;基因TPTE;基因CLDN5;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變; 優選地,其中所述位點的長度為150bp-500bp,優選200bp-470bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID No. 23、72、143、150、152、157和160-187。
- 如請求項68所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項68或69所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或除胃癌和食管癌以外的癌症患者的前述特異性甲基化標誌物;優選地,所述除胃癌和食管癌以外的癌症或泛癌包括肺癌、肝癌、結直腸癌、胰腺癌及/或乳腺癌。
- 一種試劑或元件在製備試劑盒或裝置中的用途,所述試劑盒或裝置用於(1) 區分胰腺癌患者與非胰腺癌的癌症患者,(2) 用於診斷或輔助診斷胰腺癌;或者(3)用於泛癌篩查過程中對胰腺癌的組織溯源,其中試劑或元件包含檢測樣品基因組DNA中胰腺癌組織特異性甲基化標誌物的甲基化水平的試劑或組件,所述甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;或基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp。
- 如請求項71所述的用途,其中所述非胰腺癌的癌症或泛癌包括結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
- 如請求項71或72所述的用途,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
- 如請求項71-73中任一項所述的用途,其中試劑或元件包含以下一種或多種檢測甲基化的方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法。
- 如請求項71-74中任一項所述的用途,其中試劑或元件包含用於檢測甲基化標誌物的引子及/或探針,及/或樣品為細胞、組織、細針穿刺活檢物及/或血漿,優選地,樣品基因組DNA是血漿中的游離DNA。
- 一種構建區分胰腺癌與其他非胰腺癌的癌症的預測模型的方法,其包括: (1)獲得胰腺癌樣品和非胰腺癌的癌症樣品的基因組DNA中甲基化標誌物的甲基化水平作為訓練集;所述甲基化標誌物選自以下區域或該區域的位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp;優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌;和 (2)使用甲基化標誌物的甲基化水平資料構建邏輯回歸的機器學習模型。
- 如請求項76所述的方法,其中所述甲基化標誌物包含以下任一項或多項所示的核苷酸序列或者其互補序列或變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217; 優選地,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,基因組DNA是血漿中的游離DNA。
- 如請求項76或77所述的方法,其中步驟(1)包括獲得樣品DNA的甲基化測序數據。
- 如請求項76-78中任一項所述的方法,其中步驟(2)包括建立邏輯回歸模型以得到模型預測分值;以及使用獲得的甲基化標誌物的甲基化水平作為訓練集進行訓練並根據訓練集的樣本確定模型的閾值。
- 如請求項76-79中任一項所述的方法構建的胰腺癌預測模型。
- 一種診斷胰腺癌的裝置,其包含記憶體和處理記憶體存儲的指令的處理器,所述指令執行如請求項76-79中任一項所述的方法以構建胰腺癌預測模型;並且使用待測樣品的基因組DNA中的甲基化標誌物的甲基化水平作為測試集以獲得模型預測分值,使用預測分值並根據閾值對樣本是否是胰腺癌進行判斷。
- 一種用於檢測胰腺癌組織特異性甲基化標誌物的試劑盒或裝置,其包含檢測來自樣品的基因組DNA中的一種或多種胰腺癌組織特異性甲基化標誌物狀態及/或水平的試劑或元件,所述胰腺癌組織特異性甲基化標誌物是以下區域或其位元點,所述區域是以下基因以及該基因在其所處的染色體中的2.5kb上游區和2.5kb下游區:基因TNFRSF14;基因PGM1;基因CELF3;基因ATP2B4;基因SF3B6;基因CNNM4;基因SP9;基因C2orf82;基因NEU4;基因RPL35A;基因HGFAC;基因EXOC3;基因GDNF;基因NEUROG1;基因HIST1H2BA;基因OSTM1;基因CCR6;基因CCAR2;基因TNFRSF10D;基因TJP2;基因DAB2IP;基因NTMT1;基因MKI67;基因PTGDR2;基因CCDC77;基因MYL2;基因FRY;基因SMEK1;基因BTBD6;基因PIF1;基因SRL;基因SPNS1;基因DNM2;基因ZNF569;基因SDF2L1;或任一種基因的互補序列或變體,只要變體中的甲基化位點未發生突變;優選地,其中所述位點的長度為130bp-530bp,優選150bp-480bp; 優選地,其中所述甲基化標誌物包含以下中任一項或多項所示的核苷酸序列或其互補序列或者變體序列:SEQ ID NO: 68、88、154、163、172、177和188-217。
- 如請求項82所述的試劑盒或裝置,其中樣品為細胞、組織、細針穿刺活檢物或血漿,優選地,其中核酸是血漿中的游離DNA。
- 如請求項82或83所述的試劑盒或裝置,其中試劑或元件包含以下一種或多種方法中使用的試劑或元件:基於重亞硫酸鹽轉化的PCR、DNA測序、甲基化敏感的限制性內切酶分析法、螢光定量法、甲基化敏感性高解析度熔解曲線法和基於晶片的甲基化圖譜分析和質譜法; 優選地,所述試劑包含用於檢測甲基化標誌物的寡核苷酸,優選地,寡核苷酸是引子及/或探針; 優選地,所述引子是利用甲基化測序法檢測位點的甲基化水平/狀態的引子或用於擴增一個或多個甲基化位點的PCR引子; 優選地,所述試劑包含重亞硫酸鹽及其衍生物、PCR緩衝液、聚合酶、dNTP、引子、探針、甲基化敏感或不敏感的限制性內切酶、酶切緩衝液、螢光染料、螢光淬滅劑、螢光報告劑、外切核酸酶、鹼性磷酸酶、內標及/或對照物,所述對照物是來自正常受試者或非胰腺癌的癌症患者的特異性甲基化標誌物;優選地,所述非胰腺癌的癌症是結直腸癌、肝癌、胃癌、食管癌、乳腺癌及/或肺癌。
Applications Claiming Priority (12)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210787313.0A CN117344012A (zh) | 2022-07-04 | 2022-07-04 | 胃癌和/或食管癌特异性甲基化标志物及其应用 |
CN2022107874129 | 2022-07-04 | ||
CN2022107873130 | 2022-07-04 | ||
CN2022107875028 | 2022-07-04 | ||
CN202210787502.8A CN117385028A (zh) | 2022-07-04 | 2022-07-04 | 结直肠癌特异性甲基化标志物及其应用 |
CN2022107876232 | 2022-07-04 | ||
CN202210787412.9A CN117385027A (zh) | 2022-07-04 | 2022-07-04 | 肺癌特异性甲基化标志物及其诊断肺癌的应用 |
CN2022107874256 | 2022-07-04 | ||
CN202210787623.2A CN118127150A (zh) | 2022-07-04 | 2022-07-04 | 胰腺癌特异性甲基化标志物及其诊断胰腺癌的应用 |
CN202210786398.0A CN117385026A (zh) | 2022-07-04 | 2022-07-04 | 乳腺癌特异性甲基化标志物及其诊断乳腺癌的应用 |
CN202210787425.6A CN117363728A (zh) | 2022-07-04 | 2022-07-04 | 肝癌组织特异性甲基化标志物及其诊断肝癌的应用 |
CN2022107863980 | 2022-07-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202403054A true TW202403054A (zh) | 2024-01-16 |
Family
ID=89454391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112124613A TW202403054A (zh) | 2022-07-04 | 2023-06-30 | 癌症特異性甲基化標誌物及其應用 |
Country Status (2)
Country | Link |
---|---|
TW (1) | TW202403054A (zh) |
WO (1) | WO2024008040A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070141582A1 (en) * | 2005-12-15 | 2007-06-21 | Weiwei Li | Method and kit for detection of early cancer or pre-cancer using blood and body fluids |
KR101142131B1 (ko) * | 2009-11-05 | 2012-05-11 | (주)지노믹트리 | 장암 진단을 위한 장암 특이적 메틸화 마커 유전자의 메틸화 검출방법 |
WO2016170348A2 (en) * | 2015-04-22 | 2016-10-27 | Mina Therapeutics Limited | Sarna compositions and methods of use |
US11851711B2 (en) * | 2017-09-29 | 2023-12-26 | Arizona Board Of Regents On Behalf Of The University Of Arizona | DNA methylation biomarkers for cancer diagnosing |
CN114507731B (zh) * | 2020-11-16 | 2024-06-04 | 腾辰生物科技(上海)有限公司 | 一种用于辅助癌症诊断的甲基化标志物及试剂盒 |
CN112779334B (zh) * | 2021-02-01 | 2022-05-27 | 杭州医学院 | 一种用于前列腺癌早期筛查的甲基化标志物组合及筛选方法 |
CN114317736B (zh) * | 2021-08-19 | 2022-09-13 | 广州市基准医疗有限责任公司 | 用于泛癌种检测的甲基化标志物组合及其应用 |
-
2023
- 2023-06-30 TW TW112124613A patent/TW202403054A/zh unknown
- 2023-07-03 WO PCT/CN2023/105537 patent/WO2024008040A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024008040A1 (zh) | 2024-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108866192B (zh) | 基于甲基化修饰的肿瘤标记物stamp-ep1 | |
US20190136330A1 (en) | Method for screening cancer | |
CN114317738B (zh) | 用于检测胃癌淋巴结节转移相关的甲基化生物标记物或其组合及应用 | |
WO2012047899A2 (en) | Novel dna hypermethylation diagnostic biomarkers for colorectal cancer | |
CN108866191B (zh) | 基于甲基化修饰的肿瘤标记物stamp-ep2 | |
WO2022161076A1 (zh) | 用于肺结节良恶性检测的甲基化标记物或其组合及应用 | |
WO2023142630A1 (zh) | 一种用于膀胱尿路上皮癌诊断的检测方法和试剂盒 | |
CN115516110A (zh) | 结直肠癌dna甲基化的检测方法及试剂 | |
WO2023226939A1 (zh) | 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用 | |
JP2023513039A (ja) | 特定の遺伝子のCpGメチル化の変化を利用した膀胱癌診断用組成物およびその使用 | |
WO2012167112A2 (en) | Gastric cancer biomarkers | |
CN101457254B (zh) | 用于肝癌预后的基因芯片和试剂盒 | |
WO2022262831A1 (zh) | 用于评估肿瘤的物质及其方法 | |
CN113999901B (zh) | 心肌特异性甲基化标记物 | |
WO2024008040A1 (zh) | 癌症特异性甲基化标志物及其应用 | |
WO2020221314A1 (zh) | 基于甲基化修饰的肿瘤标记物stamp-ep7及其应用 | |
CN104531866B (zh) | 用于结肠直肠癌中使用的生物标志物 | |
CN115772566B (zh) | 用于辅助检测肺癌体细胞erbb2基因突变的甲基化生物标记物及其应用 | |
CN118127150A (zh) | 胰腺癌特异性甲基化标志物及其诊断胰腺癌的应用 | |
WO2022188776A1 (zh) | 可用于胃癌her2伴随诊断的基因甲基化标记物或其组合和应用 | |
CN117344012A (zh) | 胃癌和/或食管癌特异性甲基化标志物及其应用 | |
CN117385026A (zh) | 乳腺癌特异性甲基化标志物及其诊断乳腺癌的应用 | |
TWI753455B (zh) | 用以評估個體罹患胃癌或癌前病變之風險的方法、其套組、其分析器及其生物標誌 | |
CN117385027A (zh) | 肺癌特异性甲基化标志物及其诊断肺癌的应用 | |
CN117385028A (zh) | 结直肠癌特异性甲基化标志物及其应用 |