WO2019103421A2 - 유전자의 cpg 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법 - Google Patents

유전자의 cpg 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법 Download PDF

Info

Publication number
WO2019103421A2
WO2019103421A2 PCT/KR2018/014207 KR2018014207W WO2019103421A2 WO 2019103421 A2 WO2019103421 A2 WO 2019103421A2 KR 2018014207 W KR2018014207 W KR 2018014207W WO 2019103421 A2 WO2019103421 A2 WO 2019103421A2
Authority
WO
WIPO (PCT)
Prior art keywords
chromosome
sequence
seq
cpg site
methylation
Prior art date
Application number
PCT/KR2018/014207
Other languages
English (en)
French (fr)
Other versions
WO2019103421A3 (ko
Inventor
김영준
김다원
최원영
이정우
정민혁
하정실
김지원
이연수
황정아
김태유
임유주
Original Assignee
연세대학교 산학협력단
서울대학교병원
세종대학교 산학협력단
국립암센터
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020180137644A external-priority patent/KR102052089B1/ko
Application filed by 연세대학교 산학협력단, 서울대학교병원, 세종대학교 산학협력단, 국립암센터 filed Critical 연세대학교 산학협력단
Priority to EP22196985.0A priority Critical patent/EP4180540A1/en
Priority to JP2020546257A priority patent/JP7306723B2/ja
Priority to CN201880075735.7A priority patent/CN111386352B/zh
Priority to US16/766,504 priority patent/US20210147943A1/en
Priority to SG11202004795RA priority patent/SG11202004795RA/en
Priority to EP18881098.0A priority patent/EP3715474A4/en
Publication of WO2019103421A2 publication Critical patent/WO2019103421A2/ko
Publication of WO2019103421A3 publication Critical patent/WO2019103421A3/ko
Priority to US17/728,240 priority patent/US20220259676A1/en
Priority to JP2022129672A priority patent/JP7452894B2/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer

Definitions

  • the present invention relates to a method for assessing the risk of liver cancer by measuring the degree of methylation of a specific gene CpG region.
  • Cancer is a disease in which the cell cycle is not regulated and continues cell division. It grows rapidly as it infiltrates the surrounding tissues and spreads or transits to each part of the body, threatening life.
  • liver cancer Cancer of the liver is called liver cancer, and liver cancer is one of the highest incidence cancer in the world.
  • liver cancer mortality rate is very high at 23 per 100,000 population, and about 10% of the total mortality rate of Koreans is related to hepatitis, liver cirrhosis and liver cancer.
  • Liver cancer can be classified into hepatocellular carcinoma (HCC) with metastatic liver metastasis to cancer of other tissues and hepatocellular carcinoma originating from hepatocellular carcinoma.
  • HCC hepatocellular carcinoma
  • primary liver cancer accounts for 90% of liver cancer, most liver cancer Means primary liver cancer (HCC).
  • Liver cancer is an imaging method such as ultrasound, computed tomography (CT), magnetic resonance imaging (MRI), and hepatic angiography.
  • CT computed tomography
  • MRI magnetic resonance imaging
  • Ultrasonography is sensitive to sensitivity of liver cancer size and is used as a primary imaging method to detect liver cancer.
  • Computed tomography is the most sensitive test, with nearly 100% sensitivity for 2 cm or more, 93% for 1-2 cm, and 60% for less than 1 cm of liver cancer (Gomaa et al., World J Gastro., 15: 1301, 2009).
  • the size of the tumor at the time of diagnosis is prognosis.
  • early detection of liver cancer is needed. Therefore, it is urgently required to develop a diagnostic technique capable of detecting liver cancer early with high sensitivity.
  • Epigenetics is the study of the regulation of the expression of genes that occur in the absence of changes in the DNA sequence. Epigenetics studies the regulation of gene expression through posterior mutations such as DNA methylation, miRNA or histone acetylation, methylation, phosphorylation and ubiquitination.
  • Double DNA methylation is the most studied post-sexual variation. Post sexual variation can lead to gene function mutations and changes to tumor cells. Thus, DNA methylation is associated with the expression (or inhibition and induction) of intracellular disease-regulating genes, and recent methods for diagnosing cancer through DNA methylation measurement have been proposed.
  • DNA methylation occurs mainly in the cytosine of the CpG island of the promoter region of a specific gene, thereby interfering with the binding of the transcription factor, thereby causing gene silencing of the expression of a specific gene. It is the major mechanism by which the function of the gene is lost without mutation in the coding sequence.
  • DNA methylation of untranslated regions such as enhancers and regulatory regions is also known to act as a mechanism of causation of various diseases, with chromosomal structural changes and histone modification.
  • Such abnormal methylation / demethylation in CpG islands has been reported in various diseases, including cancer, and attempts have been made to investigate the promoter methylation of disease related genes and to use them in the diagnosis of various diseases.
  • the present inventors screened the methylation sites of genes involved in the pathogenesis of hepatocellular carcinoma and provided a method for diagnosing the risk or prognosis of hepatocellular carcinoma through experiments for verifying the methylation sites.
  • the present invention has been made to solve the above problems of the prior art, and it is an object of the present invention to provide a method for detecting early onset of liver cancer using a specific probe showing low methylation in normal tissue or blood, To determine the level of methylation of the sample, thereby providing a method for diagnosing the risk or prognosis of liver cancer.
  • a method of detecting a biological sample comprising the steps of: (a) providing DNA in a biological sample of a subject; And (b) the 25438725 to 25439276 sequence of chromosome # 2, the 95941906 to 95942979 sequence of chromosome # 12, the 134597357 to 134602649 sequence of chromosome # 10, the 144649774 to 144651774 sequence of chromosome # 8, # 1, sequences # 47998899 to 47999517 # of chromosome # 2, sequences # 104510870 to 104513913 # of 26394102 to 26396102th order chromosome # 8 of chromosome # 8, 98289604 to 98290404th sequence of chromosome # 8, sequences 63281034 to 63281347 of chromosome # 8, 6787,3388 to 67,875,600 < th > sequence of chromosome # 4, 7655
  • the method can measure two or more CpG site methylation levels.
  • the 25438725 to 25439276 sequence of the chromosome # 2 has the nucleotide sequence of SEQ ID NO: 1
  • the 95941906 to 95942979 sequence of the chromosome # 12 has the nucleotide sequence of SEQ ID NO: 2
  • the sequence number 134597357 to 134602649 of SEQ ID NO: 3 has the base sequence
  • the 144649774 to 144651774th sequence of chromosome # 8 has the base sequence of SEQ ID NO: 4
  • the 47998899 to 47999517th sequence of chromosome # 1 has the sequence of SEQ ID NO:
  • the 26394102 to 26396102 sequence of the chromosome # 2 has the nucleotide sequence of SEQ ID NO: 6
  • the 104510870 to 104513913 sequence of the chromosome # 8 has the nucleotide sequence of SEQ ID NO: 7, the chromosome # 8 Of SEQ ID NO: 8, and the 63281034 to 6
  • the CpG region of the 25438725 to 25439276th sequence of chromosome # 2 is located at 25439110 of chromosome # 2
  • the CpG region of 95941906 to 95942979 of the chromosome # 12 is located at 95941988 of chromosome # 12
  • the CpG site of the 134597357 to 134602649-th sequence of chromosome # 10 is located at 134599823-th position of chromosome # 10
  • the CpG site of 144649774 to 144651774-th sequence of chromosome # 8 is located at 144651002-th position of chromosome # 8
  • the CpG site of sequence # 47998899 to 47999517 # of # 1 is located at 47999163 of chromosome # 1
  • the CpG site of 26394102 to 26396102 sequence of chromosome # 2 is located at 26395458 of chromosome # 2
  • the biological sample may be one selected from the group consisting of a suspected patient of liver cancer or a tissue, cell, blood, plasma, feces and urine derived from a subject to be diagnosed.
  • step (b) comprises the steps of: PCR, methylation specific PCR, real time methylation specific PCR, MethyLight PCR, MehtyLight digital PCR, EpiTYPER, methylated DNA- PCR, quantitative PCR, DNA chip, pyrosequencing, and bisulfite sequencing.
  • the method may further comprise (c) comparing the level of metallization with a level of methylation of a normal control.
  • a method for screening for a disease comprising the steps of: 25438725 to 25439276 sequence of chromosome # 2, 95941906 to 95942979 sequence of chromosome # 12, 134597357 to 134602649 sequence of chromosome # 10, 144649774 to 144649774 to 144651774 sequence of chromosome # The 499998899 to 47999517th sequence of chromosome # 1, the 104510870 to 104513913th sequence of 26394102 to 26396102th sequence chromosome # 8 of chromosome # 2, the 98289604 to 98290404th sequence of chromosome # 8, the 63281034 to 63281347 sequence of chromosome # 2, # 768782394 to 63790471 sequence of chromosome # 1, 7849945 to 7850439 sequence of chromosome # 5, 39186777 to 39187968 sequence of chromosome # 2, A liver cancer incidence
  • the diagnostic kit may comprise two or more probes that bind to the CpG site.
  • FIG. 1 is a schematic diagram of a diagnostic marker selection pipeline of the present invention.
  • FIG. 2 is a graph showing the distribution of patients with liver cancer before (left) and after (right) standardization of DNA methylation data according to an embodiment of the present invention.
  • Figure 3 is a heat map of DMPs (Differentially methylated probes) that are hypermethylated and normalized in normal human subjects in patients with liver cancer according to one embodiment of the present invention.
  • DMPs Differently methylated probes
  • FIG. 4 is a heat map showing the degree of methylation in a liver cancer sample, a liver normal sample, and a blood sample for a probe selected through a heat map. Red color indicates methylation.
  • FIG. 5 shows results of selecting diagnostic markers according to an embodiment of the present invention selected through machine learning.
  • FIG. 6 is a heat map showing the degree of methylation of a diagnostic marker according to an embodiment of the present invention selected through machine learning from liver cancer samples, liver normal samples, and blood samples.
  • FIG. 7 is a result of evaluating the diagnostic efficiency of liver cancer in a single probe according to an embodiment of the present invention.
  • the diagnostic efficiency of liver cancer in each probe was expressed as AUC.
  • FIG. 8 is a result of evaluating liver cancer diagnostic efficiency of a single probe according to an embodiment of the present invention in liver cancer data of the TCGA (The Cancer Genome Atlas) which is a public DB.
  • the diagnostic efficiency of liver cancer in each probe was expressed as AUC.
  • FIG. 9 is a result of checking the diagnostic efficiency according to the combination of the probes (15 kinds) according to an embodiment of the present invention.
  • FIG. 10 is a heat map showing the degree of methylation of the probes selected according to one embodiment of the present invention through pyrosequencing.
  • the X-axis represents the independent cohort of 196 liver cancer and corresponding liver normal samples, and the Y-axis represents the probe (yellow box) and the CpG site near the probe.
  • FIG. 11 is a heat map showing the degree of methylation of a probe selected according to an embodiment of the present invention through an EpiTYPER experiment.
  • the X axis represents 184 independent liver cohorts of liver cancer and corresponding liver normal samples, and the Y axis represents the probe (yellow box) and the CpG site near the probe.
  • &quot When an element is referred to as " comprising ", it means that it can include other elements, not excluding other elements unless specifically stated otherwise.
  • nucleic acids are written from left to right, 5 'to 3', amino acid sequences from left to right, amino to carboxyl.
  • a method of assessing the prognosis or risk of a liver cancer comprising measuring the methylation level of one or more CpG regions.
  • the subject may be a human subject to be diagnosed, and the biological sample is a sample separated from the subject to be evaluated for the risk of a liver cancer-related disease.
  • the biological sample may be a tissue, a cell, a blood, a plasma, a peritoneal fluid, , Urine, feces, and the like.
  • the biological sample may be blood, and specifically may be plasma separated from blood.
  • the methylation level of the CpG region can be individually analyzed to diagnose the prognosis or risk of liver cancer.
  • two or more, three or more, or four or more CpG regions are analyzed simultaneously, Can be improved.
  • " methylation " means that a methyl group is attached to a base constituting DNA.
  • the methylation status means whether methylation occurs in the cytosine of a specific CpG site of a specific gene.
  • methylated state means the presence or absence of 5-methyl-cytosine of one or more CpG dinucleotides in the DNA base sequence.
  • methylation level refers to the amount of methylation present in the DNA sequence of the target DNA methylation gene in all genomic regions and some non-genomic regions, for example.
  • the level of methylation can be determined by PCR, methylation specific PCR, real time methylation specific PCR, MethyLight PCR, MehtyLight digital PCR, EpiTYPER, PCR using methylated DNA specific binding protein, quantitative PCR, DNA But is not limited to, one of the methods selected from the group consisting of chip, pyrosequencing and bisulfite sequencing.
  • the degree of methylation can be identified by a microarray.
  • the microarray can use a probe immobilized on a solid-phase surface.
  • the probe may comprise a sequence complementary to 10 to 100 contiguous nucleotide sequences on each gene comprising the SNP.
  • the CpG site refers to the CpG site present on the DNA of the gene.
  • the DNA of the gene includes a promoter region, an open reading frame (ORF), and a terminator region, all of which are necessary for expression and include a series of constituent units operatively linked to each other.
  • the CpG region of the gene may be present in the promoter region, the protein coding region (ORF), or the terminator region of the gene.
  • a preferred example may be a CpG site present in the promoter region of the gene.
  • the CpG site includes the 25438725 to 25439276 sequence of chromosome # 2, the 95941906 to 95942979 sequence of chromosome # 12, the 134597357 to 134602649 sequence of chromosome # 10, the 144649774 to 144651774 sequence of chromosome # 8, 4799951717th sequence of chromosome # 2, the 104510870 to 104513913th sequence of 26394102 to 26396102th sequence chromosome # 8 of chromosome # 2, the 98289604 to 98290404th sequence of chromosome # 8, the 63281034 to 63281347th sequence of chromosome # 2 67873388 to 67875600 of chromosome #
  • the sequence of 76555366 to 76556079th sequence of chromosome # 4 the sequence of 63782394 to 63790471 of chromosome # 1, the sequence of 7849945 to 7850439 of chromosome # 5, the sequence
  • the 25438725 to 25439276 sequence of the chromosome # 2 has the nucleotide sequence of SEQ ID NO: 1, the 95941906 to 95942979 sequence of the chromosome # 12 has the nucleotide sequence of SEQ ID NO: 2, the 134597357 to 134602649 Wherein the 144649774 to 144651774th sequence of chromosome # 8 has the nucleotide sequence of SEQ ID NO: 3, the 47998899 to 47999517th sequence of chromosome # 1 has the nucleotide sequence of SEQ ID NO: 5, The 26394102 to 26396102 sequence of the chromosome # 2 has the nucleotide sequence of SEQ ID NO: 6, the 104510870 to 104513913 sequence of the chromosome # 8 has the nucleotide sequence of SEQ ID NO: 7, and the 98289604 to 98290404 sequence 8 has the nucleotide sequence of SEQ ID NO: 8, the 63281034 to
  • the CpG site of the 25438725 to 25439276th sequence of the chromosome # 2 is located at 25439110 of the chromosome # 2
  • the CpG site of the 95941906 to 95942979th sequence of the chromosome # 12 is located at the 95941988th position of the chromosome # 12
  • the CpG site of the 134597357 to 134602649 sequence is located at 134599823 of chromosome # 10
  • the CpG site of 144649774 to 144651774 of the chromosome # 8 is located at 144651002 of chromosome # 8, the 47998899 to 47999517
  • the CpG site of chromosome # 2 is located at position 47999163 of chromosome # 1
  • the CpG site of 26394102 to 26396102 position of chromosome # 2 is located at 26395458 of chromosome # 2
  • a chromosome # 2 comprising the 25438725 to 25439276 sequence of chromosome # 2, the 95941906 to 95942979 sequence of chromosome # 12, the 134597357 to 134602649 sequence of chromosome # 10, the 144649774 to 144651774 sequence of chromosome # 1 of SEQ ID NO: 1, sequence numbers 26994102 to 26396102 of chromosome # 2, sequences 104510870 to 10451391313 of chromosome # 8, sequences 98289604 to 98290404 of chromosome # 8, sequences 63281034 to 63281347 of chromosome # 2, The 767,55366 to 76556079 sequence of chromosome # 4, the 63782394 to 63790471 sequence of chromosome # 1, the 7849945 to 7850439 sequence of chromosome # 5, the 39186777 to 39187968 sequence of chromosome # 2, 14
  • the probe may be used as a hybridizable array element and immobilized on a substrate.
  • the gas may comprise any suitable solid or semi-rigid support, such as a membrane, filter, chip, slide, wafer, fiber, magnetic bead or non-magnetic bead, gel, tubing, plate, polymer, microparticle and capillary have.
  • the hybridization array elements can be arranged and immobilized on the substrate.
  • the immobilization can be carried out by a chemical bonding method or a covalent bonding method such as UV.
  • the hybridization array element may be bonded to a glass surface modified to include an epoxy compound or an aldehyde group, and may be bound by UV at a polylysine coating surface.
  • the hybridization array element may be coupled to the gas through a linker (e.g., ethylene glycol oligomer and diamine).
  • the sample DNA applied to the microarray can be labeled and hybridized with the array elements on the microarray.
  • Hybridization conditions can be varied, and detection and analysis of hybridization degree can be variously performed depending on the labeling substance.
  • the label of the probe may provide a signal for detecting hybridization and may be linked to an oligonucleotide.
  • the label may be a fluorescent moiety (e.g., fluorescein, phycoerythrin, rhodamine, lissamine, and Cy3 and Cy5 (Pharmacia)), chromophore, chemiluminescent moiety, (Such as P32 and S35), mass labels, electron dense particles, enzymes (alkaline phosphatase or horseradish peroxidase), joins, substrates for enzymes, heavy metals such as gold and antibodies, streptavidin, biotin But are not limited to, hapten having specific binding partners such as digoxigenin and chelating groups.
  • fluorescent moiety e.g., fluorescein, phycoerythrin, rhodamine, lissamine, and Cy3 and Cy5 (Pharmacia)
  • chromophore e.g., chromophore, chemiluminescent moiety, (Such as P32 and S35), mass labels, electron dense particles
  • the label may be prepared by a variety of methods routinely practiced in the art, such as the nick translation method, the Multiprime DNA labeling systems booklet (" Amersham “ (1989)) and the kaination method (Maxam & Gilbert, Methodsin Enzymology, 65: 499 (1986)).
  • the label can provide a signal that can be detected by fluorescence, radioactivity, colorimetry, gravimetry, X-ray diffraction or absorption, magnetism, enzymatic activity, mass analysis, binding affinity, hybridization high frequency, nanocrystals .
  • the nucleic acid sample to be analyzed can be prepared using mRNA obtained from various biosamples.
  • the cDNA to be analyzed may be labeled instead of the probe, and a hybridization reaction-based analysis may be performed.
  • the probe When the probe is used, the probe can be hybridized with a cDNA molecule.
  • the appropriate hybridization conditions can be determined by a series of procedures by an optimization procedure. The above procedure can be carried out by a person skilled in the art in a series of procedures to establish a protocol for use in a laboratory.
  • Conditions such as temperature, concentration of components, hybridization and washing time, buffer components and their pH and ionic strength depend on various factors such as probe length and GC amount and target nucleotide sequence.
  • the detailed conditions for the hybridization are described in Joseph Sambrook, et al., Molecular Cloning, A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. (2001); And M.L.M. Anderson, Nucleic Acid Hybridization, Springer-Verlag New York Inc .; N. Y. (1999).
  • the hybridization signal generated through the hybridization reaction can be detected.
  • the probe is labeled with an enzyme
  • the substrate of the enzyme may be reacted with the result of the hybridization reaction to confirm hybridization.
  • the enzymes and substrates may be selected from the group consisting of peroxidases (such as horseradish peroxidase) and chloronaphthol, aminoethylcarbazole, diaminobenzidine, D-luciferin, lucigenin (bis-N-methyl acridinium nitrate) Benzyl ether, luminol, amplex red reagent (10-acetyl-3,7-dihydroxy phenoxazine), HYR (p-phenylenediamine-HCl and pyrocatechol), TMB (tetramethylbenzidine), ABTS (2,2'- di [3-ethylbenzthiazoline sulfonate]), o-phenylenediamine (OPD) and naphthol / pyronine; (BCIP), nitroblue tetrazolium (NBT), naphthol-AS-B1-phosphate, and ECF substrate; alkaline phosphatase and brom
  • the probe When the probe is labeled with gold particles, it may be detected by a silver staining method using silver nitrate.
  • the method for evaluating the prognosis or risk of the above-described liver cancer can evaluate the possibility of diagnosis of liver cancer through various statistical processing methods.
  • a statistical processing method a machine learning method is used in one embodiment, and Maxwell W. Libbrecht, 2015, Nature Reviews Genetics 16: 321-332 can be referred to.
  • Machine learning is a field of artificial intelligence and has evolved from the study of pattern recognition and computer learning theory.
  • Machine learning is a technology that studies and builds a system and algorithms for learning, predicting, and improving its performance based on empirical data.
  • Machine learning algorithms are not a rigid set of static program instructions, but rather a method of constructing a specific model to derive predictions or decisions based on input data.
  • Liver cancer samples were obtained from 184 patients with hepatocellular carcinoma in Seoul National University Hospital to screen DNA methylation sites associated with liver cancer. Normal tissue corresponding to liver cancer tissue was used as a normal control group.
  • Genomic DNA was extracted from each sample using a column-based DNA extraction method (PureLink TM Genomic DNA Mini Kit, Invitrogen) and a Bead-type DNA extraction method (MagListo TM 5M Genomic DNA Extraction Kit, Bioneer). The extracted genomic DNA was quantified using nanodrop and the DNA state was confirmed by electrophoresis on 1.5% agarose gel.
  • cytosine at the 5'-CpG-3 'site in the DNA sequence is retained as it is, but when it is unmethylated, it is converted to uracil to measure the degree of methylation .
  • genomic DNA was treated with bisulfite to distinguish methylated cytosine from unmethylated cytosine.
  • 700 ng of genomic DNA was treated with EZ DNA Methylation Kit (Zymoresearch Inc.) according to the manufacturer's manual.
  • the bisulfite-treated DNA was dissolved in M-Elution Buffer and stored at -80 ° C until use.
  • the bisulfite-treated DNA was used within one month.
  • a DNA methylation microarray was performed using Infinium (Human Methylation 850K BeadChip).
  • the BeadChip was scanned using an Illumina iScan scanner.
  • the quality of the data was controlled according to the manual of the package using the minfi package.
  • the ⁇ value which is the numerical value of the idat file of the raw data in which the degree of methylation is indicated in color, was calculated.
  • the degree of DNA methylation is expressed as a value of 0 to 1, and a value of 0 means that the corresponding CpG site is completely unmethylated, and 1 means completely methylated.
  • the calculated results were normalized and corrected. All statistics were performed in the R statistical environment (v.3.3.2 and above) (Fig. 1).
  • DNA extraction was performed on 182 hepatocarcinomes and corresponding hepatic normal samples, and an Infinium Methylation EPIC BeadChip was performed.
  • Methylation data was analyzed with the pipeline constructed by the company itself. A probe with a low methylation level and a high methylation level in tumor was selected.
  • DMP showing the difference in methylation between normal and cancer samples was selected.
  • the top 9 probes were selected that efficiently distinguish between liver cancer / hepatic normal samples by selecting a probe with a methylation ⁇ 10% very low, an average of 30% above the average in liver cancer patients, and machine learning 1, brown).
  • DNA methylation of 182 liver cancer samples and 127 normal samples was screened for 100,053 DMPs (differentially methylated probes) methylated more than 30% in 5% or more liver cancer samples.
  • a total of 13,078 probes with methylation less than 10% in the normal sample were selected to allow blood biopsy in DMP showing differences between normal / cancer samples.
  • a heat map was obtained by confirming the methylation value of each of the seven selected probes (FIG. 3).
  • the methylation level was very low and the probe was selected on average at least 30% higher in liver cancer patients.
  • the probe was used to conduct machine learning to select the top nine probes that effectively distinguish liver cancer / liver normal samples.
  • the blue circle represents one probe, and the top nine probes are selected in order of importance (x, y axis).
  • the X-axis represents the accuracy of each probe in the model constructed by machine learning
  • the Y-axis represents the purity of each probe in the model constructed by machine learning.
  • the methylation level of the nine probes selected by machine learning was calculated from the methylation values of 200 whole blood, 125 normal samples and 180 liver samples (FIG. 5).
  • liver cancer The diagnostic efficiency of liver cancer in 15 selected probes was evaluated (Fig. 6).
  • FIG. 6 shows the results of AUC of liver cancer detection efficiency for each probe.
  • AUC area under the curve
  • FIG. 7 the efficiency of diagnosis of liver cancer by a single probe in the public DB was verified.
  • Table 4 shows the results of verifying the efficiency of a single probe using TCGA LIHC methylation data (450 K).
  • the area marked with a gray (-) signifies a probe that is not present on the Infinium Methylation 450K BeadChip but only on the Infinium Methylation EPIC BeadChip (850K).
  • Fig. 8 is a confusion matrix result of training data and verification data obtained through machine learning with 15 probes (second cross-validation).
  • a second cross validation method which is divided randomly into two, was conducted 10 times and classified into a testing set and a training set.
  • the liver cancer specific diagnosis model was constructed accordingly.
  • Table 5 below shows the error matrix of the training set.
  • the test set was diagnosed and the liver cancer diagnosis efficiency was confirmed (Table 6).
  • the efficiency of each probe was measured to find the minimum number of probes having the maximum efficiency among 15 probes (FIG. 9).
  • Fig. 9 is a result obtained by advancing the machine learning for possible probe combinations (second-order cross-validation).
  • the X axis represents the number of probes, and the Y axis represents AUC (diagnostic efficiency).
  • the diagnostic efficiency converges to 99% or more, so that highly accurate diagnostic information can be provided.
  • the accuracy of diagnosis can be significantly improved when using a plurality of probes compared to when using a single probe.
  • Pyrosequencing was performed to determine the degree of methylation of the CpG site to which the probe was bound among the selected probes.
  • Pyrosequencing uses pyrophosphate (PPi) released from the nucleotide addition. PPi is converted to ATP in the presence of adenosine 5 'phosphodiesulfonate by ATP sulfurylase.
  • PPi pyrophosphate
  • Luciferase uses ATP to convert luciferin to oxyl luciferin, which produces light that can be detected and analyzed.
  • the degree of methylation of the CpG site of the selected probe was shown in a heat map (FIG. 10).
  • the level of methylation was low in normal and the level of methylation was high in tumor. It was confirmed that the degree of methylation of the CpG site in the selected probe was similar to that of the selected probe.
  • the methylation status of the top three probes among the probes was quantitatively analyzed using the EpiTYPER TM assay (Sequenom, San Diego, Calif.).
  • the amplicons transferred in vitro were treated with shrimp alkaline phosphatase, cleaved with RNaseA, and then subjected to MALDI-TOF Mass Spectrometry to determine the methylation state.
  • the level of methylation of whole CpG islands can be equally used to diagnose cancer prognosis and risk

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biophysics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 정상 및 혈액 조직에서 낮은 메틸화 수준을 보이나 암 조직에서만 높은 메틸화 수준을 보이는 하나 이상의 CpG 부위의 메틸화 수준을 측정하여 정상 조직이 섞여 있는 임상 검체를 이용하여 간암의 예후 또는 위험도를 평가하는 방법에 관한 것이다.

Description

유전자의 CPG 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법
본 발명은 특정 유전자 CpG 부위의 메틸화 정도를 측정하여 간암 관련 위험도를 평가하는 방법에 관한 것이다.
암은 세포주기가 조절되지 않아 세포분열을 계속 하는 질병으로, 주위 조직에 침윤하면서 빠르게 성장하고 신체 각 부위에 확산되거나 전이되어 생명을 위협한다.
간에 생긴 암을 간암이라고 하며, 간암은 세계적으로 발병률이 높은 암 가운데 하나이다. 한국에서 간암 사망률은 인구 10만 명당 23명으로 매우 높은 편이며, 한국인의 총 사망률의 약 10%는 간염, 간경화 및 간암과 관계되어 있다.
다른 조직의 암이 간으로 전이되는 전이성 간암과 간세포 자체에서 암이 발생하는 원발성 간암(HCC; hepatocellular carcinoma)으로 간암을 분류할 수 있으나, 원발성 간암이 간암의 90%를 차지하기 때문에 대부분의 간암은 원발성 간암(HCC)을 의미한다.
간암은 초음파검사(ultrasound), 전산화단층촬영(CT), 자기공명촬영(MRI) 및 간동맥조영촬영(Angiography) 등의 영상 진단 방법이 있다. 초음파 검사는 간암의 크기에 따라 민감도에 많은 영향을 받으며, 간암 발생을 알아보는 일차 영상검사 방법으로 이용되고 있다.
5 cm 이상의 큰 간암 조직의 경우 75% 이상의 민감도를 보이는 반면, 1 cm 미만의 작은 간암의 경우 약 42%의 민감도를 보인다(Gomaa et al., World J Gastro., 15:1301, 2009).
전산화단층촬영(CT)은 가장 민감도가 높은 검사로 검사로 2 cm 이상의 간암의 경우 거의 100%, 1-2 cm의 경우 93%, 그리고 1 cm 이하의 간암도 60% 가까운 민감도로 진단할 수 있다(Gomaa et al., World J Gastro., 15:1301, 2009).
하지만 이러한 검사는 비용이 비교적 비싸므로 일반 대중에서 일상적인 스크리닝 검사로 사용하기에는 부담이 되는 검사법이다.
간암의 경우 진단 당시의 종양의 크기가 예후와 있으며, 환자의 생존율을 높이기 위해서는 간암을 조기에 발견하는 것이다. 따라서 높은 민감도로 조기에 간암을 발견 할 수 있는 진단 기술의 개발이 절실히 요구되고 있다.
한편, 후성유전학(epigenetics)은 DNA의 염기서열이 변화하지 않은 상태에서 이루어지는 유전자의 발현 조절을 연구하는 분야이다. 후성유전학은 DNA 메틸화, miRNA 또는 히스톤의 아세틸화, 메틸화, 인산화 및 유비퀴틴화 등과 같은 후성적 변이를 통한 유전자 발현 조절을 연구한다.
이중 DNA 메틸화가 가장 많이 연구가 되어있는 후성적 변이이다. 후성적 변이는 유전자 기능 변이 및 종양 세포로의 변화를 초래할 수 있다. 따라서 DNA 메틸화는 세포 내 질환 조절 유전자의 발현(또는 억제 및 유도와)과 연관되어 있으며, 최근에 DNA 메틸화 측정을 통한 암 진단 방법들이 제시되고 있다.
DNA 메틸화는 주로 특정 유전자의 프로모터 부위의 CpG 아일랜드(CpG island)의 사이토신(cytosine)에서 일어나고, 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 차단(gene silencing)되는 것으로, 코딩서열(coding sequence)에 돌연변이가 없이도 그 유전자의 기능이 소실되는 주요 기전이다.
유전자의 프로모터 지역 이외에도 인헨서(enhancer), 조절 부위와 같은 비번역지역의 DNA 메틸화도 염색체의 구조변이, 히스톤 변형(modification)과 함께 작용하며 여러 질병의 원인 기전이 된다고 알려져 있다. 암을 포함한 다양한 질병들에서 CpG 아일랜드에서의 이러한 비정상적인 메틸화/탈메틸화가 보고되었으며, 질병 관련 유전자의 프로모터 메틸화를 조사하여 각종 질환의 진단에 사용하려는 시도가 활발하게 이루어지고 있다.
본 발명자들은 간암 발병과 관련 있는 유전자의 메틸화 부위를 선별하였고, 이를 검증하는 실험을 통해 간암의 위험성 또는 예후를 진단하는 방법을 제공하고자 하였다.
본 명세서 전체에 걸쳐 다수의 논문 및 특허문헌이 참조되고 그 인용이 표시되어 있다. 인용된 논문 및 특허 문헌의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 간암의 위험성을 초기에 발견하기 위해 정상 조직이나 혈액에서는 낮은 메틸화를 보이나 간암조직에서만 높은 메틸화 수준을 보이는 특정 프로브를 이용하여 검체의 메틸화 수준을 측정함으로써 간암의 위험성 또는 예후를 진단하는 방법을 제공한다.
본 발명의 일 측면에 따르면, (a) 대상체(subject)의 생물학적 시료에서 DNA를 제공하는 단계; 및 (b) 상기 분리된 DNA에서 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열, 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 및 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 CpG 부위의 메틸화 수준을 측정하는 단계;를 포함하는 간암의 예후 또는 위험도를 평가하는 방법이 제공된다.
일 실시예에 있어서, 상기 방법은 2 이상의 CpG 부위 메틸화 수준을 측정할 수 있다.
일 실시예에 있어서, 상기 염색체 #2의 25438725 내지 25439276번째 서열은 서열번호 1의 염기서열을 가지고, 상기 염색체 #12의 95941906 내지 95942979번째 서열은 서열번호 2의 염기서열을 가지고, 상기 염색체 #10의 134597357 내지 134602649번째 서열은 서열번호 3의 염기서열을 가지고, 상기 염색체 #8의 144649774 내지 144651774번째 서열은 서열번호 4의 염기서열을 가지고, 상기 염색체 #1의 47998899 내지 47999517번째 서열은 서열번호 5의 염기서열을 가지고, 상기 염색체 #2의 26394102 내지 26396102번째 서열은 서열번호 6의 염기서열을 가지고, 상기 염색체 #8의 104510870 내지 104513913번째 서열은 서열번호 7의 염기서열을 가지고, 상기 염색체 #8의 98289604 내지 98290404번째 서열은 서열번호 8의 염기서열을 가지고, 상기 염색체 #2의 63281034 내지 63281347번째 서열은 서열번호 9의 염기서열을 가지고, 상기 염색체 #8의 67873388 내지 67875600번째 서열은 서열번호 10의 염기서열을 가지고, 상기 염색체 #4의 76555366 내지 76556079번째 서열은 서열번호 11의 염기서열을 가지고, 상기 염색체 #1의 63782394 내지 63790471번째 서열은 서열번호 12의 염기서열을 가지고, 상기 염색체 #5의 7849945 내지 7850439번째 서열은 서열번호 13의 염기서열을 가지고, 상기 염색체 #2의 39186777 내지 39187968번째 서열은 서열번호 14의 염기서열을 가지고, 상기 염색체 #14의 74207665 내지 74208665번째 서열은 서열번호 15의 염기서열을 가질 수 있다.
일 실시예에 있어서, 상기 염색체 #2의 25438725 내지 25439276번째 서열의 CpG 부위는 염색체 #2의 25439110번째에 위치하고, 상기 염색체 #12의 95941906 내지 95942979번째 서열의 CpG 부위는 염색체 #12의 95941988번째에 위치하고, 상기 염색체 #10의 134597357 내지 134602649번째 서열의 CpG 부위는 염색체 #10의 134599823번째에 위치하고, 상기 염색체 #8의 144649774 내지 144651774번째 서열의 CpG 부위는 염색체 #8의 144651002번째에 위치하고, 상기 염색체 #1의 47998899 내지 47999517번째 서열의 CpG 부위는 염색체 #1의 47999163번째에 위치하고, 상기 염색체 #2의 26394102 내지 26396102번째 서열의 CpG 부위는 염색체 #2의 26395458번째에 위치하고, 상기 염색체 #8의 104510870 내지 104513913번째 서열의 CpG 부위는 염색체 #8의 104512877번째에 위치하고, 상기 염색체 #8의 98289604 내지 98290404번째 서열의 CpG 부위는 염색체 #8의 98290148번째에 위치하고, 상기 염색체 #2의 63281034 내지 63281347번째 서열의 CpG 부위는 염색체 #2의 63281139번째에 위치하고, 상기 염색체 #8의 67873388 내지 67875600번째 서열의 CpG 부위는 염색체 #8의 67874178번째에 위치하고, 상기 염색체 #4의 76555366 내지 76556079번째 서열의 CpG 부위는 염색체 #4의 76555832번째에 위치하고, 상기 염색체 #1의 63782394 내지 63790471번째 서열의 CpG 부위는 염색체 #1의 63789278번째에 위치하고, 상기 염색체 #5의 7849945 내지 7850439번째 서열의 CpG 부위는 염색체 #5의 7850070번째에 위치하고, 상기 염색체 #2의 39186777 내지 39187968번째 서열의 CpG 부위는 염색체 #2의 39187533번째에 위치하고, 상기 염색체 #14의 74207665 내지 74208665번째 서열의 CpG 부위는 염색체 #14의 74208165번째에 위치할 수 있다.
일 실시예에 있어서, 상기 생물학적 시료는 간암 의심 환자 또는 진단 대상 유래의 조직, 세포, 혈액, 혈장, 대변 및 소변으로 이루어진 군에서 선택되는 1종일 수 있다.
일 실시예에 있어서, 상기 (b) 단계는 PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), MethyLight PCR, MehtyLight digital PCR, EpiTYPER, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군에서 선택되는 1종의 방법으로 수행될 수 있다.
일 실시예에 있어서, 상기 방법은 (c) 상기 메탈화 수준을 정상 대조군의 메틸화 수준과 비교하는 단계;를 더 포함할 수 있다.
본 발명의 다른 측면에 따르면, 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열, 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 및 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 CpG 부위에 결합하는 프로브를 포함하는 간암 발병 위험도 진단용 키트가 제공된다.
일 실시예에 있어서, 상기 진단용 키트는 상기 CpG 부위에 결합하는 2 이상의 프로브를 포함할 수 있다.
본 발명의 일 측면에 따르면, 암과 정상 조직뿐 아니라 혈액을 포함하는 대부분의 정상세포와 다른 메틸화 수준을 보이는 특정 CpG 부위의 메틸화를 측정함으로써, 정상 조직이 섞여 있는 임상 검체를 이용하여 간암의 발병 가능성을 효과적으로 예측할 수 있다.
본 발명의 효과는 상기한 효과로 한정한 것은 아니며, 본 발명의 상세한 설명 또는 청구범위에 기재된 발명의 구성으로부터 추론 가능한 모든 효과를 포함하는 것으로 이해되어야 한다.
도 1은 본 발명의 간암 진단 마커 선정 파이프라인을 도식화한 것이다.
도 2는 본 발명의 일 실시예에 따른 DNA 메틸화 데이터 표준화 전(왼쪽), 후(오른쪽)의 간암 환자 분포를 나타낸 그래프이다.
도 3 은 본 발명의 일 실시예에 따른 간암 환자에서 과메틸화되고 정상인에서 저메틸화된 DMPs(Differentially methylated probes)의 히트맵이다.
도 4는 히트맵(Heatmap)을 통해 선별된 프로브에 대한 간암 샘플, 간 정상 샘플, 혈액 샘플에서의 메틸화 정도를 나타낸 히트맵이다. 붉은 색일수록 과메틸화를 나타낸다.
도5는 기계학습을 통해 선별한 본 발명의 일 실시예에 따른 진단 마커를 선별한 결과이다.
도6은 기계학습을 통해 선별한 본 발명의 일 실시예에 따른 진단 마커의 메틸화 정도를 간암 샘플, 간 정상 샘플, 혈액 샘플에서 확인한 히트맵이다.
도 7은 본 발명의 일 실시예에 따른 단일 프로브의 간암 진단 효율을 평가한 결과이다. 프로브 별 간암 진단 효율을 AUC로 표시하였다.
도 8은 Public DB인 TCGA (The Cancer Genome Atlas)의 간암 데이터에서 본 발명의 일 실시예에 따른 단일 프로브의 간암 진단 효율을 평가한 결과이다. 프로브 별 간암 진단 효율을 AUC로 표시하였다.
도 9는 본 발명의 일 실시예에 따른 프로브(15종)의 조합에 따른 진단 효율을 확인한 결과이다.
도 10은 파이로 시퀀싱을 통해 본 발명의 일 실시예에 따라 선발된 프로브의 메틸화 정도를 나타낸 히트맵이다. X축은 독립적 코호트 196명의 간암 및 이에 상응하는 간 정상 샘플 을 의미하고, Y축은 프로브(황색 박스) 및 프로브 부근의 CpG site를 의미한다.
도 11은 EpiTYPER 실험을 통해 본 발명의 일 실시예에 따라 선발된 프로브의 메틸화 정도를 나타낸 히트맵이다. X축은 독립적 코호트 184명의 간암 및 이에 상응하는 간 정상 샘플을 의미하고, Y축은 프로브(황색 박스) 및 프로브 부근의 CpG site를 의미한다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.
어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
달리 정의되지 않는 한, 분자 생물학, 미생물학, 단백질 정제, 단백질 공학, 및 DNA 서열 분석 및 당업자의 능력 범위 안에서 재조합 DNA 분야에서 흔히 사용되는 통상적인 기술에 의해 수행될 수 있다. 상기 기술들은 당업자에게 알려져 있고, 많은 표준화된 교재 및 참고서에 기술되어 있다.
본 명세서에 달리 정의되어 있지 않으면, 사용된 모든 기술 및 과학 용어는 당업계에 통상의 기술자가 통상적으로 이해하는 바와 같은 의미를 가진다.
본 명세서에 포함되는 용어를 포함하는 다양한 과학적 사전이 잘 알려져 있고, 당업계에서 이용가능하다. 본 명세서에 설명된 것과 유사 또는 등가인 임의의 방법 및 물질이 본원의 실행 또는 시험에 사용되는 것으로 발견되나, 몇몇 방법 및 물질이 설명되어 있다. 당업자가 사용하는 맥락에 따라, 다양하게 사용될 수 있기 때문에, 특정 방법학, 프로토콜 및 시약으로 본 발명이 제한되는 것은 아니다.
본 명세서에서 사용되는 바와 같이, 단수형은 문맥이 명확하게 달리 지시하지 않으면 복수의 대상을 포함한다. 또한, 달리 지시된 바가 없으면, 핵산은 각각 왼쪽에서 오른쪽, 5'에서 3' 방향으로 씌여지고, 아미노산 서열은 왼쪽에서 오른쪽, 아미노에서 카르복실 방향으로 씌여진다. 이하 본 발명을 더욱 상세히 설명한다.
본 발명의 일 측면에 따르면, 1종 이상 CpG 부위의 메틸화 수준을 측정하는 단계;를 포함하는 간암의 예후 또는 위험도를 평가하는 방법이 제공된다.
상기 대상체(subject)는 진단 대상으로서 인간일 수 있고, 상기 생물학적 시료는 간암 관련 질환의 위험성을 평가하고자 하는 상기 대상체에서 분리된 시료로써, 조직, 세포, 혈액, 혈장, 복막액, 활막액, 타액, 소변, 대변 등을 포함하나 이에 제한되는 것은 아니다. 바람직하게 상기 생물학적 시료는 혈액일 수 있으며, 구체적으로 혈액에서 분리된 혈장일 수 있다.
또한, 상기 CpG 부위의 메틸화 수준을 개별적으로 분석하여 간암의 예후 또는 위험성 여부를 진단할 수 있으나, 바람직하게는 2종 이상, 3종 이상, 또는 4종 이상의 CpG 부위를 동시에 분석함으로써 진단의 정확성을 향상시킬 수 있다.
상기 진단은 특정 질병 또는 질환에 대한 대상체의 감수성(susceptibility)을 판정하는 것으로, 바람직하게는 대상체가 간암을 현재 가지고 있는지 여부를 판정하는 것, 간암에 걸린 대상체의 예후(prognosis)를 판정하는 것 또는 테라메트릭스(therametrics)를 포함할 수 있다.
상기 “메틸화”는 DNA를 구성하는 염기에 메틸기가 부착되는 것을 뜻한다. 바람직하게 메틸화 여부는 특정 유전자의 특정 CpG 부위의 시토신에서 일어나는 메틸화 여부를 의미한다.
상기 “메틸화 상태”는 DNA 염기서열 내에서의 하나 이상의 CpG 디뉴클레오타이드의 5-메틸-시토신의 존재 또는 비존재를 의미한다. 상기 “메틸화 수준”은 예를 들면 모든 게놈 영역 및 일부 비-게놈 영역 내의 표적 DNA 메틸화 유전자의 DNA 염기서열에 존재하는 메틸화의 양을 의미한다.
상기 메틸화 수준은 PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), MethyLight PCR, MehtyLight digital PCR, EpiTYPER, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군에서 선택되는 1종의 방법으로 수행될 수 있으나, 이에 제한되는 것은 아니다.
상기 메틸화 정도는 마이크로어레이에 의해 식별될 수 있다. 상기 마이크로어레이는 고상표면에 고정화된 프로브를 이용할 수 있다. 상기 프로브는 상기 SNP를 포함하는 각 유전자상의 10 내지 100개의 연속 뉴클레오타이드 서열에 상보적인 서열을 포함할 수 있다.
상기 CpG 부위는 상기 유전자의 DNA 상에 존재하는 CpG 부위를 뜻한다. 상기 유전자의 DNA는 발현하는데 필요하며 서로 작동가능하게 연결되어 있는 일련의 구성 단위를 모두 포함하는 개념으로, 예컨대, 프로모터 영역, 단백질 코딩 영역(open reading frame, ORF) 및 터미네이터 영역을 포함한다.
따라서, 상기 유전자의 CpG 부위는 해당 유전자의 프로모터 영역, 단백질 코딩 영역(open reading frame, ORF) 또는 터미네이터 영역 등에 존재할 수 있다. 바람직한 예로는 상기 유전자의 프로모터 영역에 존재하는 CpG 부위일 수 있다.
상기 CpG 부위는 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 1종 이상의 염기서열 내에 존재할 수 있다.
상기 염색체 #2의 25438725 내지 25439276번째 서열은 서열번호 1의 염기서열을 가지고, 상기 염색체 #12의 95941906 내지 95942979번째 서열은 서열번호 2의 염기서열을 가지고, 상기 염색체 #10의 134597357 내지 134602649번째 서열은 서열번호 3의 염기서열을 가지고, 상기 염색체 #8의 144649774 내지 144651774번째 서열은 서열번호 4의 염기서열을 가지고, 상기 염색체 #1의 47998899 내지 47999517번째 서열은 서열번호 5의 염기서열을 가지고, 상기 염색체 #2의 26394102 내지 26396102번째 서열은 서열번호 6의 염기서열을 가지고, 상기 염색체 #8의 104510870 내지 104513913번째 서열은 서열번호 7의 염기서열을 가지고, 상기 염색체 #8의 98289604 내지 98290404번째 서열은 서열번호 8의 염기서열을 가지고, 상기 염색체 #2의 63281034 내지 63281347번째 서열은 서열번호 9의 염기서열을 가지고, 상기 염색체 #8의 67873388 내지 67875600번째 서열은 서열번호 10의 염기서열을 가지고, 상기 염색체 #4의 76555366 내지 76556079번째 서열은 서열번호 11의 염기서열을 가지고, 상기 염색체 #1의 63782394 내지 63790471번째 서열은 서열번호 12의 염기서열을 가지고, 상기 염색체 #5의 7849945 내지 7850439번째 서열은 서열번호 13의 염기서열을 가지고, 상기 염색체 #2의 39186777 내지 39187968번째 서열은 서열번호 14의 염기서열을 가지고, 상기 염색체 #14의 74207665 내지 74208665번째 서열은 서열번호 15의 염기서열을 가질 수 있다.
상기 염색체 #2의 25438725 내지 25439276번째 서열의 CpG 부위는 염색체 #2의 25439110번째에 위치하고, 상기 염색체 #12의 95941906 내지 95942979번째 서열의 CpG 부위는 염색체 #12의 95941988번째에 위치하고, 상기 염색체 #10의 134597357 내지 134602649번째 서열의 CpG 부위는 염색체 #10의 134599823번째에 위치하고, 상기 염색체 #8의 144649774 내지 144651774번째 서열의 CpG 부위는 염색체 #8의 144651002번째에 위치하고, 상기 염색체 #1의 47998899 내지 47999517번째 서열의 CpG 부위는 염색체 #1의 47999163번째에 위치하고, 상기 염색체 #2의 26394102 내지 26396102번째 서열의 CpG 부위는 염색체 #2의 26395458번째에 위치하고, 상기 염색체 #8의 104510870 내지 104513913번째 서열의 CpG 부위는 염색체 #8의 104512877번째에 위치하고, 상기 염색체 #8의 98289604 내지 98290404번째 서열의 CpG 부위는 염색체 #8의 98290148번째에 위치하고, 상기 염색체 #2의 63281034 내지 63281347번째 서열의 CpG 부위는 염색체 #2의 63281139번째에 위치하고, 상기 염색체 #8의 67873388 내지 67875600번째 서열의 CpG 부위는 염색체 #8의 67874178번째에 위치하고, 상기 염색체 #4의 76555366 내지 76556079번째 서열의 CpG 부위는 염색체 #4의 76555832번째에 위치하고, 상기 염색체 #1의 63782394 내지 63790471번째 서열의 CpG 부위는 염색체 #1의 63789278번째에 위치하고, 상기 염색체 #5의 7849945 내지 7850439번째 서열의 CpG 부위는 염색체 #5의 7850070번째에 위치하고, 상기 염색체 #2의 39186777 내지 39187968번째 서열의 CpG 부위는 염색체 #2의 39187533번째에 위치하고, 상기 염색체 #14의 74207665 내지 74208665번째 서열의 CpG 부위는 염색체 #14의 74208165번째에 위치할 수 있다.
본 발명의 다른 측면에 따르면, 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열, 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 및 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 CpG 부위에 결합하는 프로브를 포함하는 간암 발병 위험도 진단용 키트가 제공된다.
상기 프로브는 혼성화 어레이 요소(hybridizable array element)로서 이용될 수 있고 기체(substrate) 상에 고정화될 수 있다.
상기 기체는 적합한 견고성 또는 반-견고성 지지체로서, 예컨대, 막, 필터, 칩, 슬라이드, 웨이퍼, 파이버, 자기성 비드 또는 비자기성 비드, 겔, 튜빙, 플레이트, 고분자, 미소입자 및 모세관을 포함할 수 있다. 상기 혼성화 어레이 요소는 상기의 기체 상에 배열되고 고정화될 수 있다.
상기 고정화는 화학적 결합 방법 또는 UV와 같은 공유 결합적 방법에 의해 실시될 수 있다. 예컨대, 상기 혼성화 어레이 요소는 에폭시 화합물 또는 알데히드기를 포함하도록 변형된 글래스 표면에 결합될 수 있고, 폴리라이신 코팅 표면에서 UV에 의해 결합될 수도 있다. 또한, 상기 혼성화 어레이 요소는 링커(예: 에틸렌 글리콜 올리고머 및 디아민)를 통해 기체에 결합될 수 있다.
상기 마이크로어레이에 적용되는 시료 DNA는 표지(labeling)될 수 있고, 마이크로어레이상의 어레이 요소와 혼성화될 수 있다. 혼성화 조건은 다양하게 변경할 수 있고, 혼성화 정도의 검출 및 분석은 표지 물질에 따라 다양하게 실시될 수도 있다.
상기 프로브의 표지는 혼성화 여부를 검출케 하는 시그널을 제공할 수 있으며, 올리고뉴클레오타이드에 연결될 수 있다.
상기 표지는 형광단(예컨대, 플루오리신(fluorescein), 피코에리트린(phycoerythrin), 로다민, 리사민(lissamine), 그리고 Cy3와 Cy5(Pharmacia)), 발색단, 화학발광단, 자기입자, 방사능동위원소(P32 및 S35), 매스 표지, 전자밀집입자, 효소(알칼린 포스파타아제 또는 호스래디쉬 퍼옥시다아제), 조인자, 효소에 대한 기질, 중금속(예컨대, 금) 그리고 항체, 스트렙타비딘, 바이오틴, 디곡시게닌과 킬레이팅기와 같은 특정 결합 파트너를 갖는 햅텐을 포함할 수 있으나, 이에 한정되는 것은 아니다.
상기 표지는 당업계에서 통상적으로 실시되는 다양한 방법, 예컨대, 닉 트랜스레이션(nick translation) 방법, 무작위 프라이밍 방법(Multiprime DNA labelling systems booklet, "Amersham"(1989)) 및 카이네이션 방법(Maxam & Gilbert, Methodsin Enzymology, 65:499(1986))에 의해 라벨링될 수 있다.
상기 표지는 형광, 방사능, 발색 측정, 중량 측정, X-선 회절 또는 흡수, 자기, 효소적 활성, 매스 분석, 결합 친화도, 혼성화 고주파, 나노크리스탈에 의하여 검출할 수 있는 시그널을 제공할 수 있다.
상기 분석 대상이 되는 핵산 시료는 다양한 생시료(biosamples)에서 얻은 mRNA를 이용하여 제조할 수 있다. 상기 프로브 대신에 분석 대상이 되는 cDNA를 표지하여 혼성화 반응-기초 분석을 실시할 수도 있다.
상기 프로브를 이용하는 경우, 프로브를 cDNA 분자와 혼성화시킬 수 있다. 상기 적절한 혼성화 조건은 최적화 절차에 의하여 일련의 과정으로 결정될 수 있다. 상기 절차는 연구실에서의 사용을 위한 프로토콜을 수립하고자 당업자에 의하여 일련의 과정으로 실시될 수 있다.
예컨대, 온도, 성분의 농도, 혼성화 및 세척 시간, 완충액 성분 및 이들의 pH 및 이온세기 등의 조건은 프로브의 길이 및 GC 양 및 타깃 뉴클레오타이드 서열 등의 다양한 인자에 의존한다. 상기 혼성화를 위한 상세한 조건은 Joseph Sambrook, et al., MolecularCloning, A LaboratoryManual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y.(2001); 및 M.L.M. Anderson, NucleicAcid Hybridization, Springer-Verlag New York Inc. N.Y.(1999)을 참조할 수 있다.
예컨대, 상기 엄격조건 중에서 고 엄격조건은 0.5 M NaHPO4, 7% SDS(sodium dodecyl sulfate), 1 mM EDTA에서 65℃ 조건으로 혼성화하고, 0.1 x SSC(standard saline citrate)/0.1% SDS에서 68℃ 조건으로 세척하는 것을 의미할 수 있다. 또는 상기 고 엄격조건은 6 x SSC/0.05% 소듐 파이로포스페이트에서 48℃ 조건으로 세척하는 것을 의미할 수 있고, 저 엄격조건은 0.2 x SSC/0.1% SDS에서 42℃ 조건으로 세척하는 것을 의미할 수 있다.
상기 혼성화 반응 이후에, 혼성화 반응을 통하여 나오는 혼성화 시그널을 검출할 수 있다. 예컨대, 상기 프로브가 효소에 의해 표지된 경우, 상기 효소의 기질을 혼성화 반응 결과물과 반응시켜 혼성화 여부를 확인할 수 있다.
상기 효소 및 기질은 퍼옥시다아제(예컨대, 호스래디쉬 퍼옥시다아제)와 클로로나프톨, 아미노에틸카바졸, 디아미노벤지딘, D-루시페린, 루시게닌(비스-N-메틸아크리디늄 니트레이트), 레소루핀 벤질 에테르, 루미놀, 암플렉스 레드 시약(10-아세틸-3,7-디하이드록시페녹사진), HYR(p-phenylenediamine-HCl 및 pyrocatechol), TMB(tetramethylbenzidine), ABTS(2,2'-Azine-di[3-ethylbenzthiazoline sulfonate]), o-페닐렌디아민(OPD) 및 나프톨/파이로닌; 알칼린 포스파타아제와 브로모클로로인돌일 포스페이트(BCIP), 니트로 블루 테트라졸리움(NBT), 나프톨-AS-B1-포스페이트(naphthol-AS-B1-phosphate) 및 ECF 기질; 글루코오스 옥시다아제와 t-NBT(nitroblue tetrazolium) 및 m-PMS(phenzaine methosulfate)가 사용될 수 있다.
상기 프로브가 금 입자로 표지된 경우에는 실버 나이트레이트를 이용하여 실버 염색 방법으로 검출할 수도 있다.
상기 간암의 예후 또는 위험도를 평가하는 방법은 다양한 통계처리 방법을 통해 간암 진단 가능성을 평가할 수 있다. 통계적 처리 방법으로 일 구현예에서 머신 러닝(Machine learning) 방법이 사용되며, Maxwell W. Libbrecht, 2015, Nature Reviews Genetics 16: 321-332를 참조할 수 있다.
상기 머신 러닝은 인공지능의 한 분야로 패턴인식과 컴퓨터학습 이론의 연구로부터 진화한 분야이다. 머신 러닝은 경험적 데이터를 기반으로 학습을 하고 예측을 수행하고 스스로의 성능을 향상시키는 시스템과 이를 위한 알고리즘을 연구하고 구축하는 기술이다. 머신 러닝의 알고리즘은 엄격하게 정해진 정적인 프로그램 명령들을 수행하는 것이라기 보다, 입력 데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식이다.
이하, 실시예를 통해 본 발명을 더욱 상세히 기술한다.
실시예 1. 간암 발병과 관련된 DMP 선정
샘플
간암 발병과 관련된 DNA 메틸화 지역을 선별하기 위해 서울대병원의 간암환자 184명으로부터 간암 샘플을 얻었다. 간암조직과 상응하는 정상조직은 정상 대조군으로 사용하였다.
컬럼 기반의 DNA 추출 방법( PureLink™Genomic DNA Mini Kit, Invitrogen)과 비드(Bead) 방식의 DNA 추출 방법 (MagListo™5M Genomic DNA Extraction Kit, Bioneer)을 이용하여 각각의 샘플에서 genomic DNA를 추출하였다. 추출된 genomic DNA는 nanodrop를 이용하여 정량하였으며, DNA 상태는 1.5% agarose gel에서 전기영동하여 degradation여부를 확인하였다.
바이설파이트 ( Bisulfite ) 처리
Genomic DNA 에 바이설파이트(Bisulfite)를 처리하면 DNA 염기서열 중 5'-CpG-3' 부위의 사이토신이 메틸화된 경우에는 그대로 유지되지만, 비메틸화된 경우에는 우라실로 바뀌어서 메틸화 정도를 측정할 수 있다.
따라서, 메틸화된 시토신과 비메틸화된 시토신을 구별하기 위하여 genomic DNA를 바이설파이트로 처리하였다. 700ng 의 genomic DNA를 EZ DNA Methylation Kit (Zymoresearch Inc.)을 이용하여 제조사의 매뉴얼에 따라 처리하였고, 이렇게 만들어진 바이설파이트 처리된 DNA를 M-Elution Buffer 로 녹여서 사용시까지 -80℃ 에서 보관하였다.
바이설파이트 처리된 DNA는 1달 이내에 사용하였다.
DNA 메틸화 마이크로어레이
Infinium(®Human Methylation 850K BeadChip을 사용하여, DNA 메틸레이션 마이크로어레이를 수행하였다.
Illumina Infinium MethylationEPIC BeadChip kits (Illumina, Inc., San Diego, CA)을 이용하여 제조사의 매뉴얼을 따라, 바이설파이트 처리된 DNA를 증폭하고, 절단(fragmentation), 침전(precipitation) 및 재현탁(resuspension)한 후 BeadChip에 혼성화(hybridization)하였다.
세척 후, BeadChip을 Illumina iScan scanner을 이용하여 스캔하였다.
R 패키지 중, minfi 패키지를 이용하여 패키지의 매뉴얼에 따라 데이터의 품질 관리 (quality control)을 진행했다. 품질 관리 기준을 통과한 샘플들에 한하여 메틸화 정도가 색으로 표시된raw data의 idat 파일을 수치화한 값인β 값을 계산하였다.
DNA 메틸화 정도는 0~1 값을 갖는 β값으로 표시되며 β값 0은 해당 CpG 부위가 완전히 비메틸화 된 것을 의미하며, 1은 완전히 메틸화된 것을 의미한다. 산출된 결과를 표준화 하고 보정하였다. 모든 통계는 R 통계환경(v.3.3.2 이상)에서 수행되었다(도 1).
실시예 2. 진단 마커 후보군 선정
도 1을 참조하면, 182명의 간암 및 이에 상응하는 간 정상 샘플에서 DNA 추출하여 Infinium Methylation EPIC BeadChip을 진행하였다.
자체적으로 구축한 파이프라인으로 메틸화 데이터(methylation data)를 분석하였다. 정상에서 메틸화가 낮고, tumor에서 메틸화 수준이 높은 프로브(probe)를 선정하였다.
먼저 정상과 암 샘플의 메틸화 차이를 보이는 DMP를 선정하였다.
정상 샘플에서 메틸화 수준이 매우 낮고, 70% 이상의 암 환자에서 메틸화가 50% 이상으로 매우 높은 7개의 프로브를 선별하고, 기계학습 방법으로 효율을 검증하였다(도 1, 남색).
정상 샘플에서는 methylation 이 10%이하로 매우 낮고, 간암 환자에서 평균적으로 30% 이상으로 높은 프로브를 선별하고, 기계학습을 진행하여 간암/간정상 샘플을 효과적으로 구분하는 상위 9개의 프로브를 선별하였다(도 1, 갈색).
최종적으로 선별된 15개(1개 중복)의 간암 진단 마커 후보군을 다양한 실험을 통해 검증하였다.
실시예 3. Heatmap을 통한 프로브 선별
182 간암 샘플 및 127 정상 샘플의 DNA 메틸화를 조사한 결과, 5% 이상의 간암 샘플에서 30% 이상 과메틸화된 100,053 DMP(differentially methylated probes)를 선별하였다.
정상/암 샘플간의 차이를 보이는 DMP중에서 혈액 생검이 가능하도록 정상 샘플에서 methylation이 10%이하로 매우 낮은 13,078 probes를 선별하였다.
선별된 프로브 중에서 70% 이상의 암환자에서 50% 이상 과메틸화된 7개의 프로브를 선별하였다(표 2).
구분 프로브 ID 50% 이상 과메틸화된 간암 비율( % )
프로브 1 cg20172627 78.16
프로브 2 cg22538054 77.59
프로브 3 cg27583690 74.14
프로브 4 cg19951303 72.99
프로브 5 cg22524657 71.84
프로브 6 cg24563094 70.11
프로브 7 cg25744484 70.11
선발된 7개의 프로브의 간암 환자별 메틸화 값을 확인한 히트맵을 작성하였다(도 3).
실시예 4. 기계학습을 통한 프로브 선별
정상/암 샘플간의 차이를 보이는 DMP중 정상 샘플에서 메틸화 수준이 매우 낮고, 간암 환자에서 평균적으로 30% 이상 높은 프로브를 선별하였다.
상기 프로브를 이용해 기계학습을 진행하여 간암/ 간정상 샘플을 효과적으로 구분하는 상위 9개의 프로브를 선별하였다.
도 4를 참조하면, 청색원은 하나의 프로브를 의미하며 중요도가 높은 순(x, y축)으로 상위 9개의 프로브를 선별하였다.
X축은 기계학습으로 구축된 모델에서 각 프로브의 정확도를 의미하고, Y축은 기계학습으로 구축된 모델에서 각 프로브의 순수도를 의미한다.
기계학습으로 선별된 9개의 프로브의 메틸화 정도를 200명의 whole blood, 125명의 정상 샘플, 180명의 간 암 샘플에서 메틸화 값을 확인한 히트맵을 작성하였다(도 5).
실시예 4 및 5의 방법을 통해 최종적으로 선별된 15개의 프로브 정보는 하기 표 2와 같다.
서열번호 프로브 ID 선별방법 CpG 위치 CGI region
염색체 start end
1 cg20172627 heatmap chr2 25438725 25439276 Island
2 cg22538054 heatmap chr12 95941906 95942979 Island
3 cg27583690 heatmap chr10 134597357 134602649 Island
4 cg19951303 heatmap chr8 144649774 144651774 N_Shelf
5 cg22524657 heatmap chr1 47998899 47999517 Island
6 cg24563094 heatmap chr2 26394102 26396102 N_Shore
7 cg25744484 heatmap chr8 104510870 104513913 Island
8 cg18233405 기계학습 chr8 98289604 98290404 Island
9 cg25622366 기계학습 chr2 63281034 63281347 Island
10 cg20980783 기계학습 chr8 67873388 67875600 Island
1 cg20172627 기계학습 chr2 25438725 25439276 Island
11 cg03757145 기계학습 chr4 76555366 76556079 Island
12 cg08112534 기계학습 chr1 63782394 63790471 Island
13 cg25214789 기계학습 chr5 7849945 7850439 Island
14 cg11176990 기계학습 chr2 39186777 39187968 Island
15 cg27640070 기계학습 chr14 74207665 74208665 -
실시예 6. 단일 프로브 간암 진단 효율 평가
선별된 15개의 프로브의 간암 진단 효율을 평가하였다(도 6).
도 6은 프로브 별 간암 진단 효율을 AUC로 표시한 결과이다.
15개의 프로브를 단독으로 사용해서 간암 진단 효율(AUC; area under the curve)을 확인한 결과는 하기 표 3과 같다.
서열번호 프로브 ID 선별 방법 Acuu . Sen. Spe . AUC
1 cg20172627 heatmap 0.908 0.922 0.887 0.957
2 cg22538054 heatmap 0.888 0.878 0.903 0.947
3 cg27583690 heatmap 0.863 0.856 0.873 0.938
4 cg19951303 heatmap 0.837 0.889 0.762 0.914
5 cg22524657 heatmap 0.811 0.822 0.794 0.906
6 cg24563094 heatmap 0.889 0.922 0.841 0.953
7 cg25744484 heatmap 0.882 0.889 0.871 0.949
8 cg18233405 기계학습 0.948 0.944 0.952 0.960
9 cg25622366 기계학습 0.908 0.889 0.936 0.936
10 cg20980783 기계학습 0.888 0.878 0.903 0.954
11 cg03757145 기계학습 0.909 0.922 0.889 0.960
12 cg08112534 기계학습 0.855 0.889 0.807 0.936
13 cg25214789 기계학습 0.863 0.889 0.825 0.912
14 cg11176990 기계학습 0.882 0.922 0.823 0.961
15 cg27640070 기계학습 0.895 0.900 0.889 0.939
또한, Public DB에서 단일 프로브의 간암 진단 효율을 검증하였다(도 7).도 7은 프로브 별 간암 진단 효율을 AUC로 표시한 결과이다.
TCGA LIHC methylation data(450K)를 이용해서 단일 프로브의 효율을 검증한 결과는 하기 표 4와 같다.
회색(-)으로 표시된 영역은 Infinium Methylation 450K BeadChip에는 없고 Infinium Methylation EPIC BeadChip (850K)에만 있는 프로브를 의미한다.
서열번호. 프로브 ID 선별 방법 Acuu . Sen. Spe . AUC
1 cg20172627 heatmap 0.916 0.918 0.900 0.957
2 cg22538054 heatmap 0.797 0.786 0.880 0.897
3 cg27583690 heatmap 0.764 0.754 0.840 0.855
4 cg19951303 heatmap - - - -
5 cg22524657 heatmap 0.816 0.815 0.820 0.902
6 cg24563094 heatmap 0.870 0.876 0.820 0.919
7 cg25744484 heatmap - - - -
8 cg18233405 기계학습 0.893 0.902 0.820 0.919
9 cg25622366 기계학습 0.888 0.879 0.960 0.967
10 cg20980783 기계학습 0.897 0.897 0.900 0.935
11 cg03757145 기계학습 0.890 0.879 0.980 0.939
12 cg08112534 기계학습 - - - -
13 cg25214789 기계학습 0.881 0.887 0.840 0.916
14 cg11176990 기계학습 0.846 0.852 0.800 0.933
15 cg27640070 기계학습 - - - -
또한, 15개 패널 프로브의 간암 진단 효율을 분석하고자, 15개의 프로브를 통합하여 간암 진단 효율(AUC; area under the curve)을 확인하였다(도 8). 도 8은 15개 프로브로 기계학습을 진행하여 나온 훈련데이터 및 검증데이터의 confusion matrix결과이다(2차 교차 검증).
데이터의 편향을 방지하기 위해 무작위로 2개로 나눠주는2차 교차검증 방법을 10번씩 진행해 테스트 세트(Testing set)와 트레이닝 세트(Training set)로 분류하였다.
트레이닝 세트로 분류된 데이터를 기반으로 정상과 간암의 패턴을 학습하고, 그에 따른 간암 특이적 진단 모델을 구축하였다.
하기 표 5는 트레이닝 세트의 오차행렬이다.
입력 값 정상 판정 간암 판정 오차율
정상 62 1 0.159
간암 3 87 0.333
상기 트레이닝 세트로 구축된 간암 특이적 진단 모델을 기반으로 테스트 세트을 진단하여 간암 진단 효율을 확인하였다(표 6).
샘플 정상 판정 간암 판정
정상 61 0
간암 1 90
표 5 및 6을 참조하면, 머신 러닝을 기반으로 선발된 15개의 프로브로 간암 특이적 진단 모델을 구축할 수 있었으며, 진단 효율은 매우 높은 수준으로 평가되었다.
실시예 7. 복수의 프로브를 이용한 간암 진단 효율 평가
상기 간암 특이적 진단 모델을 기반으로 15개의 프로브 중에서 최대효율을 가지는 최소 프로브 개수를 찾기 위해 프로브의 개수 별 효율을 측정하였다(도 9).
도 9는 가능한 프로브 조합에 대해서 기계학습을 진행하여 산출된 결과이다(2차 교차 검증). X축은 프로브 개수를 의미하고, Y축은 AUC(진단 효율)을 의미한다.
도 9를 참조하면, 프로브 개수가 3개 이상일 때 진단 효율이 99% 이상으로 수렴하므로, 매우 정확한 진단 정보를 제공할 수 있다.
따라서, 단일의 프로브를 이용할 때와 비교하여 복수의 프로브를 이용할 때 진단의 정확도가 현저히 개선될 수 있다.
실시예 8. 파이로시퀀싱을 통한 프로브를 포함하는 CpG 섬의 메틸화 분석
선별된 프로브 중 프로브가 결합되는 CpG 부위의 메틸화 정도를 측정하기 위해 파이로시퀀싱을 실시하였다.
파이로시퀀싱은 뉴클레오티드 첨가에서 방출된 파이로포스페이트(PPi)를 이용한다. PPi는 ATP 설퍼릴라아제에 의해 아데노신 5' 포스포설페이트의 존재 하에서 ATP로 변환된다.
루시퍼라아제는 ATP를 사용하여 루시페린을 옥시루시페린으로 변환하고, 이 반응은 탐지되고 분석될 수 있는 빛을 생성한다.
선발된 프로브의 CpG 부위의 메틸화 정도를 히트맵으로 나타내었다(도 10).
확인결과, normal에서 메틸화 수준이 낮고 tumor에서는 메틸화 수준이 높은 것으로 나타났으며, 선별된 프로브의 CpG 부위와 그 주변의 메틸화 정도가 유사한 것으로 확인되었다.
실시예 9. EpiTYPER을 통한 프로브를 포함하는 CpG 섬의 메틸화 분석
데이터의 검증을 위해, 프로브들 중에서 상위 3개의 프로브의 메틸화 상태를 EpiTYPERTM assay(Sequenom, San Diego, CA)를 이용하여 정량적으로 분석하였다.
PCR 증폭 이후 시험관 내에서 전사시킨 증폭조각(amplicons)들을 shrimp alkaline phosphatase로 처리하고, RNaseA로 절단한 후, 메틸화 상태를 결정하기 위해 MALDI-TOF Mass Spectrometry에 넣어 주었다.
결과는 EpiTYPERTM ver. 1.0 software을 이용해 분석하였다.
선발된 3개의 프로브에 대해서 EpiTYPER로 validation진행하였다. 선발된 프로브와 그 주변의 CpG 부위의 메틸화 정도는 히트맵으로 확인하였다(도 11).
도 11을 참조하면, normal에서 메틸화 수준이 낮고 tumor에서는 메틸화 수준이 높은 것으로 나타났으며, 선별된 프로브의 CpG 부위와 그 주변의 메틸화 정도가 유사한 것으로 확인되었다.
따라서 CpG 프로브를 포함하는 CpG 섬 전체의 메틸화 수준도 암 예후 및 위험도 진단에 동일하게 사용될 수 있다
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 청구범위에 의하여 나타내어지며, 청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (9)

  1. (a) 대상체(subject)의 생물학적 시료에서 DNA를 제공하는 단계; 및
    (b) 상기 분리된 DNA에서 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열, 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 및 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 CpG 부위의 메틸화 수준을 측정하는 단계;를 포함하는 간암의 예후 또는 위험도를 평가하는 방법.
  2. 제1항에 있어서,
    2 이상의 CpG 부위 메틸화 수준을 측정하는 간암의 예후 또는 위험도를 평가하는 방법.
  3. 제1항에 있어서,
    상기 염색체 #2의 25438725 내지 25439276번째 서열은 서열번호 1의 염기서열을 가지고,
    상기 염색체 #12의 95941906 내지 95942979번째 서열은 서열번호 2의 염기서열을 가지고,
    상기 염색체 #10의 134597357 내지 134602649번째 서열은 서열번호 3의 염기서열을 가지고,
    상기 염색체 #8의 144649774 내지 144651774번째 서열은 서열번호 4의 염기서열을 가지고,
    상기 염색체 #1의 47998899 내지 47999517번째 서열은 서열번호 5의 염기서열을 가지고,
    상기 염색체 #2의 26394102 내지 26396102번째 서열은 서열번호 6의 염기서열을 가지고,
    상기 염색체 #8의 104510870 내지 104513913번째 서열은 서열번호 7의 염기서열을 가지고,
    상기 염색체 #8의 98289604 내지 98290404번째 서열은 서열번호 8의 염기서열을 가지고,
    상기 염색체 #2의 63281034 내지 63281347번째 서열은 서열번호 9의 염기서열을 가지고,
    상기 염색체 #8의 67873388 내지 67875600번째 서열은 서열번호 10의 염기서열을 가지고,
    상기 염색체 #4의 76555366 내지 76556079번째 서열은 서열번호 11의 염기서열을 가지고,
    상기 염색체 #1의 63782394 내지 63790471번째 서열은 서열번호 12의 염기서열을 가지고,
    상기 염색체 #5의 7849945 내지 7850439번째 서열은 서열번호 13의 염기서열을 가지고,
    상기 염색체 #2의 39186777 내지 39187968번째 서열은 서열번호 14의 염기서열을 가지고,
    상기 염색체 #14의 74207665 내지 74208665번째 서열은 서열번호 15의 염기서열을 가지는 간암의 예후 또는 위험도를 평가하는 방법.
  4. 제1항에 있어서,
    상기 염색체 #2의 25438725 내지 25439276번째 서열의 CpG 부위는 염색체 #2의 25439110번째에 위치하고,
    상기 염색체 #12의 95941906 내지 95942979번째 서열의 CpG 부위는 염색체 #12의 95941988번째에 위치하고,
    상기 염색체 #10의 134597357 내지 134602649번째 서열의 CpG 부위는 염색체 #10의 134599823번째에 위치하고,
    상기 염색체 #8의 144649774 내지 144651774번째 서열의 CpG 부위는 염색체 #8의 144651002번째에 위치하고,
    상기 염색체 #1의 47998899 내지 47999517번째 서열의 CpG 부위는 염색체 #1의 47999163번째에 위치하고,
    상기 염색체 #2의 26394102 내지 26396102번째 서열의 CpG 부위는 염색체 #2의 26395458번째에 위치하고,
    상기 염색체 #8의 104510870 내지 104513913번째 서열의 CpG 부위는 염색체 #8의 104512877번째에 위치하고,
    상기 염색체 #8의 98289604 내지 98290404번째 서열의 CpG 부위는 염색체 #8의 98290148번째에 위치하고,
    상기 염색체 #2의 63281034 내지 63281347번째 서열의 CpG 부위는 염색체 #2의 63281139번째에 위치하고,
    상기 염색체 #8의 67873388 내지 67875600번째 서열의 CpG 부위는 염색체 #8의 67874178번째에 위치하고,
    상기 염색체 #4의 76555366 내지 76556079번째 서열의 CpG 부위는 염색체 #4의 76555832번째에 위치하고,
    상기 염색체 #1의 63782394 내지 63790471번째 서열의 CpG 부위는 염색체 #1의 63789278번째에 위치하고,
    상기 염색체 #5의 7849945 내지 7850439번째 서열의 CpG 부위는 염색체 #5의 7850070번째에 위치하고,
    상기 염색체 #2의 39186777 내지 39187968번째 서열의 CpG 부위는 염색체 #2의 39187533번째에 위치하고,
    상기 염색체 #14의 74207665 내지 74208665번째 서열의 CpG 부위는 염색체 #14의 74208165번째에 위치하는 CpG 부위의 메틸화 수준을 측정하는 간암의 예후 또는 위험도를 평가하는 방법.
  5. 제1항에 있어서,
    상기 생물학적 시료는 간암 의심 환자 또는 진단 대상 유래의 조직, 세포, 혈액, 혈장, 대변 및 소변으로 이루어진 군에서 선택되는 1종인 간암의 예후 또는 위험도를 평가하는 방법.
  6. 제1항에 있어서,
    상기 (b) 단계는 PCR, 메틸화 특이 PCR(methylation specific PCR), 실시간 메틸화 특이 PCR(real time methylation specific PCR), MethyLight PCR, MehtyLight digital PCR, EpiTYPER, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군에서 선택되는 1종의 방법으로 수행되는 간암의 예후 또는 위험도를 평가하는 방법.
  7. 제1항에 있어서,
    (c) 상기 (b) 단계 이후에, 상기 메탈화 수준을 정상 대조군의 메틸화 수준과 비교하는 단계;를 더 포함하는 간암의 예후 또는 위험도를 평가하는 방법.
  8. 염색체 #2의 25438725 내지 25439276번째 서열, 염색체 #12의 95941906 내지 95942979번째 서열, 염색체 #10의 134597357 내지 134602649번째 서열, 염색체 #8의 144649774 내지 144651774번째 서열, 염색체 #1의 47998899 내지 47999517번째 서열, 염색체 #2의 26394102 내지 26396102번째 서열 염색체 #8의 104510870 내지 104513913번째 서열, 염색체 #8의 98289604 내지 98290404번째 서열, 염색체 #2의 63281034 내지 63281347번째 서열, 염색체 #8의 67873388 내지 67875600번째 서열, 염색체 #4의 76555366 내지 76556079번째 서열, 염색체 #1의 63782394 내지 63790471번째 서열, 염색체 #5의 7849945 내지 7850439번째 서열, 염색체 #2의 39186777 내지 39187968번째 서열, 및 염색체 #14의 74207665 내지 74208665번째 서열로 이루어진 군에서 선택되는 CpG 부위에 결합하는 프로브를 포함하는 간암 발병 위험도 진단용 키트.
  9. 제8항에 있어서,
    상기 CpG 부위에 결합하는 2 이상의 프로브를 포함하는 간암 발병 위험도 진단용 키트.
PCT/KR2018/014207 2017-11-22 2018-11-19 유전자의 cpg 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법 WO2019103421A2 (ko)

Priority Applications (8)

Application Number Priority Date Filing Date Title
EP22196985.0A EP4180540A1 (en) 2017-11-22 2018-11-19 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
JP2020546257A JP7306723B2 (ja) 2017-11-22 2018-11-19 遺伝子のcpgメチル化変化を用いた肝癌の予後または危険度を評価する方法
CN201880075735.7A CN111386352B (zh) 2017-11-22 2018-11-19 利用基因的cpg甲基化变化评估肝癌的预后或者风险的方法
US16/766,504 US20210147943A1 (en) 2017-11-22 2018-11-19 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
SG11202004795RA SG11202004795RA (en) 2017-11-22 2018-11-19 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
EP18881098.0A EP3715474A4 (en) 2017-11-22 2018-11-19 METHOD FOR PROGNOSTIC ASSESSMENT OR RISK STRATIFICATION OF LIVER CANCER USING CPG METHYLATION VARIATION IN A GENE
US17/728,240 US20220259676A1 (en) 2017-11-22 2022-04-25 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
JP2022129672A JP7452894B2 (ja) 2017-11-22 2022-08-16 遺伝子のcpgメチル化変化を用いた肝癌の予後または危険度を評価する方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20170156527 2017-11-22
KR10-2017-0156527 2017-11-22
KR1020180137644A KR102052089B1 (ko) 2017-11-22 2018-11-09 유전자의 CpG 메틸화 변화를 이용한 간암의 위험도를 평가하는 방법
KR10-2018-0137644 2018-11-09

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US16/766,504 A-371-Of-International US20210147943A1 (en) 2017-11-22 2018-11-19 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
US17/728,240 Continuation US20220259676A1 (en) 2017-11-22 2022-04-25 Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene

Publications (2)

Publication Number Publication Date
WO2019103421A2 true WO2019103421A2 (ko) 2019-05-31
WO2019103421A3 WO2019103421A3 (ko) 2019-07-18

Family

ID=66632123

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/014207 WO2019103421A2 (ko) 2017-11-22 2018-11-19 유전자의 cpg 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법

Country Status (1)

Country Link
WO (1) WO2019103421A2 (ko)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100041937A (ko) * 2008-10-15 2010-04-23 재단법인서울대학교산학협력재단 암 전이 억제 물질의 스크리닝 방법
CA3060721C (en) * 2009-04-20 2022-05-17 Erasmus University Medical Center Rotterdam Method of diagnosing bladder cancer.
KR101198046B1 (ko) * 2009-12-11 2012-11-07 한국생명공학연구원 TTP 프로모터 내 특정 단일 CpG 부위의 후생유전학적 지표를 이용한 암 발병/예후 진단 및 이의 조절을 통한 암 치료기술
KR101313756B1 (ko) * 2012-03-09 2013-10-01 (주)지노믹트리 간암 특이적 과메틸화 CpG 서열을 이용한 간암의 검출방법
EP3034624A1 (en) * 2014-12-18 2016-06-22 Hospital Clínic de Barcelona Method for the prognosis of hepatocellular carcinoma
KR20170071724A (ko) * 2015-12-16 2017-06-26 연세대학교 산학협력단 간암 발생 특이적 유전자 발현에 관여하는 유전자 구조 내 cpg 섬의 dna 메틸화 변이를 이용한 간암의 예측 또는 진단 방법

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GOMAA ET AL., WORLD J GASTRO., vol. 15, 2009, pages 1301
JOSEPH SAMBROOK ET AL.: "Molecular Cloning, A Laboratory Manual", 2001, COLD SPRING HARBOR LABORATORY PRESS
M.L.M. ANDERSON: "Nucleic Acid Hybridization", 1999, SPRINGER-VERLAG NEW YORK INC.
MAXWELL W. LIBBRECHT, NATURE REVIEWS GENETICS, vol. 16, 2015, pages 321 - 332

Also Published As

Publication number Publication date
WO2019103421A3 (ko) 2019-07-18

Similar Documents

Publication Publication Date Title
US20220259676A1 (en) Method for assessing prognosis or risk stratification of liver cancer by using cpg methylation variation in gene
US20150376717A1 (en) Methods and kits for detecting melanoma
WO2014003053A1 (ja) 膵臓がんの検出方法及び検出用キット
US20150361502A1 (en) Method for screening cancer
CN113355415B (zh) 用于食管癌诊断或辅助诊断的检测试剂及试剂盒
CN108342477A (zh) 基于多个基因诊断肺癌患者的检测试剂盒
WO2009131365A2 (ko) 위암 진단 마커로서의 cst1, dcc1, ifitm1 또는 melk
WO2013070950A1 (en) Identification of a dna methylation marker for blood-based detection of ovarian cancer
Guo et al. Loss of Y chromosome: an emerging next-generation biomarker for disease prediction and early detection?
WO2020209590A1 (ko) 신경교종의 진단 또는 예후 예측용 조성물 및 이에 관한 정보를 제공하는 방법
WO2017112860A1 (en) Distinguishing metastatic-lethal prostate cancer from indolent prostate cancer using methylation status of epigenetic markers
WO2020204457A1 (ko) 갑상선암 진단을 위한 갑상선암 특이적 dna 메틸화 바이오 마커의 검출 방법 및 조성물
WO2012167112A2 (en) Gastric cancer biomarkers
WO2023210997A1 (ko) 위암 발병의 위험도를 예측하기 위한 조성물 및 이를 이용한 방법
WO2019103421A2 (ko) 유전자의 cpg 메틸화 변화를 이용한 간암의 예후 또는 위험도를 평가하는 방법
WO2010085124A2 (ko) 간암진단과 재발 및 생존 예측용 마커, 이를 포함한 키트 및 상기 마커를 이용한 간암환자 예후 예측
WO2015111852A1 (ko) Nudt15 유전자 내의 단일염기다형성 마커를 포함하는 티오퓨린 유도 백혈구 감소증 발병 위험 예측용 조성물
WO2022114887A1 (ko) 통합전사체분석 기반 만성 간질환 진단용 복합마커 및 이의 용도
WO2018074865A2 (ko) 유방암 예후 예측용 조성물 및 방법
US20120190024A1 (en) Method for determining presence or absence of epithelial cancer-origin cell in biological sample, and molecular marker and kit therefor
WO2017164436A1 (ko) 고형암 환자의 항암제 치료 반응성 예측용 마커
Herodež et al. Molecular diagnosis of PMP22 gene duplications and deletions: comparison of different methods
Shim et al. Clinical application of optical genome mapping for molecular diagnosis of facioscapulohumeral muscular dystrophy
CN105861735A (zh) Rap1b在冠心病诊断中的应用
WO2017164699A1 (ko) 전립선암과 관련된 단일염기다형성 및 이를 이용한 유전 위험도 점수의 개발

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18881098

Country of ref document: EP

Kind code of ref document: A2

ENP Entry into the national phase

Ref document number: 2020546257

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018881098

Country of ref document: EP

Effective date: 20200622