WO2024029988A1 - 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법 - Google Patents

세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법 Download PDF

Info

Publication number
WO2024029988A1
WO2024029988A1 PCT/KR2023/011487 KR2023011487W WO2024029988A1 WO 2024029988 A1 WO2024029988 A1 WO 2024029988A1 KR 2023011487 W KR2023011487 W KR 2023011487W WO 2024029988 A1 WO2024029988 A1 WO 2024029988A1
Authority
WO
WIPO (PCT)
Prior art keywords
methylation
collateral circulation
dmr
coronary
ccc
Prior art date
Application number
PCT/KR2023/011487
Other languages
English (en)
French (fr)
Inventor
이상학
방두희
안종성
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2024029988A1 publication Critical patent/WO2024029988A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material

Definitions

  • the present invention is a technology for predicting coronary artery collateral circulation by identifying the methylation level of differentially methylated regions in heart disease patients.
  • 'CCC' coronary collateral circulation
  • human DNA methylation refers to the methylation of the C5 position of cytosine in a CpG dinucleotide.
  • DNA methylation plays an important role in regulating transcription, embryonic development, genomic imprinting and stability, and chromatin structure. Therefore, human diseases are often accompanied by changes in methylation patterns.
  • angiogenesis the association of DNA methylation with angiogenesis and blood vessel growth has been analyzed in mice, no relevant human studies have been performed.
  • cfDNA Cell free DNA
  • Organ-specific methylation patterns of cfDNA have recently been detected in sepsis and cancer patients. Therefore, studies aimed at diagnosing diseases such as cancer have been conducted based on the characteristics of noninvasively collected human cfDNA.
  • clinical application of cfDNA methylation patterns is still limited because it is difficult to interpret due to its complex composition.
  • the amount of cfDNA is generally not sufficient to maintain bisulfite conversion quality, which is the gold standard for analysis.
  • Non-Patent Documents 3 and 4 recent studies using enzymatic methyl sequencing (EM-seq) have shown promising results with limited cfDNA using an enzymatic approach instead of harsh bisulfite conversion (Non-Patent Documents 3 and 4).
  • complex methylation patterns were simplified by introducing values such as average methylation fraction (AMF) (Non-patent Document 5). This method can be implemented because CpG methylation varies locally depending on the presence of adjacent CpG methylation and CpG density (Non-patent Documents 6 and 7).
  • the present inventors completed the present invention by evaluating the relationship between methylation patterns of cfDNA and CCC and identifying distinct CpG methylation dependent on CCC grade in human cfDNA.
  • Non-patent document 0001 Jamaiyar A, Juguilon C, Dong F, Cumpston D, Enrick M, chilian WM, Yin L. Cardioprotection during ischemia by coronary collateral growth. Am J Physiol Heart Circ Physiol. 2019;316(1):1-9.
  • Non-patent document 0002 Nakajima H, Chiba A, Fukumoto M, Morooka N, Mochizuki N. Zebrafish vascular development: general and tissue-specific regulation. J Lipid Atheroscler. 2021;10(2):145-59.
  • Non-patent document 0003 Ahn J, Heo S, Lee J, Bang D. Introduction to single-cell DNA methylation profiling methods. Biomolecules. 2021;11(7):1013.
  • Non-patent document 0004 Vaisvila R, Ponnaluri VKC, Sun Z, Langhorst BW, Saleh L, Guan S, Dai N, Campbell MA, Sexton BS, Marks K, Samaranayake M, Samuelson JC, Church HE, Tamanaha E, Correa IR , Pradhan S, Dimalanta ET, Evans TC, Williams L, Davis TB.
  • Enzymatic methyl sequencing detects DNA methylation at single-base resolution from picograms of DNA. Genome Res. 2021;31(7):1280-9.
  • Non-patent document 0005 Chen X, Gole J, Gore A, He Q, Lu M, Min J, Yuan Z, Yang , Li Z, Xie Z, Shi H, Zhang X, Fan M, Wang L. Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun. 2020;11(1):3475.
  • Non-patent document 0006 Lovkvist C, Dodd IB, Sneppen K, Haerter JO. DNA methylation in human epigenomes depends on local topology of CpG sites. Nucleic Acids Res. 2016;44(11):5123-32.
  • Non-patent document 0007 Guo S, Diep D, Plongthongkum N, Fung H-L, Zhang K, Zhang K. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nat Genet. 2017;49(4):635-42.
  • the object of the present invention is ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1
  • DMR differentially methylated region
  • Another object of the present invention provides the use of an agent for measuring the methylation level of DMR in any one or more of the following 20 genes for producing an agent for predicting coronary collateral circulation: ST7, EPN1, LOC101927914, SENP3 , TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1.
  • Another object of the present invention is to provide a method for providing information for predicting coronary artery collateral circulation, including the step of measuring the methylation level of the DMR, and a method for providing information for determining treatment methods for patients with ischemic heart disease. .
  • the present invention relates to ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1.
  • a composition for predicting coronary collateral circulation is provided, which includes an agent for measuring the methylation level of DMR in one or more selected genes.
  • the present invention also provides the use of an agent for measuring the methylation level of DMR in any one or more of the following 20 genes for producing an agent for predicting coronary collateral circulation: ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1.
  • the agent for measuring the methylation level of the DMR includes a compound that modifies an unmethylated cytosine base; Alternatively, it may be a primer specific to the methylated sequence of the DMR and a primer specific to the unmethylated sequence of the DMR.
  • the compound that modifies the unmethylated cytosine base of the DMR may be bisulfite or a salt thereof.
  • the present invention provides a kit for predicting coronary collateral circulation comprising the composition.
  • the present invention includes the steps of a) extracting cfDNA (cell free DNA) from a sample isolated from an individual; And b) ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC022333, Magi2-AS3, TEX51, ALG10B, C10-SKI, FREM1, Smurf2, NTRK3, RAB11FIP3 H3, SKIV2L, GUSBP10 and STAB1 It provides a method for providing information for predicting coronary artery collateral circulation, including the step of measuring the methylation level of DMR in one or more genes selected from the group consisting of.
  • the subject may be a patient with ischemic heart disease.
  • the sample may be blood, plasma, or serum.
  • the method for providing information for predicting coronary collateral circulation is c) comparing the methylation level after step b) with the methylation level of the corresponding gene in a control sample with a poor prognosis of coronary collateral circulation. If the results are lower, an additional step may be included to predict good coronary collateral circulation.
  • the method for measuring the methylation level includes methylation-specific polymerase chain reaction, real time methylation-specific polymerase chain reaction, and methylation-sensitive restriction enzyme. It can be selected from the group consisting of measuring methylation using , PCR using methylated DNA-specific binding protein, quantitative PCR, DNA chip, pyrosequencing, and bisulfite sequencing.
  • the method of providing information for predicting coronary collateral circulation may further include c') converting the methylation level measured in step b) into data.
  • a method of providing information for predicting the coronary collateral circulation includes the steps of d') calculating an average methylation fraction (AMF) using the methylation data; and e') if the AMF is close to 1, the prognosis of the coronary collateral circulation is determined to be poor, and if the AMF is lower than 1, the prognosis of the coronary collateral circulation is determined to be good.
  • AMF average methylation fraction
  • the present invention also includes the steps of a) extracting cfDNA (cell free DNA) from a sample isolated from a patient with ischemic heart disease; b) ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, Magi2-AS3, TEX51, ALG10B, C10ORF71-AS1, SKI, Frem1, Smurf2, NTRK3, RAB11FIP3 3, SKIV2L, GUSBP10 and STAB1 Measuring the methylation level of DMR in one or more genes selected from the group; and c) after step b), comparing the methylation level with the methylation level of the corresponding gene in a control sample with a good prognosis of coronary collateral circulation, and if it is higher, determining to apply additional treatment.
  • cfDNA cell free DNA
  • the sample may be blood, plasma, or serum.
  • the agent for measuring the methylation level of the DMR includes a compound that modifies an unmethylated cytosine base; Alternatively, it may include a primer specific to the methylated sequence of the DMR and a primer specific to the unmethylated sequence of the DMR.
  • the compound that modifies the unmethylated cytosine base of the DMR may be bisulfite or a salt thereof.
  • the additional treatment may be coronary intervention or coronary artery bypass surgery.
  • collateral circulation can be predicted non-invasively in patients with cardiovascular disease, which can serve as an appropriate foundation for personalized medicine.
  • Figures 1A-1D show the correlation between DNA methylation and CCC.
  • Figure 1A shows a scree plot of the proportion of variance explained (y-axis) using 30 PCs in PCA of the AMF data table (black line). To determine the effective PC value, the maximum value of the variance ratio calculated from the random permutation AMF table was marked with a red line. 15 PCs had higher observed variance than expected from the background.
  • Figure 1b shows a heatmap of p-values of the association between 15 significant PCs and clinical variables. All p-values were estimated by Pearson's correlation coefficient analysis, and the numbers in each block represent Pearson's correlation coefficients.
  • Figure 1c is a PCA plot for PC1 and PC3, which were assumed to be correlated with CCC.
  • Figure 1D is a PCA plot for PC1 and PC8, which were assumed to be correlated with CCC.
  • Figures 2a and 2b confirm the results of the unsupervised analysis, and Figure 2a shows a heatmap of the p-values of the association between 15 important PCs and clinical variables. All p-values were estimated using Spearman's correlation coefficient analysis, with numbers in each block representing Spearman's correlation coefficient values.
  • Figure 2b shows the results of t-SNE analysis using the AMF value of a bin with high variance as input.
  • Figure 3 shows the distribution of the average AMF difference between the poor and good CCC groups (x-axis: standard deviation of the mean difference, y-axis: number of corresponding bins). Because hypomethylation predominates when CCC occurs, the peak representing a mean change of 0 is slightly biased toward hypermethylation.
  • Figures 4a and 4b show the distribution of q-values in each of the three resample groups.
  • Figure 4a applies FDR correction to the p-values obtained from Welch's t-test, and the distribution of q-values in each of the three resample groups is displayed.
  • Figure 4b shows the FDR correction applied to the p-value obtained using the Wilcoxon test.
  • Figures 5A-5E illustrate the screening process for DMRs potentially associated with CCC, in which DMR candidates were selected from each of three subsets sampled with replacement from the training set.
  • Figure 5a is a volcano plot examining the association between mean differences in AMF and p-values using Welch's t-test on 600,000 bins where >90% AMF values could be calculated in each subset. It was calculated. Negative log-transformed q-values were generated using the FDR correction of the p-values plotted against the AMF difference between the good and poor CCC groups (converted to z-scores via normalization). The area above the dashed horizontal line represents q-value ⁇ 0.05.
  • the vertical dashed line represents the absolute z-score value
  • It represents 2. Hypomethylation is indicated (blue, first region from the left at the top) when the mean AMF value is significantly lower in the good CCC group than in the poor CCC group. Conversely, high average AMF values are indicated by hypermethylation (red, first region from the right at the top).
  • Figure 5b shows selected DMRs from each of the three subsets. A total of 1,430 DMRs commonly included in the three subsets were used for further filtering process.
  • Figure 5c shows the top 500 DMRs in each subset selected from 1,430 DMRs based on the significance of their q values. A total of 256 DMRs included in the top 500 of all subsets were selected as input for an additional random forest classifier step.
  • the PCA results of the test set were predicted using the learning test results based on the training set.
  • Figure 6 shows the CpG density distribution in each of the three resampling groups.
  • the CpG number of an individual DMR is defined as the CpG number of the reference genome. Because only regions containing 5 or more CpGs in an individual bin were screened, 5 CpG/DMR was the smallest bin included in the analysis.
  • Figure 7 shows the path analysis results for 1,430 DMRs, which are the intersection of DMRs from three subsets.
  • Figure 8 shows the path analysis results for 256 DMRs selected among 1,430 intersection DMRs.
  • Figures 9A-9D show the results of selecting key DMRs associated with good CCC using a random forest classifier.
  • Figure 9b is an ROC curve for the learning test results of the training set (AUC: 0.962) and the prediction results of the test set (AUC: 0.950).
  • Figure 9d shows the path analysis results of 20 DMRs related to CCC.
  • Figure 11 compares the AMF values between the healthy group and the CCC group in selected DMRs.
  • the distribution of AMF for each of the good CCC (left), poor CCC (middle), and healthy (right) groups in the 18 DMRs mapped also in the healthy group was expressed as a boxplot.
  • the present invention consists of ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1
  • a composition for predicting coronary collateral circulation comprising an agent for measuring the methylation level of DMR in one or more genes selected from the group.
  • the present invention relates to ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1
  • a biomarker composition for predicting coronary artery collateral circulation comprising the DMR of one or more genes selected from the group consisting of.
  • biomarker of the present invention refers to a molecule quantitatively or qualitatively associated with the presence of a biological phenomenon, and the biomarker of the present invention may be DMR that can confirm whether coronary artery collateral circulation is good.
  • the term includes nucleic acid sequences complementary to or flanking a marker sequence.
  • the present invention also provides the use of an agent for measuring the methylation level of DMR in any one or more of the following 20 genes for producing an agent for predicting coronary collateral circulation: ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 and STAB1.
  • cfDNA is extracted and compared from a good (good, same meaning as good) CCC group and a poor (bad, same meaning as poor) CCC group, and then differentially methylated regions between the two groups.
  • good CCC and poor CCC can be defined using the classification method by Rentrop and Cohen.
  • grade 0 means there is no collateral circulation
  • grade 1 means the collateral circulation fills only the collaterals of the coronary artery with the lesion
  • grade 2 means the collateral circulation only partially fills the epicardial vessels of the coronary artery below the lesion.
  • grade 3 can be defined as the case of full filling of the epicardial blood vessels, where poor CCC may be a group classified as grade 0 or 1, and good CCC may be a group classified as grade 2 or 3.
  • coronary collateral circulation is used with the same meaning as “Coronary Collateral Circulation” or “CCC” throughout the specification.
  • the term "prediction" means to guess in advance about medical consequences, and for the purpose of the present invention, it means to predict in advance the progression of coronary collateral circulation in a patient with heart disease.
  • methylation refers to the attachment of a methyl group to a base constituting DNA.
  • methylation refers to whether methylation occurs at a cytosine in a specific CpG site of a specific gene.
  • methylation occurs, the binding of transcription factors is disrupted and the expression of a specific gene is suppressed.
  • unmethylation or hypomethylation occurs, the expression of a specific gene increases.
  • the genomic DNA of mammalian cells contains a fifth base called 5-methylcytosine (5-mC), which has a methyl group attached to the fifth carbon of the cytosine ring.
  • 5-methylcytosine 5-mC
  • Methylation of 5-methylcytosine occurs only at the C of CG dinucleotide (5'-mCG-3'), called CpG
  • methylation of CpG suppresses the expression of alu or transposon and repetitive sequences of the genome.
  • CpG is the site where most epigenetic changes frequently occur in mammalian cells.
  • the term "measurement of methylation level” refers to measuring the methylation level of the CpG region of a gene, using methylation-specific PCR, for example, methylation-specific polymerase chain reaction (MSP), real-time methylation-specific PCR. It can be measured through real-time methylation-specific polymerase chain reaction (PCR), PCR using a methylated DNA-specific binding protein, or quantitative PCR. Alternatively, it can be measured by methods such as automatic base analysis such as pyrosequencing and bisulfite sequencing, but is not limited thereto.
  • MSP methylation-specific polymerase chain reaction
  • PCR real-time methylation-specific polymerase chain reaction
  • PCR PCR using a methylated DNA-specific binding protein
  • quantitative PCR quantitative PCR.
  • it can be measured by methods such as automatic base analysis such as pyrosequencing and bisulfite sequencing, but is not limited thereto.
  • the CpG site of a gene refers to a CpG site present on the DNA of the gene.
  • the DNA of the gene is a concept that includes a series of structural units that are necessary for the expression of the gene and are operably linked to each other, for example, a promoter region, a protein coding region (open reading frame, ORF), and a terminator. Includes area. Therefore, the CpG site of a gene may be present in the promoter region, protein coding region (open reading frame, ORF), or terminator region of the gene.
  • DMR differentially (or differently) methylated region
  • this term also refers to the It is intended to refer to regions within chromosomal DNA that are differentially methylated (e.g., in CpG motifs) between good and poor CCC in the patient's cfDNA.
  • DMRs are differentially methylated between good and poor CCCs, while in certain embodiments of the invention DMRs are hypomethylated in good CCCs.
  • the degree of methylation in the (good CCC) DNA species is lower (i.e., hypomethylated) compared to other (bad CCC) DNA, e.g., in a given DMR, in other (bad CCC) DNA.
  • the above (good CCC) DNA species no more than about 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, or 100% of the corresponding sites are methylable compared to the methylable sites. It is methylated.
  • the agent for measuring the methylation level of the DMR is a compound that modifies an unmethylated cytosine base; Primers specific for the methylated sequence of the DMR; And it may be a primer specific for the unmethylated sequence of the DMR.
  • the “agent” or “test agent” may include any substance, molecule, element, compound, entity, or combination thereof. You can. For example, it may include proteins, polypeptides, small organic molecules, polysaccharides, polynucleotides, etc., and may be a natural product, a synthetic compound, a chemical compound, or a combination of two or more substances. there is. Unless otherwise defined, the above agents, substances and compounds can be used interchangeably.
  • the agent for measuring the methylation level of a CpG site includes a compound that modifies an unmethylated cytosine base, a methylation-sensitive restriction enzyme, a primer specific for the methylated allele sequence of the gene, and a compound specific for the unmethylated allele sequence. Primers may be included.
  • the compound that modifies the unmethylated cytosine base may be bisulfite or a salt thereof, but is not limited thereto.
  • the methylation-sensitive restriction enzyme is a restriction enzyme that can specifically detect methylation of a CpG site and may be a restriction enzyme that contains CG as a recognition site of the restriction enzyme. Examples include SmaI, SacII, EagI, HpaII, MspI, BssHII, BstUI, NotI, etc., but are not limited thereto. Depending on methylation or unmethylation at C of the restriction enzyme recognition site, cleavage by restriction enzymes varies and can be detected through PCR or Southern Blot analysis. Other methylation-sensitive restriction enzymes other than the above restriction enzymes are well known in the art.
  • a typical method of measuring the methylation level at a specific CpG site in a patient's gene is to obtain genomic DNA from the patient's biological sample and treat the obtained DNA with a compound that modifies unmethylated cytosine bases or a methylation-sensitive restriction enzyme. Afterwards, the treated DNA can be amplified by PCR using primers and measured by confirming the presence or absence of the amplified product.
  • the agent of the present invention may include primers specific for the methylated allele sequence of the gene and primers specific for the unmethylated allele sequence.
  • primer refers to a short nucleic acid sequence having a short free 3 terminal hydroxyl group, which can form base pairs with a complementary template and serves as a starting point for copying the template strand.
  • Primers can initiate DNA synthesis in the presence of four different nucleoside triphosphates and reagents for polymerization (i.e., DNA polymerase or reverse transcriptase) in an appropriate buffer solution and temperature.
  • primers, both sense and antisense nucleic acids having a sequence of 7 to 50 nucleotides may incorporate additional features that do not change the basic nature of the primer, which serves as an initiation point for DNA synthesis.
  • the primers of the present invention can be preferably designed according to the sequence of the specific CpG site to be analyzed for methylation, and each primer pair is capable of specifically amplifying a cytosine that is methylated and has not been modified by bisulfite, And it may be a primer pair that can specifically amplify cytosine that is not methylated and thus modified by bisulfite.
  • the compositions and kits may additionally include polymerase agarose, buffer solutions required for electrophoresis, etc.
  • the present invention provides a kit for predicting coronary artery collateral circulation comprising the above-described composition.
  • the kit may be an RT-PCR kit, a competitive RT-PCR kit, a real-time RT-PCR kit, a DNA chip kit, or a protein chip kit.
  • the kit of the present invention may include a composition, solution, or device containing an agent for measuring the methylation level of the biomarker DMR as well as one or more other components suitable for the analysis method.
  • cfDNA cell free DNA
  • ST7 EPN1, LOC101927914, SENP3, TCERG1L, LINC022333, Magi2-AS3, TEX51, ALG10B, C10-SKI, FREM1, Smurf2, NTRK3, RAB11FIP3 H3, SKIV2L, GUSBP10 and STAB1 Measuring the methylation level of DMR in one or more genes selected from the group consisting of; Provides a method of providing information for prediction of coronary collateral circulation, including.
  • an “individual” is an individual with heart disease, including humans, primates including chimpanzees, pets such as dogs and cats, livestock animals such as cows, horses, sheep, and goats, and rodents such as mice and rats. Mammals, farmed fish, etc. may be included without limitation.
  • the individual may be a patient with ischemic heart disease.
  • ischemic heart disease refers to a disease that occurs due to insufficient blood supply to the heart muscle due to narrowing or blockage of the coronary arteries that supply blood to the heart, and is a disease with a risk of angina pectoris, myocardial infarction, or sudden death. do. “Ischemic heart disease” may include, but is not limited to, stable angina, unstable angina, variant angina, and acute myocardial infarction.
  • the “sample” used for analysis is tissue, cells, blood, plasma, serum, saliva, nasal fluid, sputum, ascites, vaginal secretions, urine, feces, etc. in the coronary collateral circulation that can be distinguished from normal conditions.
  • biological samples for which specific DMRs can be identified Preferably it may be a biological liquid sample such as blood, plasma, serum or urine, most preferably plasma.
  • the sample may be prepared to increase the detection sensitivity of the biomarker, for example, a sample obtained from a patient may be subjected to anion exchange chromatography, affinity chromatography, size exclusion chromatography, liquid chromatography, or It can be pretreated using methods such as sequential extraction.
  • the method for providing information for prediction of coronary collateral circulation is c) the methylation level after step b) is compared with the methylation level of the corresponding gene in a control sample with a poor prognosis of coronary collateral circulation. If low, an additional step of predicting that coronary collateral circulation is good may be included. In one specific example, as shown in Figure 9c, it was found that good CCCs showed hypomethylation compared to bad CCCs in 20 DMRs.
  • the measurement method is not particularly limited as long as the methylation level of the gene is measured by a gene methylation measurement method known in the art, but the method for measuring the methylation level is a methylation-specific polymerase reaction.
  • polymerase chain reaction polymerase chain reaction
  • real time methylation-specific polymerase chain reaction measurement of methylation using methylation-sensitive restriction enzyme
  • PCR using methylated DNA-specific binding protein quantitative PCR
  • DNA chip PI It may be selected from the group consisting of raw sequencing and bisulfite sequencing.
  • the methylation-specific PCR method involves treating sample DNA with bisulfite and then designing and using different types of primers to perform PCR depending on whether or not the CpG dinucleotide is methylated. am. If the primer binding site is methylated, PCR is performed using the methylated primer. If the primer binding site is not methylated, PCR is performed using the normal primer. In other words, this is a method of treating sample DNA with bisulfite, performing PCR using two types of primers simultaneously, and then comparing the results.
  • Real-time methylation-specific PCR is a conversion of the methylation-specific PCR method into a real-time measurement method. After treating genomic DNA with bisulfite, design PCR primers corresponding to methylated cases, and perform real-time PCR using these primers. It is to carry out. At this time, there are two methods: detection using a TaqMan probe complementary to the amplified base sequence and detection using SYBRgreen. Therefore, real-time methylation-specific PCR can selectively quantitatively analyze only methylated DNA.
  • a standard curve was prepared using an in vitro methylated DNA sample, and for standardization, a gene without a 5'-CpG-3' sequence in the base sequence was amplified as a negative control to quantify the degree of methylation. It is a method of analysis.
  • the methylation-sensitive restriction enzyme uses a CpG dinucleotide as its action site, and if this site is methylated, it cannot act as an enzyme. Therefore, if the sample DNA is treated with a methylation-sensitive restriction enzyme and then amplified by PCR to include the enzyme target site, the restriction enzyme does not work in the methylated case and PCR amplification occurs, but the unmethylated normal site is cut by the restriction enzyme. Since PCR amplification does not occur, the methylation of a specific DNA region can be measured.
  • methylated DNA-specific binding protein In the PCR or DNA chip method using a methylated DNA-specific binding protein, when a protein that specifically binds to methylated DNA is mixed with DNA, the protein binds specifically to the methylated DNA, so only methylated DNA can be selectively separated. . After mixing genomic DNA with methylated DNA-specific binding protein, only methylated DNA is selectively isolated. This is a method of amplifying these isolated DNA using PCR primers corresponding to the intron region and then measuring methylation by agarose electrophoresis. In addition, methylation can be measured using quantitative PCR. Methylated DNA separated with a methylated DNA-specific binding protein is labeled with a fluorescent dye and hybridized to a DNA chip with complementary probes integrated into it to measure methylation. can do.
  • the methylated DNA-specific binding protein is not limited to MBD2bt.
  • bisulfite pyrosequencing of bisulfite-treated DNA is based on the following principle.
  • 5-methylcytosine (5-mC) is formed, and this modified base is changed to uracil upon bisulfite treatment.
  • DNA extracted from a sample is treated with bisulfite, if the CpG dinucleotide is methylated, it is preserved as cytosine, and the remaining unmethylated cytosine is changed to uracil.
  • Sequence analysis of bisulfite-treated DNA can preferably be performed using a pyrosequencing method.
  • a bisulfite-independent detection method using the ten-eleven translocation (TET) protein can detect the base at the methylation site by converting only the methylated C to T using the TET protein.
  • cytosine forms 5-methylcytosine (5-mC)
  • Cpg dinucleotide is methylated when processing the TET protein
  • 5-hydroxymethylcytosine (5-hmC) is sequentially formed.
  • 5-formylcytosine (5-fC) and 5-carboxylcytosine (5-caC)
  • the product of this change is methylated by adding samples such as pyridine borane to uracil.
  • Unused cytosine can be preserved, or its reactivity can be eliminated by reacting with an enzyme that adds a blocking group, and only methylated cytosine can be preserved by adding an enzyme such as APOBEC.
  • Sequence analysis of TET-treated DNA is not limited to pyrosequencing methods and can be performed using methods such as methylation-sensitive PCR (MSP), microarray, and next generation sequencing (NGS). It can be analyzed.
  • MSP methylation-sensitive PCR
  • NGS next generation sequencing
  • the method of providing information for predicting coronary artery collateral circulation may further include the step of c') converting the methylation level measured in step b) into data.
  • the step of collecting data on the methylation level can be performed using programs known to those skilled in the art.
  • the method of providing information for predicting coronary collateral circulation includes the steps of d') calculating the average methylation fraction (AMF) using the methylation data, and e') when the AMF is close to 1.
  • An additional step may be included in which the prognosis of the coronary collateral circulation is judged to be poor, and if the AMF is lower than 1, the prognosis of the coronary collateral circulation is judged to be good.
  • the term 'AMF' refers to the ratio of the number of CpG sequences (methylated CpGs) maintained among the total number aligned at known CpG positions in the reference genome for all reads aligned in a bin.
  • the AMF value of each bin was calculated and the samples were divided into a good CCC group and a poor CCC group. Only bins with a null value of less than 10% were selected, and the above process was performed using R (version 4.0.3).
  • the present invention also includes the steps of a) extracting cfDNA (cell free DNA) from a sample isolated from a patient with ischemic heart disease; b) CFDNA's ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10ORF71-AS1, SKI, Frem1, Smurf2, NTRK3, RAB11FIP3, HLTF, MyH3, SKIV2L, GUSBP10 and Measuring the methylation level of a DMR in one or more genes selected from the group consisting of measuring the methylation level of a DMR in one or more genes selected from the group consisting of STAB1; and c) after step b), comparing the methylation level with the methylation level of the corresponding gene in a control sample with a good prognosis of coronary collateral circulation, and if it is higher, determining to apply additional treatment.
  • the additional treatment may mean, but is not limited to, coronary intervention, including drug treatment, coronary artery bypass surgery, etc., performed when collateral circulation is poor (poor) and ischemia exists.
  • Patients with poor CCC with higher methylation levels compared to good CCC can receive additional treatment, providing appropriate information to be used in personalized medicine.
  • the method of providing information for predicting coronary collateral circulation of the present invention and the method for providing information for determining treatment methods for patients with ischemic heart disease are all in vitro methods performed on samples isolated from an individual. may, but is not limited to this.
  • a trained nurse collected clinical data, including demographic variables and risk factors. Blood samples from all study subjects were collected immediately before or within 24 hours of angiography and stored at -80 °C. Angiography was performed after administering oral aspirin and 5,000 U of intravenous heparin to the patient. Coronary artery disease and CCC were confirmed by two interventional cardiologists in a blind test against other patient data. CCC was evaluated according to the Rentrop classification: grade 0, no filling; Grade 1, side branch filling through collateral channels without epicardial filling; Grade 2, partial filling of the epicardial coronary artery through collateral channels; and grade 3, complete filling of the epicardial coronary arteries. Patients were classified as having poor (grade 0 or 1) or good (grade 2 or 3) CCC based on collateral grade.
  • cfDNA was extracted from plasma using the QIAamp MinElute ccfDNA kit (Qiagen, Hilden, Germany) and stored at -20 °C. Before library preparation, cfDNA concentration and size distribution were assessed using TapeStation (Agilent, Santa Clara, CA, USA). EM-seq libraries were prepared using 1–100 ng of cfDNA without fragmentation and an EM-seq kit (New England Biolabs, Ipswich, MA, USA). Library concentration and distribution were determined using TapeStation. Paired-end 150bp sequencing was performed using the NovaSeq 6000 S4 platform (Illumina).
  • DNA methylation data were obtained from 143 patients (109 in the good CCC group and 34 in the poor CCC group) using EM-seq (Table 1).
  • the output bam file was stored in Samtools (version 1.11) [Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. 1000 genome project data processing subgroup: the sequence alignment/map format. andSAMtools. Bioinformatics. 2009;25(16):2078-9.].
  • GATK version 4.1.9.0
  • MarkDuplicates module [McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA.
  • the genome analysis toolkit a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010;20(9):1297-303.] were used to remove PCR and optical replicates (Table 2).
  • ENCODE [Amemiya HM, Kundaje A, Boyle AP. The ENCODE blacklist: identification of problematic regions of the genome. Sci Rep. 2019;9(1):1-5.] Genomic regions blacklisted and repetitive element regions screened using RepeatMasker (http://www.repeatmasker.org) to remove alignment artifacts. did. Reads overlapping this region were filtered out before analysis. The final filtered BAM files were used to calculate methylation levels at each cytosine locus using MethylDackel (https://github.com/dpryan79/MethylDackel). Conversion rates were calculated with an in-house Python program (version 2.7.17) using MethylDackel CHH output as input. Samples were excluded if the conversion rate did not exceed 99% or the average depth was ⁇ 3.
  • the hg19 reference genome was divided into 100bp bins for all regions.
  • AMF values for filtered BAM files were obtained for each sample from ⁇ 1.2 million bins with high CpG density containing more than 5 CpGs.
  • AMF was previously reported [Chen X, Gole J, Gore A, He Q, Lu M, Min J, Yuan Z, Yang Niu H, Li Z, Xie Z, Shi H, Zhang , Jin L. Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun.
  • AMF is the ratio of the number of methylated CpGs among all blank reads aligned at known CpG positions in the reference genome.
  • the AMF value of each bin was obtained, the samples were divided into a good CCC group and a poor CCC group, and only bins with null values less than 10% were selected.
  • a total of 606,483 bins met the criteria and were used for subsequent analysis.
  • the table is publicly accessible at https://osf.io/fw2zq. The above process was performed using R (version 4.0.3).
  • PCA Principal component analysis
  • the Rtsne package https://github.com/jkrijthe/Rtsne was used for t-SNE analysis. Pearson- and Spearman correlation coefficients and PC values and p-values between clinical variables were calculated. Categorical variables were converted to 0 and 1 and then calculated as point-double serial correlation coefficients. R's cor.test function was used for all calculations.
  • Figure 1A shows a scree plot of the proportion of variance explained (y-axis) using 30 PCs in PCA of the AMF data table (black line).
  • the maximum value of the variance ratio calculated from the random permutation AMF table was marked with a red line.
  • 15 PCs had higher observed variance than expected from the background.
  • Fifteen PC values were selected and compared to the predicted maximum background noise value (Figure 1a).
  • Figure 1b shows a heatmap of p-values of the association between 15 significant PCs and clinical variables. All p-values were estimated with Pearson's correlation coefficient analysis. The number in each block represents Pearson's correlation coefficient.
  • PC1 Peak's correlation coefficient [PCC] 0.34
  • PC3 PCC -0.32
  • PC8 PCC -0.36
  • the correlation between PC and CCC was reproduced using a non-parametric method ( Figure 2a).
  • PC1 samples from the good CCC group showed a wide distribution
  • PC1 samples from the poor CCC group showed a relatively narrow distribution
  • PCA plots for PC1 and PC3 were estimated to be correlated with CCC, with several PC3 samples in the poor CCC group being outliers and no difference in the overall distribution between the two groups.
  • the overall distribution of PC8 samples differed between the good and poor CCC groups but was much smaller than that of its principal component, PC1 ( Figure 1D).
  • PCA plots for PC1 and PC8 were estimated to be correlated with CCC.
  • Methylation marker regions that could be used to predict good CCC were selected.
  • the pre-screening process consisted of screening for CCC-related DMRs and screening for candidate markers among the selected DMRs. For verification, the training set and test set were separated, and screening was performed only on the training set. To prevent overfitting, DMR detection was performed on each of the three resampled subsets from the CCC-related DMR detection training set.
  • the 1,430 DMRs were sorted based on the q-value calculated from each subset. Only the top 500 DMRs from all subsets were selected, and 256 DMRs were finally selected. PCA of the training and test sets on 256 DMRs was performed using the prcomp function in R with 70% confidence intervals to draw key regions.
  • the DMR list for path analysis was generated in BED format using R.
  • a list of DMR-related genes was generated using HOMER (version 4.11) genome annotation. Removal of duplicates was performed, and the list of related genes was entered into Enrichr (https://maayanlab.cloud/Enrichr/) for pathway analysis. Primary results based on WikiPathways 2021, Elsevier pathways and Panther 2016 databases were additionally considered.
  • Figure 3 shows the distribution of the average AMF difference between the poor and good CCC groups.
  • the mean difference between the good and poor CCC groups in the same bin showed a mixture of both aspects ( Figure 3). Methylation differences were observed in some bins, with hypomethylation tending to be more common.
  • Figures 4a and 4b show the distribution of q-values in each of the three resample groups.
  • Welch's t-test ( Figure 4a) was used to select bins where the AMF distribution was significantly different between the good and poor CCC groups.
  • FDR correction was applied to the p-values obtained from Welch's t-test, and the distribution of q-values in each of the three resample groups was plotted.
  • Figure 4b shows the FDR correction applied to the p-values obtained using the Wilcoxon test, which did not identify DMRs. Since significant methylation differences between the two groups were observed in the unsupervised analysis, subsequent analyzes were performed assuming that the Welch's t-test results were significant.
  • DMRs were selected based on the difference between the mean and distribution (Figure 5a). Hypomethylation (z-score ⁇ -2) was more common and more variable than hypermethylation (z-score > 2) in selected DMRs. Although the number of hypomethylated and hypermethylated DMRs was different in each set, the predominance of hypomethylated and low CpG densities was consistent ( Figure 6). Afterwards, the most reproducible DMR among the identified DMRs in each subset was selected. Only DMRs observed in all three subsets were selected in the screening process for non-sample-specific, reproducible DMRs, and 1,430 DMRs met this criterion (Fig. 5b).
  • the 1,430 intersecting DMRs were sorted according to the q-value of each subset. Pathway analysis of 1,430 DMRs (1) did not show clear associations with previously known CCC-related pathways or (2) was inconsistent with predictions based on other databases (Figure 7). Among the top 500 DMRs in all subsets, only 256 were selected as candidate marker DMRs strongly associated with CCC ( Fig. 5C ). Pathway analysis of 256 DMRs identified factors reported to be associated with CCC, including TGF-beta, G-protein, and eosinophils (Figure 8).
  • marker selection was performed using machine learning.
  • a classifier was trained using the random forest method of the learning algorithm, and 256 selected DMRs were used as input.
  • Figure 9a shows a flowchart of random forest classifier training and validation through iterative cross-validation using good CCC-related DMR candidates.
  • the entire training set consisting of 256 DMRs was used as input for random forest analysis.
  • Cross-validation of the training and validation sets was performed using the 'repeatedcv' option of the trainingControl function in the caret package.
  • the 10-fold cross-validation was repeated 10 times.
  • Random forest classifier construction was performed using the caret train function with the “rf” option selected.
  • the predictive effectiveness of the model on the training and test sets was evaluated using the area under the curve (AUC) of the receiver operating characteristic (ROC) curve.
  • the pROC (version 1.17.0.1) package in R was used to select the optimal ROC curve and calculate the corresponding specificity and sensitivity.
  • the importance of individual variables was evaluated based on the 'MeanDecreaseGini' value in the importance of the finally constructed random forest model.
  • the top 20 DMRs were selected as markers and the AMF distribution of each DMR was evaluated (Figure 9c).
  • 5 were located in exonic regions
  • 8 were located in intronic regions
  • 7 were located in intergenic regions.
  • the poor CCC group generally showed a narrow distribution of AMF values close to 1, whereas the good CCC group showed a wide AMF distribution.
  • This AMF pattern suggested that the selected DMRs showed differences in methylation and were suitable as markers for good CCC.
  • Pathway analysis was further performed to investigate the biological relevance of the 20 selected marker DMRs ( Figures 9D and 10).
  • Pathways associated with selected DMRs include TGF-beta signaling pathway, transcriptional cofactor SKI and SKIL protein partners, striated muscle contraction pathway, Hedgehog signaling pathway, and ureteric collection system. included the development of In particular, the TGF-beta pathway showed the highest correlation, showing relationships in other database-based analyzes ( Figure 10).
  • TGF-beta related pathways were repeatedly observed to be associated with selected DMRs. These results demonstrate that the observed associations between selected DMRs and the TGF-beta pathway were not biased by the database, a well-known problem.
  • CpG methylation data were obtained from previously published cfDNA from healthy individuals [Heuslein JL, Gorick CM, Song J, Price RJ. DNA methyltransferase 1-dependent DNA hypermethylation constrains arteriogenesis by augmenting shear stress set point. J Am Heart Assoc. 2017;6:e007673]. After excluding two DMRs that were not included in the published data, we evaluated the AMF distribution in the remaining 18 DMRs ( Figure 11).
  • healthy human cfDNA data were downloaded from the GEO database (GSE164600) in bed file format.
  • the bed file lists the mapping and methylation numbers at individual CpG positions.
  • AMF was obtained by filtering CpG information overlapping with previously selected DMRs using the bedtools (version 2.29.2) cross function.
  • Out of a total of 12 healthy human cfDNA datasets 11 patients were included, and 1 patient was excluded due to very low coverage.
  • 2 DMRs were not covered, and the values of the remaining 18 DMRs were compared with the AMF distribution of the good and poor CCC groups.

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 심장질환 환자의 차등적으로 메틸화되는 부위의 메틸화 수준을 파악하여 세포유리 DNA를 이용한 관상동맥 측부 순환을 예측하기 위한 조성물, 키트 및 정보제공 방법에 관한 발명이다. 구체적으로는 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하여 저메틸화 되는 경우, 양호한 관상동맥 측부 순환으로 예측할 수 있어, 심장질환 환자에서의 관상동맥 측부 순환 예측에 있어 우수한 맞춤 의학으로 활용 가능하다.

Description

세포유리 DNA를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법
본 발명은 심장질환 환자의 차등적으로 메틸화되는 부위의 메틸화 수준을 파악하여 관상동맥 측부 순환을 예측하기 위한 기술이다.
관상동맥 측부 순환(Coronary Collateral Circulation, 이하 'CCC')의 발생 및 존재는 허혈성 심장 질환 환자에서 임상적으로 매우 중요하다. 양호한 CCC는 관상동맥이 막혔을 때 심혈관 사건과 경색 크기를 줄일 수 있다. 측부 순환 발달에서 성장 인자, 사이토카인 및 전단 응력의 관련성이 보고된 바 있으나(비특허문헌 1 및 2), 부수적 순환(collateral circulation)과 관련된 요인과 예측 인자는 후성 유전적 영향에 대한 제한된 증거로 불완전하게 이해되었다.
한편, 인간 DNA 메틸화는 CpG 다이뉴클레오티드에서 사이토신의 C5 위치의 메틸화를 나타낸다. DNA 메틸화는 전사, 배아 발달, 게놈 각인(genomic imprinting) 및 안정성, 염색질 구조를 조절하는 데 중요한 역할을 한다. 따라서, 인간의 질병은 종종 메틸화 패턴의 변화를 동반한다. DNA 메틸화와 혈관 신생 및 혈관 성장의 연관성이 마우스에서 분석되었지만 관련 인간 연구는 수행되지 않았다.
세포 유리 DNA(Cell free DNA, 이하 cfDNA)는 세포 사멸을 포함한 다양한 메커니즘을 통해 혈장으로 방출되는 순환 DNA를 말한다. 장기 관련 cfDNA의 메틸화 패턴은 최근 패혈증 및 암 환자에서 검출되었다. 따라서, 비침습적으로 수집된 인간 cfDNA의 특성을 기반으로 암과 같은 질병의 진단을 목표로 한 연구가 수행되었다. 그러나, cfDNA 메틸화 패턴의 임상 적용은 복잡한 구성으로 인해 해석하기 어렵기 때문에 여전히 제한적인 실정이다. cfDNA의 양은 일반적으로 분석의 황금 표준인 중아황산염 변환 품질을 유지하기에 충분하지 않다. 다행히도, 효소적 메틸 시퀀싱(EM-seq)을 사용한 최근 연구는 가혹한 중아황산염 변환 대신 효소적 접근을 사용하여 제한된 cfDNA로 유망한 결과를 제시하였다(비특허문헌 3 및 4). 또 다른 연구에서는 평균 메틸화 분율(average methylation fraction, AMF)과 같은 값을 도입하여 복잡한 메틸화 패턴을 단순화하였다(비특허문헌 5). CpG 메틸화는 인접한 CpG 메틸화 및 CpG 밀도의 존재에 따라 지역적으로 달라지므로 이러한 방법을 구현할 수 있다(비특허문헌 6 및 7). 이러한 보고들은 메틸화 특성을 평가하기 위해 비침습적으로 얻은 cfDNA를 사용하는 것을 제안하였으며, 최근에는 임상 용도도 조사되었다.
이러한 배경 하에, 본 발명자들은 cfDNA의 메틸화 패턴과 CCC와의 연관성을 평가하고, 인간 cfDNA에서 CCC 등급에 의존하는 뚜렷한 CpG 메틸화를 확인함으로써 본 발명을 완성하였다.
[선행기술문헌]
[비특허문헌]
(비특허문헌 0001) Jamaiyar A, Juguilon C, Dong F, Cumpston D, Enrick M, Chilian WM, Yin L. Cardioprotection during ischemia by coronary collateral growth. Am J Physiol Heart Circ Physiol. 2019;316(1):1-9.
(비특허문헌 0002) Nakajima H, Chiba A, Fukumoto M, Morooka N, Mochizuki N. Zebrafish vascular development: general and tissue-specific regulation. J Lipid Atheroscler. 2021;10(2):145-59.
(비특허문헌 0003) Ahn J, Heo S, Lee J, Bang D. Introduction to single-cell DNA methylation profiling methods. Biomolecules. 2021;11(7):1013.
(비특허문헌 0004) Vaisvila R, Ponnaluri VKC, Sun Z, Langhorst BW, Saleh L, Guan S, Dai N, Campbell MA, Sexton BS, Marks K, Samaranayake M, Samuelson JC, Church HE, Tamanaha E, Correa IR, Pradhan S, Dimalanta ET, Evans TC, Williams L, Davis TB. Enzymatic methyl sequencing detects DNA methylation at single-base resolution from picograms of DNA. Genome Res. 2021;31(7):1280-9.
(비특허문헌 0005) Chen X, Gole J, Gore A, He Q, Lu M, Min J, Yuan Z, Yang X, Jiang Y, Zhang T, Suo C, Li X, Cheng L, Zhang Z, Niu H, Li Z, Xie Z, Shi H, Zhang X, Fan M, Wang X, Yang Y, Dang J, McConnell C, Zhang J, Wang J, Yu S, Ye W, Gao Y, Zhang K, Liu R, Jin L. Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun. 2020;11(1):3475.
(비특허문헌 0006) Lovkvist C, Dodd IB, Sneppen K, Haerter JO. DNA methylation in human epigenomes depends on local topology of CpG sites. Nucleic Acids Res. 2016;44(11):5123-32.
(비특허문헌 0007) Guo S, Diep D, Plongthongkum N, Fung H-L, Zhang K, Zhang K. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nat Genet. 2017;49(4):635-42.
따라서, 본 발명의 목적은 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 차등적으로 메틸화된 영역(Differentially methylated Region, DMR)의 메틸화 수준을 측정하는 제제를 포함하는, 관상동맥 측부 순환 예측용 조성물 및 키트를 제공하는 것이다.
본 발명의 다른 목적은 관상동맥 측부 순환 예측용 제제를 제조하기 위한, 다음의 20종의 유전자 중 어느 하나 이상에서 DMR의 메틸화 수준을 측정하는 제제의 용도를 제공한다: ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1.
본 발명의 또 다른 목적은 상기 DMR의 메틸화 수준을 측정하는 단계를 포함하는 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법 및 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법을 제공하는 것이다.
그러나, 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 명세서에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안 된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속 하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명은 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 제제를 포함하는, 관상동맥 측부 순환 예측용 조성물을 제공한다.
본 발명은 또한, 관상동맥 측부 순환 예측용 제제를 제조하기 위한, 다음의 20종의 유전자 중 어느 하나 이상에서 DMR의 메틸화 수준을 측정하는 제제의 용도를 제공한다: ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1.
본 발명에 있어서, 상기 DMR의 메틸화 수준을 측정하는 제제는, 비메틸화 사이토신 염기를 변형시키는 화합물; 또는 상기 DMR의 메틸화된 서열에 특이적인 프라이머 및 DMR의 비메틸화된 서열에 특이적인 프라이머일 수 있다.
본 발명에 있어서, 상기 DMR의 비메틸화 사이토신 염기를 변형시키는 화합물은 바이설파이트(bisulfite) 또는 이의 염일 수 있다.
본 발명은 상기 조성물을 포함하는 관상동맥 측부 순환 예측용 키트를 제공한다.
또한, 본 발명은 a) 개체로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계; 및 b) 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계;를 포함하는 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법을 제공한다.
본 발명에 있어서, 상기 개체는 허혈성 심장질환 환자일 수 있다.
본 발명에 있어서, 상기 시료는 혈액, 혈장 또는 혈청일 수 있다.
본 발명에 있어서, 상기 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 불량한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 낮은 경우, 관상동맥 측부 순환이 양호할 것으로 예측하는 단계를 추가로 포함할 수 있다.
본 발명에 있어서, 상기 메틸화 수준을 측정하는 방법은 메틸화 특이적 중합효소반응(methylation-specific polymerase chain reaction), 실시간 메틸화 특이적 중합효소반응(real time methylation-specific polymerase chain reaction), 메틸화 민감성 제한 효소를 사용한 메틸화 여부 측정, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군으로부터 선택될 수 있다.
본 발명에 있어서, 상기 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 c') 상기 b) 단계에서 측정된 메틸화 수준을 데이터화하는 단계를 추가로 포함할 수 있다.
본 발명에 있어서, 상기 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 d') 상기 메틸화 데이터를 이용해 평균 메틸화 분율(Average methylation fraction, AMF)을 구하는 단계; 및 e') 상기 AMF이 1에 가까운 경우 관상동맥 측부 순환의 예후가 불량한 것으로 판단하고, AMF이 1보다 낮은 경우 관상동맥 측부 순환의 예후가 양호한 것으로 판단하는 단계를 추가로 포함할 수 있다.
본 발명은 또한, a) 허혈성 심장질환 환자로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계; b) 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계; 및 c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 양호한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 높은 경우, 추가의 치료법을 적용하는 것으로 판단하는 단계를 포함하는, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법을 제공한다.
본 발명에 있어서, 상기 시료는 혈액, 혈장 또는 혈청일 수 있다.
본 발명에 있어서, 상기 DMR의 메틸화 수준을 측정하는 제제는 비메틸화 사이토신 염기를 변형시키는 화합물; 또는 상기 DMR의 메틸화된 서열에 특이적인 프라이머 및 DMR의 비메틸화된 서열에 특이적인 프라이머를 포함할 수 있다.
본 발명에 있어서, 상기 DMR의 비메틸화 사이토신 염기를 변형시키는 화합물은 바이설파이트(bisulfite) 또는 이의 염일 수 있다.
본 발명에 있어서, 상기 추가의 치료법은 관상동맥 중재술 또는 관상동맥 우회술일 수 있다.
본 발명에 의한 관상동맥 측부 순환 예측용 조성물 혹은 정보 제공 방법을 이용하는 경우, 심혈관질환이 있는 환자에게서 비침습적으로 측부순환의 예측이 가능한 바, 개인별 맞춤의학을 위한 적절한 토대가 될 수 있다.
도 1a 내지 1d는 DNA 메틸화와 CCC 사이의 상관관계를 나타낸다. 양호한(n=109) CCC와 불량한 CCC(n=34)를 가진 모든 참가자의 데이터에 대해 PCA를 수행했다. 도 1a는 AMF 데이터 테이블(검정색 선)의 PCA에서 30개의 PC를 사용하여 설명된 분산 비율(y축)의 스크리 플롯을 나타낸다. 효과적인 PC 값을 결정하기 위해 임의 순열 AMF 테이블에서 계산된 분산 비율 중 최대값을 빨간색 선으로 표시하였다. 15 PC가 배경에서 예상한 것보다 높은 관측 분산을 가지고 있었다. 도 1b는 15개의 중요한 PC와 임상 변수 간의 연관성의 p-값의 히트맵을 나타낸다. 모든 p-값은 Pearson의 상관 계수 분석으로 추정되었고, 각 블록의 숫자는 Pearson의 상관 계수를 나타낸다. 도 1c는 PC1 및 PC3에 대한 PCA 플롯으로, CCC와 상관관계가 있는 것으로 추정되었다. 도 1d는 PC1 및 PC8에 대한 PCA 플롯으로, CCC와 상관관계가 있는 것으로 추정되었다.
도 2a 및 2b는 비지도 분석(Unsupervised Analysis) 결과를 확인한 것으로, 도 2a는 15개의 중요한 PC와 임상 변수 간의 연관성 p-값의 히트맵을 나타낸다. 모든 p-값은 Spearman의 상관 계수 분석을 사용하여 추정되었으며, 각 블록의 숫자는 Spearman의 상관 계수 값을 나타낸다. 도 2b는 분산이 높은 빈(bin)의 AMF 값을 입력(input)으로 사용한 t-SNE 분석 결과를 나타낸다.
도 3은 불량한 CCC 그룹과 양호한 CCC 그룹 간의 평균 AMF 차이 분포를 나타낸다(x축: 평균 차의 표준편차, y축: 해당 빈의 수). CCC가 발생할 때 저메틸화가 우세하므로, 평균 변화가 0임을 나타내는 피크는 약간 과메틸화 쪽으로 편향되어 있다.
도 4a 및 4b는 3개의 재표본 그룹 각각에서 q-값의 분포를 나타낸다. 도 4a는 Welch의 t-검정에서 얻은 p-값에 FDR 보정을 적용했고, 세 개의 재표본 그룹 각각에서 q-값의 분포가 표시되었다. 도 4b는 Wilcoxon 테스트를 사용하여 얻은 p-값에 적용된 FDR 보정을 나타낸다.
도 5a 내지 5e는 CCC와 잠재적으로 관련된 DMR에 대한 스크리닝 프로세스를 나타낸 것으로, 훈련 세트에서 대체하여 샘플링된 3개의 서브세트 각각에서 DMR 후보를 선택하였다. 도 5a는 AMF의 평균 차이와 p-값 간의 연관성을 조사한 화산 플롯으로, p-값은 각 하위 집합에서 >90% AMF 값이 계산될 수 있는 600,000개 빈에 대한 Welch의 t-검정을 사용하여 계산되었다. 음의 로그 변환 q-값은 양호한 CCC 그룹과 불량한 CCC 그룹 간의 AMF 차이에 대해 플롯된 p-값의 FDR 수정을 사용하여 생성되었다(표준화를 통해 z-점수로 변환됨). 점선 수평선 위의 영역은 q-값 <0.05를 나타낸다. 수직 점선은 절대 z-점수 값 |z| 2를 나타낸다. 평균 AMF 값이 불량 CCC 그룹보다 양호한 CCC 그룹에서 유의하게 낮을 때 저메틸화(파란색, 상단의 왼쪽에서 첫 번째 영역)로 표시된다. 반대로, 높은 평균 AMF 값은 과메틸화(빨간색, 상단의 오른쪽에서 첫 번째 영역)로 표시된다. 도 5b는 세 가지 하위 집합 각각에서 선택한 DMR을 나타낸다. 3개의 하위 집합에 공통으로 포함된 총 1,430개의 DMR이 추가 필터링 프로세스에 사용되었다. 도 5c는 q 값의 유의성을 바탕으로 1,430개의 DMR에서 선택된 각 하위 집합의 상위 500개 DMR을 나타낸다. 모든 하위 집합의 상위 500개에 포함된 총 256개의 DMR이 추가 랜덤 포레스트 분류기 단계의 입력 값으로 선택되었다. 도 5d는 모든 훈련 세트 샘플의 AMF 값을 사용하는 256개의 DMR의 PCA 결과(불량 CCC: n=29, 양호한 CCC: n=93)를 나타낸다. 도 5e는 테스트 세트 샘플의 AMF 값을 사용한 256개의 DMR의 PCA 결과(불량 CCC: n=5, 양호한 CCC: n=16)를 나타낸다. 훈련 세트를 기반으로 한 학습 테스트 결과를 이용하여 테스트 세트의 PCA 결과를 예측하였다.
도 6은 3개의 재표본 그룹 각각에서 CpG 밀도 분포를 나타낸 것이다. 개별 DMR의 CpG 수는 참조 게놈의 CpG 수로 정의된다. 개별 빈에 5개 이상의 CpG를 포함하는 영역만 스크리닝했기 때문에 5 CpG/DMR이 분석에 포함된 가장 작은 빈이었다.
도 7은 1,430개의 DMR에 대한 경로 분석 결과를 나타낸 것으로, 이는 3개의 하위 집합에서 나온 DMR의 교차점이다. 상단 패널은 WikiPathway 2021; 하단 패널은 Elsevier 경로이다(라인: p = 0.05).
도 8은 1,430개의 교차 DMR 중에서 선택된 256개의 DMR에 대한 경로 분석 결과를 나타낸다. 상단 패널은 WikiPathway 2021; 하단 패널은 Elsevier 경로이다(라인: p = 0.05).
도 9a 내지 9d는 랜덤 포레스트 분류기를 사용하여 양호한 CCC와 관련된 주요 DMR 선별 결과를 나타낸다. 도 9a는 양호한 CCC 관련 DMR 후보를 사용한 반복 교차 검증을 통한 랜덤 포레스트 분류기 훈련 및 검증의 순서도이다. 전체 훈련 세트(불량한 CCC: n=29, 양호한 CCC: n=93)에 대하여, 256개의 사전 스크리닝된 CCC 관련 DMR 후보의 AMF 값이 훈련에 사용되었다. 훈련 결과를 검증하기 위해 사전에 분리된 테스트 세트 샘플(불량한 CCC: n=5, 양호한 CCC: n=16)에 대한 예측이 이루어졌다. 도 9b는 훈련 세트(AUC: 0.962)의 학습 테스트 결과와 테스트 세트(AUC: 0.950)의 예측 결과에 대한 ROC 곡선이다. 도 9c는 AMF 분포의 박스 플롯 및 양호한 CCC(왼쪽: n=109) 및 불량한 CCC(오른쪽: n=34) 그룹의 주석이다. 이는 랜덤 포레스트 분류기 훈련 결과에서 결정된 상위 20개의 DMR에 해당한다. 도 9d는 CCC와 관련된 20개의 DMR의 경로 분석 결과를 나타낸다.
도 10은 랜덤 포레스트 분류기를 이용하여 선별된 20개의 중요 DMR에 대한 경로 분석 결과를 나타낸다. 상단 패널은 Panthers 2016; 하단 패널은 Elsevier 경로이다(라인: p = 0.05).
도 11은 선별된 DMR에서 건강한 그룹과 CCC 그룹 간의 AMF 값을 비교한 것이다. 선별된 20개의 DMR 중 건강한 그룹에서도 매핑된 18개의 DMR에서 양호한 CCC(왼쪽), 불량한 CCC(중간) 및 건강한(오른쪽) 그룹 각각에 대한 AMF의 분포를 박스플롯으로 표현하였다.
본 발명자들은 관상동맥 조영술을 받은 환자들로부터 cfDNA를 수득하여 cfDNA 메틸화 패턴이 관상동맥 측부 순환(CCC) 등급과 관련이 있는지 여부를 평가하였다. 데이터를 처리하여 게놈 영역의 평균 메틸화 분획(Average methylation fraction, 이하 'AMF') 표를 얻고 블랙리스트 영역은 제거했다. 무작위 포레스트 프로세스를 사용하여 CCC와 강한 연관성을 보이는 256개의 DMR(Differentially methylated region, 이하 'DMR') 후보를 선택했다. 그 후, 랜덤 포레스트 분류기가 구성되었으며 ROC 곡선의 AUC를 사용하여 CCC에 대한 적절한 예측 기능을 확인하였다. 양호한 CCC를 가진 환자에서 수십 개의 cfDNA 영역에서 차별적인 저메틸화가 확인된 것을 확인하여 본 발명을 완성하였다.
따라서, 본 발명은 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 제제를 포함하는, 관상동맥 측부 순환 예측용 조성물을 제공한다.
이와 관련하여, 본 발명은 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자의 DMR을 포함하는, 관상동맥 측부 순환 예측용 바이오마커 조성물을 제공한다.
본 발명의 용어 "바이오마커"는 생물학적 현상의 존재와 정량적 또는 정성적으로 연관된 분자를 의미하며, 본 발명의 바이오마커는 관상동맥 측부 순환이 양호할지 여부를 확인할 수 있는 DMR일 수 있다. 이 용어는 마커 서열에 상보적이거나 이에 플랭킹된 핵산 서열을 포함한다.
본 발명은 또한, 관상동맥 측부 순환 예측용 제제를 제조하기 위한, 다음의 20종의 유전자 중 어느 하나 이상에서 DMR의 메틸화 수준을 측정하는 제제의 용도를 제공한다: ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1.
본 발명의 일실시예에 따르면, 양호한(좋은, good과 동일한 의미) CCC 그룹 및 불량한(나쁜, poor과 동일한 의미) CCC 그룹에서 cfDNA를 추출하여 비교한 뒤 두 군 사이에서 차등적으로 메틸화된 영역인 상기 바이오마커들을 확인함으로써, 상기 바이오마커들이 관상동맥 측부 순환 예측의 마커로 활용될 수 있음을 확인하였다.
본 발명에서, 양호한 CCC와 불량한 CCC는 Rentrop과 Cohen에 의한 분류법을 이용하여 정의될 수 있다. 예를 들어, 등급 0은 측부 순환이 없는 경우, 등급 1은 측부 순환이 병변이 있는 관상동맥의 측지에만 충만되는 경우, 등급 2는 측부 순환이 병변 이하 관상동맥의 심외막 혈관을 부분적으로 충만하는 경우, 등급 3은 심외막혈관을 전부 충만시키는 경우로 정의될 수 있고, 여기서 불량한 CCC는 등급 0 또는 1로 분류되는 그룹일 수 있고, 양호한 CCC는 등급 2 또는 3으로 분류되는 그룹일 수 있다.
본 발명에 있어서, 용어 "관상동맥 측부 순환"은 명세서 전체에 있어서, "Coronary Collateral Circulation", 혹은 "CCC"와 동일한 의미로 사용된다.
본 발명에 있어서, 용어 "예측"은 의학적 귀추에 대하여 미리 헤아려 짐작하는 것을 의미하며, 본 발명의 목적상 심장질환이 있는 환자의 관상동맥 측부 순환의 진행을 미리 짐작하는 것을 의미한다.
본 발명에서 용어, "메틸화"는 DNA를 구성하는 염기에 메틸기가 부착되는 것을 말한다. 바람직하게, 본 발명에서 메틸화 여부는 특정 유전자의 특정 CpG 부위의 사이토신에서 일어나는 메틸화 여부를 의미한다. 메틸화가 일어난 경우 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 억제되며, 반대로, 비메틸화 또는 저메틸화가 일어나는 경우 특정 유전자의 발현이 증가하게 된다.
포유동물 세포의 게놈 DNA 에는 A, C, G 및 T에 더하여, 사이토신링의 다섯번째 탄소에 메틸 그룹이 부착된 5-메틸사이토신(5-methylcytosine, 5-mC)이라는 5번째 염기가 존재한다. 5-메틸사이토신의 메틸화는 CpG라고 불리는 CG 디뉴클레오티드(5'-mCG-3')의 C에서만 일어나고, CpG의 메틸화는 alu 또는 트랜스포존과 게놈의 반복서열이 발현되는 것을 억제한다. 또한, 상기 CpG의 5-mC가 자연적으로 탈아미노화하여 티민(T)이 되기 쉽기 때문에, CpG는 포유동물 세포에서 대부분의 후생유전학적 변화가 자주 일어나는 부위이다.
본 발명에서 용어, "메틸화 수준의 측정"은 유전자의 CpG 부위의 메틸화 수준을 측정하는 것으로서, 메틸화 특이적인 PCR, 예를 들어 메틸화 특이적 PCR(methylation-specific polymerase chain reaction, MSP), 실시간 메틸화 특이적 PCR(real time methylation-specific polymerase chain reaction), 메틸화 DNA 특이적 결합 단백 질을 이용한 PCR, 또는 정량 PCR 등을 통해 측정할 수 있다. 또는, 파이로시퀀싱 및 바이설파이트 시퀀싱과 같은 자동염기분석 등의 방법으로 측정할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 유전자의 CpG 부위란, 상기 유전자의 DNA 상에 존재하는 CpG 부위를 말한다. 상기 유전자의 DNA는, 상기 유전자가 발현하는데 필요하며 서로 작동가능하게 연결되어 있는 일련의 구성 단위를 모두 포함하는 개념으로, 예를 들어, 프로모터 영역, 단백질 코딩 영역(open reading frame, ORF) 및 터미네이터 영역을 포함한다. 따라서, 유전자의 CpG 부위는 해당 유전자의 프로모터 영역, 단백질 코딩 영역(open reading frame, ORF) 또는 터미네이터 영역 등에 존재할 수 있다.
본 발명에 있어서, 용어 "차등적으로 메틸화된 영역", "상이한 메틸화 영역" 또는 "DMR(differentially(또는 differently) methylated region)"을 당업자는 알고 있을 것이며, 또한, 이 용어는 시료 내에 혼합된 상기 환자의 cfDNA에서 양호한 CCC와 불량한 CCC간에 상이하게 메틸화된(예를 들어, CpG 모티프에서) 염색체 DNA 내의 영역을 의미하는 것으로 의도된 것이다. 예를 들어, 본 발명에서 DMR은 양호한 CCC와 불량한 CCC간에 상이하게 메틸화되는데, 본 발명의 특정 구현형태에서 DMR은 양호한 CCC에서 저메틸화 된다. 즉, 이러한 영역에서 상기 (양호한 CCC) DNA 종에서의 메틸화 정도가 다른 (불량한 CCC) DNA와 비교하여 더 낮은데(즉, 저메틸화), 예를 들어, 주어진 DMR에서, 다른 (불량한 CCC) DNA 내의 메틸화 가능 부위에 비교하여 약 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 또는 100% 이하의 해당 부위가 상기 (양호한 CCC) DNA 종에서 메틸화된다.
본 발명에 있어서, 상기 DMR의 메틸화 수준을 측정하는 제제는, 비메틸화 사이토신 염기를 변형시키는 화합물 또는; 상기 DMR의 메틸화된 서열에 특이적인 프라이머; 및 DMR의 비메틸화된 서열에 특이적인 프라이머일 수 있다.
상기 "제제(agent)" 또는 "시험 제제(test agent)"는 임의의 물질(substance), 분자(molecule), 원소 (element), 화합물(compound), 실재물(entity) 또는 이들의 조합을 포함할 수 있다. 예컨대, 단백질, 폴리펩티드, 작은 유기 물질(small organic molecule), 다당류(polysaccharide), 폴리뉴클레오티드 등을 포함할 수 있으며, 자연 산물(natural product), 합성 화합물 또는 화학 화합물 또는 2개 이상의 물질의 조합일 수 있다. 달리 정의되지 않는 한, 상기 제제, 물질 및 화합물은 상호 교환적(interchangeably)으로 사용할 수 있다.
본 발명에서, CpG 부위의 메틸화 수준을 측정하는 제제는 비메틸화 사이토신 염기를 변형시키는 화합물 또는 메틸화 민감성 제한효소, 유전자의 메틸화된 대립형질 서열에 특이적인 프라이머 및 비메틸화된 대립형질 서열에 특이적인 프라이머를 포함할 수 있다.
상기 비메틸화 사이토신 염기를 변형시키는 화합물은 바이설파이트(bisulfite) 또는 이의 염일 수 있으나, 이에 제한되지 않는다.
또한, 상기 메틸화 민감성 제한효소는 CpG 부위의 메틸화를 특이적으로 검출할 수 있는 제한효소로서 제한효소의 인식부위로 CG를 함유하는 제한효소일 수 있다. 예를 들면, SmaI, SacII, EagI, HpaII, MspI, BssHII, BstUI, NotI 등이 있으며 이에 제한되지 않는다. 상기 제한효소 인식부위의 C에서의 메틸화 또는 비메틸화에 따 라 제한효소에 의한 절단 여부가 달라지고 이를 PCR 또는 서던블롯(Southern Blot) 분석을 통해 검출할 수 있게 된다. 상기 제한효소 이외의 다른 메틸화 민감성 제한효소는 당업계에 잘 알려져 있다.
환자의 유전자의 특정 CpG 부위에서의 메틸화 수준을 측정하는 대표적인 방법으로, 환자의 생물학적 시료에서 게놈 DNA를 수득하고, 수득한 DNA에 메틸화되지 않은 사이토신 염기를 변형시키는 화합물 또는 메틸화 민감성 제한효소를 처리한 후, 상기 처리된 DNA를 프라이머를 이용하여 PCR에 의해 증폭시키고 그 증폭된 결과물의 존부를 확인하는 것을 통해 측정할 수 있다.
따라서, 본 발명의 제제는 유전자의 메틸화된 대립형질 서열에 특이적인 프라이머 및 비메틸화된 대립형질 서열에 특이적인 프라이머를 포함할 수 있다.
본 발명에서, 용어 "프라이머"는 짧은 자유 3 말단 수산화기를 가지는 핵산 서열로 상보적인 템플레이트(template)와 염기쌍을 형성할 수 있고 템플레이트 가닥 복사를 위한 시작 지점으로 기능을 하는 짧은 핵산 서열을 의미한다. 프라이머는 적절한 완충용액 및 온도에서 중합반응(즉, DNA 중합효소 또는 역전사효소)을 위한 시약 및 상이한 4가지 뉴클레오사이드 트리포스페이트의 존재하에서 DNA 합성을 개시할 수 있다. 또한, 프라이머는, 7개 내지 50개의 뉴클레오타이드 서열을 가진 센스 및 안티센스 핵산으로서, DNA 합성의 개시점으로 작용하는 프라이머의 기본 성질을 변화시키지 않는 추가의 특징을 혼입할 수 있다.
본 발명의 프라이머는 메틸화 여부를 분석하는 대상이 되는 특정 CpG 부위의 서열에 따라 바람직하게 디자인될 수 있으며, 각각 메틸화되어 바이설파이트에 의해 변형되지 않았던 사이토신을 특이적으로 증폭할 수 있는 프라이머쌍, 및 메틸화되지 않아 바이설파이트에 의해 변형된 사이토신을 특이적으로 증폭할 수 있는 프라이머쌍일 수 있다. 상기 조성물 및 키트에는 상기 제제 이외에도, 중합효소 아가로스, 전기영동에 필요한 완충용액 등이 추가로 포함될 수 있다.
본 발명은 전술한 조성물을 포함하는 관상동맥 측부 순환 예측용 키트를 제공한다. 본 발명의 바람직한 일실시예에 따르면, 상기 키트는 RT-PCR 키트, 경쟁적 RT-PCR 키트, 실시간 RT-PCR 키트, DNA 칩 키트 또는 단백질 칩 키트일 수 있다. 본 발명의 키트에는 상기 바이오마커 DMR의 메틸화 수준을 측정하는 제제뿐만 아니라 분석 방법에 적합한 하나 이상의 다른 구성 성분을 포함하는 조성물, 용액 또는 장치가 포함될 수 있다.
또한, 본 발명은:
a) 개체로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계; 및 b) 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계; 를 포함하는 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법을 제공한다.
본 발명에서, "개체"는 심장질환이 있는 개체로서, 인간, 침팬지를 포함한 영장류, 개, 고양이 등의 애완동물, 소, 말, 양, 염소 등의 가축 동물, 마우스, 래트 등의 설치류 등의 포유동물, 양식어류 등을 제한 없이 포함할 수 있다. 일 양태에 있어서, 상기 개체는 허혈성 심장질환 환자일 수 있다.
본 발명에 있어 "허혈성 심장질환"이란, 심장에 혈액을 공급해주는 관상동맥이 좁아지거나 막히게 되어 심장근육에 혈액 공급이 부족하여 발생하는 질환으로 협심증, 심근경색증 또는 급사 등의 위험이 있는 질환을 의미한다. "허혈성 심장질환" 에는 안정성 협심증(Stable angina), 불안정성 협심증(Unstable angina), 이형 협심증(Variant angina), 급성 심근경색증(Acute myocardial infarction) 등이 있을 수 있으나 이에 제한되지 않는다.
본 발명에서, 분석을 위해 사용되는 "시료"는 조직, 세포, 혈액, 혈장, 혈청, 타액, 비액, 객담, 복수, 질 분비물, 소변, 대변 등 정상적인 상태와 구별될 수 있는 관상동맥 측부 순환에 특이적 DMR을 확인할 수 있는 생체 시료를 포함한다. 바람직하게는 생물학적 액체 시료, 예를 들어 혈액, 혈장, 혈청 또는 소변일 수 있으며, 가장 바람직하게는 혈장일 수 있다. 상기 시료는 상기 바이오마커의 탐지 감도를 증가시키도록 준비될 수 있는데 예를 들어 환자로부터 수득한 시료는 음이온 교환 크로마토그래피, 친화도 크로마토그래피, 크기별 배제 크로마토그래피(size exclusion chromatography), 액체 크로마토그래피 또는 연속 추출(sequential extraction) 등의 방법을 이용하여 전처리될 수 있다.
본 발명에 따른 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 불량한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 낮은 경우, 관상동맥 측부 순환이 양호할 것으로 예측하는 단계를 추가적으로 포함할 수 있다. 구체적인 일실시예에서, 도 9c에 나타난 바와 같이, 20개의 DMR에서 불량한 CCC에 비해 양호한 CCC는 저메틸화를 나타내는 것을 파악하였다.
본 발명에 있어서, 상기 유전자의 메틸화 수준 측정은 당업계에 공지된 유전자 메틸화 측정 방법에 의한 것이라면 측정 방법이 특별히 제한되지 않으나, 상기 메틸화 수준을 측정하는 방법은 메틸화 특이적 중합효소반응(methylation-specific polymerase chain reaction), 실시간 메틸화 특이적 중합효소반응(real time methylation-specific polymerase chain reaction), 메틸화 민감성 제한 효소를 사용한 메틸화 여부 측정, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군에서 선택될 수 있다.
구체적으로, 메틸화 특이 PCR(methylation-specific PCR)의 방법은 시료 DNA에 바이설파이트를 처리한 후, PCR을 수행할 프라이머를 CpG 디뉴클레오타이드의 메틸화 여부에 따라 다른 종류의 프라이머를 디자인하여 사용하는 방법이다. 프라이머 결합부위가 메틸화되었으면 메틸화된 프라이머에 의해 PCR이 진행되고, 메틸화가 되지 않았으면 정상 프라이머에 의해 PCR이 진행된다. 즉, 시료 DNA에 바이설파이트를 처리한 후 두 가지 종류의 프라이머를 동시에 사용하여 PCR을 수행한 후, 결과를 비교하는 방법이다.
실시간 메틸화 특이 PCR은 메틸화 특이 PCR 방법을 실시간 측정방법으로 전환한 것으로, 지노믹 DNA에 바이설파이트를 처리한 후, 메틸화된 경우에 해당하는 PCR 프라이머를 디자인하고, 이들 프라이머를 이용하여 실시간 PCR을 수행하는 것이다. 이때, 증폭된 염기서열과 상보적인 TaqMan 프로브를 이용하여 검출하는 방법과 SYBRgreen을 이용하여 검출하는 두가지 방법이 있다. 따라서,실시간 메틸화 특이 PCR은 메틸화된 DNA만을 선택적으로 정량 분석할 수있 다. 이때, 생체 외 메틸화된(in vitro methylated) DNA 샘플을 이용하여 표준곡선을 작성하고, 표준화를 위하여 염기서열 내에 5'-CpG-3' 서열이 없는 유전자를 음성 대조군으로 함께 증폭하여 메틸화 정도를 정량분석하는 방법이다.
메틸화 민감성 제한 효소를 사용하여 메틸화 여부를 측정하는 방법에서 메틸화 민감성 제한 효소는 CpG 디뉴클레오티드를 작용 부위로 하며, 이 부위가 메틸화된 경우에는 효소로서 작용하지 못한다. 따라서, 시료 DNA를 메틸화 민감성 제한효소로 처리한 후 효소 타겟 부위를 포함하도록 PCR로 증폭하면, 메틸화된 경우에는 제한효소가 작용되지 않아 PCR 증폭이 일어나지만 메틸화되지 않은 정상 부위에는 제한효소에 의해 절단되어 PCR 증폭이 일어나지 않으므로 특정 DNA 부위의 메틸화 여부를 측정할 수 있다.
메틸화 DNA 특이적 결합 단백질을 이용한 PCR 또는 DNA 칩 방법은 메틸화 DNA에만 특이적으로 결합하는 단백질을 DNA와 섞어주게 되면, 메틸화 DNA에만 특이적으로 단백질이 결합하기 때문에 메틸화 DNA만을 선택적으로 분리할 수 있다. 지노믹 DNA를 메틸화 DNA 특이적 결합 단백질과 섞어준 후, 메틸화된 DNA만을 선택적으로 분리한다. 이들 분리된 DNA를 인트론 부위에 해당하는 PCR 프라이머를 이용하여 증폭한 후, 아가로즈 전기영동으로 메틸화 여부를 측정하는 방법이다. 또한, 정량 PCR 방법으로도 메틸화 여부를 측정할 수 있으며, 메틸화 DNA 특이적 결합 단백질로 분리한 메틸화 DNA는 형광 염료로 표지하여 상보적인 프로브가 집적된 DNA칩에 혼성화(hybridization)시킴으로써 메틸화 여부를 측정할 수 있다. 여기서 메틸화 DNA 특이적 결합 단백질은 MBD2bt에 제한되지 않는다.
또한, 바이설파이트 처리된 DNA의 파이로시퀀싱(bisulfite pyrosequencing)은 다음과 같은 원리에 기초한다. CpG 디뉴클레오타이드 부위에서 메틸화가 발생되면 5-메틸사이토신(5-mC)이 형성되는데, 이 변형된 염기는 중아황산염 처리 시 우라실(uracil)로 변화된다. 시료로부터 추출된 DNA에 바이설파이트를 처리할 때 CpG 디뉴클레오티드가 메틸화되었다면 사이토신(cytosine)으로 보존되며, 나머지 메틸화되지 않은 사이토신은 우라실로 변화한다. 바이설파이트처리된 DNA의 서열 분석은 바람직하게는 파이로시퀀싱(pyrosequencing) 방법을 사용하여 수행할 수 있다.
한편, TET(ten-eleven translocation) 단백질을 이용한 바이설파이트 비의존적 검출법으로 TET 단백질을 사용해 메틸화된 C만 T로 변환시켜 메틸화 부위의 염기를 검출할 수도 있다.
CpG 디뉴클레오티드 부위에서 메틸화가 발생되어 사이토신이 5-메틸사이토신(5-mC)이 형성된 경우 TET 단백질을 처리할 때 Cpg 디뉴클레오티드가 메틸화되었다면 순차적으로 5-하이드록시메틸사이토신(5-hmC), 5-포르밀사이토신(5-fC), 5-카르복실사이토신(5-caC)으로 변화하며, 이러한 변화 산물에 피리딘 보레인(pyridine borane) 등의 시료를 투입해 우라실로 변화시켜 메틸화되지 않은 사이토신은 보존하거나, 차단기를 달아주는 효소와 반응시켜 반응성을 없앤 뒤, APOBEC등의 효소를 투입하여 메틸화된 사이토신만 보존시킬 수 있다. TET 처리된 DNA의 서열 분석은 파이로시퀀싱 방법에 대해서만 제한된 것은 아니며 메틸화 민감 PCR(methylation-sensitive PCR, MSP), 마이크로어레이(microarray), 차세대 시퀀싱(next generation sequencing, NGS) 등의 방법을 사용하여 분석할 수 있다.
본 발명에 따른 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 또한, c') 상기 b)단계에서 측정된 메틸화 수준을 데이터화하는 단계를 추가로 포함할 수 있다. 메틸화 수준을 데이터화하는 단계는 당업자에게 공지된 프로그램을 이용하여 수행될 수 있다.
본 발명에 따른 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법은 d') 상기 메틸화 데이터를 이용해 평균 메틸화 분율(Average methylation fraction, AMF)을 구하는 단계 및 e') 상기 AMF이 1에 가까운 경우 관상동맥 측부 순환의 예후가 불량한 것으로 판단하고, AMF이 1보다 낮은 경우 관상동맥 측부 순환의 예후가 양호한 것으로 판단하는 단계를 추가적으로 포함할 수 있다.
본 발명에 있어서 용어 'AMF'는 빈에 정렬된 모든 판독값에 대한 참조 게놈의 알려진 CpG 위치에서 정렬된 총 수 중에서 유지되는 CpG 서열 수(메틸화된 CpG)의 비율을 의미한다. 각 빈의 AMF 값을 구하고 샘플을 양호한 CCC 그룹과 불량한 CCC 그룹으로 나누었고, null 값이 10% 미만인 빈만 선택되었으며, 상기 과정은 R(version 4.0.3)을 이용하여 수행하였다.
본 발명은 또한, a) 허혈성 심장질환 환자로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계; b) 상기 cfDNA의 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계; 및 c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 양호한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 높은 경우, 추가의 치료법을 적용하는 것으로 판단하는 단계를 포함하는, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보를 제공하는 방법을 제공한다.
상기 추가의 치료법이란, 측부순환이 좋지 않고(불량하고) 허혈이 있는 경우에 수행하는 약물 치료를 포함한 관상동맥 중재술, 관상동맥 우회술 등을 의미할 수 있으나, 이에 제한되는 것은 아니다.
양호한 CCC에 비하여 메틸화 수준이 높은 불량한 CCC를 갖는 환자는 추가의 치료를 받을 수 있어 개인별 맞춤의학에 이용되기 적절한 정보가 제공될 수 있다.
전술한 시료와 메틸화 수준을 측정하는 제제에 대한 내용은 치료방법 결정을 위한 정보 제공 방법에서도 동일하게 적용될 수 있으며 중복을 피하기 위해 그 기재는 생략한다.
본 발명의 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법 및 허혈성 심장질환 환자의 치료방법 결정을 위한 정보를 제공하는 방법은 모두 개체로부터 분리된 시료에서 수행되는 생체 외(in vitro) 방법일 수 있으나, 이에 제한되지 않은다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한하는 것으로 해석되지 않는 것은 당업계에서 통상의 지식을 가진 자에 있어서 자명할 것이다.
[준비예 1]
1-1. 연구 모집단 및 임상 데이터 수집
본 발명의 실시예에 포함된 모든 환자는 2001년 1월부터 2009년 8월까지 세브란스 병원을 방문하여 흉통 또는 통증으로 관상동맥 조영술을 받았다. 연세대학교 의과대학 심혈관지놈센터 데이터베이스에 기탁된 환자 데이터를 사용하였다. 적어도 하나의 관상동맥의 만성 완전 폐색을 나타내는 환자의 샘플이 선택되었다. 본 연구는 헬싱키 선언문에 따라 서울 세브란스병원 기관심사위원회의 승인을 받았다(4-2019-0880).
훈련된 간호사가 인구 통계학적 변수 및 위험 요인을 포함한 임상 데이터를 수집했다. 모든 연구 대상자로부터 혈액 샘플을 혈관 조영술 직전 또는 24시간 이내에 채취하여 -80 ℃에 보관했다. 환자에게 경구용 아스피린과 5,000U의 정맥내 헤파린을 투여한 후 혈관조영술을 시행했다. 관상 동맥 질환 및 CCC는 다른 환자 데이터에 대해 블라인드 테스트로 두 명의 중재적(interventional) 심장 전문의에 의해 확인되었다. CCC는 Rentrop 분류에 따라 평가되었다: 등급 0, 충만 없음(no filling); 등급 1, 심외막 충만 없이 측부 채널을 통한 측가지 충만; 등급 2, 측부 채널을 통한 심외막 관상동맥의 부분 충만; 및 등급 3, 심외막 관상동맥의 완전한 충만. 환자는 부수적 등급에 따라 불량(등급 0 또는 1) 또는 양호(등급 2 또는 3) CCC를 갖는 것으로 분류되었다.
1-2. 세포 유리 DNA 준비 및 EM-seq 라이브러리 생산
QIAamp MinElute ccfDNA 키트(Qiagen, Hilden, Germany)를 사용하여 혈장에서 cfDNA를 추출하고 -20 ℃에서 보관했다. 라이브러리 준비 전에 TapeStation(Agilent, Santa Clara, CA, USA)을 사용하여 cfDNA 농도 및 크기 분포를 평가했다. EM-seq 라이브러리는 단편화 없이 1-100ng의 cfDNA와 EM-seq 키트(New England Biolabs, Ipswich, MA, USA)를 사용하여 준비했다. 라이브러리 농도 및 분포도는 TapeStation을 사용하여 결정되었다. NovaSeq 6000 S4 플랫폼(Illumina)을 사용하여 페어드 엔드(paired-end) 150bp 시퀀싱을 수행했다.
[실시예 1]
CCC와 관련된 cfDNA의 메틸화 특성 분석
1-1. EM-seq를 사용한 DNA 메틸화 데이터 확보
DNA 메틸화 데이터는 EM-seq를 사용하여 143명의 환자(양호한 CCC 그룹에서 109명 및 불량한 CCC 그룹에서 34명)에서 얻었다(표 1).
Total
(n=143)
Good CCC
(n=109)
Poor CCC
(n=34)
p
Age, years 57.8 ± 10.6 57.0 ± 11.2 59.7 ± 9.9 0.25
Male 102 (71.3) 78 (71.6) 24 (70.6) >0.99
Risk factors
Hypertension
Diabetes mellitus
Smoking
Hypercholesterolemia

68 (47.6)
34 (23.8)
19 (13.3)
11 (7.7)

54 (49.5)
26 (23.9)
13 (11.9)
8 (7.3)

14 (41.2)
8 (23.5)
6 (17.6)
3 (8.8)

0.44
>0.99
0.39
0.72
Acute coronary syndrome 89 (62.2) 65 (59.6) 24 (70.6) 0.31
Body mass index, kg/m2 25.2 ± 3.0 25.3 ± 3.1 24.6 ± 3.0 0.31
Number of diseased vessels
1
2
3


49 (34.3)
30 (21.0)
64 (44.8)


38 (34.9)
24 (22.0)
46 (42.2)


11 (32.4)
6 (17.6)
17 (50.0)


0.82
표 1의 데이터는 평균 ± 표준 편차 또는 수(%)로 표시되었다.
모든 샘플은 품질 관리 프로세스를 통과했다. CCC와 임상 변수 사이에는 유의한 상관 관계가 확인되지 않았다. DNA 메틸화는 다양한 요인에 의해 영향을 받을 수 있으므로 PCA를 사용하여 메틸화 특성을 확인했다.
1-2. 데이터 전처리 및 평균 메틸화 분율(Average methylation fraction, AMF) 테이블 생성
모든 시퀀싱 데이터는 fastp(버전 0.20.1)[Chen S, Zhou Y, Chen Y, Gu J. fastp: an ultra-fast all-in-one FASTQ preprocessor. Bioinformatics. 2018;34(17):884-90.]을 사용하여 트리밍되었다. 어댑터 트리밍된 읽기는 bitmapperBS(버전 1.0.2.3)[Cheng H, Xu Y. BitMapperBS: a fast and accurate read aligner for wholegenome bisulfite sequencing. bioRxiv, 442798. 2018.]를 사용하여 hg19 참조 게놈에 정렬되었다. 출력 bam 파일은 Samtools(버전 1.11)[Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R. 1000 genome project data processing subgroup: the sequence alignment/map format and SAMtools. Bioinformatics. 2009;25(16):2078-9.]을 사용하여 정렬되었다. GATK(버전 4.1.9.0) MarkDuplicates 모듈[McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo MA. The genome analysis toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res. 2010;20(9):1297-303.]을 사용하여 PCR 및 광학 복제물을 제거했다(표 2).
Sample READ_PAIRS_EXAMINED READ_PAIR_DUPLICATES READ_PAIR_OPTICAL_DUPLICATES PERCENT_DUPLICATION ESTIMATED_LIBRARY_SIZE
GCCC001 44199459 5520417 436200 0.124898 173460638
GCCC002 32497126 5107040 380845 0.157154 98130262
GCCC003 70496121 8480591 624783 0.120299 286970573
GCCC004 40863581 6250107 510942 0.152951 128065234
GCCC005 53790461 8267744 637111 0.153703 166949765
GCCC006 49418463 6094769 511318 0.12333 197563246
GCCC007 37262202 4558835 394332 0.122345 150657788
GCCC008 45408187 5153145 420066 0.113485 198532154
GCCC009 42938698 5184334 419485 0.120738 175255573
GCCC010 55336074 5794445 463701 0.104714 263812878
GCCC011 54328139 6612607 516067 0.121716 219192164
GCCC012 42350460 5352698 497234 0.126391 166144712
GCCC013 40511109 4916702 387672 0.121367 164087648
GCCC014 51423821 7905852 618443 0.153739 159724782
GCCC015 46144388 7410665 552747 0.160597 135935061
GCCC016 38789368 5916672 499929 0.152533 122239485
GCCC017 39364829 4248748 351895 0.107933 182053777
GCCC018 33459598 3756429 304607 0.112268 147973119
GCCC019 46843092 8248261 594591 0.176083 123848287
GCCC020 59235881 8089145 612646 0.136558 209845072
GCCC021 43367940 4432053 356245 0.102197 212373703
GCCC022 66684476 8506257 770501 0.12756 258385962
GCCC023 35497653 6125367 454531 0.172557 96248463
GCCC024 50475648 5809931 478202 0.115104 217441404
GCCC025 38684930 6543891 478330 0.169159 107226060
GCCC026 49104377 8890037 665909 0.181044 125996656
GCCC027 44737284 6189159 490238 0.138345 156680017
GCCC028 30677038 4702358 366954 0.153286 95588803
GCCC029 51000988 8718817 646797 0.170954 139781455
GCCC030 38474997 6872845 459998 0.178631 99611284
GCCC031 47295590 5774062 450767 0.122085 190186373
GCCC032 47400446 5399595 444878 0.113914 206553817
GCCC033 56407262 8124268 685721 0.144029 189683301
GCCC034 54344886 9375112 699052 0.172511 147440902
GCCC035 61466377 11079231 856872 0.180249 158851523
GCCC036 60843104 11609064 890931 0.190803 147027977
GCCC037 35761559 4695223 388857 0.131292 133229493
GCCC038 46172025 5307655 405568 0.114954 198095906
GCCC039 52080726 8280774 623253 0.158999 155278081
GCCC040 35479049 6953869 488320 0.195999 82619459
GCCC041 54292545 10030803 757637 0.184755 136117121
GCCC042 49906496 7880205 567759 0.157899 149561672
GCCC043 46497671 8998859 596125 0.193534 109553649
GCCC044 31442724 4213207 326763 0.133996 113957953
GCCC045 48511838 8659075 625856 0.178494 126270744
GCCC046 47390907 7130239 524143 0.150456 150227729
GCCC047 52381729 6430673 544487 0.122766 210627203
GCCC048 67255747 14279731 1049065 0.21232 142755657
GCCC049 42143156 6461214 501226 0.153316 131234587
GCCC050 59561021 11258519 828324 0.189025 145143275
GCCC051 48122334 6541066 497955 0.135926 171423068
GCCC052 66595310 9052621 786009 0.135935 239519858
GCCC053 39021267 5390101 416460 0.138132 136657577
GCCC054 52714527 10967351 839220 0.208052 114928194
GCCC055 40942580 8294281 607189 0.202583 91901071
GCCC056 69874082 9198496 762021 0.131644 259545586
GCCC057 49682674 8909455 704187 0.179327 129352065
GCCC058 74945684 11100685 851366 0.148116 242507270
GCCC059 59733946 12838840 922238 0.214934 124777114
GCCC060 39344779 7863850 558800 0.19987 89585373
GCCC061 54223255 10755878 716286 0.198363 124127921
GCCC062 62533868 9461561 729540 0.151303 197595316
GCCC063 74803761 15349823 1019921 0.205201 164468707
GCCC064 60766598 8877018 685860 0.146084 199822538
GCCC065 77326619 10439257 866536 0.135002 279297074
GCCC066 56348041 7365821 546200 0.13072 209294088
GCCC067 51481485 6979011 534425 0.135564 184011773
GCCC068 47396157 8980635 640210 0.18948 114956786
GCCC069 71915150 15056284 1100969 0.209362 155193984
GCCC070 51028884 10648152 718243 0.208669 110062444
GCCC071 57290210 11456349 760741 0.19997 129881406
GCCC072 72273972 16087950 1090263 0.222597 144259728
GCCC073 43707371 5531780 424893 0.126564 168685724
GCCC074 52458940 11465944 778904 0.21857 107059750
GCCC075 61049068 10741481 796642 0.175948 161833197
GCCC076 51757711 8025151 501877 0.155052 157062659
GCCC077 93286056 8729498 580070 0.093578 495923503
GCCC078 75414254 8818998 578106 0.116941 314364041
GCCC079 53216036 6777285 454346 0.127354 202171725
GCCC080 38627780 4113349 328275 0.106487 180779298
GCCC081 36420216 4248599 357312 0.116655 154857778
GCCC082 52201697 6760170 491317 0.129501 195664155
GCCC083 61892881 7819434 638569 0.126338 240412062
GCCC084 38824295 5134544 379392 0.132251 142313343
GCCC085 33592889 3998348 299776 0.119024 138529518
GCCC086 49556358 5943837 462742 0.119941 203174640
GCCC087 71397401 9958954 676764 0.139486 245280042
GCCC088 56897068 5956579 511518 0.10469 272831900
GCCC089 70760832 9579348 684088 0.135376 252142167
GCCC090 46413809 5803387 433935 0.125036 181223120
GCCC091 54207572 7755592 526434 0.143072 180981396
GCCC092 124828107 34403539 1487436 0.275607 187825942
GCCC093 272271107 79973042 2621618 0.293726 375005249
GCCC094 44148235 5256934 420644 0.119075 182821081
GCCC095 38078840 5836751 384348 0.153281 117404394
GCCC096 35948646 4467603 309220 0.124277 140597439
GCCC097 35134499 3839821 299729 0.109289 159568668
GCCC098 57505921 6351904 500004 0.110457 258313587
GCCC099 47212159 5071737 402760 0.107424 218769362
GCCC100 42270559 4913549 401703 0.11624 180044030
GCCC101 107844235 14539772 1153926 0.134822 388819825
GCCC102 58066224 6159375 419477 0.106075 269925304
GCCC103 33057442 2079471 166433 0.062905 271675439
GCCC104 41978566 3807966 246760 0.090712 230397993
GCCC105 54036808 5213715 312394 0.096485 276247773
GCCC106 40418351 3538126 242296 0.087538 231288770
GCCC107 39746643 3091091 236105 0.07777 260060630
GCCC108 59091389 5248854 439671 0.088826 337821490
GCCC109 37980613 3294514 200726 0.086742 217902008
PCCC001 48564713 6387384 509633 0.131523 180075280
PCCC002 48329788 6247501 460937 0.129268 181695147
PCCC003 43364153 5346232 438488 0.123287 173125805
PCCC004 41853273 4700717 369502 0.112314 184579919
PCCC005 45578463 5463528 411960 0.119871 186564544
PCCC006 50759107 6055128 487523 0.119291 209872397
PCCC007 57989454 7471317 570336 0.128839 219325998
PCCC008 77176113 9926025 733314 0.128615 291806140
PCCC009 75136727 10028682 682897 0.133472 271195622
PCCC010 69111224 9568432 723625 0.13845 241060351
PCCC011 54565860 7151994 512117 0.131071 201606532
PCCC012 42303534 5312053 414673 0.12557 164890984
PCCC013 40111813 4142136 355245 0.103265 195217611
PCCC014 60430034 7662118 588495 0.126793 232757088
PCCC015 84264209 12373847 804385 0.146846 272516275
PCCC016 58762096 7107557 526685 0.120955 237866961
PCCC017 37392327 4697774 328505 0.125635 144589367
PCCC018 46814176 6153827 473312 0.131452 173236187
PCCC019 59699896 7478350 546580 0.125266 232267922
PCCC020 69913404 9025941 723103 0.129102 264736039
PCCC021 39892289 4410315 356832 0.110556 179386712
PCCC022 60529342 7881865 612706 0.130216 226529372
PCCC023 61205042 6389211 511614 0.10439 292791483
PCCC024 77443394 11309696 828212 0.146038 253844668
PCCC025 40250317 5097293 420354 0.12664 156046729
PCCC026 47568492 5668494 452164 0.119165 196774610
PCCC027 44307483 2847457 309768 0.064266 366598404
PCCC028 49806469 4221212 299370 0.084752 295744737
PCCC029 64445541 12493312 909239 0.193858 152348188
PCCC030 31776071 5525729 390631 0.173896 85137969
PCCC031 54138782 9750371 717026 0.1801 139603656
PCCC032 50765353 10158711 653000 0.200111 114798029
PCCC033 44258508 5174006 350705 0.116904 184931408
PCCC034 42266854 5195986 332594 0.122933 166521222
ENCODE[Amemiya HM, Kundaje A, Boyle AP. The ENCODE blacklist: identification of problematic regions of the genome. Sci Rep. 2019;9(1):1-5.]의 블랙리스트에 있는 게놈 영역과 RepeatMasker(http://www.repeatmasker.org)를 사용하여 스크리닝된 반복 요소 영역을 획득하여 정렬 아티팩트(artifacts)를 제거했다. 이 영역과 겹치는 읽기는 분석 전에 필터링되었다. 최종 필터링된 BAM 파일을 사용하여 MethylDackel(https://github.com/dpryan79/MethylDackel)을 사용하여 각 사이토신 유전자좌에서 메틸화 수준을 계산했다. 변환율은 MethylDackel CHH 출력을 입력으로 사용하여 내부 Python 프로그램(버전 2.7.17)으로 계산되었다. 전환율이 99%를 초과하지 않거나 평균 깊이가 < 3인 경우 샘플은 제외되었다.
hg19 참조 게놈은 모든 영역에 대해 100bp 빈(bins)으로 분할되었다. 낮은 판독 깊이에서 신뢰성을 높이기 위해 5개 이상의 CpG를 포함하는 높은 CpG 밀도를 가진 ~120만 빈에서 각 샘플에 대해 필터링된 BAM 파일에 대한 AMF 값을 얻었다. AMF는 이전에 보고된 문헌[Chen X, Gole J, Gore A, He Q, Lu M, Min J, Yuan Z, Yang X, Jiang Y, Zhang T, Suo C, Li X, Cheng L, Zhang Z, Niu H, Li Z, Xie Z, Shi H, Zhang X, Fan M, Wang X, Yang Y, Dang J, McConnell C, Zhang J, Wang J, Yu S, Ye W, Gao Y, Zhang K, Liu R, Jin L. Non-invasive early detection of cancer four years before conventional diagnosis using a blood test. Nat Commun. 2020;11(1):3475.]을 기반으로 다음과 같이 정의되었다: AMF는 참조 게놈의 알려진 CpG 위치에서 정렬된 모든 빈 판독 중 메틸화된 CpG 수의 비율이다. 각 빈의 AMF 값을 구하고, 샘플을 양호한 CCC 그룹과 불량한 CCC 그룹으로 나누었고, null 값이 10% 미만인 빈만 선택되었다. 총 606,483개의 빈이 기준에 부합하고 후속 분석에 사용되었다. 표는 https://osf.io/fw2zq에서 공개적으로 액세스할 수 있다. 상기 과정은 R(버전 4.0.3)을 이용하여 수행하였다.
1-3. 비지도 분석(Unsupervised analysis)
AMF 테이블을 사용하여 각 빈의 표준 편차(SD)를 계산했다. SD는 표준화되었고 배경 변동을 제외하고 z-점수가 > 2인 빈이 선택되었. 총 42,092개의 빈 위치가 선택되었다. 누락된 값은 분류된 양호 및 불량 CCC 그룹의 평균으로 대체되었다. PCA(주성분 분석)도 수행되었다. 대형 테이블의 PCA는 R 패키지 flashpcaR(버전 2.1)26을 사용하여 수행되었다. 상위 30개 성분의 PCA 값은 k=30으로 설정하여 계산되었다. 효과적인 주성분(PC)을 얻기 위해 샘플을 무작위로 1,000번 섞었다. 1,000개의 셔플된 테이블의 PCA를 통해 얻은 최대 총 분산을 효과적인 PC 컷오프로 간주했다. 선정된 15개의 PC를 임상변수와의 상관관계를 분석하였다. t-SNE 분석에는 Rtsne 패키지(https://github.com/jkrijthe/Rtsne)를 사용했다. Pearson- 및 Spearman 상관 계수 및 PC 값과 임상 변수 사이의 p-값을 계산했다. 범주형 변수를 0과 1로 변환한 다음 점-이중 직렬 상관 계수로 계산했다. R의 cor.test 함수는 모든 계산에 사용되었다.
그 결과로, DNA 메틸화와 CCC 사이의 상관관계를 도 1a 내지 1d에 나타내었다. 도 1a는 AMF 데이터 테이블(검정색 선)의 PCA에서 30개의 PC를 사용하여 설명된 분산 비율(y축)의 스크리 플롯을 나타낸다. 효과적인 PC 값을 결정하기 위해 임의 순열 AMF 테이블에서 계산된 분산 비율 중 최대값을 빨간색 선으로 표시하였다. 15 PC가 배경에서 예상한 것보다 높은 관측 분산을 가지고 있었다. 15개의 PC 값을 선택하고 예측된 최대 배경 잡음 값과 비교하였다(도 1a). 도 1b는 15개의 중요한 PC와 임상 변수 간의 연관성의 p-값의 히트맵을 나타낸다. 모든 p-값은 Pearson의 상관 계수 분석으로 추정되었다. 각 블록의 숫자는 Pearson의 상관 계수를 나타낸다. PC1(Pearson의 상관 계수[PCC] 0.34), PC3(PCC -0.32) 및 PC8(PCC -0.36)은 CCC와 유의한(p < 1E-4) 상관 관계를 나타냈다(도 1b). PC와 CCC 간의 상관 관계가 비모수적(non-parametric) 방법을 통해 재현되었다(도 2a).
이러한 결과를 바탕으로 PC1, PC3, PC8의 분포가 CCC와 연관되어 있음을 확인하였다. 양호한 CCC 그룹의 PC1 샘플은 넓은 분포를 보인 반면 불량한 CCC 그룹의 PC1 샘플은 상대적으로 좁은 분포를 보였다(도 1c). PC1 및 PC3에 대한 PCA 플롯은 CCC와 상관관계가 있는 것으로 추정되었으며, 불량한 CCC 그룹의 몇 가지 PC3 샘플은 이상값(outliers)이었고 두 그룹 간의 전체 분포에는 차이가 없었다. PC8 샘플의 전체 분포는 양호한 CCC 그룹과 불량한 CCC 그룹 간에 달랐지만 주요 구성 요소인 PC1의 분포보다 훨씬 작았다(도 1d). PC1 및 PC8에 대한 PCA 플롯은 CCC와 상관관계가 있는 것으로 추정되었다.
사전 할당된 레이블이 없음에도 불구하고 각 그룹의 PCA에서 차등 성분 클러스터링이 관찰되었다. 또한, PCA와 동일한 입력 값을 사용하여 분산이 높은 빈의 AMF 값을 입력으로 사용한 t-SNE 분석 결과에서도 반복되었다(도 2b). 비지도 분석은 메틸화 특성이 CCC와 관련이 있음을 보여주었다. 또한, cfDNA에서 차별적인 메틸화가 관찰되었다.
[실시예 2]
DMR 검색을 통한 저메틸화 식별 및 CCC 그룹화
양호한 CCC를 예측하는 데 사용할 수 있는 메틸화 마커 영역을 선택했다. 먼저 머신러닝을 이용한 마커 스크리닝에 앞서 사전 스크리닝을 통해 변수의 수를 줄였다. 이는 불필요한 변수의 증가가 예측 정확도를 낮춘다는 이전 관찰에 기반한 것이다. 사전 스크리닝 과정은 CCC 연관 DMR 스크리닝과 선택된 DMR 중 후보 마커 스크리닝으로 구성됐다. 검증을 위해 훈련 세트와 테스트 세트를 분리하고, 훈련 세트에서만 스크리닝을 수행했다. 과적합을 방지하기 위해 CCC 관련 DMR 탐지 훈련 세트에서 3개의 재표본된 하위 집합 각각에 대해 DMR 검색을 수행했다.
2-1. 차등적으로 메틸화된 영역(Differentially methylated region, DMR) 선택
결측값이 10% 미만인 빈이 있는 이전에 구성된 AMF 테이블의 경우 샘플을 85:15의 비율로 훈련 세트와 테스트 세트로 분할했다. 세트 분리는 R의 캐럿 패키지(버전 6.0.86)에 포함된 createDataPartition 함수를 사용하여 수행되었다. Welch의 불균등 분산 t-test은 게놈 위치에 따른 DNA 메틸화 분산의 이분산성 때문에 CCC 관련 DMR을 검색하기 위해 적용되었다. Welch의 t-검정과 Wilcoxon 검정은 3개의 샘플링된 하위 집합 각각에 대해 수행되어 양호한 CCC 그룹과 불량한 CCC 그룹 간의 AMF 차이가 있는 빈을 선택했다. 실제 프로세스는 R의 matrixTests 패키지(https://github.com/karoliskoncevicius/, 버전 0.1.9)의 row_t_welch 및 row_wilcoxon_twosample 함수를 사용하여 수행되었다. 결과에는 두 그룹 간의 평균 차이와 p-값이 포함되었다. 각 빈에 대해 p-값은 R 패키지 fdrtool(버전 1.2.16)을 사용하여 q-값으로 변환되었다. 평균 차 |z|의 절대값을 만족하는 Bin > 2 및 q-값 < 0.05를 DMR로 선택했다. 3개의 하위 집합 각각에서 DMR의 교차점이 발견되었으며 1430개의 공유 DMR이 확인되었다. 그런 다음 각 하위 집합에서 q-값의 순위가 고려되었다. 1,430개의 DMR은 각 하위 집합에서 계산된 q-값을 기반으로 정렬되었다. 모든 하위 집합에서 상위 500개의 DMR만 선택되었으며 최종적으로 256개의 DMR이 선택되었다. 256개의 DMR에서 훈련 및 테스트 세트의 PCA는 핵심 영역을 그리기 위해 70% 신뢰 구간으로 R의 prcomp 함수를 사용하여 수행되었다.
2-2. 주석(annotation) 및 경로 분석
경로 분석을 위한 DMR 목록은 R을 사용하여 BED 형식으로 생성되었다. DMR 관련 유전자 목록은 HOMER(버전 4.11) 게놈 주석을 사용하여 생성되었다. 중복 제거를 수행하고 경로 분석을 위해 관련 유전자 목록을 Enrichr(https://maayanlab.cloud/Enrichr/)에 입력했다. WikiPathways 2021, Elsevier 경로 및 Panther 2016 데이터베이스를 기반으로 한 1차 결과가 추가로 고려되었다.
그 결과로, 도 3은 불량한 CCC 그룹과 양호한 CCC 그룹 간의 평균 AMF 차이 분포를 나타낸다. 동일한 빈에서 양호한 CCC 그룹과 불량한 CCC 그룹 간의 평균 차이는 두 가지 측면이 혼합된 것으로 나타났다(도 3). 일부 빈에서는 메틸화 차이가 관찰되었으며 저메틸화는 더 흔한 경향이 있었다.
또한, 도 4a 및 4b는 세 개의 재표본 그룹 각각에서 q-값의 분포를 나타낸다. Welch의 t-검정(도 4a)을 사용하여 양호한 CCC 그룹과 불량한 CCC 그룹 간에 AMF 분포가 크게 다른 빈을 선택했다. Welch의 t-검정에서 얻은 p-값에 FDR 보정을 적용했고, 세 개의 재표본 그룹 각각에서 q-값의 분포가 표시되었다. 도 4b는 Wilcoxon 테스트를 사용하여 얻은 p-값에 적용된 FDR 보정을 나타내며, Wilcoxon 테스트는 DMR을 식별하지 못했다. 비지도 분석에서 두 그룹 간의 유의한 메틸화 차이가 관찰되었으므로, Welch의 t-검정 결과가 유의하다고 가정하고 후속 분석을 수행하였다.
DMR은 평균과 분포의 차이에 따라 선택되었다(도 5a). 저메틸화(z-점수 < -2)는 선택된 DMR에서 과메틸화(z-점수 > 2)보다 더 일반적이고 더 가변적이었다. 저메틸화 및 과메틸화 DMR의 수는 각 세트에서 다르지만, 저메틸화 및 낮은 CpG 밀도의 우세는 일관적이었다(도 6). 그 후, 각 하위 집합에서 식별된 DMR 중에서 가장 재현 가능한 DMR을 선택했다. 세 가지 하위 집합 모두에서 관찰된 DMR만 샘플 특이적이지 않은 재현 가능한 DMR에 대한 스크리닝 프로세스에서 선택되었으며 1,430개의 DMR이 이 기준을 충족했다(도 5b). 1,430개의 교차 DMR은 각 하위 집합의 q-값에 따라 정렬되었다. 1,430개의 DMR에 대한 경로 분석은 (1) 이전에 알려진 CCC 관련 경로와의 명확한 연관성을 나타내지 않았거나 (2) 다른 데이터베이스를 기반으로 한 예측 결과와 일치하지 않았다(도 7). 모든 하위 집합의 상위 500개 DMR 중 256개만이 CCC와 강하게 연관된 후보 마커 DMR로 선택되었다(도 5c). 256개의 DMR에 대한 경로 분석은 TGF-베타, G-단백질 및 호산구를 포함하여 CCC와 관련된 것으로 보고된 요인을 확인했다(도 8).
256개의 선택된 DMR을 사용하는 전체 훈련 세트의 PCA는 CCC 그룹에 의존하는 분리를 식별했다(도 5d). 선택된 256개의 DMR이 양호한 CCC를 예측할 수 있는 가능성을 확인했다. 그런 다음 입력 데이터를 DMR 스크리닝에 사용되지 않은 테스트 세트로 교체하여 PCA 예측을 수행했다. 그룹 클러스터링이 관찰되었지만 일부 겹치는 부분이 있었다(도 5e). 종합하면, 이 256개의 후보 DMR은 훈련 세트를 과적합하기 보다는 보편적인 CCC 마커로 사용할 가능성을 보여주었다. DMR 검색은 우세한 저메틸화를 식별하는 반면 필터링된 DMR은 CCC에서 그룹화의 재현성을 보여주었다.
[실시예 3]
랜덤 포레스트 분류기로 선택한 CCC의 마커 DMR
마지막으로, 기계 학습을 사용하여 마커 선택을 수행했다. 학습 알고리즘의 랜덤 포레스트 방법을 사용하여 분류기를 훈련시키고 256개의 선택된 DMR을 입력으로 사용했다.
도 9a는 양호한 CCC 관련 DMR 후보를 사용한 반복 교차 검증을 통한 랜덤 포레스트 분류기 훈련 및 검증의 순서도를 나타낸다. 전체 훈련 세트(불량한 CCC: n=29, 양호한 CCC: n=93)에 대한 256개의 CCC 관련 DMR 후보의 AMF 값이 훈련에 사용되었다. 훈련 결과를 검증하기 위해 사전에 분리된 테스트 세트 샘플(불량 CCC: n=5, 양호한 CCC: n=16)에 대한 예측이 이루어졌다. 반복된 교차 검증은 훈련 세트를 사용하여 수행되었다.
3-1. 랜덤 포레스트 프로세스
256개의 DMR로 구성된 전체 훈련 세트가 랜덤 포레스트 분석을 위한 입력으로 사용되었다. 훈련 세트와 검증 세트의 교차 검증은 캐럿 패키지에 있는 trainingControl 함수의 'repeatedcv' 옵션을 사용하여 수행되었다. 10배 교차 검증을 10회 반복했다. 랜덤 포레스트 분류기 구성은 "rf" 옵션을 선택하여 캐럿 트레인 기능을 사용하여 수행되었다. 훈련 및 테스트 세트에 대한 모델의 예측 효과는 ROC(수신기 작동 특성) 곡선의 곡선 아래 영역(AUC)을 사용하여 평가되었다. R의 pROC(버전 1.17.0.1) 패키지를 사용하여 최적의 ROC 곡선을 선택하여 해당 특이도과 민감도를 계산했다. 개별변수의 중요도는 최종적으로 구축된 랜덤 포레스트 모델의 중요도에서 'MeanDecreaseGini' 값을 기준으로 평가하였다.
분류기의 예측 성능은 테스트 세트에 대한 ROC 곡선의 AUC를 사용하여 측정되었다. 도 9b는 훈련 세트의 학습 테스트 결과와 테스트 세트의 예측 결과에 대한 ROC 곡선을 나타낸다. 테스트 세트의 AUC 값은 훈련 세트의 AUC 값과 유사하며 측정된 중요도가 유효하다고 가정했다.
최종 모델에 제공된 중요성을 기반으로 상위 20개의 DMR을 마커로 선택하고 각 DMR의 AMF 분포를 평가했다(도 9c). 이 20개의 DMR 중에서, 5개는 엑손 영역에, 8개는 인트론 영역에, 7개는 유전자간 영역에 위치했다. 불량한 CCC 그룹은 일반적으로 1에 가까운 AMF 값의 좁은 분포를 보인 반면, 양호한 CCC 그룹은 넓은 AMF 분포를 나타냈다. 이 AMF 패턴은 선택된 DMR이 메틸화의 차이를 나타내고 양호한 CCC에 대한 마커로 적합함을 시사했다.
20개의 선택된 마커 DMR의 생물학적 관련성을 조사하기 위해 경로 분석을 추가로 수행했다(도 9d 및 10). 선택된 DMR과 관련된 경로에는 TGF-베타 신호 전달 경로, 전사보조인자 SKI 및 SKIL 단백질 파트너, 가로무늬근 수축 경로(striated muscle contraction pathway), 헤지호그(Hedgehog) 신호전달 경로 및 요관 집합 시스템(ureteric collection)의 발달이 포함되었다. 특히, TGF-베타 경로는 다른 데이터베이스 기반 분석(도 10)에서 관계를 보여 가장 높은 연관성을 나타냈다.
모든 데이터베이스에서 TGF-베타 관련 경로는 선택된 DMR과 관련이 있는 것으로 반복적으로 관찰되었다. 이러한 결과는 선택된 DMR과 TGF-베타 경로 사이에서 관찰된 연관성이 잘 알려진 문제인 데이터베이스에 의해 편향되지 않았음을 증명한다.
3-2. DMR 스크리닝에서 AMF 패턴과 건강한 인간 cfDNA의 비교
마지막으로, 공개 데이터 세트의 데이터를 사용하여 선택한 마커의 유효성을 검사하였다. 이전에 발표된 건강한 개체의 cfDNA에서 CpG 메틸화 데이터를 수득하였다[Heuslein JL, Gorick CM, Song J, Price RJ. DNA methyltransferase 1-dependent DNA hypermethylation constrains arteriogenesis by augmenting shear stress set point. J Am Heart Assoc. 2017;6:e007673]. 공개 데이터에 포함되지 않은 2개의 DMR을 제외하고 나머지 18개의 DMR에서 AMF 분포를 평가했다(도 11).
이전에 공개된 문헌[Caggiano C, Celona B, Garton F, Mefford J, Black BL, Henderson R, Lomen-Hoerth C, Dahl A, Zaitlen N. Comprehensive cell type decomposition of circulating cell-free dna with celfie. Nat Commun. 2021;12(1):2717]의 건강한 인간 cfDNA 데이터는 bed 파일 형식으로 GEO 데이터베이스(GSE164600)에서 다운로드되었다. 상기 bed 파일은 개별 CpG 위치에서 매핑 및 메틸화 수를 나열한다. AMF는 이전에 선택한 DMR과 중복되는 CpG 정보를 bedtools(버전 2.29.2) 교차 기능을 사용하여 필터링하여 수득하였다. 총 12개의 건강한 인간 cfDNA 데이터 세트 중 11명의 환자가 포함되었으며, 적용 범위가 매우 낮은 1명을 제외했다. 20개의 DMR 중 2개의 DMR은 커버되지 않았고, 나머지 18개의 DMR의 값을 양호한 CCC 그룹과 불량한 CCC 그룹의 AMF 분포와 비교했다.
18개의 모든 DMR에서, 건강한 그룹의 AMF 분포는 불량한 CCC 그룹의 AMF 분포와 비슷하거나 더 엄격했다. 이러한 관찰은 선택한 마커의 저메틸화가 CCC 특이적이라는 것을 뒷받침한다.
종합하면, 본 실시예를 통해 얻은 주요 결과는 다음과 같다.
1) EM-seq 기반 메틸화 프로파일링은 제한된 인간 cfDNA 양으로도 우수한 품질의 데이터를 생성한다.
2) 양호한 CCC를 가진 환자의 샘플은 선택된 DMR의 넓은 분포를 나타내는 반면, 불량한 CCC를 가진 환자의 샘플은 좁은 분포를 나타낸다.
3) 양호하거나 불량한 CCC와 관련된 인간 DNA의 뚜렷한 CpG 메틸화가 이 비침습적 cfDNA 분석 방법을 사용하여 확인 및 검증되었으며, 여기서 양호한 CCC를 가진 환자는 주로 저메틸화된 cfDNA를 나타낸다.
4) 선택된 DMR과 관련된 TGF-베타 신호 전달과 같은 경로의 식별은 마커 DMR의 생물학적 관련성을 나타낸다. 따라서, 측부 순환과 같은 심혈관 질환에 대한 예측 도구로서 cfDNA 메틸화는 유용하다.
본 발명을 지원한 국가연구개발사업은 다음과 같다.
[과제고유번호] 1711158718
[과제번호] 2022R1A2C1004946
[부처명] 과학기술정보통신부
[과제관리(전문)기관명] 한국연구재단
[연구사업명] 개인기초연구(과기정통부)
[연구과제명] 내피 리파아제 조절 기반 혈관플라크 억제에 대한 메커니즘 규명
[기여율] 1/1
[과제수행기관명] 연세대학교
[연구기간] 2022.03.01 ~ 2023.02.28

Claims (16)

  1. ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 차등적으로 메틸화된 영역(Differentially methylated Region, DMR)의 메틸화 수준을 측정하는 제제를 포함하는, 관상동맥 측부 순환 예측용 조성물.
  2. 제1항에 있어서,
    상기 DMR의 메틸화 수준을 측정하는 제제는,
    비메틸화 사이토신 염기를 변형시키는 화합물; 또는
    상기 DMR의 메틸화된 서열에 특이적인 프라이머 및 DMR의 비메틸화된 서열에 특이적인 프라이머를 포함하는, 관상동맥 측부 순환 예측용 조성물.
  3. 제2항에 있어서,
    상기 DMR의 비메틸화 사이토신 염기를 변형시키는 화합물은 바이설파이트(bisulfite) 또는 이의 염인, 관상동맥 측부 순환 예측용 조성물.
  4. 제1항 내지 제3항 중 어느 한 항의 조성물을 포함하는, 관상동맥 측부 순환 예측용 키트.
  5. a) 개체로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계; 및
    b) 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계;를 포함하는, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  6. 제5항에 있어서,
    상기 개체는 허혈성 심장질환 환자인, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  7. 제5항에 있어서,
    상기 시료는 혈액, 혈장 또는 혈청인, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  8. 제5항에 있어서,
    c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 불량한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 낮은 경우, 관상동맥 측부 순환이 양호할 것으로 예측하는 단계를 추가로 포함하는, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  9. 제5항에 있어서,
    상기 메틸화 수준을 측정하는 방법은 메틸화 특이적 중합효소반응(methylation-specific polymerase chain reaction), 실시간 메틸화 특이적 중합효소반응(real time methylation-specific polymerase chain reaction), 메틸화 민감성 제한 효소를 사용한 메틸화 여부 측정, 메틸화 DNA 특이적 결합 단백질을 이용한 PCR, 정량 PCR, DNA 칩, 파이로시퀀싱 및 바이설파이트 시퀀싱으로 이루어진 군에서 선택되는 것인, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  10. 제5항에 있어서,
    c') 상기 b) 단계에서 측정된 메틸화 수준을 데이터화하는 단계를 추가로 포함하는, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  11. 제10항에 있어서,
    d') 상기 메틸화 데이터를 이용해 평균 메틸화 분율(Average methylation fraction,A MF)을 구하는 단계; 및
    e') 상기 AMF이 1에 가까운 경우 관상동맥 측부 순환의 예후가 불량한 것으로 판단하고, AMF이 1보다 낮은 경우 관상동맥 측부 순환의 예후가 양호한 것으로 판단하는 단계;를 추가로 포함하는, 관상동맥 측부 순환의 예측을 위한 정보를 제공하는 방법.
  12. a) 허혈성 심장질환 환자로부터 분리된 시료로부터 cfDNA(cell free DNA)를 추출하는 단계;
    b) 상기 cfDNA의 ST7, EPN1, LOC101927914, SENP3, TCERG1L, LINC02233, MAGI2-AS3, TEX51, ALG10B, C10orf71-AS1, SKI, FREM1, SMURF2, NTRK3, RAB11FIP3, HLTF, MYH3, SKIV2L, GUSBP10 및 STAB1로 이루어진 군에서 선택되는 어느 하나 이상의 유전자에서 DMR의 메틸화 수준을 측정하는 단계; 및
    c) 상기 b) 단계 이후 상기 메틸화 수준을 관상동맥 측부 순환의 예후가 양호한 대조군 시료의 해당 유전자의 메틸화 수준과 비교한 결과 더 높은 경우, 추가의 치료법을 적용하는 것으로 판단하는 단계;를 포함하는, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법.
  13. 제12항에 있어서,
    상기 시료는 혈액, 혈장 또는 혈청인, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법.
  14. 제12항에 있어서,
    상기 DMR의 메틸화 수준을 측정하는 제제는,
    비메틸화 사이토신 염기를 변형시키는 화합물; 또는
    상기 DMR의 메틸화된 서열에 특이적인 프라이머 및 DMR의 비메틸화된 서열에 특이적인 프라이머를 포함하는, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법.
  15. 제14항에 있어서,
    상기 DMR의 비메틸화 사이토신 염기를 변형시키는 화합물은 바이설파이트(bisulfite) 또는 이의 염인, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법.
  16. 제12항에 있어서,
    상기 추가의 치료법은 관상동맥 중재술 또는 관상동맥 우회술인, 허혈성 심장질환 환자의 치료방법 결정을 위한 정보 제공 방법.
PCT/KR2023/011487 2022-08-04 2023-08-04 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법 WO2024029988A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220097541 2022-08-04
KR10-2022-0097541 2022-08-04

Publications (1)

Publication Number Publication Date
WO2024029988A1 true WO2024029988A1 (ko) 2024-02-08

Family

ID=89849669

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/011487 WO2024029988A1 (ko) 2022-08-04 2023-08-04 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법

Country Status (1)

Country Link
WO (1) WO2024029988A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018143178A (ja) * 2017-03-06 2018-09-20 国立大学法人三重大学 循環器疾患の遺伝的リスク検出法
US20200181703A1 (en) * 2016-07-07 2020-06-11 Siemens Healthcare Gmbh Epigenome-wide association study identifies cardiac developmental gene patterning and a novel class of biomarkers for heart failure
KR102277510B1 (ko) * 2020-01-07 2021-07-14 연세대학교 산학협력단 고밀도지단백 기능과 관련된 심혈관질환 치료표적 및 이를 이용하여 혈관신생에 대한 정보를 제공하는 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200181703A1 (en) * 2016-07-07 2020-06-11 Siemens Healthcare Gmbh Epigenome-wide association study identifies cardiac developmental gene patterning and a novel class of biomarkers for heart failure
JP2018143178A (ja) * 2017-03-06 2018-09-20 国立大学法人三重大学 循環器疾患の遺伝的リスク検出法
KR102277510B1 (ko) * 2020-01-07 2021-07-14 연세대학교 산학협력단 고밀도지단백 기능과 관련된 심혈관질환 치료표적 및 이를 이용하여 혈관신생에 대한 정보를 제공하는 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GHOSE SUBHOSHREE; GHOSH SOURAV; TANWAR VINAY SINGH; TOLANI PRIYA; KUTUM RINTU; SHARMA ANJU; BHARDWAJ NITIN; SHAMSUDHEEN K.V.; VERM: "Investigating Coronary Artery Disease methylome through targeted bisulfite sequencing", GENE, ELSEVIER AMSTERDAM, NL, vol. 721, 6 September 2019 (2019-09-06), NL , XP085879451, ISSN: 0378-1119, DOI: 10.1016/j.gene.2019.144107 *
HAI ZEMMOUR, PLANER DAVID, MAGENHEIM JUDITH, MOSS JOSHUA, NEIMAN DANIEL, GILON DAN, KORACH AMIT, GLASER BENJAMIN, SHEMER RUTH, LAN: "Non-invasive detection of human cardiomyocyte death using methylation patterns of circulating DNA", NATURE COMMUNICATIONS, vol. 9, no. 1, 24 April 2018 (2018-04-24), XP055513857, DOI: 10.1038/s41467-018-03961-y *

Similar Documents

Publication Publication Date Title
Li et al. 5-Hydroxymethylcytosine signatures in circulating cell-free DNA as diagnostic biomarkers for human cancers
WO2016167408A1 (ko) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
US20170298427A1 (en) Nucleic acids and methods for detecting methylation status
EP2885427B1 (en) Colorectal cancer methylation marker
WO2018066910A1 (ko) 메틸화 dna 다중 검출방법
WO2020096248A1 (ko) 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
Pisanic II et al. Defining, distinguishing and detecting the contribution of heterogeneous methylation to cancer heterogeneity
WO2021167413A1 (ko) 핵산의 메틸화 차이를 이용한 마커 선별방법, 메틸 또는 탈메틸 마커 및 이 마커를 이용한 진단방법
WO2024091028A1 (ko) Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법
WO2021091239A1 (ko) 대장암 검출 방법
US9458503B2 (en) Methods for distinguishing between natural and artificial DNA samples
WO2021054713A1 (ko) Dna 메틸화 변이를 이용한 면역항암치료 반응성 예측방법
WO2020209590A1 (ko) 신경교종의 진단 또는 예후 예측용 조성물 및 이에 관한 정보를 제공하는 방법
Kumar et al. Analysis of DNA methylation using pyrosequencing
WO2024029988A1 (ko) 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법
WO2017191871A1 (ko) 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
WO2016080750A1 (ko) 암 유전체 돌연변이 검출용 유전자 패널
WO2019132581A1 (ko) 유방암 및 난소암 등 암 진단용 조성물 및 이의 용도
Hong et al. Age-related methylation patterning of housekeeping genes and tissue-specific genes is distinct between the stomach antrum and body
WO2020096247A1 (ko) 유방암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
WO2019194640A1 (ko) 분자 인덱스된 바이설파이트 시퀀싱
WO2022060178A1 (ko) 유전자의 특이적 메틸화를 이용하여 당뇨족부궤양 재발 또는 예후를 예측하는 방법
WO2018110940A1 (ko) 차세대 핵산 서열 분석을 위한 라이브러리의 복잡성을 측정하는 방법
WO2023132626A1 (ko) 특정 유전자의 cpg 메틸화 변화를 이용한 전립선암 진단용 조성물 및 이의 용도

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23850488

Country of ref document: EP

Kind code of ref document: A1