WO2023191197A1 - 암 진단을 위한 다중 분석 예측 모델의 제조 방법 - Google Patents

암 진단을 위한 다중 분석 예측 모델의 제조 방법 Download PDF

Info

Publication number
WO2023191197A1
WO2023191197A1 PCT/KR2022/012252 KR2022012252W WO2023191197A1 WO 2023191197 A1 WO2023191197 A1 WO 2023191197A1 KR 2022012252 W KR2022012252 W KR 2022012252W WO 2023191197 A1 WO2023191197 A1 WO 2023191197A1
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
ratio
cancer diagnosis
cfdna
methylation
Prior art date
Application number
PCT/KR2022/012252
Other languages
English (en)
French (fr)
Inventor
정성문
이욱재
김수연
김황필
문성태
김태유
Original Assignee
주식회사 아이엠비디엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이엠비디엑스 filed Critical 주식회사 아이엠비디엑스
Priority to EP22862405.2A priority Critical patent/EP4282984A1/en
Priority to CN202280006342.7A priority patent/CN117413071A/zh
Publication of WO2023191197A1 publication Critical patent/WO2023191197A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Definitions

  • the present invention relates to a method of manufacturing a multi-analysis prediction model for cancer diagnosis and a method of providing information for cancer diagnosis using the same.
  • cfDNA cell-free DNA
  • ctDNA circulating tumor DNA
  • whole-genome DNA methylation mapping exploits a number of epigenetic changes that can be used to distinguish ctDNA from normal circulating cell-free DNA.
  • some tumor types e.g., encephalocytosis, may have extensive DNA methylation abnormalities without any significant recurrent somatic mutations.
  • the present invention seeks to present a cancer diagnostic analysis prediction model manufactured through machine learning by applying various characteristics such as methylation pattern ratio, copy number ratio, and fragment size ratio, and extracting data alone or in an ensemble.
  • One aspect of the present invention includes the steps of a) selecting a region necessary for cancer diagnosis prediction from CpG site information of a human reference genome; b) obtaining full-genome methylation sequencing information of cfDNA from two or more liquid biopsy samples; c) Apply the methylation pattern fraction feature to the selected region among the full-length genome methylation sequencing information of the obtained cfDNA, and copy number ratio and fragment size ratio. ) Extracting data by additionally applying one or more characteristics selected from the group consisting of; and d) generating a cancer diagnosis prediction model using one or more extracted characteristic data through machine learning.
  • the purpose is to provide a method of manufacturing a multi-analysis prediction model for cancer diagnosis.
  • Another aspect of the present invention includes a) obtaining full-length genome methylation sequencing information of cfDNA from a liquid biopsy sample of a subject patient; b) providing a method of providing information for cancer diagnosis, including the step of detecting the presence or absence of cancer and/or cancer-derived tissue by applying whole-genome methylation sequencing information of cfDNA to a multi-analysis prediction model for cancer diagnosis.
  • a method of providing information for cancer diagnosis including the step of detecting the presence or absence of cancer and/or cancer-derived tissue by applying whole-genome methylation sequencing information of cfDNA to a multi-analysis prediction model for cancer diagnosis.
  • step a) may be to select an area necessary for predicting cancer diagnosis when the following conditions are satisfied:
  • the distance between CpG sites is less than 100 bp and the region contains 3 or more CpG sites.
  • the liquid biopsy sample may be blood derived from a normal person or a cancer patient.
  • the methylation pattern ratio may be calculated as the ratio of the number of methylated Cs among CpGs of all reads for the region selected in step a).
  • the methylation pattern ratio may be calculated as a methylation CpG ratio opposite to the methylation pattern of a predefined normal person for the region selected in step a).
  • the copy number ratio is calculated by dividing the entire genome into sections, calculating the depth value for each section, and using the median value of the depth for each section as a reference value from the full-length genome methylation sequencing information of normal cfDNA.
  • the log value may be calculated by dividing the depth value for each section by the reference value.
  • the fragment size ratio is such that the fragment mapped to each region for the region selected in step a) is divided into a first fragment of 100 bp to 150 bp and a second fragment of 150 bp to 220 bp. It may be classified into fragments and calculated by calculating the number of the first fragment and the second fragment as a log ratio.
  • the cancer diagnosis prediction model may detect the presence or absence of cancer and/or cancer-derived tissue.
  • Another aspect of the present invention includes the steps of a) obtaining full-length genome methylation sequencing information of cfDNA from a liquid biopsy sample of a target patient; b) detecting the presence or absence of cancer and/or cancer-derived tissue by applying the full-length genome methylation sequencing information of the cfDNA in step a) to the multi-analysis prediction model for cancer diagnosis prepared through the method of claim 1.
  • Figure 1 is a diagram showing an example of a process for selecting a region necessary for cancer diagnosis prediction using CpG information of a human reference genome according to an embodiment of the present invention.
  • Figure 2 is a diagram showing an example of a method for extracting data on the average methylation rate according to an embodiment of the present invention.
  • Figure 3 is a diagram showing an example of a method for extracting data on the rate of abnormal methylation patterns according to an embodiment of the present invention.
  • Figure 4 is a diagram showing an example of a method for extracting data on copy number ratio according to an embodiment of the present invention.
  • Figure 5 is a graph showing the difference in fragment size distribution between cfDNA of normal people and cfDNA of colon cancer patients.
  • Figure 6 is a schematic diagram showing the process of generating a cancer diagnosis prediction model using machine learning for data extracted according to an embodiment of the present invention.
  • Figure 7 is data showing the results of predicting the presence or absence of cancer for each characteristic using a cancer prediction model (IsCancer) according to an embodiment of the present invention.
  • IsCancer cancer prediction model
  • Figure 8 is data showing the results of predicting the presence or absence of cancer by ensemble of four types of characteristics using a cancer prediction model (IsCancer) according to an embodiment of the present invention.
  • Figure 9 is data showing the results of predicting cancer-derived tissue for each characteristic using a cancer prediction model (Tissue-of-Origin) according to an embodiment of the present invention.
  • Figure 10 is data showing the results of predicting cancer-derived tissue by ensemble of four types of characteristics using a cancer prediction model (Tissue-of-Origin) according to an embodiment of the present invention.
  • One aspect of the present invention includes the steps of a) selecting a region necessary for cancer diagnosis prediction from CpG site information of a human reference genome; b) obtaining full-genome methylation sequencing information of cfDNA from two or more liquid biopsy samples; c) Applying the methylation pattern ratio characteristic to the region selected in step a) among the full-length genome methylation sequencing information of the cfDNA obtained in step b) above, and at least one selected from the group consisting of copy number ratio and fragment size ratio Extracting data by additionally applying characteristics; and d) generating a cancer diagnosis prediction model through machine learning using one or more characteristic data extracted in step c).
  • tumor nucleic acids circulating tumor DNA, ctDNA
  • cell-free nucleic acids cell-free DNA, cfDNA
  • the amount of these nucleic acids is higher in cancer patients than in normal controls.
  • the amount of ctDNA increases when cancer recurs after treatment.
  • the present inventors made diligent efforts to overcome the limitations of the existing method of diagnosis using methylation patterns of specific regions using target sequencing. As a result, methylation pattern ratio, copy number ratio, The present invention was completed by manufacturing a cancer diagnostic analysis prediction model with high sensitivity and accuracy through machine learning using data extracted by applying various characteristics such as slice size ratio, and verifying that effective cancer diagnosis is possible through this.
  • the method of the present invention performs the step of a) selecting a region necessary for cancer diagnosis prediction from CpG site information of the human reference genome.
  • the genomic DNA of mammalian cells contains a fifth base called 5-methylcytosine (5-mC), which has a methyl group attached to the fifth carbon of the cytosine ring.
  • 5-methylcytosine occurs only at the C of the CG dinucleotide (5'-CG-3'), which is called the CpG site, and 5-mC in the CpG site is prone to natural deamination to become thymine (T).
  • CpG sites are where most epigenetic changes frequently occur in mammalian cells.
  • the CpG site may be present in the promoter region, intron, exon region, etc. of the gene included in the genome.
  • the distance between CpG sites is less than 100 bp and the region contains 3 or more CpG sites.
  • Figure 1 is an example showing the process of selecting a region necessary for cancer diagnosis prediction using CpG information of the human reference genome according to an embodiment of the present invention.
  • CpG information was obtained from the GRCh37 version of the human reference genome sequence downloaded from the UCSC genome browser.
  • the total number of CpG sites in the human genome is 28,245,162
  • the number of CpG sites with a sequencing depth of 3 or more in normal people is 18,654,033, or about 66%.
  • the distance between CpG sites is less than 100 bp and there are 2,639,386 regions containing at least 3 CpG sites.
  • regions exceeding 1 kb are divided to select 2,651,019 regions. Afterwards, when the sex chromosome region is removed, 2,527,529 regions are selected, and finally, when the bottom 10% of normal people's regions with a sequencing depth exceeding 3 are selected, 2,407,105 regions are selected.
  • the method of the present invention performs the step b) of obtaining full-length genome methylation sequencing information of cfDNA from two or more liquid biopsy samples.
  • the liquid biopsy sample may include a sample made of liquid such as whole blood, serum, plasma, saliva, sputum, cerebrospinal fluid, or urine derived from a normal person or cancer patient. Blood is most preferable.
  • 'cell-free DNA' or 'cfDNA' refers to a fragment of nucleic acid found outside of a cell (e.g., body fluid), and the body fluid is blood, cerebrospinal fluid, saliva, or Including, but not limited to, urine.
  • the cfDNA may be derived from the subject (e.g., from the subject's cells) or from a source other than the subject (e.g., from a viral infection).
  • Extraction of cfDNA can be performed according to methods known in the art, and the extracted cfDNA is used to create a DNA library through, for example, a methylation method known in the art, and then subjected to next generation sequencing (NGS). You can confirm methylation by obtaining full-length genome methylation sequencing information.
  • NGS next generation sequencing
  • methylation in the present invention refers to the attachment of a methyl group to a base constituting DNA.
  • methylation in the present invention refers to methylation that occurs at cytosine in the CpG region of the human genome. .
  • methylation occurs, the binding of transcription factors is disrupted and the expression of a specific gene is suppressed.
  • unmethylation or hypomethylation occurs, the expression of a specific gene increases.
  • the present invention c) applies the methylation pattern ratio characteristic to the region selected in step a) among the full-length genome methylation sequencing information of the cfDNA obtained in step b), and consists of copy number ratio and fragment size ratio.
  • a step of extracting data is performed by additionally applying one or more characteristics selected from the group.
  • the methylation pattern ratio may be calculated as the ratio of the number of methylated Cs among CpGs of all reads for the region selected in step a).
  • the methylation pattern ratio calculated in this way is defined as 'Average Methylation Fraction (AMF)'.
  • Figure 2 shows an example of how to extract data for average methylation ratio. For example, assuming that there are 24 CpG sites in all reads, the ratio can be calculated according to the number of methylated Cs among them. At this time, as shown in Figure 2, the number of methylated Cs is calculated only for cytosines included in the region, and the average methylation ratio value can be extracted according to Equation I below. The average methylation ratio value extracted by this method has a value between 0 and 1.
  • C i is the ith region obtained from 1), M j , U i means the number of methylated Cs and the number of unmethylated Cs in the jth CpG belonging to C i .
  • the methylation pattern ratio can be calculated as a methylation CpG ratio opposite to the methylation pattern of a predefined normal person for the region selected in step a).
  • the methylation pattern ratio calculated in this way is defined as 'Abnormal Methylation Pattern Fraction (AMPF)'.
  • Figure 3 shows an example of a method to extract data on the rate of abnormal methylation patterns.
  • the pattern of methylation is constructed at the level of each Whole Genome Methylation Sequencing (WGMS) read, and then the frequency is extracted at the sample level, and then For each region, the methylation pattern of a normal person is defined. Afterwards, the level of the methylation pattern opposite to that of normal people is quantified, and the ratio of the abnormal methylation pattern is calculated to extract the value. For example, if the normal major pattern of Segment1 is methylation, and the methylation level of cancer patient Sample1 is 0.11, the ratio of the abnormal methylation pattern of Segment1 in Sample1 is 0.89 (boxed in Figure 3 (c)).
  • WGMS Whole Genome Methylation Sequencing
  • the copy number ratio is calculated by dividing the entire genome into sections and calculating the depth value for each section, using the median value of the depth for each section as a reference value from the full-length genome methylation sequencing information of normal cfDNA, and calculating the target sample
  • the log value can be calculated by dividing the depth value for each section by the reference value.
  • Figure 4 shows an example of a method for extracting data on copy number ratio.
  • information on copy number variation can be collected for each sample from whole genome data.
  • the entire genome is divided into sections (for example, in 10 kb units), and then the depth is calculated for each section.
  • the median value of the depth for each section in the normal sample is calculated and used as the reference value.
  • the copy number ratio can be calculated by dividing the depth value for each section of the sample to be obtained by the reference depth value calculated from a normal sample and then taking the logarithm. As in the example of FIG. 4, if the median depth value for each section of the normal sample is 2 copies, and the depth value for each section of the target sample is 2 copies, the copy number ratio value is 0.
  • the fragment size ratio is such that the fragment mapped to each region for the region selected in step a) is divided into a first fragment of 100 bp to 150 bp and a second fragment of 150 bp to 220 bp. It can be calculated by classifying into 2 intercepts and calculating the number of the first and second intercepts as a log ratio.
  • cfDNA circulating in the blood has molecular characteristics related to the size of the DNA fragment.
  • the DNA fragment size distribution can be confirmed just by using the cfDNA sequencing results.
  • the size of the slice becomes shorter reflecting the patient's disease (eg, cancer) or condition, so it can be used in a cancer diagnosis prediction model.
  • Figure 5 shows the fragment size distribution of cfDNA from normal people and cfDNA from colon cancer patients. As shown in Figure 5, it can be seen that the size of cfDNA fragments in colon cancer patients has a higher distribution of shorter fragments compared to normal people.
  • Data on intercept size ratio can be extracted as follows. For example, if the total number of fragments for the selected area is 30, and among the fragments mapped to each region, the number of first fragments is 10 and the number of second fragments is 20, the data value for the fragment size ratio is It can be -1 by the following calculation.
  • the method of the present invention performs the step d) of generating a cancer diagnosis prediction model through machine learning using the data extracted in step c) above.
  • Figure 6 shows the process of generating a cancer diagnosis prediction model using machine learning for data extracted by the above method.
  • Normal and cancer patient samples were divided into a training set and a validation set, and the training set was subjected to 4-fold cross-validation to predict the evaluation of the final model before validation.
  • a machine learning model was created using this method.
  • the model for each characteristic (methylation pattern ratio (AMF, AMPF), copy number ratio (CNR), and fragment size ratio (Fragmentomics)) exclusively uses classification models such as support vector machine, random forest, and glmnet.
  • AMF methylation pattern ratio
  • CNR copy number ratio
  • Framentomics fragment size ratio
  • the cancer diagnosis prediction model is based on the presence or absence of cancer (IsCancer) and/or cancer-derived tissue (Tissue-of- Origin) can be detected.
  • the IsCancer ensemble model can be manufactured using both normal and cancer patient samples, and the Tissue-of-Origin model can be manufactured using cancer patient samples excluding normal people.
  • the Tissue-of-Origin model can be applied only to patients determined to have cancer in the IsCancer model, and performance can be evaluated using a validation set independent of the training set.
  • Another aspect of the present invention includes a) obtaining full-length genome methylation sequencing information of cfDNA from a liquid biopsy sample of a subject patient; and b) detecting the presence or absence of cancer and/or cancer-derived tissue by applying the whole-genome methylation sequencing information of the cfDNA in step a) to the multi-analysis prediction model for cancer diagnosis prepared through the above method.
  • the method of providing information for cancer diagnosis according to the present invention is to determine the presence or absence of cancer and/or cancer-derived tissue by applying full-genome methylation sequencing information of cfDNA from a target patient to the multi-analysis prediction model for cancer diagnosis described above.
  • analysis standards and verification methods have been described above, descriptions are omitted to prevent excessive complexity of the specification.
  • Plasma and PBMC Plasma and PBMC (Peripheral Blood Mononuclear Cell) were separated from the target patient's blood, and cfDNA was extracted from the plasma using a cfDNA extraction kit (Promega, USA). The quality of the extracted cfDNA was checked using the TapeStation System (Agilent, USA). The NGS DNA library preparation process for whole-genome methylation sequencing was performed on 1 ng to 20 ng of cfDNA whose quality was confirmed. The DNA library is prepared through the processes of end repair, adapter ligation, oxidation of the methyl region, DNA denaturation, cytosine deamination, and PCR amplification.
  • the above library preparation process is performed using the Enzymatic Methyl-seq Kit (New England Biolabs, USA). used.
  • the quality of the prepared DNA library was confirmed using the TapeStation System (Agilent, USA).
  • Example 2 Results of predicting the presence or absence of cancer using a cancer diagnosis prediction model (IsCancer)
  • Samples from three types of cancer and normal people were divided into a training set and a validation set considering age and cancer number information, and the presence or absence of cancer was predicted for each characteristic using the IsCancer model manufactured according to the method of the present invention.
  • Table 1 below shows the number of training sets and independent validation sets.
  • CRC Colorectal Cancer
  • HCC Liver cancer
  • BC Breast Cancer
  • Methylation pattern ratio (AMF, AMPF) ((a) and (b) in Figure 7), copy number ratio (CNR) ((c) in Figure 7) and fragment size ratio (FragRatio) ((d) in Figure 7)
  • AMF Methylation pattern ratio
  • AMPF copy number ratio
  • CNR copy number ratio
  • FragRatio fragment size ratio
  • the sensitivity was confirmed to be AMF 92.9%, AMPF 95.2%, CNR 90.5%, and FragRatio 92.9%, confirming that the presence or absence of cancer can be determined with high specificity and sensitivity.
  • Example 3 Prediction results of cancer-derived tissue using a cancer diagnosis prediction model (Tissue-of-Origin)
  • CRC cfDNA Colorectal Cancer
  • HCC Liver cancer
  • BC Breast Cancer
  • Methylation pattern ratio (AMF, AMPF) ((a) and (b) in Figure 9), copy number ratio (CNR) ((c) in Figure 9) and fragment size ratio (FragRatio) ((d) in Figure 9)
  • AMF, AMPF Methylation pattern ratio
  • CNR copy number ratio
  • FragRatio fragment size ratio

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Biochemistry (AREA)
  • Software Systems (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Hospice & Palliative Care (AREA)
  • Oncology (AREA)
  • Microbiology (AREA)

Abstract

본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다. 본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.

Description

암 진단을 위한 다중 분석 예측 모델의 제조 방법
본 발명은 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 이를 이용하여 암 진단을 위한 정보를 제공하는 방법에 관한 것이다.
최근 암의 발견을 위해 혈액속에 존재하는 세포 유리 DNA (cell-free DNA, cfDNA) 또는 순환 종양 DNA(circulating tumor DNA, ctDNA)를 활용하고 있다. 건강한 사람들의 경우 조혈 세포 (haematopoietic cell)로부터 방출된 DNA가 대부분이나, 암 환자의 경우 cfDNA에는 암세포 사멸로 파괴된 세포로부터 혈액으로 방출된 ctDNA가 포함되어 있다. 이 ctDNA는 암과 관련된 유전적 변이를 포함하고 있으며, 이러한 유전적 변이의 모니터링을 통해, 병변 발생 전 암의 조기 발견, 특정 암치료법에 대한 반응 분석, 항암제에 대한 저항성 생성 기전 발견, 잔존 암의 존재 등의 확인이 가능하다.
한편, 전장 유전체 DNA 메틸화 맵핑은 ctDNA를 정상 순환 세포 유리 DNA와 구분하기 위해 사용될 수 있는 다수의 후성적 변화를 이용한다. 예를 들어, 일부 종양 유형, 예를 들어, 뇌질피복 세포증은 임의의 상당한 재발성 체세포 돌연변이 없이 광범위한 DNA 메틸화 비정상을 가질 수 있다.
최근 cfDNA를 이용하여 CancerSEEK, PanSeer, GRAIL MCED test와 같은 다양한 암 진단 기술들이 개발되고 있는데, 이들은 주로 타겟 시퀀싱을 이용하여 특정 영역에서의 메틸화 패턴만을 이용하여 진단하기 때문에, 한정된 숫자의 마커만을 사용하게 되는 한계점이 있어 민감도와 정확도가 높은 암 진단을 위한 예측 모델이 필요한 실정이다.
이에, 본 발명에서는 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터 단독 또는 앙상블하여 기계학습을 통해 제조한 암 진단 분석 예측 모델을 제시하고자 한다.
본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 선별된 영역에 대하여 메틸화 패턴 비율(methylation pattern fraction) 특성(feature)을 적용하고, 복제수 비율(copy number ratio) 및 절편 크기 비율(fragment size ratio)로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 추출된 하나 이상의 특성 데이터를 기계학습(machine learning)을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공하는 것을 목적으로 한다.
본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; b) 암 진단을 위한 다중 분석 예측 모델에 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공하는 것을 목적으로 한다.
본 발명의 일 구체예로, a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 상기 c) 단계에서 추출된 하나 이상의 특성 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공한다.
본 발명의 일 구체예로, 상기 a) 단계는 하기 조건을 만족하는 경우 암 진단 예측에 필요한 영역으로 선별하는 것일 수 있다:
1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
3) 1 kb를 초과하는 영역은 분할할 것
4) 성 염색체 영역을 제거할 것; 및
5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것.
본 발명의 일 구체예로, 상기 액체 생검 시료는 정상인 또는 암 환자 유래의 혈액인 것일 수 있다.
본 발명의 일 구체예로, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것일 수 있다.
본 발명의 일 구체예로, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출하는 것일 수 있다.
본 발명의 일 구체예로, 상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출하는 것일 수 있다.
본 발명의 일 구체예로, 상기 절편 크기 비율은 a) 단계에서 선별된 영역에 대하여 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고, 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출하는 것일 수 있다.
본 발명의 일 구체예로, 상기 암 진단 예측 모델은 암의 유무 및/또는 암 유래 조직을 검출하는 것일 수 있다.
본 발명의 다른 일 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; b) 청구항 1의 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공한다.
본 발명의 일 구체예에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법 및 상기 예측 모델을 이용한 암 진단을 위한 정보를 제공하는 방법에 의하면, 정확하고 민감도 높은 암 진단이 가능하며, 조기에 암을 진단할 수 있다는 장점을 갖는다.
도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정의 예시를 나타낸 도면이다.
도 2는 본 발명의 일 구체예에 따른 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 3은 본 발명의 일 구체예에 따른 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 4는 본 발명의 일 구체예에 따른 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸 도면이다.
도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포의 차이를 보여주는 그래프이다.
도 6은 본 발명의 일 구체예에 따라 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 개략도이다.
도 7은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 각 특성별로 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 8은 본 발명의 일 구체예에 따른 암 예측 모델(IsCancer)을 이용하여 4종의 특성을 앙상블하여 암의 유무를 예측한 결과를 나타낸 데이터이다.
도 9는 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 각 특성별로 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
도 10은 본 발명의 일 구체예에 따른 암 예측 모델(Tissue-of-Origin)을 이용하여 4종의 특성을 앙상블하여 암 유래 조직을 예측한 결과를 나타낸 데이터이다.
본 발명의 일 양상은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계; b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및 d) 상기 c) 단계에서 추출된 하나 이상의 특성 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 제공한다.
암 환자의 혈액에서는 원발암 유래의 종양 핵산(circulating tumor DNA, ctDNA)과 세포유리 핵산(cell-free DNA, cfDNA)이 함께 순환하고 있는데, 특히, 상기 핵산의 양은 암환자에서 정상 대조군보다 많고, 항암치료 전후로 차이가 있으며, 치료 후 암이 재발하는 경우에는 ctDNA의 양이 증가하는 것으로 알려져 있다. 본 발명자들은 cfDNA를 이용한 암 진단 기술을 연구하는 과정에서, 기존의 타겟 시퀀싱을 이용한 특정 영역의 메틸화 패턴을 이용하여 진단하는 방법의 한계를 극복하기 위해 예의 노력한 결과, 메틸화 패턴 비율, 복제수 비율, 절편 크기 비율 등 다양한 특성을 적용하여 추출된 데이터를 기계학습을 통해 민감도와 정확도가 높은 암 진단 분석 예측 모델을 제조하고 이를 통해 효과적으로 암 진단이 가능함을 검증하여 본 발명을 완성하였다.
이하, 본 발명에 따른 암 진단을 위한 다중 분석 예측 모델의 제조 방법을 상세히 설명한다.
먼저, 본 발명의 방법은 a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계를 수행한다.
포유동물 세포의 게놈 DNA에는 A, C, G 및 T 이외에, 사이토신 링의 다섯번째 탄소에 메틸 그룹이 부착된 5-메틸사이토신(5-methylcytosine, 5-mC)이라는 5번째 염기가 존재한다. 5-메틸사이토신의 메틸화는 CpG 부위라고 불리는 CG 디뉴클레오티드(5'-CG-3')의 C에서만 일어나며, 상기 CpG 부위에서 5-mC는 자연적으로 탈아미노화하여 티민(T)이 되기 쉽기 때문에, CpG 부위는 포유동물 세포에서 대부분의 후생유전학적 변화가 자주 일어난다. 상기 CpG 부위는 게놈에 포함되어 있는 유전자의 프로모터 영역, 인트론, 엑손 영역 등에 존재할 수 있다.
본 발명의 일 구체예에 따르면, 상기 암 진단 예측에 필요한 영역으로 선별하기 위해서는 다음과 같은 조건을 만족하는 것이 바람직하다.
1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
3) 1 kb를 초과하는 영역은 분할할 것
4) 성 염색체 영역을 제거할 것; 및
5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것.
도 1은 본 발명의 일 구체예에 따른 인간 레퍼런스 게놈의 CpG 정보를 이용하여 암 진단 예측에 필요한 영역을 선별하는 과정을 나타낸 예시이다. 본 예시에서, CpG 정보는 UCSC 게놈 브라우저로부터 다운로드한 GRCh37 버전의 인간 참조 게놈 서열로부터 얻었다. 도 1을 참고하여 암 진단 예측에 필요한 영역을 선별하는 과정을 보면, 인간 게놈에서 전체 CpG 부위의 갯수는 28,245,162개이며, 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위는 약 66%인 18,654,033개이다. 그 중 CpG 부위 사이의 거리가 100 bp 미만이고, 적어도 3개의 CpG 부위를 포함하는 영역은 2,639,386개이고, 이 중 1kb를 초과하는 영역을 분할하여 2,651,019개의 영역을 선별한다. 이후, 성 염색체 영역을 제거하면 2,527,529개의 영역이 선별되며, 최종적으로 정상인에서 하위 10%의 시퀀싱 뎁스가 3을 초과하는 영역을 선별하면 2,407,105개의 영역이 선별된다.
이후, 본 발명의 방법은 b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계를 수행하게 된다.
본 발명의 일 구체예에 따르면, 상기 액체 생검 시료는 정상인 또는 암 환자 유래의 전혈, 혈청, 혈장, 타액, 객담, 뇌척수액 또는 소변과 같은 액체로 이루어진 시료를 포함할 수 있으나, 상기 액체 생검 시료는 혈액인 것이 가장 바람직하다.
본 발명에서, '세포 유리 핵산(cell-free DNA)' 또는 'cfDNA'는 세포의 외부(예를 들어, 체액)에서 발견되는 핵산의 단편을 의미하는 것으로, 상기 체액은 혈액, 뇌척수액, 타액 또는 소변을 포함하지만, 이에 한정하지는 않는다. 상기 cfDNA는 대상으로부터(예를 들어, 대상의 세포로부터) 유래될 수 있거나, 대상 이외의 공급원으로부터(예를 들어, 바이러스 감염으로부터) 유래될 수 있다.
cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 추출된 cfDNA는 예를 들어, 당업계에 공지된 메틸화 방법을 통해 DNA 라이브러리를 제작한 다음, 차세대 시퀀싱(Next Generation Sequencing, NGS)을 통하여 전장 유전체 메틸화 시퀀싱 정보를 획득하여 메틸화 여부를 확인할 수 있다. 차세대 염기서열 분석기법의 구체적인 방법은 Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46]에 기재되어 있으며, 상기 문헌은 본 명세서에 참조로서 삽입된다.
본 발명에서, '메틸화(methylation)'는 DNA를 구성하는 염기에 메틸기가 부착되는 것을 의미하며, 바람직하게는, 본 발명에서의 메틸화는 인간 게놈의 CpG 부위의 사이토신에서 일어나는 메틸화 여부를 의미한다. 일반적으로, 메틸화가 일어난 경우 그로 인하여 전사인자의 결합이 방해를 받게 되어 특정 유전자의 발현이 억제되며, 반대로, 비메틸화 또는 저메틸화가 일어나는 경우 특정 유전자의 발현이 증가하게 된다.
다음으로, 본 발명은 c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계를 수행하게 된다.
본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것일 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '평균 메틸화 비율(Average Methylation Fraction, AMF)'로 정의한다.
도 2는 평균 메틸화 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 예를 들어, 전체 리드의 CpG 부위가 24개로 가정하면, 이 중 메틸화된 C의 개수에 따라 비율을 산출할 수 있다. 이때, 도 2에서 보는 바와 같이, 메틸화된 C의 개수는 영역 내에 포함되는 사이토신에 대해서만 계산을 하게 되며, 하기 수학식 I에 따라 평균 메틸화 비율 값을 추출할 수 있다. 이러한 방법에 의해 추출된 평균 메틸화 비율 값은 0 내지 1 사이의 값을 갖게 된다.
[수학식 I]
Figure PCTKR2022012252-appb-img-000001
상기 식에서, Ci는 1)로부터 얻어진 i번째 영역, M j, U iC i에 속한 j번째 CpG에서의 메틸화된 C의 개수, 메틸화되지 않은 C의 개수를 의미한다.
본 발명의 일 구체예에 따르면, 상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출할 수 있다. 본 명세서에서는, 이와 같이 산출되는 메틸화 패턴 비율을 '비정상 메틸화 패턴 비율(Abnormal Methylation Pattern Fraction, AMPF)'로 정의한다.
도 3은 비정상 메틸화 패턴 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. 도 3의 (a) 내지 (c)에서 보는 바와 같이, 먼저, 각각의 전장 유전체 메틸화 시퀀싱 (Whole Genome Methylation Sequencing, WGMS) 리드 레벨에서 메틸화의 패턴을 구성하고, 시료 레벨에서 빈도를 추출한 다음, 각 영역마다 정상인의 메틸화 패턴을 정의한다. 이후, 정상인과 반대되는 메틸화 패턴(methyl pattern) 수준을 정량화하여, 비정상적인 메틸화 패턴의 비율을 계산하여 값을 추출하게 된다. 예를 들어, Segment1의 정상인 주 패턴(major pattern)이 메틸화이고, 암 환자 Sample1의 메틸화 수준이 0.11이면 Sample1에서 Segment1의 비정상 메틸화 패턴 비율은 0.89이다(도 3 (c)의 박스 표시).
본 발명의 일 구체예에 따르면, 상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출할 수 있다.
도 4는 복제수 비율에 대한 데이터를 추출하는 방법의 예시를 나타낸다. cfDNA에서, 복제수 변이를 정량하는 것은 매우 어려우나, 전장 유전체 데이터로부터 각 시료 마다 복제수 변이에 대한 정보를 수집할 수 있다. 먼저, 전체 게놈을 구간화(예를 들어, 10 kb 단위)한 다음, 각 구간별로 뎁스(depth)를 계산한다. 이후, 정상인 시료에서 구간별 뎁스의 중앙값을 계산하여 이를 레퍼런스 값으로 한다. 복제수 비율의 계산은 구하고자 하는 시료의 구간별 뎁스값을 정상인 시료에서 계산된 레퍼런스 뎁스값으로 나눈 후 로그를 취하여 복제수 비율을 계산할 수 있다. 도 4의 예시와 같이, 정상인 시료의 구간별 뎁스의 중앙값이 2 카피이고, 대상 시료의 구간별 뎁스값이 2 카피라면, 복제수 비율 값은 0이 된다.
본 발명의 일 구체예에 따르면, 상기 절편 크기 비율은 a) 단계에서 선별된 영역에 대하여 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출할 수 있다.
혈액을 순환하고 있는 cfDNA는 DNA의 절편 크기와 관련한 분자적 특징을 가지고 있다. 특히, cfDNA는 NGS 과정에서 DNA의 절편화 단계가 필요하지 않으므로, cfDNA의 시퀀싱 결과만 이용해도 DNA 절편 크기 분포를 확인할 수 있다. 또한, 절편 크기는 환자의 질환(예를 들어, 암) 또는 상태를 반영하여 그 길이가 짧아지는 현상이 보고되어 있어, 암 진단 예측 모델에 사용될 수 있다. 도 5는 정상인의 cfDNA와 대장암 환자의 cfDNA의 절편 크기 분포를 나타낸다. 도 5에서 보는 바와 같이, 대장암 환자의 cfDNA 절편의 크기는 정상인에 비하여 그 길이가 짧은 절편의 분포가 높음을 확인할 수 있다.
절편 크기 비율에 대한 데이터의 추출은 다음과 같이 할 수 있다. 예를 들어, 선별된 영역에 대하여 전체 절편이 30개이고, 각 영역에 매핑되는 절편 중 제1 절편의 개수가 10개, 제2 절편의 개수가 20개인 경우라면, 절편 크기 비율에 대한 데이터 값은 하기와 같은 계산으로 -1이 될 수 있다.
Figure PCTKR2022012252-appb-img-000002
한편, 상기 복제수 비율 및 절편 크기 비율에 대한 데이터 추출은 인간 게놈의 전체 영역을 분할(binning)하여 추출할 수 있다.
마지막으로, 본 발명의 방법은 d) 상기 c) 단계에서 추출된 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 수행하게 된다.
도 6은 상기 방법에 의해 추출된 데이터에 대해 기계학습으로 암 진단 예측 모델을 생성하는 과정을 나타낸 것이다. 정상인과 암 환자 시료를 훈련(training) 세트와 검증(validation) 세트로 분할하고, 최종 모델의 평가를 미리 검증하기 전에 예측하기 위해, 훈련 세트를 4배수 교차 검증(4-fold Cross-Validation)을 이용하여 기계학습 모델을 생성하였다. 각 특성(메틸화 패턴 비율(AMF, AMPF), 복제수 비율(CNR) 및 절편 크기 비율(Fragmentomics))에 대한 모델은 support vector machine, random forest, glmnet 과 같은 분류 모델(classification model)을 단독으로 사용하거나, 여러 모델을 앙상블(ensemble)하여 구축할 수 있다. 또한, 하나 이상의 특성을 사용하여 2가지 앙상블 모델을 제조할 수 있는데, 본 발명의 일 구체예에 따르면, 상기 암 진단 예측 모델은 암의 유무(IsCancer) 및/또는 암 유래 조직(Tissue-of-Origin)을 검출할 수 있다. 이때, IsCancer 앙상블 모델은 정상인 및 암 환자 시료 모두를 이용하여 제조할 수 있으며, Tissue-of-Origin 모델은 정상인을 제외한 암 환자 시료를 이용하여 제조할 수 있다. 또한, 검증 평가 시에는 IsCancer 모델에서 암으로 판정된 환자에 대해서만 Tissue-of-Origin 모델을 적용할 수 있으며, 훈련 세트와 독립적인 검증 세트를 이용하여 성능 평가를 할 수 있다.
본 발명의 다른 양상은 a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계; 및 b) 상기 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법을 제공한다.
본 발명에 따른 암 진단을 위한 정보를 제공하는 방법은 전술한 암 진단을 위한 다중 분석 예측 모델에 대상 환자 유래 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 판단하는 것으로, 분석 기준 및 검증 방법에 대해 전술하였는 바, 명세서의 과도한 복잡성을 방지하기 위해 설명을 생략한다.
이하 하나 이상의 구체예를 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 하나 이상의 구체예를 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1. 전장 유전체 메틸화 시퀀싱(whole genome methylation sequencing) 방법
대상 환자의 혈액으로부터 플라즈마(plasma)와 PBMC(Peripheral Blood Mononuclear Cell) 분리하고, cfDNA extraction kit(Promega 사, 미국)을 이용하여, 플라즈마로부터 cfDNA를 추출하였다. 추출된 cfDNA는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 1 ng 내지 20 ng의 퀄리티를 확인한 cfDNA를 대상으로, 전장 유전체 메틸화 시퀀싱을 위한 NGS DNA 라이브러리 준비 과정을 진행하였다. 상기 DNA 라이브러리는 End repair, Adaptor ligation, Methyl 영역의 oxidation, DNA denaturation, Cytosine의 Deamination, PCR amplification의 과정을 거쳐 준비하며, 위 라이브러리 제작 과정은 Enzymatic Methyl-seq Kit(New England Biolabs 사, 미국)를 사용하였다. 상기 준비된 DNA 라이브러리는 TapeStation System(Agilent 사, 미국)를 이용하여 퀄리티를 확인하였다. 이후, 생산된 DNA 라이브러리에 대하여 원하는 NGS 데이터 생산량에 따라 각각의 시료를 혼합(예를 들어, A 시료 100G, B 시료 100G, C 시료 50G의 데이터를 생산하기 위해서는 A:B:C = 2:2:1의 비율로 혼합)하고, NGS 데이터의 퀄리티를 위하여 적정량의 PhiX 대조군 라이브러리(Illumina 사, 미국)를 혼합하여 Illumina 사의 Novaseq 장치를 이용하여 NGS를 수행하였다.
실시예 2. 암 진단 예측 모델(IsCancer)을 이용한 암의 유무 예측 결과
3개의 암종 및 정상인의 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 IsCancer 모델을 이용하여 각 특성별로 암의 유무를 예측하였다. 하기 표 1은 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.
cfDNA 정상인 대장암(CRC) 간암(HCC) 유방암(BC)
훈련 세트 47 81 46 60
검증 세트(독립) 42 53 24 28
메틸화 패턴 비율(AMF, AMPF)(도 7의 (a) 및 (b)), 복제수 비율(CNR)(도 7의 (c)) 및 절편 크기 비율(FragRatio)(도 7의 (d))의 특성(feature)에 따라 3종의 암을 예측한 결과, 정상인의 시료와 비교할 때, 암과 비암이 명확하게 구별되었으며, 특이도는 AMF 97.1%, AMPF 95.2%, CNR 97.1%, FragRatio 98.1%이었으며, 민감도는 AMF 92.9%, AMPF 95.2%, CNR 90.5%, FragRatio 92.9%로 확인되어, 높은 특이도와 민감도로 암의 유무를 판별할 수 있음을 확인할 수 있었다.
또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암의 유무를 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 점수의 변동성이 안정화된 것을 확인하였으며, 민감도는 99.0%, 특이도는 97.6%로 향상됨을 확인할 수 있었다(도 8).
실시예 3. 암 진단 예측 모델(Tissue-of-Origin)을 암 유래 조직의 예측 결과
3종의 암 시료를 대상으로 나이 및 암 기수 정보를 고려하여 훈련 세트와 검증 세트로 나누고, 본 발명의 방법에 따라 제조된 Tissue-of-Origin 모델을 이용하여 각 특성별로 암 유래 조직을 예측하였다. 하기 표 2는 훈련 세트 및 독립 검증 세트의 개수를 나타낸다.
cfDNA 대장암(CRC) 간암(HCC) 유방암(BC)
훈련 세트 81 46 60
검증 세트(독립) 53 24 28
메틸화 패턴 비율(AMF, AMPF)(도 9의 (a) 및 (b)), 복제수 비율(CNR)(도 9의 (c)) 및 절편 크기 비율(FragRatio)(도 9의 (d))의 특성(feature)에 따라 3종의 암유래 조직을 예측한 결과, 높은 정확도로 암 유래 조직 예측이 가능함을 확인할 수 있었다.
또한, 상기 4가지 특성에 대하여 앙상블 모델을 제조하여 암 유래 조직을 예측한 결과, 각각의 특성에 따라 예측한 결과와 비교하여 암종별 정확도는 98.1%까지 향상되었으며, 전체 암을 대상으로 한 정확도도 95.2%까지 향상됨을 확인할 수 있었다(도 10).
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (9)

  1. a) 인간 레퍼런스 게놈의 CpG 부위 정보로부터 암 진단 예측에 필요한 영역을 선별하는 단계;
    b) 2 이상의 액체 생검 시료에서 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
    c) 상기 b) 단계에서 수득한 cfDNA의 전장 유전체 메틸화 시퀀싱 정보 중 상기 a) 단계에서 선별된 영역에 대하여 메틸화 패턴 비율 특성을 적용하고, 복제수 비율 및 절편 크기 비율로 이루어지는 군으로부터 선택되는 하나 이상의 특성을 추가로 적용하여 데이터를 추출하는 단계; 및
    d) 상기 c) 단계에서 추출된 하나 이상의 특성 데이터를 기계학습을 통해 암 진단 예측 모델을 생성하는 단계를 포함하는 암 진단을 위한 다중 분석 예측 모델의 제조 방법.
  2. 청구항 1에 있어서,
    상기 a) 단계는 하기 조건을 만족하는 경우 암 진단 예측에 필요한 영역으로 선별하는 것인 방법:
    1) 정상인에서 시퀀싱 뎁스가 3 이상인 CpG 부위일 것
    2) CpG 부위 사이의 거리가 100 bp 미만이고, 3개 이상의 CpG 부위를 포함하는 영역일 것
    3) 1 kb를 초과하는 영역은 분할할 것
    4) 성 염색체 영역을 제거할 것; 및
    5) 정상인에서 하위 10%를 제외한 90% 이상의 영역별 평균적인 시퀀싱 뎁스가 3을 초과하는 영역일 것.
  3. 청구항 1에 있어서,
    상기 액체 생검 시료는 정상인 또는 암 환자 유래의 혈액인 것인 방법.
  4. 청구항 1에 있어서,
    상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 전체 리드의 CpG 중에서 메틸화된 C의 개수의 비율을 산출하는 것인 방법.
  5. 청구항 1에 있어서,
    상기 메틸화 패턴 비율은 a) 단계에서 선별된 영역에 대하여 사전에 정의된 정상인의 메틸화 패턴과 반대되는 메틸화 CpG 비율을 산출하는 것인 방법.
  6. 청구항 1에 있어서,
    상기 복제수 비율은 전체 게놈을 구간화하여 구간별로 뎁스값을 계산하고, 정상인 cfDNA의 전장 유전체 메틸화 시퀀싱 정보로부터 구간별 뎁스의 중앙값을 레퍼런스값으로 하여, 대상 시료의 구간별 뎁스값을 상기 레퍼런스 값으로 나눈 후 로그값을 산출하는 것인 방법.
  7. 청구항 1에 있어서,
    상기 절편 크기 비율은 a) 단계에서 선별된 영역에 대하여 각 영역에 매핑되는 절편(fragment)을 100 bp 내지 150 bp의 제1 절편 및 150 bp 내지 220 bp의 제2 절편으로 분류하고, 상기 제1 절편 및 제2 절편의 개수를 로그비로 계산하여 산출하는 것인 방법.
  8. 청구항 1에 있어서,
    상기 암 진단 예측 모델은 암의 유무 및/또는 암 유래 조직을 검출하는 것인 방법.
  9. a) 대상 환자의 액체 생검 시료로부터 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 수득하는 단계;
    b) 청구항 1의 방법을 통해 제조된 암 진단을 위한 다중 분석 예측 모델에 상기 a) 단계의 cfDNA의 전장 유전체 메틸화 시퀀싱 정보를 적용하여 암의 유무 및/또는 암 유래 조직을 검출하는 단계를 포함하는 암 진단을 위한 정보를 제공하는 방법.
PCT/KR2022/012252 2022-03-29 2022-08-17 암 진단을 위한 다중 분석 예측 모델의 제조 방법 WO2023191197A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP22862405.2A EP4282984A1 (en) 2022-03-29 2022-08-17 Method for construction of multi-feature prediction model for cancer diagnosis
CN202280006342.7A CN117413071A (zh) 2022-03-29 2022-08-17 制备用于癌症诊断的多分析预测模型的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020220038857A KR102491322B1 (ko) 2022-03-29 2022-03-29 암 진단을 위한 다중 분석 예측 모델의 제조 방법
KR10-2022-0038857 2022-03-29

Publications (1)

Publication Number Publication Date
WO2023191197A1 true WO2023191197A1 (ko) 2023-10-05

Family

ID=85101466

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/012252 WO2023191197A1 (ko) 2022-03-29 2022-08-17 암 진단을 위한 다중 분석 예측 모델의 제조 방법

Country Status (4)

Country Link
EP (1) EP4282984A1 (ko)
KR (1) KR102491322B1 (ko)
CN (1) CN117413071A (ko)
WO (1) WO2023191197A1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170125044A (ko) * 2015-02-10 2017-11-13 더 차이니즈 유니버시티 오브 홍콩 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection
KR20200032127A (ko) * 2017-07-12 2020-03-25 유니버시티 헬스 네트워크 메틸롬 분석을 이용한 암 검출 및 분류

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200143462A (ko) * 2018-04-13 2020-12-23 프리놈 홀딩스, 인크. 생물학적 샘플의 다중 분석물 검정을 위한 기계 학습 구현
WO2021016441A1 (en) * 2019-07-23 2021-01-28 Grail, Inc. Systems and methods for determining tumor fraction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170125044A (ko) * 2015-02-10 2017-11-13 더 차이니즈 유니버시티 오브 홍콩 암 스크리닝 및 태아 분석을 위한 돌연변이 검출법
KR20200032127A (ko) * 2017-07-12 2020-03-25 유니버시티 헬스 네트워크 메틸롬 분석을 이용한 암 검출 및 분류
US20190316209A1 (en) * 2018-04-13 2019-10-17 Grail, Inc. Multi-Assay Prediction Model for Cancer Detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MA XIAOJI, CHEN YIKUAN, TANG WANXIANGFU, BAO HUA, MO SHAOBO, LIU RUI, WU SHUYU, BAO HAIRONG, LI YAQI, ZHANG LONG, WU XUE, CAI SANJ: "Multi-dimensional fragmentomic assay for ultrasensitive early detection of colorectal advanced adenoma and adenocarcinoma", JOURNAL OF HEMATOLOGY & ONCOLOGY, vol. 14, no. 1, 1 December 2021 (2021-12-01), XP093094337, DOI: 10.1186/s13045-021-01189-w *
METZKER, M, NATURE BIOTECHNOLOGY REVIEWS, vol. 11, 2010, pages 31 - 46
ZHANG, X. ET AL.: "Ultrasensitive and affordable assay for early detection of primary liver cancer using plasma cell-free DNA fragmentomics", HEPATOLOGY, vol. 76, 25 December 2021 (2021-12-25), pages 317 - 329 *

Also Published As

Publication number Publication date
EP4282984A1 (en) 2023-11-29
KR102491322B1 (ko) 2023-01-27
CN117413071A (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN108138233B (zh) Dna混合物中组织的单倍型的甲基化模式分析
US20190136330A1 (en) Method for screening cancer
ES2959360T3 (es) Mejora del cribado del cáncer mediante ácidos nucleicos víricos acelulares
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
JP6606554B2 (ja) Y染色体のメチル化部位を前立腺ガンの診断用マーカとする使用
CN111863250B (zh) 一种早期乳腺癌的联合诊断模型及系统
WO2022161076A1 (zh) 用于肺结节良恶性检测的甲基化标记物或其组合及应用
WO2020020072A1 (zh) 基于甲基化修饰的肿瘤标记物stamp-ep2
WO2020135862A1 (zh) 基于甲基化修饰的肿瘤标记物stamp-ep5
JP2023527868A (ja) 遺伝子マーカー組成物及びその使用
CN115341031A (zh) 一种泛癌甲基化生物标志物的筛选方法、生物标志物及应用
CN110951872A (zh) 一种基于核酸质谱技术检测结直肠癌基因dna甲基化水平的方法及其应用
WO2020221315A1 (zh) 基于甲基化修饰的肿瘤标记物stamp-ep8及其应用
WO2023191197A1 (ko) 암 진단을 위한 다중 분석 예측 모델의 제조 방법
WO2023191262A1 (ko) 환자 맞춤형 패널을 이용한 암의 재발을 예측하는 방법
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
CN115851923A (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
WO2020235827A1 (ko) 면역 항암 요법의 치료 반응에 관한 정보 제공 방법 및 이를 이용한 키트
JP2024501576A (ja) 腫瘍マーカー及びその使用
CN111154871A (zh) 一种基于核酸质谱技术检测结直肠癌相关基因突变的方法
WO2024091052A1 (ko) 질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 바이오마커의 발굴 방법
WO2023171859A1 (ko) 체세포 변이 및 생식세포 변이를 구별하는 방법
WO2024091028A1 (ko) Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법
WO2021054713A1 (ko) Dna 메틸화 변이를 이용한 면역항암치료 반응성 예측방법
WO2024029988A1 (ko) 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 202280006342.7

Country of ref document: CN

ENP Entry into the national phase

Ref document number: 2022862405

Country of ref document: EP

Effective date: 20230310

WWE Wipo information: entry into national phase

Ref document number: 18027792

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22862405

Country of ref document: EP

Kind code of ref document: A1