WO2024091028A1 - Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법 - Google Patents

Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법 Download PDF

Info

Publication number
WO2024091028A1
WO2024091028A1 PCT/KR2023/016767 KR2023016767W WO2024091028A1 WO 2024091028 A1 WO2024091028 A1 WO 2024091028A1 KR 2023016767 W KR2023016767 W KR 2023016767W WO 2024091028 A1 WO2024091028 A1 WO 2024091028A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
target
cfdna
dna
derived
Prior art date
Application number
PCT/KR2023/016767
Other languages
English (en)
French (fr)
Inventor
김병철
김여진
전성원
전하현
엄효진
박종화
Original Assignee
주식회사 클리노믹스
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020230073754A external-priority patent/KR20240063745A/ko
Application filed by 주식회사 클리노믹스, 울산과학기술원 filed Critical 주식회사 클리노믹스
Publication of WO2024091028A1 publication Critical patent/WO2024091028A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Definitions

  • the present invention relates to a system and method for more effectively diagnosing and predicting diseases and managing health status by utilizing the epigenome and mutation information of cell-free DNA fragments in body fluids and cfDNA fragment profiling.
  • cfDNA Various biomolecules
  • CTC CTC
  • exosome a representative example is cell-free DNA
  • cfDNA refers to a piece of DNA that does not exist only within the cell, but comes out of the cell due to various causes such as apoptosis, and floats around in body fluids.
  • cfDNA can reflect the state of our entire body and serve as a surrogate marker to determine health status, diagnose various diseases, and estimate and monitor prognosis.
  • DNA methylation has a specific methylation pattern for each tissue and cell in the body in order to function properly. And these adjustments are constantly changed by the external environment throughout one's life and are passed on to the next generation.
  • Epigenetics is the study of genetic phenomena that affect the function of genes without changes in the gene sequence itself.
  • cfDNA In healthy people, cfDNA is generally composed mostly of cfDNA derived from blood cells, but when a specific tissue or cell dies (apoptosis) or necrosis (necrosis) due to various causes, the DNA contained in the tissue or cell Because it is released into the blood, the composition ratio of cfDNA in the blood changes in the direction of increasing cfDNA derived from specific tissues or cells. These changes can be confirmed using DNA methylation characteristics that have specific patterns for each tissue, and the study can be performed through component analysis called cfDNA deconvolution. Tissue of origin (TOO) analysis has been actively conducted recently.
  • TOO Tissue of origin
  • cfDNA cell-free DNA
  • ctDNA circulating tumor DNA
  • cfDNA fragment profiles such as cfDNA length and terminal motifs, show unique patterns in cancer.
  • the length profile of cfDNA shows a major peak at approximately 166 base pairs (bp), which is related to the nucleosomal structure, whereas the length of cfDNA with tumor-derived features is shorter than that of healthy individuals and in greater abundance.
  • the 5' end of cfDNA contains information about the original organization depending on the type of cutting enzyme. Since these characteristics of cfDNA vary depending on the tissue and cell type from which it is derived, it has the potential for various clinical applications.
  • cfDNA contains various characteristics such as topology, methylation status, nucleosome structure, and DNA mutation information, and many parameters that can be measured to quantify the characteristics of cfDNA fragments are known.
  • CNV Gene copy-number variation
  • SCNA somatic copy-number alteration
  • cfDNA contains a variety of information about biological conditions, and there is a need for prediction models and methods that can utilize this to effectively diagnose diseases and provide information about health conditions.
  • the inventor of the present invention studied new prediction models and methods that can provide information on health conditions and diseases by applying various characteristics of cfDNA fragments, established a new analysis method of cfDNA methylation information, and targeted Provides a cfDNA quantification method, identifies new devices, systems, and methods for providing information on health/disease management and cancer diagnosis manufactured through machine learning techniques by using data extracted from cfDNA fragments alone or in ensembles, and completes the present invention. did.
  • the inventor of the present invention quantifies the cfDNA methylation information as DNA methylation density (DMD) and uses this to define ctCandi (circulating-target DNA Candidate index) that can quantify cfDNA from the target target. and established a new model.
  • DMD DNA methylation density
  • ctCandi circulating-target DNA Candidate index
  • the inventor of the present invention defined a tumor originated fragment (TOF) scoring method using data extracted from the cfDNA fragment and established a new cancer diagnosis device and method.
  • TOF tumor originated fragment
  • the present invention includes the steps of 1) aligning sequence DNA consisting of cfDNA derived from a biological sample based on a target-specific CpG marker site; 2) Based on the target-specific CpG marker site, the adjacent surrounding region is defined as the target-specific region, and the methylation density (DNA Methylation Density (DMD)) of the DNA present in the target-specific region among the aligned DNA is derived.
  • DMD DNA Methylation Density
  • DNA methylation density (DMD) defined in the present invention refers to not only a single CpG site, but also the methylation density of reads and fragments, and the methylation density of DNA. It is a method of quantifying the degree of methylation of each DNA, which is calculated by dividing the number of methylated CpGs for part or the entire region within a DNA molecule by the total number of CpGs.
  • the degree of methylation for deriving the DNA methylation density (DMD) may be measured using one type of methylation measurement method selected from the group consisting of next-generation sequencing, long-sequencing, panel, chip, and PCR.
  • the present invention includes the following steps: 1) receiving sequence DNA information consisting of cfDNA from a sample requiring analysis, biometric information of the sample donor, and information on a CpG marker site estimated to be a target-specific CpG marker; 2) The input sequence DNA information is aligned based on the CpG marker site information, the adjacent surrounding region is defined as the target-specific region based on the CpG marker site, and the sequence DNA portion present in the target-specific region is defined.
  • DMD DNA Methylation density
  • the present invention includes an input unit that receives sequence DNA information consisting of cfDNA from a sample requiring analysis, biometric information of the sample donor, and information on a CpG marker site estimated to be a target-specific CpG marker; Based on the CpG marker site, the adjacent surrounding region is defined as the target-specific region, the input sequence DNA information is aligned, and the methylation density (DNA Methylation density, DMD) of the sequence DNA present in the target-specific region is determined.
  • sequence DNA information consisting of cfDNA from a sample requiring analysis, biometric information of the sample donor, and information on a CpG marker site estimated to be a target-specific CpG marker
  • the adjacent surrounding region is defined as the target-specific region
  • the input sequence DNA information is aligned, and the methylation density (DNA Methylation density, DMD) of the sequence DNA present in the target-specific region is determined.
  • DMD DNA Methylation density
  • Calculate normalize by defining the number of DNA whose calculated DMD value exceeds the threshold value among the sequence DNA present in the target-specific region as the number of ctDNA candidates, and calculate the average of the normalized number of ctDNA candidates to determine ctCandi (circulating-target) DNA Candidate index), and calculates the probability value of the health status of the sample provider using machine learning learned by inputting the biometric information and ctCandi information of the sample provider.
  • the learned machine learning is based on the biometric information of the sample provider.
  • a processor that inputs the derived ctCandi information and outputs a probability value for the health state, and identifies the health state of the sample donor based on the calculated probability value; and an output unit that outputs the identified health status results.
  • Provides a device for identifying health conditions including.
  • the present invention provides 1) sequence DNA information consisting of cfDNA derived from a sample requiring diagnosis, biometric information of the sample donor, and information on the CpG marker site estimated to be a target-specific CpG marker, and calculating the result according to a method of identifying the health condition.
  • a step of receiving data as a probability value for the health status of the sample donor 2) receiving data on the correlation between the scoring value derived from the target-derived fragment scoring model using cfDNA fragment characteristics and disease diagnosis information; 3) normalizing or normalizing the data to derive a tumor originated fragment (TOF) score value; and 4) identifying the presence or stage of cancer in the sample requiring diagnosis using the TOF score value;
  • a method for diagnosing cancer including.
  • the present invention provides a sample calculated according to a method for identifying the above-mentioned health status by receiving sequence read information consisting of cfDNA from a sample requiring diagnosis, biometric information of the sample donor, and information on the CpG marker site estimated to be a target-specific CpG marker.
  • a cancer diagnosis device including a.
  • the methylation density (DNA Methylation Density; DMD) of the DNA is calculated and the ctCandi (circulating-target DNA Candidate index) is obtained to determine the target tissue or cell origin.
  • DMD DNA Methylation Density
  • ctCandi circulating-target DNA Candidate index
  • Figure 1 is a schematic diagram of the tumor originated fragment (TOF) scoring model of the present invention.
  • Figure 1a shows the concept of TOF score, and information about cancer can be provided by comparing a predetermined TOF score value with the TOF score of a sample.
  • Figure 1b is a diagram showing a method of constructing a TOF scoring model.
  • Figure 2 is a schematic diagram of the circulating-target DNA candidate index (ctCandi) used for lung cancer prediction.
  • Figure 2a explains the concept of DNA methylation density (DMD) and ctCandi of sequence DNA sites present in the target-specific region, and a method of identifying health status using ctCandi.
  • DMD DNA methylation density
  • Figure 2b shows a heatmap of the number of circulating-target DNA candidates, with the color at the top indicating the sample type (from left to right, control, stage I, stage II, stage III, stage IV of NSCLC).
  • Figure 2c is a box plot showing ctCandi of test samples according to normal or cancer stage.
  • Figure 2d is a diagram showing the results of in silico simulation based on the number of cfDNA candidates using an independent verification model.
  • Figure 3a is a schematic diagram of a machine learning model using methylation characteristics of cfDNA.
  • Figure 3b is a schematic diagram of a machine learning model using end-motif features of cfDNA.
  • Figure 3c is a schematic diagram of a machine learning model using the fragment size characteristics of cfDNA.
  • Figure 4 is a diagram showing cancer diagnosis results using the prediction and diagnosis machine learning model of the present invention.
  • Figures 4a and 4b show cancer diagnosis results of a lung cancer diagnosis machine learning model based on the number of ctDNA candidates in the test set.
  • Figures 4c and 4d show the cancer diagnosis results of the terminal-motif based machine learning model on the test set.
  • Figures 4e and 4f show the diagnostic results of the SFR-based machine learning model on the test set.
  • Figure 5 is a diagram showing TOF score-based cancer diagnosis results derived from an ensemble learning model using logistic regression, a type of machine learning algorithm, for the number of ctDNA candidates, terminal motifs, and SFR characteristics.
  • Figure 5a is a diagram showing TOF-score based cancer prediction results in the test set.
  • Figure 5b is a diagram showing the classification effect using the TOF scoring model in a test sample with a mixture of N and M stages according to T stage.
  • Figure 5c is a result showing that the TOF scoring model shows excellent classification effect even in the non-small cell lung cancer data set.
  • Figure 6 shows results showing that TOF scoring can be used to effectively classify normal controls, NSCLC subtypes adenocarcinoma (ADC), and squamous cell carcinoma (SQC).
  • ADC adenocarcinoma
  • SQC squamous cell carcinoma
  • Figure 7 shows an example of TOF score-based risk measurement criteria.
  • information on the disease risk of the target sample can be provided by comparing the TOF score of the target sample with a preset TOF score standard value.
  • Figure 8 is a schematic diagram of a cancer diagnosis and prediction method using the TOF score of the present invention.
  • the present invention relates to a method for quantifying target-derived cfDNA, a method for identifying health conditions using cfDNA, and a method and device for predicting and diagnosing cancer.
  • the present invention provides a new method for quantifying target-derived cfDNA using a method for deriving DNA methylation density (DMD), a method for quantifying target-derived cfDNA in a sample to be detected using a newly derived ctCandi (circulating-target DNA Candidate index), and various methods.
  • DMD DNA methylation density
  • ctCandi circulating-target DNA Candidate index
  • the present invention provides a tumor originated fragment (TOF) scoring method that includes learning and scoring various cfDNA fragment information together, and provides a cancer diagnosis method and device using the scoring method.
  • TOF tumor originated fragment
  • the present invention includes the steps of 1) aligning sequence DNA consisting of cfDNA derived from a biological sample based on a target-specific CpG marker site; 2) Based on the target-specific CpG marker site, the adjacent surrounding region is defined as the target-specific marker region, and the methylation density (DNA Methylation Density; DMD) of the DNA present in the target-specific region among the aligned DNA is derived.
  • DMD DNA Methylation Density
  • step 3 defining DNA whose DMD value derived in step 2) exceeds the threshold among the DNA present in the target-specific region as a ctDNA (circulating-target DNA) candidate and normalizing it by counting the number of ctDNA candidates; and 4) deriving the average of the normalized number of ctDNA candidates derived from each target-specific region as ctCandi (circulating-target DNA Candidate index); It relates to a method for quantifying target-derived cfDNA, including.
  • quantified information can be provided by quantifying the degree of methylation of cfDNA molecules in a sample. Since methylation of cfDNA has a unique pattern for each tissue and cell, this information can be used to obtain information about the target tissue or cell for which the status is to be identified.
  • methylation refers to the attachment of a methyl group to a base constituting cfDNA, and may refer to the presence or degree of methylation that occurs at the cytosine of the CpG site on DNA.
  • DNA methylation is an epigenetic modification that plays a central role in regulating gene expression.
  • a methyl group (-CH3) is attached to carbon 5 of cytosine, transforming it into 5-methylcytosine.
  • DNA methylation mainly occurs at the cytosine of the CpG dinucleotide, and the DNA region where CpG is concentrated is called a CpG island. This structure is concentrated at the promoter site corresponding to the switch of the gene, so it is studied as a major function in regulating gene expression. It is becoming.
  • the present invention provides a method for quantifying cfDNA derived from a target tissue or cell using the methylation pattern of cfDNA derived from a specific tissue or cell present in a liquid sample, and predicts health status using this. Provides methods for application to disease prediction and disease state prediction.
  • cytosine is methylated overall in the DNA of normal cells, but the functional promoter region is hardly methylated. Meanwhile, it is known that as cancer progresses, methylation occurs intensively in the promoter region (promoter hypermethylation) and methylation decreases throughout the DNA (global hypomethylation). In particular, it is known that hypermethylation of the promoter causes cancer by turning off the switch on tumor suppressor genes, and hypomethylation of the entire DNA increases the instability of the DNA structure, causing cancer. However, methylation patterns vary depending on the type of cancer and the stage of cancer progression.
  • DNA methylation in cancer cells has been reported to occur early in cancer development, and is known to be a useful target for cancer diagnosis, especially early diagnosis.
  • methylation of tumor suppressor genes involved in each type of cancer is being studied as an important factor in the progression of cancer.
  • DNA methylation is being widely studied to observe the prognosis of disease treatment, drug responsiveness, and recurrence.
  • tissue specific methylation tissue specific methylation
  • the degree of methylation of cfDNA in body fluids is measured to determine the source tissue from which cfDNA was released into body fluids.
  • technologies for finding cells tissue of origin, TOO
  • health care technologies including disease diagnosis are being actively developed.
  • Many studies have reported that the correlation between tissue DNA and body fluid cfDNA is statistically significant.
  • a CpG region where the DNA methylation status specific to a tissue or cell type is known or can be derived is defined as a “target-specific CpG marker site,” and among these, a CpG region that can reflect a disease state is defined.
  • CpG marker sites showing disease-specific methylation differences were defined as “disease-specific CpG marker sites.”
  • the target-specific CpG marker site and disease-specific CpG marker site may exist one or adjacent to each other, and a region containing one or several CpG marker sites is defined as a “target-specific region.” Therefore, the target-specific region of the present invention may consist of one CpG site or several adjacent CpG sites, and is not limited to a specific range.
  • a target-specific CpG marker site is a site that can be used as a marker that can provide information about a specific tissue or cell, disease, or health condition. If the target-specific CpG marker site contains information about the tissue or cell type from which it was derived, cfDNA methylation quantification can provide information about the tissue or cell from which it was derived and contains disease-specific information. It can provide information about the health status of the sample, that is, disease.
  • the target-specific CpG marker site may be information obtained from conventionally known databases and literature, and may be obtained by the following method.
  • the public database may use the TCGA (The Cancer Genome Atlas) database, ENCODE (Encyclopedia Of DNA Elements), or GEO (Gene Expression Omnibus) database, but is not limited to a specific DB and is a database of the epigenome region. Data from previously reported papers and public databases can be used without restrictions as long as they contain methylation information.
  • TCGA The Cancer Genome Atlas
  • ENCODE Encyclopedia Of DNA Elements
  • GEO Gene Expression Omnibus
  • the present invention includes the step of aligning sequence DNA and reads made of cfDNA from a biological sample to be tested to the known or derived target-specific CpG marker site.
  • reads refers to nucleic acid fragment information extracted by analyzing sequence information using various methods known in the art. Extraction of cfDNA may be performed according to methods known in the art, and is not limited to a specific technique, and in one embodiment of the present invention, QIAamp Circulating Nucleic Acid Kit (QIAGEN, 55114) or alle MiniMaxTMHigh Efficiency Isolation Kit ( Extraction was performed using Beckman Coulter Life Sciences, C40603) according to the manufacturer's protocol.
  • cfDNA methylation information technologies that can measure the degree of methylation, such as next-generation sequencing, long-sequencing, panel, chip, and PCR, can be used. It is not limited to a specific technology, but is a measurement method that can derive DNA methylation information. can be used without restrictions.
  • the present invention defines the adjacent surrounding region as the target-specific region based on the target-specific CpG marker site, and derives the methylation density (DNA Methylation Density (DMD)) of the DNA present in the target-specific region among the aligned DNA. Includes steps.
  • DMD DNA Methylation Density
  • the target-specific region may be a region preset based on the target-specific CpG marker site, and its length can be set appropriately depending on the purpose.
  • the region containing 100 bp upstream and 100 bp downstream of the target-specific CpG marker site was defined as the target-specific region and used to calculate the DNA methylation density, but is not limited to this.
  • the adjacent surrounding DNA region is defined as the target-specific region, and the methylation density (DNA Methylation density, DMD) of the DNA present in the target-specific region among the aligned DNA can be derived.
  • DMD DNA Methylation density
  • DNA methylation density (DMD) defined in the present invention includes not only a single CpG site, but also the methylation density of reads and fragments, and the methylation density of DNA, and the methylation density of a single DNA molecule. It refers to a method of quantifying the degree of methylation of each DNA, which is calculated by dividing the number of methylated CpGs for some or all regions within the DNA by the total number of CpGs. Methods for measuring the DMD value may include, but are not limited to, next-generation sequencing, long-sequencing, panel, chip, and PCR, which are technologies that can measure the degree of methylation. Therefore, DNA methylation density (DMD) can be the number of methylated CpGs for part or the entire region present in one DNA molecule divided by the total number of CpGs.
  • DMD when all CpGs included in a DNA fragment are methylated, DMD is defined as having a value of 1, and when all CpGs are unmethylated, it is defined as having a value of 0.
  • targeting DNA that is all methylated by PCR is the same as quantifying DNA with a DMD of 1, and targeting DNA that is not all methylated is the same as quantifying DNA with a DMD of 0.
  • Step 3) of the present invention defines DNA whose DMD value exceeds the threshold value derived in step 2) among the DNA present in the target-specific region as a ctDNA (circulating-target DNA) candidate and counts the number to normalize. steps; am.
  • circulating-target DNA is defined as cfDNA released from a target tissue or cell among cfDNA present in body fluids into a liquid sample such as blood, and the target tissue or cell includes blood cells, It refers to cells or groups of cells containing nucleic acids that make up the body, such as cancer cells, diseased tissues, and normal tissues, and is not limited to specific tissues or cells.
  • ctDNA may refer to cfDNA released from target tissues or cells among cfDNA present in body fluids.
  • DNA whose DMD value exceeds the threshold can be a ctDNA candidate.
  • the normalization can be performed by normalizing the number of ctDNA candidates on each target-specific region using counts per million mapped reads (CPM).
  • the threshold value of the DMD may be a preset value and may be appropriately set according to the desired diagnosis, identification, or detection.
  • a method of deriving the number of ctDNA candidates by setting the DMD threshold value to 0.6 is shown in Figure 2a.
  • the present invention includes the step of deriving the average of the normalized number of ctDNA candidates derived from each target-specific region as ctCandi (circulating-target DNA candidate index).
  • the ctCandi is a concept first proposed by the inventor of the present invention and is a scoring value of the methylation information of part or the entire region present in each DNA molecule, and can be expressed by quantifying the amount of target tissue or cell-derived DNA fragment for each individual. .
  • the normalized number of ctDNA candidates present in each of 6243 CpG marker sites was derived and the average of these was calculated to derive ctCandi.
  • the present invention may further include the step of 5) performing cfDNA deconvolution on the ctCandi (circulating-target DNA candidate index) value.
  • the predicted and classified object includes not only the presence or absence of disease, such as normal tissue, normal cell, diseased tissue, and diseased cell, but also classifies cfDNA derived from the target tissue or cell according to the initially set target marker set, without limitation.
  • the target-derived cfDNA quantification method of the present invention can be used to diagnose the health status of a biological sample to be detected, the presence or absence of various diseases, such as cancer, or predict the extent of the disease.
  • the biological sample subject to detection in the present invention may be a liquid biopsy sample, and may be one type selected from the group consisting of blood, serum, plasma, saliva, tears, urine, feces, vaginal fluid, digestive fluid, cerebrospinal fluid, and nasal discharge derived from a normal person or patient. It may include all liquifiable substances derived from the body, including more than one, and may preferably be blood, plasma, digestive juices, urine or feces.
  • the present invention provides a method for identifying health conditions using cfDNA as follows:
  • DMD DNA methylation density
  • the health status may mean the presence or absence of a disease in the sample, the degree of disease progression, or, for example, if the disease is cancer, the stage of the cancer.
  • biometric information may include information such as the sample donor's gender, age, and disease state.
  • the target may mean a tissue or cell.
  • a CpG marker site estimated to be a cancer cell-specific CpG marker is used in the method of the present invention, health status related to cancer can be identified.
  • methylation information obtained from cfDNA from a sample measured using technologies widely available in the field such as next-generation sequencing, long-sequencing, panel, chip, and PCR can be input as sequence DNA information.
  • the type of information derived by measuring the degree of methylation is not limited.
  • the input cfDNA methylation information may be information obtained using information from known DB literature or using separate clinical samples.
  • cfDNA from clinical samples obtained from clinical studies with known information about tumors and cfDNA from normal control samples obtained from the Korea Genome Project (KGP) are subjected to next-generation sequencing, such as EM-seq (enzymatic Information on the cfDNA of each sample was generated through methyl-sequencing.
  • next-generation sequencing such as EM-seq (enzymatic Information on the cfDNA of each sample was generated through methyl-sequencing.
  • the method of the present invention can be performed using information on CpG marker sites that have methylation information for the target tissue or cell.
  • the CpG marker site estimated to be the target-specific CpG marker site is a site that can be used as a marker that can provide information about the target.
  • Information on CpG marker sites that have information value for target tissues or cells can be obtained by using information from known databases and literature, or by using information obtained through a learning process using separate clinical samples.
  • the probability value for the health status of the sample donor can be calculated using the derived ctCandi information.
  • health status may mean the probability of a diagnosis of a disease or the degree of disease progression (e.g., cancer stage).
  • the probability value for the health state is 5) calculating the probability value for the health state of the sample provider using machine learning learned by inputting the biometric information and ctCandi information of the sample provider; and 6) identifying the health status of the sample donor based on the calculated probability value; It includes, and the learned machine learning can be output through a method of outputting a probability value for health status by inputting biometric information of the sample provider and derived ctCandi information.
  • the probability value is calculated using learned machine learning, and the learned machine learning is learned using information about health status, for example, existing data on normal or disease groups as learning data. You can.
  • the sample donor's biometric information and ctCandi information input to the machine learning learned in this way a probability value for the sample donor's health status can be calculated.
  • the biometric information of the sample provider can be used as test data.
  • the machine learning algorithm includes Naive Bayes, KNN (K Nearest Neighbors), random forest, logistic regression analysis, support vector machine, decision tree, association rule mining, artificial neural network, linear regression, and circulation. It may be at least one of neural network and deep learning.
  • the probability of the ctCandi score, health status, disease diagnosis, or disease progression can be calculated. For example, using a plurality of sample information, the probability of the ctCandi score, health status, disease diagnosis, or disease progression is derived, the ctCandi value of the sample requiring analysis is derived, and this is included in the probability and added to the sample's ctCandi. Probabilities for health status, disease diagnosis, or disease progression (e.g., cancer stage) can be calculated.
  • the present invention also provides a device capable of implementing the above health status identification method.
  • the device for identifying the health status includes an input unit that receives sequence DNA information consisting of cfDNA from a sample requiring analysis, biometric information of the sample donor, and information on a CpG marker site estimated to be a target-specific CpG marker; Based on the CpG marker site, the adjacent surrounding region is defined as the target-specific region, the input sequence DNA information is aligned, and the methylation density (DNA Methylation density, DMD) of the sequence DNA present in the target-specific region is determined.
  • sequence DNA information consisting of cfDNA from a sample requiring analysis, biometric information of the sample donor, and information on a CpG marker site estimated to be a target-specific CpG marker
  • the adjacent surrounding region is defined as the target-specific region
  • the input sequence DNA information is aligned, and the methylation density (DNA Methylation density, DMD) of the sequence DNA present in the target-specific region is determined.
  • DMD DNA Methylation density
  • a processor that inputs the derived ctCandi information and outputs a probability value for the health state, and identifies the health state of the sample donor based on the calculated probability value; and an output unit that outputs the identified health status results. It may be a device that identifies health conditions including.
  • Sequence DNA information consisting of cfDNA derived from a sample requiring analysis, biometric information of the sample donor, and information on CpG marker sites estimated to be target-specific CpG markers input through the input unit of the device of the present invention are processed through a processor.
  • the processor derives ctCandi information of the cfDNA from the sample requiring analysis, and the ctCandi information derived in this way provides information about the health status of the sample requiring analysis, such as information about the presence or absence of disease or the degree of disease progression through the output unit. can be provided.
  • a sample requiring analysis with a ctCandi value below a predetermined reference value is determined to be a normal sample, or a sample requiring analysis with a ctCandi value exceeding a predetermined reference value is judged to be out of the normal range of health. Or, it can be identified or classified as a sample with a high possibility of being diagnosed or predicted as a disease.
  • the identified health status result may be information on the health status of the target tissue, diagnosis of the presence or absence of a disease, or information on the degree of disease progression, and may be information on the presence or absence of cancer or the stage of cancer.
  • the present invention provides a cancer diagnosis method and cancer diagnosis device using a tumor originated fragment (TOF) scoring method that utilizes various information of cfDNA fragments by crossing and combining them as a method to complement the cfDNA methylation information.
  • TOF tumor originated fragment
  • methods for diagnosing said cancer include:
  • the health of the sample donor calculated by a method of identifying the above-mentioned health status by receiving sequence DNA information consisting of cfDNA from a sample requiring diagnosis, biometric information of the sample donor, and information on the CpG marker site estimated as a target-specific CpG marker.
  • a step of receiving a probability value for a state as data 2) receiving data on the correlation between the scoring value derived from the target-derived fragment scoring model using cfDNA fragment characteristics and disease diagnosis information; 3) normalizing or normalizing the data to derive a tumor originated fragment (TOF) score value; and 4) identifying the presence or stage of cancer in the sample requiring diagnosis using the TOF score value;
  • Method for diagnosing cancer including.
  • the target-derived fragment scoring model using the cfDNA fragment characteristics may include, without limitation, a scoring model including information derived using cfDNA fragment characteristics known in the art and information on cancer as input values.
  • the target-derived fragment scoring model using the cfDNA fragment characteristics standardizes the frequency of the four nucleotide sequence motifs at the 5' end of the cfDNA read, and uses the derived standardized value and information on cancer diagnosis through a machine learning algorithm.
  • a scoring model using terminal motif characteristics that is trained through and generates the standardized values as input data SFR characteristics are created by standardizing the SFR (short fragment ratio) value of the cfDNA fragment, learning the derived standardized value and information about cancer diagnosis through a machine learning algorithm, and generating the standardized value as input data. Scoring model used; Jagged end length, preferred end coordinates, oriented end density, motif diversity score, window protection score, cfDNA integrity, or nucleosomal footprinting are scored and normalized, and the derived values and information on cancer diagnosis are learned through a machine learning algorithm. It may be one or more of the scoring models using cfDNA fragment characteristics that generate the derived value as input data.
  • the method of diagnosing cancer using the TOF score value of the present invention is characterized by integrating all input data generated from a plurality of models to derive a single result value, the TOF score.
  • the TOF score value used for cancer diagnosis in the present invention may be a value obtained through machine learning algorithm learning using the data information input in steps 1) and 2) above, and each individual input value is normalized. Alternatively, it may be a value obtained through information obtained through standardization and machine learning. At this time, the machine learning algorithm may be an ensemble learning model.
  • a schematic diagram of the TOF score is shown in Figure 8. Input data from a plurality of models can be processed by applying predetermined weights, and through this, a TOF score including the relationship between a plurality of cfDNA fragment information and cancer information can be derived.
  • information obtained through a learning process using separate clinical samples can be utilized.
  • cfDNA from clinical samples with known information about the tumor and cfDNA from normal control samples obtained from the Korea Genome Project (KGP) are subjected to next-generation sequencing, such as EM-seq (enzymatic methyl-sequencin).
  • EM-seq enzyme methyl-sequencin
  • the normalization and standardization may use data normalization and standardization methods known in the art without limitation, but may be one or more types selected from the group consisting of Min-Max scaling, MaxAbs scaling, Standard scaling, and Robust scaling.
  • the scoring model using the terminal motif characteristics is based on the fact that there can be 256 combinations of 1 to 20 nucleotide sequence motifs at the 5' end of cfDNA, and that the combination patterns of terminal motifs in healthy people and disease patients show differences. It is a model that scores the 5' end motif ratio based on The standardized value of the frequency of 1 to 20 nucleotide sequence motifs at the 5' end of multiple cfDNA reads and information on the presence or absence of cancer or the degree of cancer progression are learned, and through this, the relationship between a specific value (score) and cancer diagnosis information is learned. can be derived.
  • the scoring model using the short fragment ratio (SFR) characteristic of the cfDNA fragment is based on the fact that the cfDNA length profile usually shows a major peak at about 166bp, while the cfDNA length of disease patients has a shorter length value compared to healthy controls. It is a scoring model.
  • the SFR score is defined as the number of short fragments divided by the number of long fragments. Short fragments are defined as 100 bp or more but 150 bp or less, and long fragments are defined as 151 bp or more but shorter than 220 bp.
  • the standardized value of the SFR score of multiple samples and information on the presence or absence of cancer or the degree of cancer progression are learned, and through this, the relationship between a specific value (score) and cancer diagnosis information can be derived.
  • the scoring model using the cfDNA fragment characteristics is based on the fact that characteristics such as topology, nucleosome structure, and DNA mutation information of cfDNA fragments and their sets show pattern differences between healthy and diseased people. It is a scoring model that represents each characteristic.
  • the standardized value of the cfDNA fragment characteristic score of multiple samples and information on the presence or absence of cancer or the degree of cancer progression are learned, and through this, the relationship between a specific value (score) and cancer information can be derived.
  • the present invention provides a cancer diagnosis device that implements the method for diagnosing cancer.
  • the cancer diagnosis device of the present invention receives sequence read information consisting of cfDNA from a sample requiring diagnosis, biometric information of the sample donor, and information on the CpG marker site estimated to be a target-specific CpG marker, and is described in the method for identifying the health condition above.
  • Probability value data on the health status of the sample donor calculated by the method and an input unit that receives data on the correlation between the scoring value derived from the target-derived fragment scoring model using cfDNA fragment characteristics and the disease diagnosis information;
  • a processor that normalizes or normalizes the input data to derive a tumor originated fragment (TOF) score value and identifies the presence or stage of cancer in the sample requiring diagnosis using the TOF score value;
  • it may include an output unit that outputs a result regarding the presence or stage of the identified cancer.
  • TOF tumor originated fragment
  • Tissue samples derived from lung cancer patients diagnosed with cancer by an oncologist were collected using the IRB protocol approved by the Southeast Regional Institute of Atomic Energy Medicine (DIRAMS) (IRB no. D-2012-014-002) was collected from the Southeast Atomic Energy Medical Center.
  • DIRAMS Southeast Regional Institute of Atomic Energy Medicine
  • tissue DNA extraction tissues were ground in a mortar and pestle in liquid nitrogen and the powder was lysed in cell lysis solution (2% CTAB, 1.4 M NaCl, 100 mM Tris-Cl (pH 8.0), 20 mM EDTA, ⁇ -mercaptoethanol (immediately before use). added, homogenized at 100ul/10 ml). Afterwards, they were mixed, proteinase K was added, and cultured at 65°C for 1.5 hours.
  • DIRAMS Southeast Regional Institute of Atomic Energy Medicine
  • Phenol-chloroform-isoamylalcohol (25:24:1, PGI) was added to the lysate in an equal volume and centrifuged at 12,000 rpm for 10 minutes at room temperature. The top aqueous phase was separated and 1/12 volume of 5M NaCl and 2 volumes of 100% ethanol were added. After incubation at -20°C for 30 minutes, the DNA pellet was collected and centrifuged. Afterwards, the DNA pellet was washed with 70% ethanol and dissolved in 100ul of ion exchange ultra-purified water.
  • Healthy control plasma samples were collected from patients who had never been diagnosed with cancer and had no respiratory diseases. Pregnant women were excluded from the control group, and all control samples were collected by the Korea Genome Project (KGP) under UNIST IRB approval (IRB No.: UNISTIRB-21-66-A). Plasma samples were separated from whole blood by centrifugation at room temperature for 10 minutes at KGP and 1,500g at 4°C for 10 minutes and 3,000g at 4°C, respectively, and stored at -80°C until used in experiments.
  • KGP Korea Genome Project
  • cfDNA was extracted from 3 to 5 ml of plasma using the QIAamp Circulating Nucleic Acid Kit (QIAGEN, 55114) or alle MiniMaxTM High Efficiency Isolation Kit (Beckman Coulter Life Sciences, C40603) according to the manufacturer's protocol.
  • the concentration of cfDNA was measured using the Qubit dsDNA HS Assay Kit (Thermo Fisher Scientific), and the quality of cfDNA was evaluated using the 4150 TapeStation system (Agilent Technologies). Only samples with cfDNA purity of 80% or more and a total of 5 ng or more were selected and used in subsequent experiments.
  • An enzyme-modified DNA library was constructed using the NEBNext® Enzymatic Methyl-seq Kit (NEB) according to the manufacturer's protocol.
  • NEB NEBNext® Enzymatic Methyl-seq Kit
  • 5 to 10 ng of cfDNA was fragmented, and after end repair and A-tailing, it was ligated using an amplification adapter.
  • the adapter-ligated DNA was oxidized using TET2 and an oxidation enhancer to protect 5'-methylcytosine and 5'-hydroxymethylcytosine from subsequent deamination.
  • all cytosines were deaminated and converted to uracil using APOBEC.
  • the reads pretreated through this process were aligned to the hg38 reference genome sequence converted to bisulfite using Bismark (0.22.3). In the alignment step, reads that were not aligned or uniquely mapped were removed with Bismark (0.22.3). Finally, duplicate reads were removed using MarkDuplicates (2.25.0). The bam files preprocessed in this way were used for subsequent analysis.
  • NSCLC plasma samples used in EM-Seq were collected from NSCLC patient-derived plasma samples at Chonnam National University Hwasun Hospital (CNIHH).
  • CNIHH Chonnam National University Hwasun Hospital
  • Healthy plasma samples were plasma cfDNA samples from 97 healthy controls from the Korea Genome Project (KGP).
  • KGP Korea Genome Project
  • the criteria for the healthy control group were in accordance with the KGP health examination report and disease self-report criteria. We made it possible to match the ages of the control group and experimental cases whenever possible.
  • the script for data analysis is python ver. 3. 8.5 was used. Methylation, fragment size, and end-motif features of reads were calculated in the bam file using the Python package Pysam (0.16.0.1). The Python package Pandas (1.4.2) was used to construct tabular data. Python package Scipy (1.6.1) was used for statistical analysis, including Pearson correlation coefficient and Wilcoxon Rank-Sum test, and python package Scipy (1.6.1) was used to build machine learning. All graphs and figures were created using R version 4.2.1 using the R packages ggplot2 (3.3.6), grid (4.2.1) and data.table (1.14.2) packages. It was written using .
  • a tumor originated fragment (TOF) score was derived, and this was used to develop a new diagnostic method to predict and diagnose early lung cancer in patients. It was established, and the series of processes are shown in Figures 1a and 1b.
  • tumor-specific methylation markers were selected using Infinium MethylationEPIC array data from the publicly available database TCGA (The Cancer Genome Atlas) and Infinium Methylation 450K array data from GEO (Gene Expression Omnibus).
  • TCGA 219 lung tumor tissue samples and 190 normal lung tissue samples were compared and analyzed to identify tumor-specific markers.
  • CpG sites with an average beta value difference higher than 0.15 between tumor tissue samples and normal tissue samples were initially selected.
  • hypermethylated CpG sites were excluded in both tumor tissues and blood cells using 656 healthy blood samples from GEO GSE40279. Additionally, CpG sites with an average beta value higher than 0.2 in healthy blood samples were excluded from the selected markers.
  • CpG sites for which beta values were not available in half of the samples in each group were excluded from the analysis.
  • 6243 CpG sites were finally selected as lung cancer-specific methylation markers.
  • CpG marker selection is shown in Figure 1b CpG Marker selection.
  • ctCandi ctDNA candidate count index
  • EM-seq reads were sorted from the 6243 tumor-specific methylated CpG marker sites selected in 1.1 above, and reads located 100bp upstream and downstream of the CpG site were selected and used for ctCandi calculation.
  • EM-seq (enzymatic methyl-sequencing) leads derived from all healthy plasma samples and tumor-derived cfDNA prepared by the method of Experimental Example 2 include ctDNA candidates.
  • Each ctDNA candidate was analyzed at 6243 lung tumor-specific methylated CpG marker sites, and the number of each ctDNA candidate was normalized to the number per million mapped reads. More specifically, EM-seq reads containing ctDNA candidates were aligned at 6243 selected lung tumor-specific methylated CpG marker sites. The methylation density present in each read in the region encompassing 100 bp upstream and downstream from the selected lung tumor-specific methylation marker position was calculated.
  • the average methylation rate of CpG sites within each read was defined as DMD (DNA Methylation density), and reads with a DMD value exceeding 0.6 were classified as ctDNA lead candidates.
  • the number of candidate ctDNA reads for each CpG site was normalized using counts per million mapped reads (CPM).
  • ctCandi was calculated as the average of the normalized number of ctDNA candidates present in 6243 CpG marker sites, which are total lung tumor tissue-specific markers. Through this method, the amount of DNA fragments derived from disease or normal tissue for each individual can be quantified, and the higher the ctCandi, the more ctDNA is present, so the possibility of cancer can be predicted to be higher.
  • An example of a series of ctCandi derivations is detailed in Figure 2A.
  • ctCandi scoring model As an additional independent validation model, seven lung cancer tissue samples provided by the Southeastern Atomic Energy Medical Center were used. All experiments were approved by the IRB of CNUHH. To confirm whether the ctCandi scoring model can distinguish between cancer and normal groups, it was applied to tissue samples. First, five sets of different lung tumor severity levels (0, 0.1%, 0.2%, 0.5%, and 1%) in terms of ctDNA ratio were constructed to simulate and predict the ctCandi score. Afterwards, it was confirmed that the tumor level prediction using the ctCandi scoring method matched well with the results of the tissue sample, and the results are shown in Figure 2d.
  • NSCLC patient samples were used as the case group.
  • tissue samples from NSCLC patients were used only in simulation tests.
  • SCLC patient-derived plasma samples were subjected to the TOF scoring method to expand its applicability. The selection of plasma samples from NSCLC patients and plasma samples from SCLC patients was as described in Experimental Example 2.
  • NSCLC samples were classified into adenocarcinoma and squamous cell carcinoma subtypes in similar proportions. 76 adenocarcinomas and 63 squamous cell carcinomas were identified. Among the 201 cancer samples, 62 from NSCLC and 63 from SCLC were metastatic patients classified as stage IV and ED, respectively.
  • Table 1 shows information on the experimental groups used in this experiment.
  • a logistic regression model based on each cfDNA characteristic was trained and verified using the learning/validation datasets of 67 healthy patients and 99 NSCLC patients. Ridge regularization was applied to the learning stage. 5-fold cross-validation was performed to evaluate the logistic regression model.
  • the number of normalized ctDNA candidates in 6243 CpG sites as in Example 1 was scaled using MinMax scaler, and the scaled value was used as an input feature. At this time, the scale value is a minimum of 0 and a maximum of 1.
  • the lung cancer diagnosis model based on the number of ctDNA candidates showed an AUC value of 0.908, confirming that it is effective in cancer diagnosis.
  • a classification model based on specific fragment end-motif features is a model that attempts to diagnose cancer by utilizing the fragmentary characteristics of ctDNA.
  • the frequency of the 4mer terminal motif consisting of 4 base sequences from the 5' end of the Emseq read was calculated.
  • the 256 end-motif frequencies of 4 4 were scaled with the Standard scaler with scale values of mean 0 and unit variance. The scaled value was used as an input feature in the classification model.
  • SFR short fragment ratio
  • the average AUC value of the SFR-based machine learning model obtained for the test set was 0.908. Additionally, it was confirmed that lung cancer patients had a relatively high short fragment ratio (SFR) of plasma cfDNA compared to healthy controls. Additionally, it was confirmed that genome-wide SFR can be used alone in a cancer classification machine learning model.
  • SFR short fragment ratio
  • a classification model was constructed that integrates the results of each model based on the three cfDNA characteristics of the present invention.
  • a logistic regression model was trained using the training and validation data sets using the probabilities of three models as input features. Because 5-fold cross-validation was performed in the construction of each model, 5 integrated logistic regression models for each multiple were obtained. The TOF score was defined as the average of the predicted values from the five regression models.
  • the TOF score was derived based on an ensemble learning model using logistic regression analysis for the number of ctDNA candidate reads, terminal motifs, and SFR characteristics, and the cancer diagnosis results based on this are shown in Figure 5.
  • TOF scoring showed significant differences in NSCLC subtypes adenocarcinoma (ADC) and squamous cell carcinoma (SQC) compared to healthy controls.
  • ADC adenocarcinoma
  • SQC squamous cell carcinoma
  • the TOF score concept was additionally applied to the expanded case group including SCLC, and surprisingly, as shown in Figure 5c, it was confirmed that the TOF scoring model derived based on NSCLC can be equally applied to SCLC.
  • the risk of lung cancer can be predicted, and as exemplarily shown in FIG. 7, based on score values of 0 to 1, 0 to 0.3 has a low possibility of disease, and 0.3 to 0.4 has a low possibility of disease. Note, 0.4 to 1 can be predicted as having a disease risk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Primary Health Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Immunology (AREA)
  • Zoology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Microbiology (AREA)
  • Computational Linguistics (AREA)
  • Oncology (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)

Abstract

본 발명은 체액 속의 cfDNA 단편이 가지는 후성 유전체 및 변이 정보와 cfDNA 단편 프로파일링을 활용하여 보다 효과적으로 건강상태를 파악하고 질병을 진단, 예측하기 위한 시스템 및 방법에 관한 것이다. 본 발명에 따르면 체액 속에 존재하는 cfDNA 단편이 갖는 cfDNA의 메틸화 정보를 이용하여, DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 계산하고 ctCandi (circulating-target DNA Candidate index)를 구하여 타겟 조직 또는 세포 유래 cfDNA를 정량화 함으로써, 체액 시료만으로 건강/질병관리에 대한 정보를 제공할 수 있다. 또한, cfDNA의 메틸화 정보, 단편의 특성 및 변이정보를 이용하여, 암을 조기에 예측 및 진단할 수 있으며, 체액 시료만으로 노화와 같은 건강상태 및 질병에 대한 정보를 높은 민감도와 특이도로 모니터링 할 수 있다.

Description

CELL-FREE DNA를 이용한 건강 및 질병관리 시스템 및 방법
본 발명은 체액 내 cell-free DNA 단편이 가지는 후성 유전체 및 변이 정보와 cfDNA 단편 프로파일링을 활용하여 질병을 보다 효과적으로 진단, 예측하고 건강상태를 관리하기 위한 시스템 및 방법에 관한 것이다.
본 발명은 정부(중소벤처기업부)의 재원으로 한국산업기술진흥원의 지원을 받아 수행되었다[과제고유번호: 1425156792, 과제번호: P0016195, 연구사업명: 규제자유특구혁신사업육성(R&D), 연구과제명: 지능형 오믹스 빅데이터 기반 질병 예측 및 진단 마커 개발 실증)]
체액 내에는 다양한 생체분자들(cfDNA, CTC, Exosome 등)이 떠돌아다니는데, 그 중에서 대표적인 예로 세포유리 DNA가 있다. 세포유리 DNA(cell-free DNA, cfDNA)란, 세포 안에서만 존재하지 않고, 세포사멸 등과 같은 다양한 원인에 의하여 세포 밖으로 나와서, 체액 속에 떠돌아다니는 DNA 조각을 의미한다. cfDNA는 우리 몸 전체의 상태를 반영하여 건강상태를 파악하고, 각종 질병을 진단하고, 예후 추정 및 모니터링을 하는 대리 표지자로서 역할을 할 수 있다.
생체 내 게놈은 모두 동일하지만, 게놈상의 유전자가 발현되는 시기, 위치, 정도에 따라 세포와 조직에서 기능이 달라지게 된다. DNA 메틸화는 신체를 이루고 있는 각각의 조직, 세포에서 알맞은 기능을 하기 위해 조직과 세포마다 특이적인 메틸화 패턴을 가진다. 그리고 이러한 조절을 일생에 거쳐 끊임없이 외부환경에 의해 변화하고, 다음 세대로까지 전달이 된다. 이렇게 유전자 서열자체의 변이가 없이 유전자의 기능에 영향을 주는 유전적 현상을 연구하는 학문이 후성유전학(Epigenetics)이다.
cfDNA는 건강한 사람의 경우 일반적으로 대부분이 혈구세포에서 유래한 cfDNA로 구성되어 있으나, 특정 조직이나 세포가 다양한 원인에 의해 사멸 (Apoptosis)되거나 괴사(Necrosis) 되는 경우에는 해당 조직이나 세포속에 포함된 DNA가 혈액으로 방출되기 때문에 혈액 내 cfDNA 구성 비율이 특정 조직이나 세포에서 유래한 cfDNA가 많아지는 방향으로 변화하게 된다. 이러한 변화는 조직마다 특이적 패턴을 가지는 DNA 메틸화 특성을 이용하여 확인할 수 있고, 해당 연구를 cfDNA deconvolution이라고 하는 구성성분 분석을 통해 수행할 수 있다. 이러한 원발 조직 (Tissue of origin, TOO) 분석이 최근 활발히 진행되고 있다.
특히, 암 환자의 체액에는 cell-free DNA(cfDNA)가 증가됨이 보고된 바 있다. 암세포에서 배출된 cfDNA는 각별히 순환종양 DNA(circulating tumor: ctDNA)라고 명명하며, 이 ctDNA는 암세포가 파열되어 사멸하는 경우 그 찌꺼기가 혈류 속으로 방출되는데, 그 속에서 종양의 DNA가 포함되는 것을 말한다. 혈액 속에 cfDNA형태로 떠돌아다니는 ctDNA의 암 관련 유전적 변화의 패턴을 프로파일링하면 한 개 혹은 여러 암의 조기발견을 위해 건강하거나, 위험에 처한 인구집단을 대규모로 스크리닝할 수 있다.
최근 다양한 연구 결과에서, cfDNA 길이 및 말단 모티프와 같은 cfDNA 단편 프로파일이 암에서 독특한 패턴을 보이는 것이 보고되었다. 일반적으로 cfDNA의 길이 프로파일은 뉴클레오솜 구조와 관련하여 대략 166bp (base pair)에서 주요 피크를 나타내는 반면에, 종양 유래의 특징을 지닌 cfDNA의 길이는 건강한 사람보다 길이가 짧으며, 더 많은 양으로 존재한다.
cfDNA 단편 길이 외에도 말단 모티프라고 하는 cfDNA의 5' 말단은 절단 효소 종류에 따라 원래 조직에 대한 정보가 포함되어 있다. 이러한 cfDNA의 특징들은 유래한 조직 및 세포 종류에 따라 달라지므로, 다양한 임상 응용 가능성을 가지고 있다.
뿐만 아니라, cfDNA는 형태 (Topology), 메틸화 상태, 뉴클레오솜 구조, DNA 변이정보 등 다양한 특성들을 포함하고 있으며, cfDNA 단편의 특성을 정량화 하기 위해 측정할 수 있는 파라미터들이 다수 알려져 있다.
유전자 복제수변이(CNV, Copy-number variation)는 구조변이(Structural variation)의 한 종류로 유전체의 특정 영역이 2개 이상으로 복사되거나 결손되는 현상을 의미한다. CNV는 SNP처럼 개체마다 다른 변이를 갖는다. 특정 유전자 영역의 Copy-number는 암 세포 혹은 질병에 걸린 세포에서 특히 크게 변화하며, 암세포에서의 CNV를 특별히 Somatic copy-number alteration (SCNA)라고 하는데, 증식과 관련된 유전자(Oncogene) 발현을 증가(증폭)시키거나, 암 억제 유전자 (Tumor Suppressor Gene) 발현을 감소(억제)시키는 역할을 한다. 2010년 Nature에 보고된 바에 의하면, 약 3천개의 암 시료를 분석한 결과 암세포 유전체의 17%가 초과복제되고 16%가 결손되어 있다고 한다.
이처럼 cfDNA는 생체 상태에 대한 다양한 정보를 담고 있으며, 이를 활용하여 효과적으로 질병을 진단하고 건강상태에 대한 정보를 제공할 수 있는 예측 모델 및 방법에 대한 필요성이 있다.
이에 본 발명의 발명자는, cfDNA 단편의 다양한 특성을 적용하여 건강상태 및 질병에 대한 정보를 제공할 수 있는 새로운 예측 모델 및 방법에 대하여 연구하였으며, cfDNA 메틸화 정보의 분석방법을 새롭게 구축하고, 타겟 유래 cfDNA 정량화 방법을 제공하며, cfDNA 단편으로부터 추출된 데이터를 단독 또는 앙상블하여 머신 러닝 기법을 통해 제조된 새로운 건강/질병관리 및 암 진단에 대한 정보 제공용 장치, 시스템 및 방법을 확인하고 본 발명을 완성하였다.
또한 본 발명의 발명자는 상기 cfDNA 메틸화 정보를 DNA의 메틸화 밀도(DNA Methylation Density; DMD)로 수치화하고, 이를 이용하여 목적하는 타겟 유래 cfDNA를 정량화 할 수 있는 ctCandi (circulating-target DNA Candidate index)를 정의하고 새로운 모델을 확립하였다.
또한 본 발명의 발명자는 상기 cfDNA 단편으로부터 추출된 데이터를 이용하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어링 방법을 정의하고 새로운 암 진단 장치 및 방법을 확립하였다.
따라서 본 발명은 1) 생물학적 시료 유래 cfDNA 로 이루어진 서열 DNA를 타겟 특이적 CpG 마커 사이트를 기준으로 정렬하는 단계; 2) 상기 타겟 특이적 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하고, 정렬된 DNA 중 상기 타겟 특이적 영역 내 존재하는 DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 도출하는 단계; 3) 상기 타겟 특이적 영역에 존재하는 DNA 중 2) 단계에서 도출된 DMD 값이 역치 값을 초과하는 DNA를 ctDNA(circulating-target DNA) 후보로 정의하고 ctDNA 후보 수를 계수하여 정규화하는 단계; 및 4) 각 타겟 특이적 영역에서 도출된 정규화된 ctDNA후보 수의 평균을 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계; 를 포함하는, 타겟 유래 cfDNA 정량화 방법을 제공한다.
또한 본 발명에서 정의하는 DNA 메틸화 밀도 (DNA Methylation density, DMD)는 단일 CpG 사이트 뿐 만 아니라, 리드(read) 및 단편(fragment)의 메틸화 밀도(methylation density), DNA의 메틸화 밀도(methylation density)를 포함하고, DNA 한 분자 내에 존재하는 일부 또는 전체 영역에 대해서 메틸화된 CpG 의 수를 전체 CpG 수로 나눈 값인, 각 DNA의 메틸화 정도의 수치화 방법이다. 상기 DNA 메틸화 밀도 (DMD) 도출을 위한 메틸화 정도 측정은 차세대 염기서열 분석법, 장서열 분석법, 패널, Chip 및 PCR로 이루어진 군에서 선택된 1종의 메틸화 측정 방법을 이용하여 측정되는 것 일 수 있다.
또한 본 발명은 1) 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 단계; 2) 상기 CpG 마커 사이트 정보를 기준으로 상기 입력된 서열 DNA 정보를 정렬하고, CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 타겟 특이적 영역 내 존재하는 서열 DNA 부위의 DNA 메틸화 밀도 (DNA Methylation density, DMD)를 계산하는 단계; 3) 상기 타겟 특이적 영역에 존재하는 DNA중 계산된 DMD 값이 역치값을 초과하는 DNA 수를 ctDNA 후보 수로 정의하여 정규화하는 단계; 4) 정규화된 ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계; 5) 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하는 단계; 및 6) 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 단계; 를 포함하고, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것인, 건강 상태를 식별하는 방법을 제공한다.
또한 본 발명은 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 입력부; 상기 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 입력된 서열 DNA정보를 정렬하고, 상기 타겟 특이적 영역 내 존재하는 서열 DNA의 메틸화 밀도 (DNA Methylation density, DMD)를 계산하고, 상기 타겟 특이적 영역에 존재하는 서열 DNA 중 계산된 DMD 값이 역치값을 초과하는 DNA 수를 ctDNA 후보 수로 정의하여 정규화하며, 정규화된 ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하고, 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하며, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것이고, 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 프로세서; 및 상기 식별된 건강 상태 결과를 출력하는 출력부; 를 포함하는 건강 상태를 식별하는 장치를 제공한다.
또한 본 발명은 1) 진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 상기 건강 상태를 식별하는 방법에 따라 산출된 시료 제공자의 건강상태에 대한 확률값을 데이터로 입력받는 단계; 2) cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터를 입력받는 단계; 3) 상기 데이터를 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하는 단계; 및 4) 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 단계; 를 포함하는 암을 진단하는 방법을 제공한다.
또한 본 발명은 진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 리드 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 상기 건강 상태를 식별하는 방법에 따라 산출된 시료 제공자의 건강상태에 대한 확률값 데이터; 및 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터;를 입력받는 입력부; 상기 입력된 데이터들을 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하고 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 프로세서; 및 상기 식별된 암 유무 또는 병기에 관한 결과를 출력하는 출력부; 를 포함하는 암 진단 장치를 제공한다.
본 발명에 따르면 체액 속에 존재하는 cfDNA 단편이 갖는 cfDNA의 메틸화 정보를 이용하여, DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 계산하고 ctCandi (circulating-target DNA Candidate index)를 구하여 타겟 조직 또는 세포 유래 cfDNA를 정량화 함으로써, 체액 시료만으로 건강 및 질병관리에 대한 정보를 제공할 수 있다. 또한, cfDNA의 메틸화 정보, 단편의 특성 및 변이정보를 이용하여, 암을 조기에 예측 및 진단할 수 있으며, 체액 시료만으로 노화와 같은 건강상태 및 질병에 대한 정보를 높은 민감도와 특이도로 모니터링 할 수 있다.
도 1은 본 발명의 종양 유래 단편 (tumor originated fragment, TOF) 스코어링 모델의 모식도이다. 도 1a는 TOF 스코어의 컨셉을 나타내며 미리 결정된 TOF 스코어 값과 시료의 TOF 스코어를 비교하여 암에 대한 정보를 제공할 수 있다. 도 1b는 TOF 스코어링 모델의 구축 방법을 나타낸 도이다.
도 2는 폐암 예측에 사용되는 circulating-target DNA 후보수 인덱스 구축 (circulating-target DNA candidate index, ctCandi)의 모식도이다.
도 2a는 타겟 특이적 영역 내 존재하는 서열 DNA 부위의 DNA 메틸화 밀도 (DNA Methylation density, DMD) 및 ctCandi의 개념, ctCandi 를 이용하여 건강 상태를 식별하는 방법을 설명한다.
도 2b는 circulating-target DNA 후보 수의 히트맵을 나타내며, 상단의 색은 시료 유형을 나타낸다 (왼쪽에서 오른쪽으로 NSCLC의 대조군, 병기 I, 병기 II, 병기 III, 병기 IV). 도 2c는 정상 또는 암 병기에 따른 테스트 시료의 ctCandi 를 박스 플롯으로 나타낸 도이다. 도 2d는 독립 검증 모델을 이용한, cfDNA 후보 수 기반의 in silico 시뮬레이션 결과를 나타낸 도이다.
도 3a는 cfDNA의 메틸화 특징을 이용한 머신 러닝 모델의 모식도이다. 도 3b는 cfDNA의 말단-모티프 특징을 이용한 머신 러닝 모델의 모식도이다. 도 3c는 cfDNA의 단편 크기 특징을 이용한 머신 러닝 모델의 모식도이다.
도 4는 본 발명의 예측 및 진단 머신러닝 모델에 의한 암 진단 결과를 나타낸 도이다. 도 4a 및 도 4b는 테스트 세트에서 ctDNA 후보 수 기반 폐암 진단 머신러닝 모델의 암 진단 결과를 나타낸다. 도 4c 및 도 4d는 테스트 세트에서 말단-모티프 기반 머신 러닝 모델의 암 진단 결과를 나타낸다. 도 4e 및 도 4f는 데스트 세트에서 SFR-기반 머신 러닝 모델의 진단 결과를 나타낸다.
도 5는 ctDNA 후보 수, 말단 모티프 및 SFR 특성에 대한 머신러닝 알고리즘의 일종인 로지스틱 회귀 분석을 이용하는 앙상블 학습 모델에서 도출된 TOF 스코어 기반 암 진단 결과를 나타낸 도이다. 도 5a는 테스트 세트에서 TOF-스코어 기반 암 예측 결과를 나타낸 도이다. 도 5b는 T 병기에 따른 N 및 M 병기가 혼합된 테스트 시료에서의 TOF 스코어링 모델을 이용한 분류 효과를 나타낸 도이다. 도 5c는 비소세포성 폐암 데이터 세트에서도 TOF 스코어링 모델이 우수한 분류 효과를 나타냄을 보여주는 결과이다.
도 6은 TOF 스코어링을 이용하여 정상 대조군, NSCLC 아형인 선암종 (ADC) 및 편평세포 암종 (SQC)를 효과적으로 분류할 수 있음을 보여주는 결과이다.
도 7은 TOF 스코어 기반 위험도 측정 기준의 예시를 나타낸다. 종양 유래 단편 스코어링 학습을 통해 미리 설정된 TOF 스코어 기준 값과, 대상 시료의 TOF 스코어를 비교하여, 대상 시료의 질병 위험도에 대한 정보를 제공할 수 있다.
도 8은 본 발명의 TOF 스코어를 이용한 암 진단, 예측 방법의 모식도이다.
본 발명은 타겟 유래 cfDNA 정량화 방법 및 cfDNA를 이용한 건강 상태를 식별하는 방법, 암 예측, 진단하는 방법 및 장치에 관한 것이다.
본 발명은 DNA 메틸화 밀도 (DNA Methylation density, DMD) 도출 방법을 이용하는 새로운 타겟 유래 cfDNA 정량화 방법, 새롭게 도출되는 ctCandi (circulating-target DNA Candidate index)를 이용하는 검출 대상 시료의 타겟 유래 cfDNA의 정량화 방법, 다양한 cfDNA 단편 특성을 이용한 새로운 건강 상태를 식별하는 방법 및 장치를 제공한다.
또한 본 발명은 다양한cfDNA 단편 정보를 함께 학습하고, 스코어링하는 단계를 포함하는 종양 유래 단편 (tumor originated fragment, TOF) 스코어링 방법을 제공하며, 상기 스코어링 방법을 이용한 암 진단 방법 및 장치를 제공한다.
이하, 본 발명을 구체적인 실시예를 통해 상세히 설명하나 하기 실시예에 의하여 본 발명의 범위가 제한되는 것은 아니다.
본 발명은 1) 생물학적 시료 유래 cfDNA 로 이루어진 서열 DNA를 타겟 특이적 CpG 마커 사이트를 기준으로 정렬하는 단계; 2) 상기 타겟 특이적 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 마커 영역으로 정의하고, 정렬된 DNA 중 상기 타겟 특이적 영역 내 존재하는 DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 도출하는 단계; 3) 상기 타겟 특이적 영역에 존재하는 DNA 중 2) 단계에서 도출된 DMD 값이 역치 값을 초과하는 DNA를 ctDNA(circulating-target DNA) 후보로 정의하고 ctDNA 후보 수를 계수하여 정규화하는 단계; 및 4) 각 타겟 특이적 영역에서 도출된 정규화된 ctDNA후보 수의 평균을 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계; 를 포함하는, 타겟 유래 cfDNA 정량화 방법에 관한 것이다.
본 발명에 따르면 시료 내 cfDNA 분자의 메틸화 정도를 수치화하여 정량화된 정보를 제공할 수 있다. cfDNA의 메틸화는 조직, 세포마다 특이한 패턴을 가지므로 이러한 정보를 이용하여 상태 식별을 원하는 타겟 조직, 세포에 대한 정보를 얻을 수 있다.
본 발명에 있어서, "메틸화"는 cfDNA를 구성하는 염기에 메틸기가 부착되는 것을 의미하며 DNA 상의 CpG 사이트의 사이토신에서 일어나는 메틸화 여부 또는 메틸화 정도를 의미할 수 있다. DNA 메틸화는 유전자 발현 조절에 중추적인 역할을 하는 후성유전적 변형으로서, 사이토신의 5번 탄소에 메틸기(-CH3)가 붙어 5-메틸사이토신 형태로 변형된다. DNA 메틸화는 주로 CpG 디뉴클레오티드의 사이토신에서 발생하며, CpG가 집중적으로 몰려 있는 DNA 영역은 CpG 섬이라고 불리며 유전자의 스위치에 해당하는 프로모터 위치에 이런 구조가 집중되어 있어 유전자 발현 조절에 주요 기능으로 연구되고 있다. 생체 내 게놈은 모두 동일하지만, 게놈상의 유전자가 발현되는 시기, 위치, 정도에 따라 세포와 조직에서 기능이 달라지게 된다. DNA 메틸화는 신체를 이루고 있는 각각의 조직, 세포에서 알맞은 기능을 하기 위해 조직과 세포마다 특이적인 메틸화 패턴을 가진다. 본 발명에서는 이러한 생물학 원칙을 근거하여 액상 시료 내 존재하는 특정 조직 또는 세포에서 유래된 cfDNA의 메틸화 패턴을 이용하여 타겟 조직 또는 세포에서 유래된 cfDNA를 정량화 하는 방법을 제공하고, 이를 이용한 건강상태 예측, 질병 예측 및 질병 상태 예측에 응용하는 방법을 제공한다.
DNA 메틸화 정보를 활용하는 질병 연구의 한 예로써 암질환을 살펴보면, 정상적인 세포의 DNA에는 전체적으로 사이토신에 메틸화가 되어 있지만, 기능을 하는 프로모터 부위에는 거의 메틸화가 되어 있지 않다. 한편 암이 진행되는 단계에서 프로모터 부위에 집중적으로 메틸화가 진행되고(Promoter hypermethylation), DNA 전체적으로는 메틸화가 오히려 감소되는 것(Global hypomethylation)으로 알려져 있다. 특히 프로모터의 과메틸화(hypermethylation)는 종양억제 유전자의 스위치를 끄게 되므로 암이 발생하고, DNA 전체의 저메틸화(hypomethylation)은 DNA 구조의 불안정성을 가중시켜 암을 일으키게 되는 것으로 알려져 있다. 그렇지만 암 종에 따라, 암의 진행단계에 따라 메틸화 양상이 다양하게 나타난다. 암 세포의 DNA 메틸화는 암 발생의 초기에 일어나는 것으로 보고되어 있어, 암의 진단, 특히 조기 진단에 유용한 타깃이 될 수 있는 것으로 알려져 있다. 특히 암종마다 관여하는 종양 억제 유전자의 메틸화가 암의 진행단계에서 중요한 요소로써 연구되고 있다. 뿐만 아니라, DNA 메틸화는 질병치료의 예후나 약물반응성, 재발 여부를 관찰하는데도 널리 연구되고 있다.
최근에는 조직 또는 세포 특이적 DNA 메틸화 특성을 이용하여 노화나 치매, 대사증후군, 비만 등과 같은 건강관리 측면에서 많은 연구들이 진행되고 있다. 뿐만 아니라, 산모의 영양과 환경적 요인은 태아의 DNA에 영향을 주는 것이 잘 알려져 있는데, 특히 태아 상태에서 산모의 환경적 변화가 태아가 태어났을 때의 질병 감수성에 영향을 미친다는 연구들이 활발히 보고되고 있으며, 여기에 핵심이 되는 기전이 DNA 메틸화이다.
이와 같이 기본적으로 장기별, 조직별, 세포별로 다른 DNA 메틸화 특성(Tissue specific methylation)을 바탕으로, 최근 액체 생검기술의 발달과 함께 체액 내 cfDNA의 메틸화 정도를 측정하여 cfDNA가 체액으로 유리된 근원 조직 또는 세포를 찾는 기술 (Tissue of origin, TOO)들이 발달하고 있으며, 이에 따라 질병 진단을 포함하는 건강관리 기술들이 활발히 개발되고 있다. 많은 연구들에서 조직 DNA와 체액 cfDNA의 상관관계가 통계적 유의성이 있음을 보고한 바 있다.
따라서 본 발명의 새로운 타겟 유래 cfDNA 정량화 방법을 이용하여 도출되는 cfDNA 정보를 이용하면 cfDNA 메틸화와 관련성이 보고되거나, 보고될 각종 질병 및 건강 상태를 식별할 수 있다.
본 발명에 있어서, 조직 또는 세포 종류에 특이적으로 나타나는 DNA 메틸화 상태가 알려져 있거나, 도출될 수 있는 CpG 영역을 “타겟 특이적 CpG 마커 사이트” 로 정의하였으며, 이 중 특히 질병 상태를 반영할 수 있는 질병 특이적으로 메틸화 차이를 보이는 CpG 마커 사이트는 “질병 특이적 CpG 마커 사이트”로 정의하였다. 상기 타겟 특이적 CpG 마커 사이트, 질병 특이적 CpG 마커 사이트는 하나 또는 인접하여 존재할 수 있으며, CpG 마커 사이트를 하나 또는 여러 개 포함하는 영역을 “타겟 특이적 영역”이라고 정의한다. 따라서 본 발명의 타겟 특이적 영역은 하나의 CpG 사이트 또는 인접한 여러 개의 CpG 사이트로 이루어질 수 있으며, 특정 범위로 제한되는 것은 아니다.
타겟 특이적 CpG 마커 사이트는 특정 조직 또는 세포, 질병, 건강 상태에 대한 정보를 제공할 수 있는 마커로 활용될 수 있는 부위이다. 타겟 특이적 CpG 마커 사이트가 유래된 조직 또는 세포 종류에 대한 정보를 포함하고 있는 경우, cfDNA 메틸화 정량화를 통해 유래된 조직 또는 세포에 대한 정보를 제공할 수 있으며, 질병 특이적 정보를 포함하고 있는 경우 시료의 건강상태, 즉 질병에 대한 정보를 제공할 수 있다.
상기 타겟 특이적 CpG 마커 사이트는 종래 공지된 DB, 문헌에서 수득할 수 있는 정보일 수 있으며, 다음과 같은 방법으로 수득될 수 있다.
(a) 유전체 메틸화 정보를 제공하는 공용 데이터베이스에서 질병 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (b) 유전체 메틸화 정보를 제공하는 공용 데이터베이스에서 정상 조직의 후성 유전체 영역의 메틸화 정량값을 도출하는 단계; (c) 상기 (a) 및 (b) 단계에서 도출된 질병 조직 및 정상조직의 메틸화 정량값의 차이를 도출하는 단계; (d) 유전체 메틸화 정보를 제공하는 공용 데이터베이스에서 정상 체액의 후성유전체 영역의 메틸화 정량값을 도출하는 단계; (e) 체액의 노이즈 시그널을 제거하는 단계; 및 (f) 상기 (c) 단계에서 도출된 메틸화 정량값의 차이; 및 (d) 단계에서 도출된 정상 체액의 후성유전체 영역의 메틸화 정량값이 미리 설정된 각각의 임계값을 초과하는 후성 유전체 영역을 타겟 특이적 CpG 마커 사이트로 선택하는 단계. 이때 상기 공용 데이터베이스(DB)는 TCGA(The Cancer Genome Atlas) 데이터베이스, ENCODE(Encyclopedia Of DNA Elements), 또는 GEO(Gene Expression Omnibus)의 데이터베이스를 사용할 수 있으나, 특정 DB에 국한되지 않고, 후성 유전체 영역의 메틸화 정보를 담고 있는 한, 기 보고된 논문의 데이터 및 공용 데이터베이스를 제한없이 사용 가능하다.
본 발명에서는 상기 알려진 또는 도출된 타겟 특이적 CpG 마커 사이트에 검사 대상 생물학적 시료 유래 cfDNA 로 이루어진 서열 DNA, 리드를 정렬하는 단계를 포함한다.
본 발명에서 "리드(reads)"는, 당업계에 알려진 다양한 방법을 이용하여 서열정보를 분석하여 추출되는 핵산 단편정보를 의미한다. cfDNA의 추출은 당업계에 공지된 방법에 따라 수행될 수 있으며, 특정 기술에 한정하지 않고, 본 발명의 일 구현예에서는 QIAamp Circulating Nucleic Acid Kit (QIAGEN, 55114) 또는 Apostle MiniMax™High Efficiency Isolation Kit (Beckman Coulter Life Sciences, C40603)를 이용하여 제조사 프로토콜에 따라 추출하였다.
cfDNA 메틸화 정보는 메틸화 정도를 측정할 수 있는 기술인 차세대 염기서열 분석법, 장서열 분석법, 패널, Chip, PCR 등의 방법들이 사용될 수 있으며, 특정 기술에 한정하지 않고, DNA 메틸화 정보를 도출할 수 있는 측정법을 제한없이 사용 가능하다.
본 발명은 타겟 특이적 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하고, 정렬된 DNA 중 상기 타겟 특이적 영역 내 존재하는 DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 도출하는 단계를 포함한다.
타겟 특이적 영역은 타겟 특이적 CpG 마커 사이트를 기준으로 미리 설정된 영역일 수 있으며, 그 길이는 목적에 따라 적절하게 설정될 수 있다. 예컨대 본 발명의 바람직한 일 구현예에서는 타겟 특이적 CpG 마커 사이트를 기준으로 상류 100bp, 하류 100bp 부위를 포함하는 영역을 타겟 특이적 영역으로 정의하여 DNA 메틸화 밀도 계산에 사용하였으나, 이에 제한되는 것은 아니다.
각 CpG 마커 사이트를 기준으로 인접한 주변 DNA 영역을 타겟 특이적 영역으로 정의하고, 정렬된 DNA 중 상기 타겟 특이적 영역 내 존재하는 DNA의 메틸화 밀도 (DNA Methylation density, DMD)를 도출할 수 있다.
본 발명에서 정의하는 DNA 메틸화 밀도 (DMD)는 단일 CpG 사이트뿐만이 아니라, 리드(read) 및 단편(fragment)의 메틸화 밀도(methylation density), DNA의 메틸화 밀도(methylation density)를 포함하고, DNA 한 분자 내에 존재하는 일부 또는 전체 영역에 대해서 메틸화된 CpG의 수를 전체 CpG 수로 나눈 값인, 각 DNA의 메틸화 정도의 수치화 방법을 의미한다. DMD 값을 측정하는 방법은 메틸화 정도를 측정할 수 있는 기술인 차세대 염기서열 분석법, 장서열 분석법, 패널, Chip, PCR 등을 포함할 수 있으며, 이에 한정되지 않는다. 따라서 DNA 메틸화 밀도 (DMD)는 DNA 한 분자 내에 존재하는 일부 또는 전체 영역에 대하여 메틸화된 CpG의 수를 전체 CpG 수로 나눈 값일 수 있다.
예컨대 DNA 조각에 포함된 전체 CpG가 메틸화된 경우, DMD는 1의 값을 가지고, 전체 CpG가 비메틸화 된 경우 0의 값을 가지는 것으로 정의된다. 일 예로 PCR로 모두 메틸화된 DNA를 타겟하는 경우 DMD가 1에 해당하는 DNA를 정량화 하는 것과 동일하고, 모두 메틸화되지 않은 DNA를 타겟하는 경우는 DMD가 0에 해당하는 DNA를 정량화 하는 것과 동일하다.
본 발명의 3) 단계는 상기 타겟 특이적 영역에 존재하는 DNA 중 2) 단계에서 도출된 DMD 값이 역치값을 초과하는 DNA를 ctDNA(circulating-target DNA) 후보로 정의하고 그 수를 계수하여 정규화하는 단계; 이다.
본 발명에 있어서, “circulating-target DNA(ctDNA)”는 체액 내 존재하는 cfDNA 중 타겟 조직 또는 세포에서 시료, 예컨대 혈액과 같은 액체 시료로 유리된 cfDNA로 정의하였고, 타겟 조직 또는 세포는 혈구세포, 암세포, 질병조직, 정상조직 등 신체를 구성하는 핵산을 가진 세포 또는 그 집단을 의미하며, 특정 조직 또는 세포에 한정하지 않는다. 즉, ctDNA는 체액 내 존재하는 cfDNA 중 타겟 조직 또는 세포에서 유리된 cfDNA를 의미할 수 있다.
DMD 값이 역치값을 초과하는 DNA는 ctDNA 후보군이 될 수 있다. 상기 정규화는 각 타겟 특이적 영역 상의 ctDNA 후보 수를 백만개의 맵핑된 리드 당 수(counts per million mapped reads, CPM)를 이용하여 정규화하는 방법으로 수행될 수 있다.
상기 DMD의 역치값은 미리 설정된 값일 수 있으며, 목적하는 진단, 식별, 검출에 따라 적절하게 설정될 수 있다. 본 발명의 일 구현예에서는 DMD의 역치값을 0.6으로 설정하여 ctDNA 후보군 수를 도출하는 방법을 도 2a에 도시하였다.
본 발명에서는 각 타겟 특이적 영역에서 도출된 정규화된 ctDNA 후보 수의 평균을 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계를 포함한다.
상기 ctCandi는 본 발명의 발명자에 의하여 최초로 제안되는 개념으로 각 DNA 한 분자 내에 존재하는 일부 또는 전체 영역의 메틸화 정보를 스코어링한 값이며, 개인별 타겟 조직 또는 세포유래 DNA 단편의 양을 수치화하여 나타낼 수 있다. 예컨대 본 발명의 일 구현예에서는 6243개의 CpG 마커 사이트 각각에 존재하는 정규화된 ctDNA 후보수를 도출하고 이들의 평균을 계산하여 ctCandi를 도출하였다.
본 발명의 ctCandi(circulating-target DNA Candidate index)를 이용하면, 타겟을 어떤 조직 또는 세포로 선정하는지에 따라 생물학적 시료 유래 cfDNA가 어떤 조직 또는 어떤 세포로부터 유래된 것인지 다양하게 예측 및 분류할 수 있다. 즉, 본 발명은 5) ctCandi (circulating-target DNA Candidate index) 값에 대하여cfDNA 디콘볼루션 (deconvolution)을 수행하는 단계를 더 포함할 수 있다. 이때 예측 및 분류되는 대상은 정상 조직, 정상 세포, 질병 조직, 질병 세포와 같이 질병 유무뿐만 아니라, 초기 설정되는 타겟 마커셋에 따라 타겟 조직 또는 세포에서 유래한 cfDNA를 분류하는 것을 제한없이 포함한다.
예컨대 도출된 ctCandi가 높을수록, ctDNA 가 많이 존재하는 것으로 판단할 수 있으므로 타겟 유래 cfDNA가 체액내 존재하는 양이 많은 것으로 예측해 볼 수 있으므로, 검출 대상 시료인 타겟 조직 또는 세포의 사멸 또는 손상 정도를 유추할 수 있다. 따라서 본 발명의 타겟 유래 cfDNA 정량화 방법은 검출 대상이 되는 생물학적 시료의 건강 상태나, 다양한 질병, 예컨대 암 유무를 진단하거나 질병 정도를 예측하는데 활용할 수 있다.
본 발명에서 검출 대상이 되는 생물학적 시료는 액체 생검 시료일 수 있으며, 정상인 또는 환자 유래의 혈액, 혈청, 혈장, 타액, 눈물, 소변, 대변, 질액, 소화액, 뇌척수액 및 콧물로 이루어진 군에서 선택된 1종 이상을 포함하는 신체에서 유래되는 모든 액체화될 수 있는 물질들을 포함할 수 있고 바람직하게는 혈액, 혈장, 소화액, 소변 또는 대변일 수 있다.
본 발명은 또다른 양태로 다음과 같은 cfDNA를 이용한 건강 상태를 식별하는 방법을 제공한다:
1) 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 단계; 2) 상기 CpG 마커 사이트 정보를 기준으로 상기 입력된 서열 DNA 정보를 정렬하고, CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 타겟 특이적 영역 내 존재하는 서열 DNA 부위의 DNA 메틸화 밀도 (DNA Methylation density, DMD)를 계산하는 단계; 3) 상기 타겟 특이적 영역에 존재하는 DNA중 계산된 DMD 값이 역치값을 초과하는 DNA수를 ctDNA 후보 수로 정의하여 정규화하는 단계; 4) 정규화된ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계; 5) 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하는 단계; 및 6) 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 단계; 를 포함하고, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것인, 건강 상태를 식별하는 방법.
상기 건강상태는 시료의 질병 유무, 질병의 진행 정도, 예컨대 질병이 암인 경우 암의 병기에 대한 상태를 의미할 수 있다.
또한 상기 생체 정보는 시료 제공자의 성별, 나이, 질병 상태 등의 정보를 포함할 수 있다.
본 발명의 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트에 있어서 타겟은 조직 또는 세포를 의미할 수 있다. 예컨대 암 세포 특이적 CpG 마커로 추정된 CpG 마커 사이트를 본 발명의 방법에 이용하는 경우, 암에 관한 건강 상태를 식별할 수 있다.
본 발명에서 차세대 염기서열 분석법, 장서열 분석법, 패널, Chip, PCR와 같은 당 분야에 널리 이용할 수 있는 기술을 이용하여 측정된 시료 유래 cfDNA에서 얻을 수 있는 메틸화 정보를 서열 DNA 정보로써 입력받을 수 있으며, 메틸화 정도를 측정하여 도출되는 정보의 형태를 한정하지 않는다. 즉, 입력받는 cfDNA 메틸화 정보는, 공지의 DB 문헌의 정보를 활용하거나, 별도의 임상 시료를 이용하여 얻은 정보일 수 있다. 본 발명의 일 구현예에서는 종양에 대한 정보를 알고 있는 임상연구에서 수득된 임상시료 유래 cfDNA 및 한국 게놈 프로젝트(KGP)에서 수득된 정상 대조군 시료 유래 cfDNA를 차세대 염기서열 분석법, 예컨대 EM-seq (enzymatic methyl-sequencing)하여 각 시료의 cfDNA에 대한 정보를 생성하였다.
본 발명의 방법은 타겟 조직 또는 세포에 대한 메틸화 정보값을 갖는 CpG 마커 사이트에 대한 정보를 이용하여 수행될 수 있다. 즉, 상기 타겟 특이적 CpG 마커 사이트로 추정된 CpG 마커 사이트는, 타겟에 대한 정보를 제공할 수 있는 마커로 활용될 수 있는 부위이다. 타겟 조직 또는 세포에 대한 정보값을 갖는 CpG 마커 사이트에 대한 정보는 공지의 DB, 문헌의 정보를 활용하거나, 별도의 임상 시료를 이용한 학습과정을 통해 얻어진 정보를 활용할 수 있다.
본 발명에서는 도출된 ctCandi 정보를 이용하여 시료 제공자의 건강상태에 대한 확률값을 산출할 수 있다. 여기에서 건강 상태는 질병의 진단 또는 질병의 진행 정도(예: 암 병기)에 대한 확률을 의미할 수 있다.
상기 건강 상태에 대한 확률값은 5) 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하는 단계; 및 6) 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 단계; 를 포함하고, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 방법을 통해 출력될 수 있다.
보다 구체적으로 상기 확률값의 산출은 학습된 머신러닝을 이용하여 산출되며, 상기 학습된 머신러닝은 건강상태에 대한 정보, 예를 들면 정상 또는 질병군에 대한 기존 보유 데이터를 학습 데이터로 이용하여 학습된 것일 수 있다. 이와 같이 학습된 머신러닝에 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 하여 시료 제공자의 건강상태에 대한 확률값을 산출할 수 있다. 이떄 시료 제공자의 생체 정보는 테스트 데이터로 이용될 수 있다.
본 발명에 있어서 상기 머신러닝 알고리즘은 나이브 베이즈(Naive Bayes), KNN(K Nearest Neighbors), 랜덤 포레스트, 로지스틱 회귀 분석, 서포트 벡터 머신, 의사결정나무, 연관성 규칙 마이닝, 인공신경망, 선형 회귀, 순환 신경망 및 딥러닝 중 적어도 하나일 수 있다.
본 발명에서는 ctCandi 스코어와 시료제공자의 생체정보를 입력값으로 하여 상호 관련성을 분석함으로써, ctCandi 스코어와 건강상태, 질병의 진단 또는 질병의 진행 정도에 대한 확률을 산출할 수 있다. 예컨대, 복수개의 시료정보를 이용하여 ctCandi 스코어와 건강상태, 질병의 진단 또는 질병의 진행 정도에 대한 확률을 도출하고, 분석이 필요한 시료의ctCandi 값을 도출하여 이를 상기 확률에 산입하여 시료의 ctCandi에 따른 건강상태, 질병의 진단 또는 질병의 진행 정도(예: 암 병기)에 대한 확률을 산출할 수 있다.
또한 본 발명은 상기 건강 상태 식별 방법을 구현할 수 있는 장치를 제공한다.
상기 건강 상태를 식별하는 장치는 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 입력부; 상기 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 입력된 서열 DNA 정보를 정렬하고, 상기 타겟 특이적 영역 내 존재하는 서열 DNA의 메틸화 밀도 (DNA Methylation density, DMD)를 계산하고, 상기 타겟 특이적 영역에 존재하는 서열 DNA 중 계산된 DMD 값이 역치값을 초과하는 DNA수를 ctDNA 후보 수로 정의하여 정규화하며, 정규화된 ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하고, 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하며, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것이고, 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 프로세서; 및 상기 식별된 건강 상태 결과를 출력하는 출력부; 를 포함하는 건강 상태를 식별하는 장치일 수 있다.
본 발명 장치의 입력부를 통해 입력된 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보는 프로세서를 통해 처리된다. 상기 프로세서는 분석이 필요한 시료 유래 cfDNA의 ctCandi 정보를 도출하며, 이와 같이 도출된 ctCandi 정보는 분석이 필요한 시료의 건강 상태에 대한 정보, 예컨대 질병의 유무 또는 질병의 진행 정도에 대한 정보를 출력부를 통해 제공할 수 있다. 예컨대 미리 결정된 기준 값 (임계값) 이하의 ctCandi 값을 갖는 분석이 필요한 시료는 정상 시료인 것으로 판별하거나, 미리 결정된 기준 값을 초과하는 ctCandi 값을 갖는 분석이 필요한 시료는 건강상태가 정상범위에서 벗어나거나 질병으로 진단, 예측될 가능성이 높은 시료인 것으로 식별 또는 분류할 수 있다.
상기 장치에 있어서, 상기 식별된 건강 상태 결과는 타겟 조직의 건강 상태, 질병 유무 진단 또는 질병의 진행 정도에 대한 정보일 수 있고, 암의 유무 또는 암의 병기에 대한 정보일 수 있다.
또한 본 발명은 상기 cfDNA 메틸화 정보를 상호 보완하는 방법으로, cfDNA 단편의 다양한 정보들을 상호 교차 및 조합하여 활용하는 종양 유래 단편 (tumor originated fragment, TOF) 스코어링 방법을 이용한 암 진단 방법 및 암 진단 장치를 포함한다.
보다 구체적으로 상기 암을 진단하는 방법은 다음을 포함한다:
1) 진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 상기 건강 상태를 식별하는 방법으로 산출된 시료 제공자의 건강상태에 대한 확률값을 데이터로 입력받는 단계; 2) cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터를 입력받는 단계; 3) 상기 데이터를 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하는 단계; 및 4) 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 단계; 를 포함하는 암을 진단하는 방법.
상기 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델은 당 분야에 공지된 cfDNA 단편 특성과 암에 대한 정보를 입력 값으로 하여 도출된 정보를 포함하는 스코어링 모델을 제한없이 포함할 수 있다. 예컨대, 상기 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델은 cfDNA 리드의 5' 말단의 4개 염기서열 모티프의 빈도를 표준화(Standardization)하고, 도출된 표준화 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 표준화된 값을 입력 데이터로 생성하는, 말단 모티프 특성을 이용한 스코어링 모델; cfDNA 단편의 SFR(short fragment ratio) 값을 표준화(Standardization)하고, 도출된 표준화 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 표준화된 값을 입력 데이터로 생성하는, SFR 특성을 이용한 스코어링 모델; Jagged end length, Preferred end coordinates, Oriented end density, Motif Diversity Score, Window Protection Score, cfDNA integrity 또는 Nucleosomal footprinting을 스코어링 하여 정규화 또는 표준화하고, 상기 도출된 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 도출된 값을 입력데이터로 생성하는, cfDNA 단편특성을 이용한 스코어링 모델 중 하나 이상일 수 있다.
본 발명의 TOF 스코어 값을 이용하여 암을 진단하는 방법은 복수개의 모델에서 생성되는 입력 데이터를 모두 통합하여 하나의 결과값인 TOF 스코어를 도출하는 것을 특징으로 한다. 본 발명에서 암의 진단을 위해 사용하는 TOF 스코어 값은 값은 상기 1) 및 2) 단계에서 입력받은 데이터 정보를 입력으로 한 머신러닝 알고리즘 학습을 통해 획득된 값일 수 있고, 각 개별 입력값을 정규화 또는 표준화하고, 이를 머신 러닝하여 얻어진 정보를 통해 획득된 값일 수 있다. 이 때 상기 머신러닝 알고리즘은 앙상블 학습 모델일 수 있다. TOF 스코어에 대한 모식도는 도 8에 나타내었다. 복수개 모델의 입력 데이터는 미리 결정된 가중치를 부여하여 처리될 수 있으며, 이를 통해 복수개의 cfDNA 단편 정보와 암 정보와의 관련성을 포함하는 TOF 스코어가 도출될 수 있다.
본 방법의 일 구현예에서는 별도의 임상 시료를 이용한 학습과정을 통해 얻어진 정보를 활용할 수 있다. 본 발명의 일 구현예에서는 종양에 대한 정보를 알고 있는 임상시료 유래 cfDNA 및 한국 게놈 프로젝트(KGP)에서 수득된 정상 대조군 시료 유래 cfDNA를 차세대 염기서열 분석, 예컨대 EM-seq (enzymatic methyl-sequencin)하여 각 시료의 cfDNA에 대한 정보와 종양과의 관련성에 대한 정보를 생성하였다.
상기 정규화 및 표준화는 당 분야에 공지된 데이터 정규화 및 표준화 방법을 제한없이 이용할 수 있으나, Min-Max scaling, MaxAbs scaling, Standard scaling, Robust scaling으로 이루어진 군에서 선택되는 1종 이상 일 수 있다.
상기 말단 모티프 특성을 이용한 스코어링 모델은, cfDNA의 5' 말단의 1~20개 염기서열 모티프는 256가지 조합이 존재할 수 있고, 건강한 사람과 질병 환자의 말단 모티프의 조합 패턴은 차이를 나타낸다는 사실에 기초하여 5' 말단 모티프 비율(ratio)를 스코어링하는 모델이다. 복수개의 cfDNA 리드의 5' 말단의 1~20개 염기서열 모티프의 빈도의 표준화 값과 암 유무 또는 암 진행정도에 대한 정보가 학습되며, 이를 통해, 특정 값(스코어)와 암 진단 정보의 관련성이 도출될 수 있다.
상기 cfDNA 단편의 SFR(short fragment ratio) 특성을 이용한 스코어링 모델은, cfDNA 길이 프로파일은 통상 약 166bp에서 주요 피크를 나타내는 반면, 질병 환자의 cfDNA 길이는 건강한 대조군 대비 짧은 길이 값을 갖는다는 사실에 기초하여 스코어링하는 모델이다. SFR 스코어는 짧은 단편의 수를 긴 단편의 수로 나눈 값으로 정의되며 짧은 단편은 100bp 이상이면서 150bp 이하, 긴 단편은 151bp 이상이면서 220bp 보다 짧은 단편으로 정의된다. 복수개 시료의 SFR 스코어의 표준화 값과 암 유무 또는 암 진행정도에 대한 정보가 학습되며, 이를 통해, 특정 값(스코어)와 암 진단 정보의 관련성이 도출될 수 있다.
상기 cfDNA 단편특성을 이용한 스코어링 모델은, cfDNA 단편과 그 집합이 갖는 형태 (Topology), 뉴클레오솜 구조, DNA 변이정보 등의 특성들이 건강한 사람과 질환자의 패턴차이를 나타낸다는 사실에 기초하여 다양한 cfDNA 특성 각각을 대변하는 스코어링 모델이다. 복수개 시료의 cfDNA 단편특성 스코어의 표준화 값과 암 유무 또는 암 진행정도에 대한 정보가 학습되며, 이를 통해, 특정 값(스코어)와 암 정보의 관련성이 도출될 수 있다.
또한 본 발명은 상기 암을 진단하는 방법을 구현하는 암 진단 장치를 제공한다.
본 발명의 암 진단 장치는 진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 리드 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 상기 건강 상태를 식별하는 방법에 기재된 방법으로 산출된 시료 제공자의 건강상태에 대한 확률값 데이터; 및 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터;를 입력받는 입력부; 상기 입력된 데이터들을 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하고 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 프로세서; 및 상기 식별된 암 유무 또는 병기에 관한 결과를 출력하는 출력부를 포함할 수 있다.
이하, 본 발명을 구체적인 실험예 및 실시예에 의해 설명하나, 본 발명의 범주는 이에 제한되지 않는다.
실험예 1. 샘플 수집 및 가공
혈장 cfDNA를 추출하기 위하여, 암으로 진단받은 시점의 폐암 환자로부터 전혈을 Cell-Free DNA BCT tube (Streck)에 수집하였다. 일련의 과정은 CNUHH에서 승인한 IRB 프로토콜 (IRB no. CNUHH-2019-127)에 따라 수행하였다. 모든 환자 유래 시료들은 암 전문의에 의해 진단된 환자로부터 수득하였으며, 환자들은 모두 연구 프로젝트에 참여하는 것에 동의하였다. 혈액 시료에서 혈장을 분리하기 위하여 3,000rpm으로 10분 동안 4℃에서 원심분리하였으며, 혈장 내 세포 및 debris를 4℃에서 16,000g, 10분 조건의 추가적인 원심분리 과정을 통해 제거하였다. 혈장 시료는 이후 실험을 위하여 -80℃에서 보관하였다.
암 전문의가 암으로 진단한 폐암 환자 유래의 조직 시료를 동남권 원자력 의학원(DIRAMS)에서 승인한 IRB 프로토콜 (IRB no. D-2012-014-002)에 따라 동남권원자력 의학원으로부터 수집하였다. 조직 DNA 추출을 위하여, 조직을 액체 질소에서 막자 사발로 분쇄하고 분말을 세포 용해 용액 (2% CTAB, 1.4 M NaCl, 100 mM Tris-Cl (pH 8.0), 20 mM EDTA, β-mercaptoethanol(사용 직전 첨가, 100ul/10 ml))에서 균질화하였다. 이 후 이들을 혼합하고 단백질 분해효소 K를 첨가한 후 65℃에서 1.5 시간 동안 배양하였다. Phenol-chloroform-isoamylalcohol (25:24:1, PGI)을 동일한 부피로 용해물에 첨가하고 실온에서 10분 동안 12,000 rpm으로 원심분리하였다. 최상단 수용상을 분리하고 이에 1/12 부피의 5M NaCl 및 2 부피의 100% 에탄올을 첨가하였다. -20℃에서 30 분 동안 배양한 후, DNA 펠렛을 수집하고 원심분리하였다. 그 후 DNA 펠렛을 70% 에탄올로 세척하고 100ul의 이온교환 초정제수에 용해시켰다.
건강한 대조군의 혈장 시료는 암으로 진단받은 적이 없고 호흡기 질환이 없는 환자로부터 수집하였다. 임신한 여성은 대조군에서 제외하였으며, 모든 대조군 시료는 UNIST 의IRB 승인 (IRB No.: UNISTIRB-21-66-A)에 따라 한국 게놈 프로젝트(KGP)에서 수집하였다. KGP에서 실온에서 10분동안, 1,500g 및 4℃에서 3,000g 로 10분 동안 원심분리를 거쳐 전혈로부터 혈장시료를 분리하였고, 실험에 사용하기 전까지 -80℃에서 보관하였다.
cfDNA는 3 내지 5ml의 혈장에서 QIAamp Circulating Nucleic Acid Kit (QIAGEN, 55114) 또는 Apostle MiniMax™High Efficiency Isolation Kit (Beckman Coulter Life Sciences, C40603)를 이용하여 제조사 프로토콜에 따라 추출하였다. cfDNA의 농도는 Qubit dsDNA HS Assay Kit (Thermo Fisher Scientific) 로 측정하였으며, cfDNA의 퀄리티는 4150 TapeStation system (Agilent Technologies)를 이용하여 평가하였다. cfDNA의 순도가 80% 이상이고, 총 5ng 이상인 시료만 선별하여 이후 실험에 사용하였다.
실험예 2. 메틸화 검출을 위한 시퀀싱 라이브러리 제작
제조사의 프로토콜에 따라 NEBNext®Enzymatic Methyl-seq Kit (NEB)를 이용하여 효소 변형된 DNA 라이브러리를 구축하였다. 먼저 5 내지 10ng의 cfDNA를 단편화하고, 말단 수선 및 A-테일링 후, 증폭 어댑터를 이용하여 결찰시켰다. 그 후, 효소 변환의 첫번째 단계로 상기 어댑터 결찰된 DNA를 TET2 및 산화 인헨서를 이용하여 산화시켜, 5'-메틸시토신과 5'-하이드록시메틸시토신을 이후에 수행될 탈아민화로부터 보호하였다. 이 후, 두번째 효소적 전환 단계로 APOBEC을 이용하여 모든 시토신을 우라실로 탈아미노화하여 전환하였다. 이 과정에서, 5'-메틸시토신과 5'-하이드록시메틸시토신은 탈아미노화되지 않았다. 다음으로 효소 변환된 DNA를 PCR을 통해 증폭하였고, DNA를 분리하였다. 모든 라이브러리는 정량 및 정성 분석을 거쳤다. 라이브러리의 Paired-end 150bp 리드를 Illumina Novaseq 6000 platform으로 시퀀싱하였다. Illumina NovaSeq 6000 system을 이용하여 cfDNA EMseq 라이브러리로부터 FASTQ 파일을 생성하였다. Illumina adapter sequences 및 폴리-g-테일은 fastp (0.20.1) 로 트리밍하였고, 평균 Phred 퀄리티 스코어가 20bp 보다 낮거나, 20bp 보다 짧은 저품질의 리드는 fastp(0.20.1) 로 필터링하였다. 이러한 공정을 통해 전처리된 리드는 Bismark(0.22.3)을 이용하여 bisulfite로 변환된 hg38 참조 게놈 서열에 대하여 정렬하였다. 정렬 단계에서, 정렬되지 않거나 고유하게 맵핑되지 않은 리드들은 Bismark (0.22.3)로 제거하였다. 최종적으로 중복 리드들을 MarkDuplicates (2.25.0)로 제거하였다. 이와 같이 전처리된 bam 파일들을 이후 분석에 이용하였다.
한편 상기 EM-Seq에 사용된 139개의 NSCLC 혈장 시료는 전남국립대학교 화순병원(CNIHH)에서 NSCLC 환자 유래 혈장 시료를 수집하여 이용하였다. 대상자 선정 기준은 하기와 같다.
1) 18세 이상의 남녀
2) CNUHH의 바이오뱅크 기부 기증 동의서 서명
3) 폐암 진단 목적으로 2019 년 8월부터 2021년 5월까지 CNUHH를 방문한 환자 및
4) 조직학적 또는 세포학적으로 NSCLC 또는 SCLC 인 것으로 진단된 환자
대상자 제외 기준은 하기와 같다.
1) 의료 기록이 접근 불가능한 환자
2) 임신 또는 수유중인 여성
3) 폐 병변이 조직학 또는 세포학적으로 악성으로 확인되지 않은 환자
건강한 혈장 시료 (n=97)은 한국 게놈 프로젝트(KGP)에서 건강한 대조군 97명의 혈장 cfDNA 시료를 이용하였다. 건강한 대조군의 기준은 KGP 건강검진보고서 및 질환 자기보고 기준에 따랐다. 가능한 대조군과 실험 케이스의 나이를 매칭할 수 있도록 하였다.
실험예 3. 바이오인포메틱스 및 통계 소프트웨어
데이터 분석을 위한 스크립트는 python ver. 3. 8.5를 이용하였다. Python package Pysam (0.16.0.1)를 사용하여 bam 파일에서 리드의 메틸화, 단편 크기 및 말단-모티프 특징을 계산하였다. Python package Pandas (1.4.2)는 테이블 형식 테이터를 구성하는데 활용하였다. Python package Scipy (1.6.1)를 피어슨 상관계수 및 Wilcoxon Rank-Sum test를 포함한 통계 분석에 이용하였으며, python package Scipy (1.6.1)는 머신러닝 구축에 이용하였다. 모든 그래프 및 도면은 R package ggplot2 (3.3.6), grid (4.2.1) 및 data.table (1.14.2) packages를 이용한 R version 4.2.1. 를 이용하여 작성하였다.
메틸화 패턴, 단편의 크기 및 말단 모티프 서열 유형에 대한 분석 결과를 활용하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어를 도출하고, 이를 이용하여 환자에서 초기 폐암을 예측 및 진단하기 위한 새로운 진단 방법을 수립하였으며, 일련의 과정을 도 1a 및 도 1b에 나타내었다.
이하에서 각 진단 모델 및 통합 모델인 TOF 스코어링 모델에 대하여 상세히 설명한다.
실시예 1. cfDNA 메틸화 패턴을 이용한 진단 모델 구축
1.1 폐종양 특이적 CpG 마커 선발
cfDNA 메틸화 패턴을 이용한 진단 모델을 구축하기 위하여, ctDNA 생리학적 특정을 고려하여 폐암 환자에서 리드-기반 ctDNA를 검출하고 계수하고자 하였다. 즉 ctDNA의 메틸화 정도를 스코어링하여 이를 질병 진단에 사용한다.
먼저, 이를 위하여 공개된 DB인 TCGA(The Cancer Genome Atlas) 데이터베이스의 Infinium MethylationEPIC 어레이 데이터와 GEO(Gene Expression Omnibus)의 Infinium Methylation 450K 어레이 데이터를 사용하여 종양 특이적 메틸화 마커를 선별하였다. TCGA에서 219개의 폐 종양 조직 샘플과 190개의 정상 폐 조직 샘플을 비교 분석하여 종양 특이적 마커를 확인하였다. 종양 조직 샘플과 정상 조직 샘플 사이의 평균 베타 값의 차이가 0.15보다 높은 CpG 사이트를 초기에 선택하였다. 다음으로 GEO GSE40279의 건강한 혈액 샘플 656개를 이용하여 종양 조직 및 혈액 세포 모두에서 과메틸화된 CpG 사이트를 제외하였다. 또한, 건강한 혈액 샘플에서 평균 베타 값이 0.2보다 높은 CpG 사이트는 선택된 마커에서 제외하였다. 위의 과정에서 각 그룹의 샘플 중 절반에서 베타 값을 사용할 수 없는 CpG 사이트가 분석에서 제외되었다. 상기와 같은 과정을 거쳐 최종적으로 6243개의 CpG 사이트를 폐암 특이적 메틸화 마커로 선택하였다.
CpG 마커 선발의 과정을 도 1b CpG Marker selection에 나타내었다.
1.2 ctDNA 후보 수 인덱스 구축 (ctCandi)
각 개인의 시퀀싱 리드에 대한 메틸화 상태를 이용하여 폐 종양 기원 단편의 수준을 추정할 수 있는 ctDNA 후보 수 인덱스(ctDNA candidate count index, ctCandi) 라는 새로운 cfDNA 메틸화 정량화 분석 방법을 고안하였다. ctCandi 도출 과정을 도 2a 및 도 1b 중간에 나타내었다.
상기 1.1에서 선택된 6243개의 종양 특이적 메틸화된 CpG 마커 사이트에서 EM-seq 리드를 정렬하고 CpG사이트를 기준으로 상류 및 하류 100bp 부위에 위치한 리드들을 선별하여 ctCandi 계산에 사용하였다.
실험예 2의 방법으로 제조되는 모든 건강한 혈장 시료 및 종양 유래 cfDNA에서 유래된 EM-seq(enzymatic methyl-sequencing) 리드는 ctDNA 후보를 포함한다. 각 ctDNA 후보들은 6243개의 폐종양 특이적 메틸화 CpG 마커 사이트에서 분석되고, 각 ctDNA 후보군 수는 백만개의 맵핑화된 리드 당 수로 표준화되었다. 보다 구체적으로 선택된 6243 개의 폐종양 특이적 메틸화된 CpG 마커 사이트에서 ctDNA 후보군을 포함하는 EM-seq 리드를 정렬하였다. 선택된 폐종양 특이적 메틸화 마커 위치에서 상류 및 하류 100bp를 포함하는 영역의 각 리드에 존재하는 메틸화 밀도를 계산하였다. 각 리드 내 CpG 사이트의 평균 메틸화 비율을 DMD (DNA Methylation density) 로 정의하고, 0.6을 초과하는 DMD 값을 갖는 리드들은 ctDNA 리드 후보군으로 분류하였다. 각 CpG 사이트에 대한 후보 ctDNA 리드 수를 백만개의 맵핑화된 리드 당 수(counts per million mapped reads, CPM)을 이용하여 정규화하였다. ctCandi는 총 폐 종양조직 특이적 마커인 6243 개의 CpG 마커 사이트에 존재하는 정규화된 ctDNA 후보 수의 평균으로 계산하였다. 이러한 방법을 통해 개인별 질병 또는 정상 조직 유래 DNA 단편의 양을 수치화할 수 있으며, ctCandi 가 높을수록, ctDNA 가 많이 존재하는 것으로 판단할 수 있으므로 암 가능성이 높을 것으로 예측해 볼 수 있다. 일련의 ctCandi 도출의 예는 도 2a에 상세하게 기술되어 있다.
ctDNA 후보군의 수를 이용한 히트맵 결과를 도 2b에 나타내었다.
도 2b에 나타낸 바와 같이, 각 개인에 대하여 ctCandi 를 계산한 결과, NSCLC 군이 대조군과 비교하여 이전에 선택된 6243개의 CpG 사이트에서 평균적으로 더 많은 수의 ctDNA 후보군을 갖는다는 것을 확인하였다.
정상 또는 암 병기에 따른 시험 시료에 대한 ctCandi의 boxplot 결과를 도 2c에 나타내었다.
도 2c에 나타낸 바와 같이 ctCandi 스코어는 NSCLC의 후기 병기에서 더 증가하는 것을 확인하였고, 건강한 대조군과 폐암 환자 사이에서 유의적인 차이를 나타내었다. P 값은 Wilcoxon rank sum test에 의해 계산하였다.
추가적인 독립 검증 모델로, 동남권 원자력 의학원에서 제공받은 7개의 폐암 조직 샘플을 이용하였다. 모든 실험은 CNUHH의 IRB에서 승인되었다. ctCandi 스코어링 모델이 암과 정상군을 구분할 수 있는지를 확인하기 위하여, 조직 시료에 적용하였다. 먼저 ctCandi 점수를 시뮬레이션하고 예측하기 위하여 ctDNA 비율 측면에서 서로 다른 폐 종양 정도 수준 (0, 0.1%, 0.2%, 0.5% 및 1%)의 5개 세트를 구축하였다. 그 후 ctCandi 스코어링 방법을 이용한 종양 레벨 예측과 조직 시료의 결과가 잘 일치하는지 확인하였고, 그 결과를 도 2d에 나타내었다.
도 2d에 나타낸 바와 같이. ctDNA 비율을 이용한 in silico시뮬레이션 결과, 7개의 실제 폐 종양 시료에 대하여 높은 상관관계를 나타낸다는 것을 확인하였다: R=0.95, P = 8.4 × 10-8.
실시예 2. cfDNA 메틸화 및 단편 특징을 이용한 진단 모델 구축
건강한 대조군과 NSCLC 환자를 분류할 수 있는 머신 러닝 모델을 구축하기 위하여 다음 3가지 인자를 활용하였다: cfDNA의 메틸화, 말단-모티프 및 단편 크기 특징. 각 인자 기반 모델의 모식도를 도 3a 내지 도 3c에 나타내었다.
TCGA 에는 SCLC 메틸화 데이터가 존재하지 않으므로 케이스 그룹으로 NSCLC 환자 시료를 이용하였다. 메틸화 모델의 독립적인 검증을 위하여 NSCLC 환자의 조직 시료는 시뮬레이션 테스트에서만 사용하였다. NSCLC 및 건강한 대조군 시료의 2/3 (N=166, 70%)는 기계 학습 모델 구축을 위한 트레이닝 세트로 사용하였고, 나머지 시료 (N=70, 30%)는 테스트 세트로 사용하였다. SCLC 환자 유래 혈장 시료는 적용가능성을 확장하기 위하여 TOF 스코어링 방법에 적용되었다. NSCLC 환자 유래 혈장 시료 및 SCLC 환자 유래 혈장 시료는 선정은 실험예 2에 기재된 바와 같다.
모든 케이스 시료들은 조직학적으로 검사하였고, 다른 병기 단계에 따라 카테고리화하였다. NSCLC 시료들은 비슷한 비율로 선암종 및 편평세포 암종 하위 타입으로 분류되었다. 76개의 선암종 및 63개의 편평세포 암종이 확인되었다. 201 개의 암 시료 중 NSCLC에서 62건 및 SCLC에서 63건은 각각 IV 기 및 ED 로 분류된 전이성 환자였다.
대조군으로, 한국 게놈 프로젝트(KGP)에서 건강한 대조군 97명의 혈장 cfDNA 시료를 이용하였다. 건강한 대조군의 기준은 KGP 건강검진보고서 및 질환 자기보고 기준에 따랐다. 가능한 대조군과 실험 케이스의 나이를 매칭할 수 있도록 하였다.
환자의 혈액 또는 정상 조직 시료의 전체 게놈 시퀀싱을 수행하지 않았기 때문에, 상기 케이스들에 대해 중요한 분자 및 유전적 이상이 있는지에 대해서는 확인할 수 없었다. 모든 대조군 시료들은 전체 게놈 시퀀싱을 수행하였고, 유전적 이상을 발견하지 않았다.
본 실험에 사용된 실험군의 정보를 표 1에 나타내었다.
Figure PCTKR2023016767-appb-img-000001
67 개의 건강한 환자 및 99개의 NSCLC 환자의 학습/검증 데이터세트를 이용하여 각 cfDNA 특성에 기초한 로지스틱 회귀 분석 모델을 학습시키고, 검증하였다. Ridge regularization을 학습 단계에 적용하였다. 로지스틱 회귀 모델을 평가하기 위하여 5배 교차 검증(5-fold cross-validation)을 수행하였다.
cfDNA 후보군 기반 머신 러닝 모델
cfDNA 메틸화 특징에 기초한 분류 모델을 구축하기 위하여, 6243개의 CpG 사이트에서 실시예 1과 같이 정규화된 ctDNA 후보 수를 MinMax scaler를 이용하여 스케일링하고, 스케일링된 값을 입력 특징으로 이용하였다. 이때 스케일값은 최소 0 내지 최대 1이다.
테스트 세트에서 ctDNA 후보군 수 기반 폐암 진단 머신러닝 모델의 암 진단 결과를 도 4a 및 도 4b에 나타내었다.
도 4a 내지 도 4f에 나타낸 바와 같이, ctDNA 후보군 수 기반 폐 암 진단 모델은 0.908 의AUC값을 나타내어, 암 진단에 효과적임을 확인하였다. 도 4b에 따르면 후기 암 (II-IV) 및 건강한 대조군은 예측 값에서 통계적으로 유의한 차이를 나타내었다 (P = 3.1 × 107).
단편 말단-모티프 기반 머신 러닝 모델
특이적 단편 말단-모티프 (specific fragment end-motif) 특징에 기초한 분류 모델은 ctDNA의 단편적 특성을 활용하여 암을 진단하고자 하는 모델이다. Emseq리드의 5' 말단에서부터 4개의 염기서열로 이루어지는 4mer 말단 모티프 빈도를 계산하였다. 44인 256 개의 말단-모티프 빈도를 평균 0과 단위 분산의 스케일 값을 갖는 Standard scaler로 스케일링하였다. 상기 스케일링된 값을 분류 모델에서 입력 특징으로 사용하였다.
테스트 세트에서 말단-모티프 기반 머신 러닝 모델의 암 진단 결과를 도 4c 및 도 4d에 나타내었다.
도 4c 및 도 4d에 나타낸 바와 같이, 건강한 대조군과 폐암 환자를 0.892 AUC 값으로 분류할 수 있음을 확인하였다.
SFR(short fragment ratio) 기반 머신 러닝 모델
단편 크기에 기초한 분류 모델을 구축하기 위하여, DELFI 방법에 따라 SFR(short fragment ratio)을 정의하였다. SFR 은 짧은 단편의 수를 긴 단편의 수로 나눈 값으로 정의된다. 여기에서 짧은 단편은 100bp 이상이면서 150bp 이하, 긴 단편은 151bp 이상이면서, 220bp 보다 짧은 단편으로 정의하였다. Hg38 참조 게놈을 5Mb bins으로 쪼개고, 해당 bin에서 SFR을 계산하였다. 587 bin의 SFR 은 평균 0과 단위 분산의 스케일 값을 갖는 Standard scaler로 스케일링하였다. 상기 스케일링된 값은 분류 모델에서 입력값으로 사용하였으며, 데스트 세트에서 SFR-기반 머신 러닝 모델의 진단 결과를 도 4e 및 도 4f에 나타내었다.
도 4a 내지 도 4f에 나타낸 바와 같이, 테스트 세트에 대하여 획득한 SFR 기반 머신 러닝 모델의 평균 AUC 값은 평균 0.908 이였다. 또한 폐암 환자는 건강한 대조군과 비교하여 혈장 cfDNA의 짧은 단편 비율 (SFR) 이 상대적으로 높은 것을 확인하였다. 또한 암 분류 머신 러닝 모델에서 게놈-wide SFR 이 단독으로도 사용될 수 있음을 확인하였다.
말단-모티프 및 단편 크기와 같은 cfDNA 단편학적 특성은 통계적으로 유의하게 정상 대조군 샘플과 초기 암 샘플에서 차이를 나타내었다(P = 1 × 106 in the 5′end-motif-based model 및 P = 0.0039 in the SFR-based model).
따라서 이러한 cfDNA 단편 특성을 이용한 머신 러닝 모델의 분류 결과와 ctDNA 메틸화 특성을 이용한 머신 러닝 분류 결과를 조합하면 초기 폐암 환자 분류를 포함하여 더욱 정확한 폐암 시료의 구분이 가능할 것으로 예상하였다.
실시예 3. 종양 유래 단편 (Tumor originated fragment, TOF) 스코어링 모델의 구축
본 발명의 3가지 cfDNA 특성에 기초한 각 모델의 결과를 통합하는 분류 모델을 구축하였다.
입력특징으로 세가지 모델의 확률을 이용한 학습 및 검증 데이터 세트로 로지스틱 회귀 모델을 학습시켰다. 각 모델의 구축에 5배 교차 검증을 수행하였기 때문에, 각 배수에 대한 5개의 통합된 로지스틱 회귀분석 모델을 얻었다. TOF 스코어는 5개 회귀 모델에서 예측된 값의 평균으로 정의하였다.
TOF 스코어는 ctDNA 후보군 리드 수, 말단 모티프 및 SFR 특성에 대한 로지스틱 회귀 분석을 이용하는 앙상블 학습 모델에 기초하여 도출되었으며, 이에 기초한 암 진단 결과를 도 5에 나타내었다.
도 5a에 나타낸 바와 같이, TOF를 이용한 암 진단 테스트에서 평균 AUC 값은 0.98을 나타내었다(민감도 -95%, 특이도=96.7%). 특히 도 5b에 나타낸 바와 같이 TOF 스코어는 T1 단계의 N0/M0 NSCLC 환자군도 대조군에서 유의적인 차이를 나타내었고 (P = 0.004), 이러한 결과는 초기 단계 암 환자의 진단에 TOF 스코어링 모델이 유용할 수 있음을 나타내는 결과이다. 또한 도 6에 나타낸 바와 같이, TOF 스코어링은 건강한 대조군과 비교하여 NSCLC 아형인 선암종 (ADC) 및 편평세포 암종 (SQC)에서 유의적인 차이를 나타내었다.
한편 SCLC 포함하는 확장된 케이스 군에 TOF 스코어 컨셉을 추가적으로 적용하였으며, 도 5c에 나타낸 바와 같이 놀랍게도 NSCLC를 기초로 도출된 TOF 스코어링 모델이 SCLC에도 동일하게 적용될 수 있음을 확인하였다. SCLC에 적용된 모델에서 TOF 스코어는 limited stage 와 extensive stage를 포함하는 SCLC 환자군과 건강한 환자군을 구분할 수 있었다(P = 1.7 × 1012P = 3.5 × 1019, 각각). 따라서 본 발명의 스코어링 모델이 광범위한 폐암 환자 분류에 적용될 수 있음을 확인하였다.
이와 같이 도출된 TOF 스코어를 기반으로 폐암 가능성에 대한 위험도를 예측할 수 있으며, 도 7에 예시적으로 나타낸 바와 같이, 스코어 값 0 내지 1을 기준으로 0 내지 0.3은 질병 가능성이 낮고, 0.3 내지 0.4는 주의, 0.4 내지 1 은 질병 위험성이 있는 것으로 예측할 수 있게 된다.

Claims (16)

1) 생물학적 시료 유래 cfDNA 로 이루어진 서열 DNA를 타겟 특이적 CpG 마커 사이트를 기준으로 정렬하는 단계;
2) 상기 타겟 특이적 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 마커 영역으로 정의하고, 정렬된 DNA 중 상기 타겟 특이적 영역 내 존재하는 DNA의 메틸화 밀도(DNA Methylation Density; DMD)를 도출하는 단계;
3) 상기 타겟 특이적 영역에 존재하는 DNA 중 2) 단계에서 도출된 DMD 값이 역치 값을 초과하는 DNA 를 ctDNA(circulating-target DNA) 후보로 정의하고 ctDNA 후보 수를 계수하여 정규화하는 단계; 및
4) 각 타겟 특이적 영역에서 도출된 정규화된 ctDNA 후보 수의 평균을 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계; 를 포함하는, 타겟 유래 cfDNA 정량화 방법.
제1항에 있어서, 상기 DNA 메틸화 밀도 (DMD)는 DNA 한 분자 내에 존재하는 일부 또는 전체 영역에 대하여 메틸화된 CpG 의 수를 전체 CpG 수로 나눈 값인, 타겟 유래 cfDNA 정량화 방법.
제1항에 있어서, 상기 DNA 메틸화 밀도 (DMD) 도출을 위한 메틸화 정도 측정은 차세대 염기서열 분석법, 장서열 분석법, 패널, Chip 및 PCR로 이루어진 군에서 선택된 1종의 메틸화 측정 방법을 이용하여 측정되는 것인, 타겟 유래 cfDNA 정량화 방법.
제1항에 있어서, 상기 5) ctCandi (circulating-target DNA Candidate index) 값에 대하여 cfDNA 디콘볼루션 (deconvolution) 을 수행하는 단계; 를 더 포함하는 타겟 유래 cfDNA 정량화 방법.
제1항에 있어서, 상기 ctDNA는 체액 내 존재하는 cfDNA 중 타겟 조직 또는 세포에서 유리된 cfDNA인, 타겟 유래 cfDNA 정량화 방법.
제1항에 있어서, 상기 생물학적 시료는 액체 생검 시료인, 타겟 유래 cfDNA 정량화 방법.
제6항에 있어서, 상기 액체 생검시료는 혈액, 혈청, 혈장, 타액, 눈물, 소변, 대변, 질액, 소화액, 뇌척수액, 및 콧물로 이루어진 군에서 선택된 1종 이상인, 타겟 유래 cfDNA 정량화 방법.
1) 분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 단계;
2) 상기 CpG 마커 사이트 정보를 기준으로 상기 입력된 서열 DNA 정보를 정렬하고, CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 타겟 특이적 영역 내 존재하는 서열 DNA 부위의 DNA 메틸화 밀도 (DNA Methylation density, DMD)를 계산하는 단계;
3) 상기 타겟 특이적 영역에 존재하는 DNA 중 계산된 DMD 값이 역치값을 초과하는 DNA수를 ctDNA 후보 수로 정의하여 정규화하는 단계;
4) 정규화된 ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하는 단계;
5) 입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하는 단계; 및
6) 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 단계; 를 포함하고,
상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것인, 건강 상태를 식별하는 방법.
제8항에 있어서, 상기 머신러닝 알고리즘은 나이브 베이즈(Naive Bayes), KNN(K Nearest Neighbors), 랜덤 포레스트, 로지스틱 회귀 분석, 서포트 벡터 머신, 의사결정나무, 연관성 규칙 마이닝, 인공신경망, 선형 회귀, 순환 신경망 및 딥러닝 중 적어도 하나인, 건강 상태를 식별하는 방법.
분석이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받는 입력부;
상기 CpG 마커 사이트를 기준으로 인접한 주변 영역을 타겟 특이적 영역으로 정의하며, 상기 입력된 서열 DNA 정보를 정렬하고, 상기 타겟 특이적 영역 내 존재하는 서열 DNA의 메틸화 밀도 (DNA Methylation density, DMD)를 계산하고,
상기 타겟 특이적 영역에 존재하는 서열 DNA 중 계산된 DMD 값이 역치값을 초과하는 DNA 수를 ctDNA 후보 수로 정의하여 정규화하며,
정규화된 ctDNA 후보 수의 평균을 계산하여 ctCandi (circulating-target DNA Candidate index) 로 도출하고,
입력받은 시료 제공자의 생체정보와 ctCandi 정보를 입력으로 학습된 머신러닝을 이용해 시료 제공자의 건강상태에 대한 확률값을 산출하며, 상기 학습된 머신러닝은 시료 제공자의 생체 정보와 도출된 ctCandi 정보를 입력으로 건강 상태에 대한 확률값을 출력하는 것이고, 상기 산출된 확률값을 기준으로 상기 시료 제공자의 건강 상태를 식별하는 프로세서; 및
상기 식별된 건강 상태 결과를 출력하는 출력부; 를 포함하는 건강 상태를 식별하는 장치.
제10항에 있어서, 상기 식별된 건강 상태 결과는 타겟 조직의 건강 상태, 질병 유무 진단 또는 질병의 진행 정도에 대한 정보인, 건강 상태를 식별하는 장치.
1) 진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 DNA 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 제8항에 따른 방법으로 산출된 시료 제공자의 건강상태에 대한 확률값을 데이터로 입력받는 단계;
2) cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터를 입력받는 단계;
3) 상기 데이터를 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하는 단계; 및
4) 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 단계; 를 포함하는 암을 진단하는 방법.
제12항에 있어서, 상기 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델은
cfDNA 리드의 5' 말단의 4개 염기서열 모티프의 빈도를 표준화(Standardization)하고, 도출된 표준화 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 표준화된 값을 입력 데이터로 생성하는, 말단 모티프 특성을 이용한 스코어링 모델;
cfDNA 단편의 SFR(short fragment ratio) 값을 표준화(Standardization)하고, 도출된 표준화 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 표준화된 값을 입력 데이터로 생성하는, SFR 특성을 이용한 스코어링 모델;
Jagged end length, Preferred end coordinates, Oriented end density, Motif Diversity Score, Window Protection Score, cfDNA integrity 또는 Nucleosomal footprinting을 스코어링 하여 정규화 또는 표준화하고, 상기 도출된 값과 암 진단에 대한 정보를 머신러닝 알고리즘을 통해 학습시켜, 상기 도출된 값을 입력데이터로 생성하는, cfDNA 단편특성을 이용한 스코어링 모델 중 하나 이상인, 암을 진단하는 방법.
제13항에 있어서, 상기 TOF 스코어 값은 상기 1) 및 2) 단계에서 입력받은 데이터 정보를 입력으로 한 머신러닝 알고리즘 학습을 통해 획득된 값인, 암을 진단하는 방법.
제14항에 있어서, 상기 머신러닝 알고리즘은 앙상블 학습 모델인, 암을 진단하는 방법.
진단이 필요한 시료 유래 cfDNA 로 이루어진 서열 리드 정보, 시료 제공자의 생체정보 및 타겟 특이적 CpG 마커로 추정된 CpG 마커 사이트의 정보를 입력받아 제8항에 따른 방법으로 산출된 시료 제공자의 건강상태에 대한 확률값 데이터; 및 cfDNA 단편 특성을 이용한 타겟 유래 단편 스코어링 모델에서 도출된 스코어링 값과 질병 진단 정보의 상관관계에 대한 데이터;를 입력받는 입력부;
상기 입력된 데이터들을 정규화 또는 표준화하여 종양 유래 단편 (tumor originated fragment, TOF) 스코어 값을 도출하고 상기 TOF 스코어 값을 이용하여 상기 진단이 필요한 시료의 암 유무 또는 병기를 식별하는 프로세서; 및
상기 식별된 암 유무 또는 병기에 관한 결과를 출력하는 출력부; 를 포함하는 암 진단 장치.
PCT/KR2023/016767 2022-10-28 2023-10-26 Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법 WO2024091028A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0141324 2022-10-28
KR20220141324 2022-10-28
KR10-2023-0073754 2023-06-08
KR1020230073754A KR20240063745A (ko) 2022-10-28 2023-06-08 Cell-free DNA 를 이용한 건강 및 질병관리 시스템 및 방법

Publications (1)

Publication Number Publication Date
WO2024091028A1 true WO2024091028A1 (ko) 2024-05-02

Family

ID=90831398

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2023/016767 WO2024091028A1 (ko) 2022-10-28 2023-10-26 Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법

Country Status (1)

Country Link
WO (1) WO2024091028A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
KR20200032127A (ko) * 2017-07-12 2020-03-25 유니버시티 헬스 네트워크 메틸롬 분석을 이용한 암 검출 및 분류

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017212428A1 (en) * 2016-06-07 2017-12-14 The Regents Of The University Of California Cell-free dna methylation patterns for disease and condition analysis
KR20200032127A (ko) * 2017-07-12 2020-03-25 유니버시티 헬스 네트워크 메틸롬 분석을 이용한 암 검출 및 분류

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHIANG-CHING HUANG, MEIJUN DU, LIANG WANG: "Bioinformatics Analysis for Circulating Cell-Free DNA in Cancer", CANCERS, vol. 11, no. 6, 2019, pages 805, XP055697060, DOI: 10.3390/cancers11060805 *
KUN SUN, PEIYONG JIANG, K. C. ALLEN CHAN, JOHN WONG, YVONNE K. Y. CHENG, RAYMOND H. S. LIANG, WAI-KONG CHAN, EDMOND S. K. MA, STEP: "Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, NATIONAL ACADEMY OF SCIENCES, vol. 112, no. 40, 6 October 2015 (2015-10-06), pages E5503 - E5512, XP055374200, ISSN: 0027-8424, DOI: 10.1073/pnas.1508736112 *
SHULI KANG, QINGJIAO LI, QUAN CHEN, YONGGANG ZHOU, STACY PARK, GINA LEE, BRANDON GRIMES, KOSTYANTYN KRYSAN, MIN YU, WEI WANG, FRAN: "CancerLocator: non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA", GENOME BIOLOGY, vol. 18, no. 1, 1 December 2017 (2017-12-01), XP055682390, DOI: 10.1186/s13059-017-1191-5 *
YEO JIN KIM: "A method for early diagnosis of lung cancer from tumor originated DNA fragments using plasma cfDNA methylome and fragmentome profiles", MOLECULAR AND CELLULAR PROBES., ACADEMIC PRESS, LONDON., GB, vol. 66, 1 December 2022 (2022-12-01), GB , pages 101873, XP093161965, ISSN: 0890-8508, DOI: 10.1016/j.mcp.2022.101873 *

Similar Documents

Publication Publication Date Title
US20220127683A1 (en) Detecting mutations for cancer screening
US11984195B2 (en) Methylation pattern analysis of tissues in a DNA mixture
KR102587176B1 (ko) 혈장으로부터 태아 또는 종양 메틸롬의 비침습적 결정
US20200270707A1 (en) Methylation pattern analysis of haplotypes in tissues in a dna mixture
CN101353695B (zh) 尿沉淀dna甲基化谱式分析诊断膀胱癌的方法和试剂盒
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
CN108315418A (zh) 结直肠癌诊断、筛查与风险预测的方法、标志物与试剂盒
US8048634B2 (en) Cancer screening method
US20130122499A1 (en) System and method of detecting local copy number variation in dna samples
Stearman et al. A macrophage gene expression signature defines a field effect in the lung tumor microenvironment
WO2024091028A1 (ko) Cell-free dna를 이용한 건강 및 질병관리 시스템 및 방법
CN113817836B (zh) 一种结直肠癌筛查标志组合物及其选取方法、结直肠癌筛查试剂盒
CN114507738A (zh) 甲基化位点、检测甲基化水平的产品的用途及试剂盒
JP7144037B2 (ja) がんの診断用バイオマーカー
CN116783309A (zh) 用于检测和预测癌症和/或cin3的方法
KR20240063745A (ko) Cell-free DNA 를 이용한 건강 및 질병관리 시스템 및 방법
WO2024029988A1 (ko) 세포유리 dna를 이용한 관상동맥 측부순환 예측용 바이오마커 조성물, 키트 및 정보제공방법
KR102491322B1 (ko) 암 진단을 위한 다중 분석 예측 모델의 제조 방법
CN116200499B (zh) 一种用于肝癌检测的基因组合与相关试剂和应用
WO2024090805A1 (ko) 폐암 진단용 메틸화 마커 및 이의 조합
WO2024091052A1 (ko) 질병 및 정상 조직 특이적 후성유전체와 정상 체액의 후성유전체의 비교를 통한 질병 바이오마커의 발굴 방법
WO2024096536A1 (ko) 폐암 진단용 dna 메틸화 마커 및 이의 용도
KR20240059529A (ko) 폐암 진단용 메틸화 마커 및 이의 조합
CN117500938A (zh) 无细胞dna甲基化和核酸酶介导的片段化
CN115667544A (zh) 鉴定染色体外dna特征的方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23883133

Country of ref document: EP

Kind code of ref document: A1