WO2019066421A2 - Dna 복제수 변이 기반의 암 종 예측 방법 - Google Patents

Dna 복제수 변이 기반의 암 종 예측 방법 Download PDF

Info

Publication number
WO2019066421A2
WO2019066421A2 PCT/KR2018/011286 KR2018011286W WO2019066421A2 WO 2019066421 A2 WO2019066421 A2 WO 2019066421A2 KR 2018011286 W KR2018011286 W KR 2018011286W WO 2019066421 A2 WO2019066421 A2 WO 2019066421A2
Authority
WO
WIPO (PCT)
Prior art keywords
cancer
data
species
dna replication
copy number
Prior art date
Application number
PCT/KR2018/011286
Other languages
English (en)
French (fr)
Other versions
WO2019066421A3 (ko
Inventor
김광현
이동환
Original Assignee
이화여자대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이화여자대학교 산학협력단 filed Critical 이화여자대학교 산학협력단
Publication of WO2019066421A2 publication Critical patent/WO2019066421A2/ko
Publication of WO2019066421A3 publication Critical patent/WO2019066421A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to a method for predicting cancer species based on DNA replication number variation.
  • Cancer diagnosis is usually confirmed by history biopsy, physical examination, and clinical evaluation. Cancer diagnosis by clinical trials is only possible if the number of cancer cells is more than 1 billion and the diameter of cancer is more than 1 cm. In this case, the cancer cells already have the ability to transform, and at least half of them have already metastasized. In addition, tissue biopsy is invasive, which causes considerable inconvenience to the patient and often leads to cases where the biopsy can not be performed if the cancer patient is treated. In addition, tumor markers for monitoring substances produced directly or indirectly from cancer in cancer screening have been used, but even in the presence of cancer, more than half of the tumor marker screening results are normal, and even in the absence of cancer, Since it appears, its accuracy is limited.
  • Liquid biopsy is a non-invasive method and is a diagnostic technique that has attracted attention as an alternative to conventional invasive diagnostic and testing methods.
  • there is no large-scale study to confirm the efficacy of liquid biopsy in the diagnosis of cancer and there have been no studies on the differential diagnosis of ambiguous cancer or ambiguous cancer through liquid biopsy.
  • CNV copy number variation
  • SNP Single Nucleotide Polymorphism
  • the present inventors have made efforts to develop a non-invasive, sensitive, and highly specific cancer species predicting method, and as a result, they have developed a cancer prediction model by mechanically learning DNA replication data of various cancer species, It was confirmed that the pattern of DNA replication of the specimen obtained from the model and the actual patient coincided with each other and the cancer species can be predicted, thereby completing the present invention.
  • the present invention provides a method for generating a cancer classification model based on DNA replication number variation.
  • the present invention provides a method for generating a cancer species prediction model based on DNA replication number variation.
  • the present invention also provides a cancer species predicting method based on DNA replication number variation.
  • the present invention provides a cancer diagnosis method based on DNA replication number variation.
  • the present invention provides a cancer species predicting apparatus based on DNA replication number variation.
  • the present invention provides a cancer diagnosis apparatus based on DNA replication number variation.
  • the cancer species classification model, the cancer species prediction model based on the DNA replication number variation according to the present invention and the cancer species prediction method based on the DNA replication number variation using the DNA replication number variation are noninvasive, It is possible to predict cancer and to diagnose cancer with specific pathway.
  • the present invention makes it possible to predict cancer and diagnose various cancers using a single prediction model, and can be applied to liquid biopsy using an ideal diagnostic specimen, urine, blood, etc., .
  • FIG. 1 is a table showing the predictive performance of a cancer species prediction model created using Lassoylation and Random Forest.
  • FIG. 2 is a flow chart representation of a method for generating a cancer species prediction model of the present invention.
  • A obtaining DNA replication number variation data in a cancer species; (b) determining the copy number data as a data value of a corresponding position or interval by matching the copy number data to a predetermined section on a chromosome specific position or a base sequence; And (c) generating a cancer classification model based on the data values using a machine learning technique;
  • the present invention provides a method for generating a cancer classification model based on DNA replication number variation.
  • the cancer species classification model generated according to the cancer species classification model generation method according to the present invention is generated by applying a machine learning technique to the data values determined based on the DNA replication number variation data, When the DNA replication data obtained from an unknown sample is input, the unknown sample can be classified as a different cancer species including normal. Further, by using the machine learning technique, it is possible to classify priorities as to which kind of unknown sample belongs to which kind of cancer, so that when the unknown sample is classified as a priority cancer species, . That is, the cancer species classification model according to the present invention can ultimately function as a cancer species prediction model.
  • the present invention relates to a method for producing a DNA clone, comprising: (a) obtaining DNA replication number variation data from a cancer species; (b) determining the copy number data as a data value of a corresponding position or interval by matching the copy number data to a predetermined section on a chromosome specific position or a base sequence; And (c) generating a cancer species prediction model using a machine learning method based on the data value;
  • the present invention provides a method for generating a cancer species prediction model based on the DNA replication number variation.
  • the term " DNA &quot refers collectively to a genomic DNA or a fragment thereof obtained from a specimen collected from the subject, and includes cell-free DNA (cfDNA) or exosome DNA (exoDNA) .
  • the specimen may comprise a stored biological sample or genomic DNA isolated therefrom.
  • the storage may be stored by known methods.
  • the genomic DNA may be DNA or RNA derived from tissue stored at room temperature in cryopreserved or formalin-fixed paraffin embedded tissues. Methods for isolating genomic DNA from biological samples can be used without limitation as long as they are well known by those skilled in the art in conventional methods, for example, in related medical techniques.
  • Copy Number Variation means a variation of a genomic DNA repeatedly appearing when a relatively large region of a specific chromosome is deleted or amplified. For example, May overlap or be partially mutated.
  • the DNA replication number variation data in the step (a) may be collected from a public DB on genome information, preferably from an International Cancer Genome Consortium (ICGC) or a Cancer Genome Atlas (TCGA) Preferably, it may be collected from TCGA.
  • the total number of samples of the data collected from the TCGA is more than 20,000, and the above 20,000 samples are machine-learned based on learning materials. More specifically, the sample includes at least 100 replicate data for each cancer species, and includes normal data in TCGA in addition to the cancer replica variation data.
  • the cancerous prediction model according to the present invention can be used for the cancer diagnosis method by mechanically learning the normal data together with the cancer type replica number variation data.
  • the matching in step (b) means summarizing the DNA duplication number data collected in step (a) on the basis of a predetermined section on the chromosomal specific position or base sequence, Matching " or " summary " may be used interchangeably within this specification.
  • the matching criterion may preferably be at least one selected from the group consisting of a cytoband, a certain interval (eg, 100 ⁇ 50 kb) and a gene, and most preferably, it may be a cyto band, , DNA copy number variation data that is different for each object can be used without limitation as long as it can unify data in a certain form.
  • the term " cytoband " means the position of a cytogenetic band in a chromosome or a specific position on a chromosome.
  • the SAT Im band information may be collected from the public DB, preferably from UCSC Web site may be collected from the (https // genome ucsc edu /. .).
  • the cyto-band includes a chromosome number, a start position in genoSeq, an end position in genoSeq, a name of cytogenetic band, a Giemsa staining result, Giemsa stain results).
  • the inventors have summarized the replica variation data existing at different positions using the band information collected from the public DB. More specifically, log-2-transformed log-2 transformed data of various types of cancer DNAs are subjected to intermediate-normalized log-2 transformation by chromosomal and nucleotide sequence positions, The mean value of the intermediate value normalized log-2 transformed copy number variation data having the position coincident with the position of the sate band as a result of the matching is determined as the data value of the corresponding corto band Based on the data of the catechol bands, a model of cancer species was created using a machine learning method. The present invention is most notable in that the DNA replication data is matched to the cyto-band and the cancer-type classification model and the cancer species prediction model are generated using the machine learning technique.
  • various " predictive factors " (prediction factors) Quot can be used to apply a penalty regression model or an ensemble technique.
  • the explanatory variables may include, but are not limited to, demographic factors such as sex, age, race, and risk factors such as individual smoking and weight. Therefore, in the present invention, the data value of step (b) corresponding to the learning data of the machine learning may further include one or more explanatory variables selected from the group consisting of sex, age, race, smoking status, and body weight .
  • the machine learning method of the step (c) is characterized by being a penalty regression model or an ensemble technique.
  • the penalty regression model may be one of Ridge, LASSO and Elastic Net, preferably LASSO or Elastic Net, May be used, but regression analysis techniques to prevent overfitting can be used without limit.
  • the ridge penalty function is a continuous reduction method in which the l2 norm is a penalty point term, thereby improving the prediction performance through the bias-variance trade-off.
  • the LASSO Least Absolute Shrinkage and Selection Operator; Tibshirani, 1996) is a minimum absolute reduction selection operation that simultaneously selects and discriminates variables. To overcome the difficulty of selecting a variable in a high dimensional linear model, It is a kind of penalized likelihood method which is removed from the model by reducing to a near water number.
  • Elastic Net is proposed by Zou and Hasite (2005) in the form of convex combination of ridge regression model and LASSO penalization term.
  • LASSO which can select up to N variables due to the nature of the convex optimization problem, It is a way to overcome the limit.
  • the ensemble technique collectively refers to a technique that utilizes a plurality of learning algorithms in predictive modeling in machine learning.
  • the ensemble technique is a bagging technique including a random forest (Random Forest) Or boosting techniques, and stacking using multiple algorithms simultaneously. That is, the ensemble technique may be one of a random forest, bagging, boosting, and stacking.
  • the random forest algorithm is a kind of bagging algorithm consisting of decision trees of CART. It creates several decision trees, and each tree selects training samples and some of the feature variables at random and uses them for learning. In the prediction phase of the random forest, each tree individually determines the target variable, and then the algorithm collects the decisions of all the trees and makes the final decision.
  • the trees generated by the Random Vector with the same probability distribution are constructed independently, and when the number of the trees constructed is infinite, the misclassification is generalized and the random forest converges. Randomness and Out-of-bag (Random Selection without Replacement method is used to obtain the accuracy of Adaboost, and it shows strong performance at the interface and noise, and helps to converge faster than bagging and boosting.
  • the cancer species prediction model is a multi-category classification model.
  • the multi-category classification model is a predetermined function formula for estimating a probability value classified as a specific cancer species by receiving the replica variation data.
  • the cancer species may be selected from the group consisting of Bladder urothelial carcinoma, Breast invasive carcinoma, Cervical and endocervical cancers, Colon adenocarcinoma, Esophageal carcinoma, Glioblastoma multiforme, , Head and neck squamous cell carcinoma, Kidney Chromophobe, Kidney renal clear cell carcinoma, Kidney renal papillary cell carcinoma, Lung adenocarcinoma, Lung squamous cell carcinoma, Lung squamous cell carcinoma, Ovarian serous carcinoma, Acute myeloid leukemia, Brain Lower Grade Glioma, Liver hepatocellular carcinoma, Lung adenocarcinoma, cystadenocarcinoma, Pancreatic adenocarcinoma, Pheochromocytoma and Paraganglioma, Prostate adenocarcinoma, Rectum adenocarcinoma, Sarcoma, Skin Cutane
  • the cancerous species may be a urinary cancer, preferably a bladder cancer, a prostate cancer, a lymphocytic renal cell carcinoma, a clear cell type renal cell carcinoma, and a papillary renal cell carcinoma And the like.
  • the present invention also relates to a method for producing a DNA replication reaction comprising: (a) obtaining DNA replication number variation data from a cancer species; (b) determining the copy number data as a data value of a corresponding position or interval by matching the copy number data to a predetermined section on a chromosome specific position or a base sequence; (c) generating a cancer species prediction model using the machine learning method based on the data value; (d) inputting DNA replication variation data obtained from a specimen collected from a subject's body into the cancer species prediction model; And (e) generating cancer type prediction information for each subject based on the class label ranking of each cancer species predicted from the cancer type prediction model according to the input result;
  • the present invention provides a method for predicting cancer species based on DNA replication number variation.
  • the step (d) may include the step of determining a DNA copy number variation data as a data value of a corresponding position or interval by matching a predetermined section on a chromosome specific position or a base sequence; Respectively.
  • the specimen of step (d) may be selected from the group consisting of blood (whole blood), plasma, serum, urine, saliva, feces and tissue, preferably blood, plasma, serum and urine Lt; / RTI >
  • &quot means an indicator variable (label) indicating which group (class) corresponds to one normal and 27 cancer types per subject.
  • the genomic DNA contained in the sample may be fragmented to an arbitrary size, and the fragmentation may be performed by a method well known to a person skilled in the art.
  • the confirmation of the nucleotide sequence can be confirmed by, for example, a sequencing method.
  • the nucleotide sequence can be confirmed by a next-generation sequencing method.
  • the " next generation sequencing " (NGS) sculpts a full-length genome in a chip-based and PCR-based paired end format, It means a technique to perform sequencing at a very high speed.
  • Next-generation sequencing can generate a large amount of sequence data for a sample to be analyzed within a short time.
  • &quot refers to a base sequence database representing one species, and the donor base sequence may be used as is or in combination.
  • &quot insertion / deletion (indel) " refers to insertion or deletion of a short base sequence.
  • the term " mapping " refers to a method of comparing the sequence reads with a reference genome to investigate how the gene of interest has undergone a change from an existing gene base sequence It means work.
  • the mutation information is a copy number variation (CNV) sequence.
  • CNV copy number variation
  • the nucleotide sequence variation information (CNV) to be.
  • the term " subject" refers to any animal classified as a mammal that is suspected of having or suspected of having cancer, or a preventive examination for the onset of the disease, and includes animals and farm animals, primates and humans, For example, humans, non-human primates, cows, horses, pigs, sheep, goats, dogs, cats or rodents. Specifically, the subject is a human male or female of any age or race. &Quot; Subject " and " patient " are used interchangeably herein.
  • the cancer type prediction information for each subject may be provided in a form (for example, a heat map, etc.) visually summarized for each cancer type and band.
  • a form for example, a heat map, etc.
  • the present invention is not limited thereto.
  • DNA copy number variation data is obtained from a specimen collected from a subject's body, data pre-processing is performed by matching the DNA copy number variation data with a sate band, The data is log-2 converted into a sequencing data normalization program such as QDNAseq), and after determining the mean value of the matched DNA replication number variation data as the data value of the corresponding interval, To evaluate the cancer species predicting method according to the present invention.
  • the cancer type prediction information outputted as an input result includes priority classification information (class label ranking) as to which kind of cancer the specimen belongs to, and the user can determine from the classification information which kind of cancer the subject has Can be predicted with priority.
  • the inventors of the present invention evaluated DNA replication data obtained from the specimen using the bladder cancer and prostate cancer specimens in a prediction model of cancer according to the present invention and predicted the cancer within a rank of 5.
  • the present invention also relates to a method for producing a DNA replication reaction comprising: (a) obtaining DNA replication number variation data from a cancer species; (b) determining the copy number data as a data value of a corresponding position or interval by matching the copy number data to a predetermined section on a chromosome specific position or a base sequence; (c) generating a cancer species prediction model using the machine learning method based on the data value; (d) inputting DNA replication variation data obtained from a specimen collected from a subject's body into the cancer species prediction model; And (e) generating cancer diagnosis information for each subject based on the class label rank of each cancer species predicted from the cancer type prediction model according to the input result;
  • the present invention provides a method for diagnosing cancer based on DNA replication number variation.
  • the step (d) may include the step of determining a DNA copy number variation data as a data value of a corresponding position or interval by matching a predetermined section on a chromosome specific position or a base sequence; Respectively.
  • the term " diagnosing" is intended to include determining the susceptibility of an object to a particular disease or disorder, determining whether an object currently has a particular disease or disorder, Determining the prognosis of an object (e.g., identifying a pre-metastatic or metastatic cancerous condition, determining the stage of a cancer, or determining the response of a cancer to treatment), determining the presence or absence of a disease, such as therametrics To monitor the status of the object in order to provide information about the cancer, to select cancer species that are likely to develop through scoring, or to check the scoring result to determine whether an object currently has a specific cancer species .
  • A an information obtaining module for obtaining data on DNA replication variation data obtained from a specimen collected from a subject's body;
  • a transform module for matching the replica variation data with a predetermined section on a chromosomal specific position or a base sequence and determining the data value as a position or a range of data;
  • a cancer type prediction information generation module for generating cancer type prediction information for each subject by inputting the converted copy number variation data into the cancer type prediction model generated through the method of claim 2;
  • the present invention provides a cancer species predicting apparatus based on DNA replication number variation.
  • the apparatus for predicting a kind of cancer may be implemented as a module implemented with one or more processing units, and a combination of a microprocessor having an array of a plurality of logic gates and a memory module in which a program executable in the microprocessor is stored.
  • the cancer species predicting device may be implemented as a module of an application program.
  • A an information obtaining module for obtaining data on DNA replication variation data obtained from a specimen collected from a subject's body;
  • a transform module for matching the replica variation data with a predetermined section on a chromosomal specific position or a base sequence and determining the data value as a position or a range of data;
  • a cancer diagnosis information generation module for generating cancer diagnosis information for each subject by inputting the converted copy number variation data into the cancer species prediction model generated by the method of claim 2;
  • a DNA replication-based mutation-based cancer diagnostic apparatus for generating cancer diagnosis information for each subject by inputting the converted copy number variation data into the cancer species prediction model generated by the method of claim 2.
  • the method for predicting a cancer species prediction model, the method for predicting a cancer species and the method for diagnosing cancer based on the DNA replication number variation according to the present invention may be implemented in a form of a program command which can be performed through various computer means and recorded on a computer- .
  • the computer-readable recording medium includes all kinds of recording devices that store data that can be read by a computer system, and may include program commands, data files, data structures, etc., alone or in combination.
  • the program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software.
  • Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Includes hardware devices specifically configured to store and execute program instructions such as magneto-optical media and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • cancer type CNV data samples were obtained through the large-scale genomic data, TCGA Data Portal (https://cancergenome.nih.gov/). Twenty-seven cancer samples with a number of samples of 100 or more by cancer type and 20,715 sample data were obtained as a normal sample as shown in Table 1 below.
  • TCGA samples have the following sample type codes.
  • Code 01, 02, 03, 05 and 06 which are Tumor types, are classified as diseases, and Normal types Code 10, 11 and 12 are classified as normal The label was divided into Normal and Tumor.
  • the replica number data of the TCGA sample needs to be obtained in a predetermined range for each sample.
  • the location information of the cytoband obtained from the UCSC website https://genome.ucsc.edu/
  • the average value of the replica variation data at the position overlapping the chromosome in the TCGA sample and the position interval of each band is calculated as the data value in the corresponding band.
  • a prediction model was created using a machine learning method.
  • the Rasso's denotation classification method uses the given CNV data to calculate the conditional probability
  • the following objective function (penalty negative-logarable derivative) Q ( , ... , ) ≪ / RTI > , ... , .
  • the penalty function in the objective function Performs a function of increasing prediction performance while selecting a small number of significant bit bands necessary for prediction. In order to avoid excessive summing, a control parameter The optimum value of
  • Random Forest Random Forest
  • Fig. 1 shows the results of the test for the prediction of the cancer species prediction model using Rasso's penalization and random forests.
  • the prediction accuracy, specificity, and sensitivity for each class label were obtained to evaluate the prediction performance.
  • the accuracy of prediction is the ratio of the number of data that exactly matches normal cancer type to the cancer type in all 6163 data.
  • the specificity is the ratio of the normal group to the normal group, To the total number of cancer patients. At this time, it was estimated that the predicted cancer gene was predicted within 5 rank.
  • the predictive accuracy of the two methods was 94.65% in the case of the Lasso penalization method and 93.30% in the case of the random forest, and it was confirmed that the prediction accuracy was very high, Showed that both of the Rasso penevalization method and Random Forest exceeded 99% and made very accurate predictions.
  • Sensitivity of each cancer type was also higher than other types of cancer, but it was generally higher than other cancer types. In particular, breast cancer, glioblastoma, serous ovarian cancer, and testicular cancer were highly sensitive.
  • the accuracy of the Rasso penevalization method and the random forest prediction accuracy are 79.3% and 77.4%, respectively, and the sensitivity of each cancer type is also generally high, .
  • breast cancer 78.96% / 78.35%)
  • glioblastoma 81.71% / 85.98%)
  • clear cell type neoplasia 83.54% / 89.58%)
  • serous ovarian cancer 83.54% / 89.58%) were found to be highly sensitive (Lasso obesity method / result of random forest use respectively).
  • FIG. 2 is a flow chart illustrating a method of generating the cancer species prediction models of Examples 1-1 to 1-4.
  • the specimen was sampled from the body of the target subject of cancer prediction and the DNA replication data obtained from the specimen was input to the cancer prediction model generated in Example 1 to predict the cancer species of the subject.
  • Urine samples were collected before surgery.
  • cell-free DNA or exon DNA (exosome DNA, exoDNA) was extracted from each patient.
  • exosome DNA fragmented DNA of 150-180 bp size was obtained from 2 ml of urine using a magnetic bead technique.
  • exosome exosome was isolated from 10 ml urine using ExoQuick kit, and DNA was isolated using exosome kit.
  • Example 2-1 Whole genome sequencing was performed on the separated DNA obtained in Example 2-1. Specifically, low-depth whole genome sequencing (ldWGS) was performed to minimize the amount of analysis data. DNA extracted from urine exoDNA was fractionated to an average size of 180 bp using Bioruptor®Pico (Diagenode diagnostics, Belgium). The fragmentation step was not performed in urine cfDNA. A sequencing library was constructed and the library was augmented with a KAPA HiFi HotStart PCR kit (Kapa Biosystems, Boston, USA). ldWGS was performed using Illumina Hiseq equipment (Illumina, San Diego, Calif.).
  • ldWGS was performed with a low genomic coverage of less than 1 X and an average of 20.4% of the genomic region was sequenced with more than 1 X genomic coverage. As a result, it was confirmed that the whole gene sequence data generated by Illumina Hiseq equipment was about 1 gigabyte corresponding to 1/3 of whole genome region.
  • the nucleotide sequence of each sample decoded by ldWGS was stored in FASTQ format.
  • the data of the FASTQ file obtained from each sample was subjected to data preprocessing to perform the copy number data preprocessing.
  • the DNA library prepared as described in Example 2-2 above was sequenced to obtain base sequence data reads.
  • the obtained nucleotide sequence data was mapped to the UCSC human genome (GRCh37 / hg19) using a Burrows-Wheeler aligner (BWA, version 0.7.10).
  • BWA Burrows-Wheeler aligner
  • the SAM standard format was used to extract the nucleotide sequence variation information from the mapping information.
  • Sequence alignment map (SAM) files were converted to BAM format using SAMtools (version 1.1) and duplicate DNA sequences were sorted and removed from the analysis using the Picard tool (version 1.115).
  • mapping files of the standardized sequence data have been improved in mapping quality by performing insert-deletion indent realigning and base accuracy recalibration in GATK (version 2.3.9).
  • the copy number variation (CNV) was analyzed with the QDNAseq pipeline (version 1.12.0).
  • QDNAseq improves the accuracy of replica number analysis by performing normalization and blacklist filter based on GC content and mapping rate, and it is possible to analyze replica number variation in low-depth and shallow data.
  • a 100 kb bin was used for allocation of the base sequence data.
  • the GC mappability was corrected and the problematic region was excluded in sequence.
  • the median-normalized log-2 transformed nucleotide sequence data count was calculated for each 100 k section of the nucleotide sequence data. Then, the log-2 transformed DNA replication number variation data was matched with the sate band obtained from the UCSC website (https://genome.ucsc.edu/) to perform data preprocessing. That is, the average value of the replica number data at the position where the chromosome is identical and overlaps with the position of the band is calculated as the data value of the corresponding band. Statistical analysis was performed with R (version 3.2.5, http://www.r-project.org).
  • DNA replication data obtained from the sample obtained in Example 2-3 was input to a cancer prediction model according to the present invention to generate cancer prediction information for bladder cancer and prostate cancer.
  • the DNA replication frequency data were subjected to the classification of 28 class labels (27 cancer types + Normal) using the cancer species prediction model (Lasso obesity, random forest) generated in Example 1-3 And predicted bladder cancer or prostate cancer within 5 ranks.
  • the predictive accuracy of bladder cancer and prostate cancer was 88% and 76%, respectively, when using the Rasool method, and the prediction accuracy of bladder cancer and prostate cancer was 88% and 95%, respectively, when random forest was used. And the prediction performance of the prediction model of cancer species is very high. Sensitivity and specificity are shown in Table 3 below.
  • cancer type classification model cancer species prediction model based on the DNA replication number variation according to the present invention
  • cancer type prediction method based on the DNA replication number variation using the DNA replication number variation according to the present invention are suitable for the representative urinary cancer bladder cancer and prostate cancer patients And it was confirmed that it can be diagnosed and diagnosed. Accordingly, the present invention has proved that it is possible to discriminate cancerous species which are noninvasive, highly sensitive and specific, and to diagnose ambiguous cancer.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법에 관한 것이다. 본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 적절한 기계학습 알고리즘을 활용함으로써 통상적인 방법보다 비침습적이며 높은 민감도 및 특이도로 암 종을 예측 및 암을 진단할 수 있다. 특히, 본 발명은 하나의 예측 모형을 이용하여 다양한 암 종의 예측 및 암의 진단을 가능하게 하며, 이상적인 진단검체인 소변, 혈액 등을 이용한 액상 생검에 적용 가능하여 향후 암 진단 및 유전체 시장에서 유용하게 활용될 수 있다.

Description

DNA 복제수 변이 기반의 암 종 예측 방법
본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
이와 같은 통상적인 암 진단 방법의 문제점을 보완할만한 비교적 간편하고 비침습적이며 높은 민감도 및 특이도를 가진 암 진단 방법의 요구에 따라, 최근 암의 진단, 추적 검사로 환자의 체액을 활용하는 액상생검(liquid biopsy)이 많이 이용되고 있다. 액상생검은 비침습적(non-invasive)인 방법으로, 기존의 침습적인 진단 및 검사방법의 대안으로 주목 받고 있는 진단기술이다. 그러나, 아직 암의 진단 방법에 있어서 액상생검의 효과를 확인한 대규모 연구결과는 없으며, 액상생검을 통해 모호한 암의 진단 또는 모호한 암 종의 감별을 수행한 연구결과는 전무한 실정이다.
한편, 최근 NGS(Next Generation Sequencing) 기술을 이용한 인간의 유전체 분석 발전으로 유전체 분야에서 다양한 바이오 신기술이 연구되고 있으며, 전세계 유전체 시장 규모는 2013년 기준 111억 달러(11조 8천억원)에서 연평균 12.2%로 성장할 것으로 전망되고, 2018년에는 198억 달러(21조)의 시장 규모를 가질 것으로 예측된다.
NGS가 활용될 수 있는 유전적 변화 중 하나인 복제수 변이(copy number variation, CNV)는 인간 유전체의 개인별 변이에서 구조 변이에 해당하는 것으로, 인간 유전자의 다형성의 주요 부분에 대해 설명하고 일반적인 질병에 대한 유전적 민감성에 중요한 역할을 한다는 것이 예측되어왔다. 복제수 변이는 오직 하나의 염기에만 영향을 주는 단일 염기 다형성(Single Nucleotide Polymorphism, SNP)을 넘어서는 유망한 구조적 변형의 한 종류이다. 복제수 변이는 사이즈 면에서 ~1 키로베이스(kilobase) 내지 여러 메가베이스(megabase)로 다양하다.
이에, 본 발명자들은 비침습적이고 민감도 및 특이도가 높은 암 종 예측 방법을 개발하고자 노력한 결과, 다양한 암 종의 DNA 복제수 변이 데이터를 기계학습하여 암 종 예측 모형(prediction model)을 생성하고, 상기 모형과 실제 환자로부터 수득한 검체의 DNA 복제수 변이 패턴이 일치하여 암 종을 예측할 수 있음을 확인하여 본 발명을 완성하게 되었다.
따라서, 본 발명은 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 장치를 제공하는 것을 목적으로 한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 장치를 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위하여, 본 발명은 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 방법을 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 종 예측 장치를 제공한다.
또한, 본 발명은 DNA 복제수 변이 기반의 암 진단 장치를 제공한다.
본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 적절한 기계학습 알고리즘을 활용함으로써 통상적인 방법보다 비침습적이며 높은 민감도 및 특이도로 암 종을 예측 및 암을 진단할 수 있다. 특히, 본 발명은 하나의 예측 모형을 이용하여 다양한 암 종의 예측 및 암의 진단을 가능하게 하며, 이상적인 진단검체인 소변, 혈액 등을 이용한 액상 생검에 적용 가능하여 향후 암 진단 및 유전체 시장에서 유용하게 활용될 수 있다.
도 1은 라쏘 벌점화, 랜덤포레스트를 이용하여 만든 암 종 예측 모형의 예측 성능을 표로 나타낸 것이다.
도 2는 본 발명의 암 종 예측 모형을 생성하는 방법에 대한 흐름도(flow chart representation)를 나타낸 것이다.
이하, 본 발명을 보다 상세하게 설명한다.
본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및 (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 분류 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법을 제공한다.
본 발명에 따른 암 종 분류 모형 생성 방법에 따라 생성된 암 종 분류 모형은 DNA 복제수 변이 데이터를 바탕으로 결정된 자료값에 대하여 머신러닝 기법을 적용하여 생성된 것으로, 대상자의 신체에서 분리하여 채취한 미지의 샘플에서 얻은 DNA 복제수 변이 데이터를 입력할 경우 상기 미지의 샘플을 정상(normal)을 포함한 서로 다른 암 종으로 분류할 수 있다. 나아가, 머신러닝 기법을 활용함에 따라 미지의 샘플이 어떤 암 종에 속하는지에 대한 우선순위 분류가 가능하여, 미지의 샘플을 우선순위 암 종으로 분류할 시 상기 대상자는 우선순위 암 종을 갖는 것으로 예측할 수 있다. 즉, 본 발명에 따른 암 종 분류 모형은 궁극적으로는 암 종 예측 모형으로 기능할 수 있다.
따라서, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및 (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법을 제공한다.
본 발명에 있어서, 용어 “DNA”는 상기 대상으로부터 분리하여 채취한 검체로부터 얻은 유전체 DNA 또는 이의 단편을 총칭하며, 세포 유리 DNA(cell-free DNA, cfDNA) 또는 엑소좀 DNA(exosome DNA, exoDNA)를 포함한다. 상기 검체는 보관된 생물학적 시료 또는 그로부터 분리된 유전체 DNA를 포함하는 것일 수 있다. 상기 보관은 알려진 방법에 의하여 보관된 것일 수 있다. 상기 유전체 DNA는 냉동 보관 또는 포르말린 고정된 파라핀 임베디드된 조직을 상온에서 보관한 조직으로부터 유래된 DNA 또는 RNA일 수 있다. 생물학적 시료로부터 유전체 DNA를 분리하는 방법은 통상적인 방법, 예를 들면, 관련 의학 기법에서 당업자에 의해 잘 공지된 방법이라면 제한 없이 사용할 수 있다.
본 발명에 있어서, 용어 "복제수 변이(Copy Number Variation, CNV)"는 특정 염색체의 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전체 DNA의 변이를 의미하는 것으로, 예를 들면 1kB 이상의 DNA 조각이 중첩되어 존재하거나 일부가 결실되는 변이일 수 있다.
본 발명에 있어서, 상기 (a) 단계의 DNA 복제수 변이 데이터는 게놈정보에 관한 공개 DB로부터 수집한 것일 수 있으며, 바람직하게는 ICGC(International Cancer Genome Consortium) 또는 TCGA(The Cancer Genome Atlas), 보다 바람직하게는 TCGA로부터 수집한 것일 수 있다. 본 발명의 일 실시예에 있어서, 상기 TCGA로부터 수집한 데이터의 총 샘플 수는 20,000개 이상으로 상기 20,000 여 개의 샘플을 학습 자료를 기반으로 기계학습 하였다. 보다 상세하게는, 상기 샘플은 각 암 종 별로 100개 이상의 복제수 변이 데이터를 포함하며, 각 암 종 복제수 변이 데이터 외에 TCGA 내 정상 데이터도 포함하는 것을 특징으로 한다. 상기 정상 데이터를 함께 암 종 별 복제수 변이 데이터와 함께 기계학습 시킴에 따라 본 발명에 따른 암 종 예측 모형은 암 진단 방법에도 사용될 수 있다.
본 발명에 있어서, 상기 (b) 단계의 매칭(matching)은 (a) 단계에서 수집한 DNA 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간을 기준으로 요약하는 것을 의미하며, 상기 “매칭” 또는 “요약”은 본 명세서 내에서 서로 혼용하여 사용될 수 있다. 상기 매칭 기준은 바람직하게는 싸이토밴드(cytoband), 일정 구간(ex. 100 ± 50 kb 단위) 및 유전자로 이루어진 군으로부터 선택된 하나 이상일 수 있고, 가장 바람직하게는 싸이토밴드일 수 있으나, 샘플 별, 대상체 별로 다르게 나타나는 DNA 복제수 변이 데이터를 일정한 형태로 통일시킬 수 있는 것이라면 제한 없이 사용할 수 있다.
본 발명에 있어서, 용어 “싸이토밴드(cytoband)”는 염색체 내의 세포유전학적 밴드(cytogenetic band)의 위치 내지 염색체 상의 특정 위치를 의미한다. 본 발명에 있어서, 상기 싸이토밴드 정보는 공개 DB로부터 수집한 것일 수 있고, 바람직하게는 UCSC 웹사이트(https ://genome. ucsc . edu /)로부터 수집한 것일 수 있다. 상기 싸이토밴드는 염색체 번호(chromosome number), genoSeq에서의 시작점(start position in genoSeq), genoSeq에서의 종점(end position in genoSeq) 세포유전학적 밴드의 명칭(Name of cytogenetic band), Giemsa 염색 결과(Giemsa stain results) 등의 정보를 포함한다.
샘플 별, 대상체 별로 다르게 나타나는 DNA 복제수 변이 데이터를 싸이토밴드에 매칭하면 데이터 전처리(preprocessing)의 역할을 훌륭히 수행하여 머신러닝 구현에 용이하고, 분석에 소요되는 시간이 감소함과 동시에 예측 정확도를 증가시킨다. 뿐만 아니라, 싸이토밴드에 매칭된 DNA 복제수 변이 데이터로부터 생물학적인 설명이 가능해 이로부터 의사 또는 임상 병리사가 결과 해석 또는 분석을 용이하게 할 수 있다는 장점이 있다.
본 발명의 일 실시예에 있어서, 본 발명자들은 공개DB로부터 수집한 싸이토밴드 정보를 이용하여 서로 다른 위치에 존재하는 복제수 변이 데이터를 요약하였다. 보다 상세하게는, 다양한 암 종 별 DNA 복제수 변이 데이터를 염색체 및 염기서열 상 위치 별로 중간값 정규화된 log-2 변환하여 log-2 변환된 복제수 변이 데이터를 얻고, 상기 log-2 변환된 복제수 변이 데이터를 싸이토밴드(cytoband)와 매칭하고, 상기 매칭 결과 싸이토밴드와 위치가 일치하는 중간값 정규화된 log-2 변환된 복제수 변이 데이터의 평균값을 해당 싸이토밴드의 자료값으로 결정하고, 상기 싸이토밴드의 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하였다. 본 발명은 DNA 복제수 변이 데이터를 싸이토밴드에 매칭하고 이를 기반으로 머신러닝 기법을 사용해 암 종 분류 모형 및 암 종 예측 모형을 생성한 것에 가장 큰 특징이 있다.
본 발명에 있어서, 상기 (c) 단계의 머신러닝 기법을 이용한 암 종 분류 모형 또는 암 종 예측 모형 생성시에는 상기 모형의 분류 또는 예측 정확도를 높일 수 있을 것으로 판단되는 다양한 “설명변수(예측인자)”를 포함하여 벌점화 회귀 모델 또는 앙상블 기법을 적용할 수 있다. 상기 설명변수(예측인자)로는 성별, 나이, 인종과 같은 인구통계학적 요소와 개인의 흡연여부, 체중과 같은 위험 요소가 포함될 수 있으나 이에 제한되는 것은 아니다. 따라서, 본 발명에 있어서, 상기 머신러닝의 학습 데이터에 해당하는 (b) 단계의 자료값은 성별, 나이, 인종, 흡연여부 및 체중으로 이루어진 군으로부터 선택되는 하나 이상의 설명변수를 더 포함할 수 있다.
본 발명에 있어서, 상기 (c) 단계의 머신러닝 기법은 벌점화 회귀 모델 또는 앙상블 기법인 것을 특징으로 한다.
본 발명에 있어서, 상기 벌점화 회귀 모델은 릿지(Ridge), 라쏘(LASSO) 및 엘라스틱 넷(Elastic Net) 중 어느 하나를 사용한 것일 수 있고, 바람직하게는 라쏘(LASSO) 또는 엘라스틱 넷(Elastic Net)을 사용한 것일 수 있으나, 과최적화(overfitting)을 방지하기 위한 회귀 분석기법이라면 제한 없이 사용할 수 있다.
상기 릿지(Ridge) 벌점 함수는 l2 노름(norm)을 벌점화 항으로 하는 연속 축소 방법으로 편차와 분산의 교환(Bias-Variance trade-off)을 통해 예측 성능을 향상 시킬 수 있는 방법이다.
상기 LASSO(Least Absolute Shrinkage and Selection Operator; Tibshirani, 1996)는 변수선택과 판별을 동시에 해주는 최소절대축소선택연산으로, 고차원 선형모형에서 변수선택의 어려움을 극복하기 위해 유의하지 않은 변수의 계수들을 0에 가까운 수로 줄여 모형에서 제거하는 벌점화우도(penalized likelihood)방법의 일종이다.
상기 엘라스틱 넷(Elastic Net)은 Zou와 Hasite(2005)가 능선 회귀 모형과 LASSO의 벌점화 항의 볼록 결합의 형태로 제안한 것으로, 볼록 최적화 문제의 성질로 인해 최대 N개의 변수를 선택할 수 밖에 없는 LASSO의 한계를 극복하는 방법이다.
본 발명에 있어서, 상기 앙상블 기법(Ensemble)은 머신러닝(Machine Learning)에서 복수의 학습 알고리즘을 예측 모델링에 활용하는 기법을 총칭하는 것으로, 대표적으로 랜덤 포레스트(Random Forest)를 포함한 배깅(bagging) 기법이나 부스팅(boosting) 기법이 있으며 여러 알고리즘을 동시에 사용하는 스태킹(stacking)도 이에 포함된다. 즉, 상기 앙상블 기법은 랜덤 포레스트(Random Forest), 배깅(bagging), 부스팅(boosting) 및 스태킹(stacking) 중 어느 하나일 수 있다.
상기 랜덤 포레스트 알고리즘은 CART의 의사결정나무의 조합으로 이루어진 배깅(bagging) 알고리즘의 일종으로 여러 의사 결정 트리를 만들고 각각의 트리가 훈련 예제와 특징 변수 중 일부를 무작위로 골라 학습에 사용한다. 랜덤 포레스트의 예측 단계에서 각각의 트리는 개별적으로 목표 변수를 결정한 후 알고리즘이 모든 트리의 결정을 취합해 최종 결정을 내린다. 확률 분포가 같은 Random Vector에 의해 생성된 나무들은 각각 독립적으로 구성되고, 구성된 나무들의 개수를 무한으로 가져가면 오분류가 일반화되어 수렴하게 되는데, 랜덤 포레스트는 Randomness와 Out-of-bag(Random Selection without Replacement) 기법을 이용하여 Adaboost 만큼의 정확도를 낼 수 있게 하고 경계면과 잡음(Noise)에 강한 성능을 보이며, 배깅(bagging)과 부스팅(boosting) 보다 빠르게 수렴하도록 도와주는 효과를 나타낸다.
상기 암 종 예측 모형은 다범주 분류 모형인 것을 특징으로 하며, 상기 다범주 분류 모형은 상기 복제수 변이 데이터를 입력 받아 특정 암 종으로 분류되는 확률값을 추정하는 기설정된 함수식인 것이 바람직하다.
본 발명에 있어서, 상기 암 종은 방광암(Bladder urothelial carcinoma), 유방암(Breast invasive carcinoma), 자궁경부암(Cervical and endocervical cancers), 결장암(Colon adenocarcinoma), 식도암(Esophageal carcinoma), 교모세포종(Glioblastoma multiforme), 두경부암(Head and Neck squamous cell carcinoma), 혐색소 신세포암(Kidney Chromophobe), 투명세포형 신세포암(Kidney renal clear cell carcinoma), 유두상 신세포암(Kidney renal papillary cell carcinoma), 급성 골수성 백혈병(Acute Myeloid Leukemia), 양성뇌종양(Brain Lower Grade Glioma), 간암(Liver hepatocellular carcinoma), 폐선암(Lung adenocarcinoma), 폐편평상피세포암(Lung squamous cell carcinoma), 장액성 난소상피암(Ovarian serous cystadenocarcinoma), 췌장암(Pancreatic adenocarcinoma), 부신암(Pheochromocytoma and Paraganglioma), 전립선암(Prostate adenocarcinoma), 직장암(Rectum adenocarcinoma), 육종(Sarcoma), 악성흑색종(Skin Cutaneous Melanoma), 위암(Stomach adenocarcinoma), 고환암(Testicular Germ Cell Tumors), 갑상선암(Thyroid carcinoma), 흉선종(Thymoma) 및 자궁내막암(Uterine Corpus Endometrial Carcinoma)으로 이루어진 군으로부터 선택된 1종 이상일 수 있으며, 바람직하게는 방광암, 유방암, 결장암, 자궁경부암, 간암, 폐선암, 혐색소 신세포암, 투명세포형 신세포암, 유두상 신세포암, 장액성 난소상피암, 전립선암, 폐편평상피세포암 및 위암으로 이루어진 군으로부터 선택된 1종 이상일 수 있고, 보다 바람직하게는 방광암, 유방암, 결장암, 간암, 폐선암 및 전립선암으로 이루어진 군으로부터 선택된 1종 이상일 수 있다.
또한, 본 발명에 있어서, 상기 암 종은 비뇨기암인 것을 특징으로 할 수 있으며, 바람직하게는 방광암, 전립선암, 혐색소 신세포암, 투명세포형 신세포암 및 유두상 신세포암으로 이루어진 군으로부터 선택된 1종 이상일 수 있다.
또한, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및 (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 종 예측 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 방법을 제공한다.
본 발명에 있어서, 상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 한다.
본 발명에 있어서, 상기 (d) 단계의 검체는 혈액(전혈), 혈장, 혈청, 소변, 타액, 분변, 조직으로 이루어진 군으로부터 선택되는 것일 수 있으며, 바람직하게는 혈액, 혈장, 혈청 및 소변으로 이루어진 군으로부터 선택되는 것일 수 있다.
본 발명에 있어서, 용어 “클래스 라벨”은 대상자 별로 1개의 정상과 27개의 암 종 중에 어느 집단(클래스)에 해당하는지 알려주는 지시 변수(라벨)를 의미한다.
또한, 본 발명에 있어서, 상기 시료에 포함된 유전체 DNA는 임의의 크기로 단편화(fragmentation)된 것일 수 있으며, 상기 단편화는 당업자에게 잘 알려져 있는 방법에 의해 수행될 수 있다.
본 발명에 있어서, 뉴클레오티드 서열의 확인은 예를 들면 시퀀싱(sequencing) 방법을 통해 확인할 수 있으며, 구체적으로는 차세대 염기서열분석법에 의해 확인할 수 있다. 상기 "차세대 염기서열분석법(next generation sequencing: NGS)”은 칩(Chip)기반 그리고 PCR기반 페어드엔드(paired end)형식으로 전장유전체를 조각 내고, 상기 조각을 화학적인 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 차세대 염기서열 분석법에 의해 짧은 시간 내에 분석대상이 되는 시료에 대해 대량의 염기서열 데이터를 생성할 수 있다.
본 발명에 있어서, 용어 “표준 염기서열(reference genome)”은 한 종을 대표하는 염기서열 데이터베이스를 지칭하며, 공여자 염기서열을 그대로 사용하거나 또는 조합하여 만들 수도 있다.
본 발명에 있어서, 용어 “삽입-결실(insertion/deletion, indel)”은 짧은 염기서열이 삽입되거나 결실된 것을 말한다.
본 발명에 있어서, 용어 “맵핑(mapping)”이란 대상 유전자가 기존의 유전자 염기서열로부터 어떤 변화가 일어났는지 조사하기 위해, 대상 염기서열 데이터(sequence reads)를 표준 염기서열(Reference Genome)과 비교하는 작업을 의미한다. 맵핑을 통해 대상과 표준 염기서열의 차이를 알아낸 후 이를 적당한 선택 기준을 정해 신뢰할 수 있는 염기서열 변이 정보만 추출(Variant Calling)하게 되는데, 본 명세서 내에서 이 변이 정보는 복제수 변이(CNV)이다.
본 발명에 있어서, 용어 "대상자"는 암이 발병하거나 또는 발병한 것으로 의심되거나 또는 발병 여부의 예방적 검진이 필요한 포유동물로서 분류된 모든 동물들을 지칭하고, 가축 및 농장 동물, 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 구체적으로, 대상자는 임의의 연령 또는 인종의 인간 남성 또는 여성이다. "대상자" 및 "환자"는 본 명세서에서 상호교환적으로 사용된다.
본 발명에 있어서, 상기 대상자별 암 종 예측 정보는 암 종, 싸이토밴드 별로 시각적으로 요약된 형태(예를 들어, 히트맵 등)로 제공될 수 있으나, 이에 제한되지 않는다.
본 발명의 일 실시예에서는, 대상자의 신체에서 분리하여 채취한 검체로부터 DNA 복제수 변이 데이터를 얻고, 상기 DNA 복제수 변이 데이터를 싸이토밴드와 매칭하여 데이터 전처리를 수행하고(상기 DNA 복제수 변이 데이터는 QDNAseq과 같은 시퀀싱 데이터 정규화 프로그램으로 log-2 변환된 것이다), 상기 매칭된 DNA 복제수 변이 데이터의 평균값을 해당 구간의 자료값으로 결정한 후, 상기 자료값을 본 발명에 따른 암 종 예측 모형에 입력하여 본 발명에 따른 암 종 예측 방법을 평가하였다. 이 때, 입력 결과로서 출력되는 암 종 예측 정보는 상기 검체가 어떤 암 종에 속하는지에 대한 우선순위 분류 정보(클래스 라벨 순위)를 포함하며, 사용자는 상기 분류 정보로부터 대상자가 어떤 암 종을 가지고 있는지를 우선순위를 두어 예측할 수 있다. 본 발명자들은 방광암 및 전립선암 검체를 사용하여 상기 검체로부터 얻은 DNA 복제수 변이 데이터를 본 발명에 따른 암 종 예측 모형에 입력하고, 해당 암에 대하여 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
또한, 본 발명은 (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계; (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및 (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 진단 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 진단 방법을 제공한다.
본 발명에 있어서, 상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 한다.
본 발명에 있어서, 용어 "진단"은 특정 질병 또는 질환에 대한 한 객체의 감수성(susceptibility)을 판정하는 것, 한 객체가 특정 질병 또는 질환을 현재 가지고 있는 지 여부를 판정하는 것, 특정 질병 또는 질환에 걸린 한 객체의 예후(prognosis)(예컨대, 전-전이성 또는 전이성 암 상태의 동정, 암의 단계 결정 또는 치료에 대한 암의 반응성 결정)를 판정하는 것, 테라메트릭스(therametrics)(예컨대, 치료 효능에 대한 정보를 제공하기 위하여 객체의 상태를 모니터링 하는 것), 스코어링을 통해 발병 가능성이 높은 암 종을 선별하는 것, 또는 상기 스코어링 결과를 확인하여 한 객체가 특정 암 종을 현재 가지고 있는지 여부를 판정하는 것을 포함한다.
또한, 본 발명은 (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈; (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈; (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 종 예측 정보를 생성하는 암 종 예측 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 종 예측 장치를 제공한다.
상기 암 종 예측 장치는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 암 종 예측 장치는 응용 프로그램의 모듈 형태로 구현될 수도 있다.
또한, 본 발명은 (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈; (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈; (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 진단 정보를 생성하는 암 진단 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 진단 장치를 제공한다.
본 발명에 따른 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법, 암 종 예측 방법 및 암 진단 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함하며, 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드가 포함된다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이하, 본 발명을 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐 본 발명의 내용이 하기 실시예에 한정되는 것은 아니다.
실시예 1. 암 종 예측 모형의 생성
1-1. 데이터 수집
암 종별 CNV 자료를 얻기 위해 대규모 유전체 데이터인 TCGA Data Portal (https://cancergenome.nih.gov/)을 통하여 샘플을 얻었다. 암 종별로 샘플 수가 100이상인 27개 암과 정상 샘플로 하기 표 1과 같이 모두 20,715개의 샘플 데이터를 얻었다.
연번 암 종 약어 자료 수
1 Bladder urothelial carcinoma 방광암 BLCA 408
2 Breast invasive carcinoma 유방암 BRCA 1079
3 Cervical and endocervical cancers 자궁경부암 CESC 295
4 Colon adenocarcinoma 결장암 COAD 449
5 Esophageal carcinoma 식도암 ESCA 184
6 Glioblastoma multiforme 교모세포종 GBM 573
7 Head and Neck squamous cell carcinoma 두경부암 HNSC 522
8 Kidney Chromophobe 혐색소 신세포암 KICH 66
9 Kidney renal clear cell carcinoma 투명세포형 신세포암 KIRC 528
10 Kidney renal papillary cell carcinoma 유두상 신세포암 KIRP 288
11 Acute Myeloid Leukemia 급성 골수성 백혈병 LAML 191
12 Brain Lower Grade Glioma 양성뇌종양 LGG 512
13 Liver hepatocellular carcinoma 간암 LIHC 370
14 Lung adenocarcinoma 폐선암 LUAD 516
15 Lung squamous cell carcinoma 폐편평상피세포암 LUSC 501
16 Ovarian serouscystadenocarcinoma 장액성 난소상피암 OV 582
17 Pancreatic adenocarcinoma 췌장암 PAAD 184
18 Pheochromocytoma and Paraganglioma 부신암 PCPG 162
19 Prostate adenocarcinoma 전립선암 PRAD 492
20 Rectum adenocarcinoma 직장암 READ 165
21 Sarcoma 육종 SARC 257
22 Skin Cutaneous Melanoma 악성흑색종 SKCM 469
23 Stomach adenocarcinoma 위암 STAD 441
24 Testicular Germ Cell Tumors 고환암 TGCT 150
25 Thyroid carcinoma 갑상선암 THCA 499
26 Thymoma 흉선종 THYM 123
27 Uterine Corpus Endometrial Carcinoma 자궁내막암 UCEC 539
28 Normal 정상세포 NORMAL 10,170
TCGA 샘플들은 다음과 같은 샘플 타입 코드를 가지고 있으며, 본 발명에서는 Tumor 형태인 Code 01, 02, 03, 05, 06은 질병으로 분류하고, Normal 형태인 Code 10, 11, 12는 정상으로 분류하여 그룹 라벨을 Normal과 Tumor로 나누었다.
코드 종류 약어 유형
01 Primary Solid Tumor TP Tumor
02 Recurrent Solid Tumor TR Tumor
03 Primary Blood Derived Cancer - Peripheral Blood TB Tumor
05 Additional - New Primary TAP Tumor
06 Metastatic TM Tumor
10 Blood Derived Normal NB Normal
11 Solid Tissue Normal NT Normal
12 Buccal Cell Normal NBC Normal
1-2. 데이터 전처리
TCGA 샘플의 복제수 변이 데이터는 각 샘플마다 위치가 달라, 머신러닝을 수행하기 위해서 각 샘플별로 일정하게 정해진 구간에서의 복제수 변이 데이터 값을 얻을 필요가 있다. 이러한 데이터 전처리를 위해, UCSC 웹사이트(https://genome.ucsc.edu/)에서 구한 싸이토밴드(cytoband)의 위치 정보를 이용하였다. 즉, TCGA 샘플에서 염색체(chromomosome)가 일치하고, 각 싸이토밴드의 위치 구간과 겹치는 위치에 있는 복제수 변이 데이터들의 평균값을 해당 싸이토밴드에서의 자료값으로 계산하였다. 상기 과정을 통해, 각 샘플 별로 총 28개의 클래스 라벨(class label; 27개 암종 + Normal) 및 총 864개의 싸이토밴드 별 복제수 변이 데이터 평균값을 얻고 이를 최종 학습 자료로 사용하였다.
1-3. 예측 모형 생성
상기 학습 자료를 기반으로 머신러닝 기법을 사용하여 예측 모형을 생성하였다. 이 예측모형은 CNV 데이터를 이용하여 주어진 샘플을 정상군 및 27개 암종으로 분류하고 나아가 실제 검체로부터 얻은 DNA 복제수 변이 데이터를 입력하여 대상자별 암 종 예측 정보를 생성하는 것을 목적으로 한다. 보다 상세하게는, 전체 학습 자료의 70%를 활용하여 라쏘(LASSO) 벌점화와 랜덤 포레스트(Random Forest)에 기반한 다범주 분류 모형에 적용하였다. 통계 프로그램 R의 glmnet과 randomForest 라이브러리를 이용하였다. 암의 Label을 의미하는 변수 G에 있어서, G=0이면 정상군(normal); G=1,…7이면 각 27개의 암종을 가리키는 것으로 정의하였다. 자료 X는 싸이토밴드에 매칭한 복제수 변이 벡터(CNV 벡터)로 정의하였다. 각 통계적 기법은 구체적으로 다음과 같으며, 두 방법들에 필요한 조절 모수들은 교차 검증(Cross-validation)에 의해 선택하였다:
라쏘 (LASSO) 벌점화 분류 방법
라쏘 벌점화 분류 방법은 주어진 CNV 데이터를 이용하여 조건부 확률
Figure PCTKR2018011286-appb-I000001
를 추정하는데 있어 다음의 목적함수(벌점화 음-로그가능도함수) Q(
Figure PCTKR2018011286-appb-I000002
,…,
Figure PCTKR2018011286-appb-I000003
)를 최소화하는 모수 벡터
Figure PCTKR2018011286-appb-I000004
,…,
Figure PCTKR2018011286-appb-I000005
를 추정한다.
Figure PCTKR2018011286-appb-I000006
여기에서,
Figure PCTKR2018011286-appb-I000007
인 i번째 샘플의 클래스 라벨이 k이면 1, 아니면 0의 값을 갖는 지시변수,
Figure PCTKR2018011286-appb-I000008
는 k번째 클래스(class)의 모수 벡터,
Figure PCTKR2018011286-appb-I000009
Figure PCTKR2018011286-appb-I000010
의 j번째 싸이토밴드에 해당하는 원소를 의미한다.
Figure PCTKR2018011286-appb-I000011
= 864개 싸이토밴드별 CNV 값으로 i번째 샘플의 설명변수 벡터를 의미한다. 목적함수에 있는 벌점함수
Figure PCTKR2018011286-appb-I000012
는, 예측에 필요한 소수의 중요한 싸이토밴드들을 선택하면서 동시에 예측의 성능을 높여주는 역할을 한다. 또한, 과적합을 피하기 위해 교차 검증(Cross-validation)에 의해 조절모수
Figure PCTKR2018011286-appb-I000013
의 최적의 값을 찾았다.
랜덤 포레스트 (Random Forest) 분류 방법
B개의 부트스트랩 샘플(bootstrap sample)을 생성하여(b=1,…,B), 각각의 부트스트랩 샘플에서 의사결정나무 모형을 적합하고, X=x인 자료의 b번째 랜덤 포레스트 나무의 클래스 예측값을
Figure PCTKR2018011286-appb-I000014
라고 할 때,
Figure PCTKR2018011286-appb-I000015
,…,
Figure PCTKR2018011286-appb-I000016
에서의 다수결 투표에 따라 최종 클래스 라벨을 결정하여 예측하는 앙상블 기법 중의 대표적인 분류 방법이다.
1-4. 예측 모형 성능 검증
TCGA 샘플에서 학습에 사용되지 않은 나머지 30%의 검증 자료(6163개)를 활용하여 암 분류 모형의 예측 성능을 검증하였다. 라쏘 벌점화와 랜덤포레스트를 이용하여 만든 암 종 예측 모형의 검증 결과를 도 1에 나타내었다. 예측 성능을 평가하기 위해 전체 예측 정확도(prediction accuracy), 특이도(specificity), 각 클래스 라벨별 민감도(sensitivity)를 구하였다. 예측 정확도는 전체 6163개 자료 중에 정상을 정상으로, 각 암 종을 해당 암 종으로 정확히 맞춘 자료 수의 비율이고, 특이도는 정상군을 정상군으로 예측한 비율이고, 민감도는 입력된 암 종별 자료를 해당 암 종일 것으로 예측한 비율을 의미한다. 이 때, 해당 암 종에 대하여 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
도 1에 나타낸 바와 같이, 두 방법의 예측 정확도는 라쏘 벌점화 방법의 경우 94.65%, 랜덤포레스트의 경우 93.30%로 계산되어 매우 높은 예측성능을 보임을 확인하였고, 정상군을 정상군으로 예측한 확률은 라쏘 벌점화 방법과 랜덤포레스트 모두 99%를 상회하여 매우 정확한 예측을 하고 있음을 확인하였다. 각 암 종별 민감도 또한, 암 종별로 그 성능의 차이는 있으나 대체로 높은 것으로 나타나 예측성과가 우수함을 확인하였고, 특히 유방암, 교모세포종, 장액성 난소상피암, 고환암 등은 민감도가 매우 높음을 확인하였다. 한편, 해당 암 종을 1순위로 예측할 경우 라쏘 벌점화 방법과 랜덤 포레스트의 예측 정확도는 각각 79.3%와 77.4%이며, 각 암 종별 민감도 또한 대체로 높은 것으로 나타나 본 발명에 따른 암 종 예측 모형의 예측성능이 우수함을 확인하였다. 특히 유방암(78.96%/78.35%), 교모세포종(81.71%/85.98%), 투명세포형 신세포암(83.85%/88.20%), 장액성 난소상피암(83.54%/91.77%), 고환암(91.67%/89.58%) 등은 민감도가 매우 높음을 확인하였다(각각 라쏘 벌점화 방법/랜덤 포레스트 이용 시의 결과).
상기 실시예 1-1 내지 1-4의 암 종 예측 모형을 생성하는 방법에 관한 흐름도를 도 2에 나타내었다.
실시예 2. 본 발명에 따른 예측 모형을 이용한 암 종의 예측
암 종 예측의 대상이 되는 대상자의 신체에서 검체를 체취하고, 상기 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 실시예 1에서 생성한 암 종 예측 모형에 입력하여 대상자의 암 종을 예측하였다.
2-1. 검체 수집
DNA 복제수 변이 패턴 분석을 위한 샘플을 준비하기 위하여, 대표적 비뇨기암인 방광암 환자와 전립선암 환자의 소변(urine) 검체를 확보하였다. 모든 환자들은 유전자 검사에 대한 정보에 동의하였으며, 모든 실험은 이화여자대학교 목동 병원의 윤리위원회(IRB) 승인 하에 진행되었다.
소변 DNA 추출
소변 샘플은 수술 전에 수집되었다. 소변 샘플의 분석을 위해 각 환자에서 세포 유리 DNA(cell-free DNA, cfDNA) 혹은 엑소좀 DNA(exosome DNA, exoDNA) 추출을 실시하였다. cfDNA의 경우, magnetic bead를 이용한 기법으로 소변 2 ml로부터 150-180 bp 크기의 단편화된(fragmented) DNA를 얻었다. exoDNA의 경우 10 ml의 소변에서 ExoQuick kit를 이용하여 엑소좀을 분리하였으며, 엑소좀에서 키트를 이용하여 DNA를 분리하였다.
2-2. 시퀀싱 및 복제수 변이 데이터 생성
상기 실시예 2-1에서 얻은 분리된 DNA에 대하여 전장 유전체 시퀀싱(Whole genome sequencing, WGS)을 수행하였다. 구체적으로, 분석 데이터 용량을 최소화하기 위하여 low-depth whole genome sequencing(ldWGS)을 수행하였다. 바이오럽터 피코(Bioruptor®Pico; Diagenode diagnostics, Belgium)를 이용하여 소변 exoDNA에서 추출한 DNA를 평균 180 bp의 크기로 단편화시켰다. 단편화 단계는 소변 cfDNA에서는 수행하지 않았다. 서열 분석 라이브러리를 제작하고, 라이브러리는 KAPA HiFi HotStart PCR 키트(Kapa Biosystems, Boston, USA)로 보강하였다. ldWGS는 Illumina Hiseq 장비(Illumina, San Diego, CA)를 이용하여 수행하였다. ldWGS는 1 X 미만의 낮은 게놈 커버리지(genome coverage)로 수행하였고, 게놈 영역의 평균 20.4%는 1 X 이상의 게놈 커버리지로 시퀀싱을 수행하였다. 그 결과, Illumina Hiseq 장비를 이용하여 생성된 전체 유전자 염기서열 데이터는 whole genome 영역의 1/3 정도에 해당하는 1 gigabyte 정도임을 확인하였다. ldWGS를 통해 해독된 각 샘플의 염기서열은 FASTQ 형식의 파일로 저장되었다.
2-3. 데이터 전처리
각 샘플에서 확보한 FASTQ 파일의 데이터 프로세싱을 통하여 복제수 변이 데이터 전처리를 수행하였다. 상기 실시예 2-2에 기재한 바와 같이 준비된 DNA 라이브러리를 시퀀싱하여 염기서열 데이터(reads)를 수득하였다. 수득한 염기서열 데이터는 Burrows-Wheeler aligner(BWA, 버전 0.7.10)를 사용하여 UCSC 인간 게놈(GRCh37/hg19)으로 맵핑하였다. 맵핑 정보로부터 염기서열변이 정보를 추출하기 위하여 SAM 표준포맷으로 변환하였다. 시퀀스 정렬 맵(SAM) 파일은 SAMtools (버전 1.1)를 사용하여 BAM 형식으로 변환하였고, 중복 DNA 서열들은 피카드(Picard) 도구(버전 1.115)를 사용하여 분류하고 분석대상에서 제거하였다. 표준화된 염기서열 데이터의 맵핑 파일들은 GATK(버전 2.3.9)로 삽입-결실 변이 재정렬(indel realigning) 및 염기 정확도 재보정을 수행하여 맵핑 퀄리티를 강화시켰다. 복제수 변이(CNV)는 QDNAseq 파이프라인(버전 1.12.0)로 분석하였다. QDNAseq는 GC 함량 및 매핑률을 기반으로 정규화 및 blacklist filter를 수행하여 복제수 분석의 정확도를 향상시켜, low-depth 및 shallow data에서도 복제수 변이 분석이 가능하다. 염기서열 데이터의 할당(allocation)에는 100 kb 빈(bin)을 사용하였다. ldWGS 데이터로부터 높은 품질의 복제수 정보를 얻기 위한 과정 내에서 GC 매핑률(mappability)에 대한 보정 및 문제가 있는 영역의 배제를 순차적으로 수행하였다. 염기서열 데이터의 100 k 구간 별로 중간값 정규화된 log-2(median-normalized log-2) 변환된 염기서열 데이터 카운트를 계산하였다. 그 다음, 상기 log-2 변환된 DNA 복제수 변이 데이터를 UCSC 웹사이트(https://genome.ucsc.edu/)에서 구한 싸이토밴드와 매칭하여 데이터의 전처리를 수행하였다. 즉, 염색체(chromomosome)가 일치하고, 싸이토밴드의 위치와 겹치는 위치에 있는 복제수 변이 데이터 값들의 평균값을 해당 싸이토밴드의 자료값으로 계산하였다. 통계 분석은 R(버전 3.2.5, http://www.r-project.org)로 수행하였다.
2-4. 암 종의 예측
상기 실시예 2-3에서 수득한 검체 유래 DNA 복제수 변이 데이터를 본 발명에 따른 암 종 예측 모형에 입력하여 방광암과 전립선암에 대한 암 종 예측 정보를 생성하였다. 이를 위해, 상기 DNA 복제수 변이 데이터에 대하여 실시예 1-3에서 생성한 암 종 예측 모형(라쏘 벌점화, 랜덤 포레스트)을 적용하여 28개 클래스 라벨(class label; 27개 암종 + Normal)의 순위를 예측하고, 방광암 또는 전립선암을 5순위 이내로 예측할 시 바르게 예측한 것으로 평가하였다.
라쏘 벌점화 방법을 사용하였을 경우 방광암과 전립선암의 예측 정확도는 각각 88%와 76%였으며, 랜덤포레스트를 시행하였을 때 방광암과 전립선암의 예측 정확도는 각각 88%와 95%로 나타나 본 발명에 따른 암 종 예측 모형의 예측성능이 매우 높음을 확인하였다. 민감도와 특이도에 대한 정보는 하기 표 3과 같다.
라쏘 벌점화 랜덤포레스트
민감도 특이도 민감도 특이도
방광암 82.4% 100.0% 82.4% 100.0%
전립선암 62.5% 82.3% 100.0% 76.4%
상기 결과를 통해, 본 발명에 따른 DNA 복제수 변이 기반의 암 종 분류 모형, 암 종 예측 모형 및 이를 이용한 DNA 복제수 변이 기반의 암 종 예측 방법은 대표적 비뇨기암인 방광암과 전립선암 환자를 적절하게 감별하고 진단할 수 있음을 확인하였다. 따라서, 본 발명은 비침습적이며 높은 민감도 및 특이도로 모호한 암 종의 감별 또는 모호한 암의 진단이 가능함을 확인하였다.
이상, 본 발명의 바람직한 실시 예에 대하여 상세히 설명하였으나, 본 발명의 기술적 범위는 전술한 실시 예에 한정되지 않고 특허청구범위에 의하여 해석되어야 할 것이다. 이때, 이 기술분야에서 통상의 지식을 습득한 자라면, 본 발명의 범위에서 벗어나지 않으면서도 많은 수정과 변형이 가능함을 고려해야 할 것이다.

Claims (19)

  1. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 분류 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 분류 모형 생성 방법.
  2. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 및
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 모형 생성 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 (a) 단계의 DNA 복제수 변이 데이터는 게놈정보에 관한 공개 DB로부터 수집한 것을 특징으로 하는, 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 (b) 단계의 복제수 변이 데이터는 싸이토밴드(cytoband)에 매칭되는 것을 특징으로 하는, 방법.
  5. 제1항 또는 제2항에 있어서,
    상기 (b) 단계의 자료값은 성별, 나이, 인종, 흡연여부 및 체중으로 이루어진 군으로부터 선택되는 하나 이상의 설명변수를 더 포함하는 것을 특징으로 하는, 방법.
  6. 제1항 또는 제2항에 있어서,
    상기 (c) 단계의 머신러닝 기법은 벌점화 회귀 모델 또는 앙상블 기법인 것을 특징으로 하는, 방법.
  7. 제6항에 있어서,
    상기 벌점화 회귀 모델은 릿지(Ridge), 라쏘(LASSO) 및 엘라스틱 넷(Elastic Net) 중 어느 하나를 사용한 것을 특징으로 하는, 방법.
  8. 제6항에 있어서,
    상기 앙상블 기법은 랜덤 포레스트(Random Forest), 배깅(bagging), 부스팅(boosting) 및 스태킹(stacking) 중 어느 하나인 것을 특징으로 하는, 방법.
  9. 제1항 또는 제2항에 있어서,
    상기 암 종은 방광암, 유방암, 자궁경부암, 결장암, 식도암, 교모세포종, 두경부암, 혐색소 신세포암, 투명세포형 신세포암, 유두상 신세포암, 급성 골수성 백혈병, 양성뇌종양, 간암, 폐선암, 폐편평상피세포암, 장액성 난소상피암, 췌장암, 부신암, 전립선암, 직장암, 육종, 악성흑색종, 위암, 고환암, 갑상선암, 흉선종 및 자궁내막암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  10. 제9항에 있어서,
    상기 암 종은 방광암, 유방암, 결장암, 자궁경부암, 간암, 폐선암, 혐색소신세포암, 투명세포형 신세포암, 유두상 신세포암, 장액성 난소상피암, 전립선암, 폐편평상피세포암 및 위암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  11. 제1항 또는 제2항에 있어서,
    상기 암 종은 비뇨기암인 것을 특징으로 하는, 방법.
  12. 제11항에 있어서,
    상기 비뇨기암은 방광암, 전립선암, 혐색소 신세포암, 투명세포형 신세포암 및 유두상 신세포암으로 이루어진 군으로부터 선택된 1종 이상인 것을 특징으로 하는, 방법.
  13. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계;
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계;
    (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및
    (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 종 예측 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 종 예측 방법.
  14. 제13항에 있어서,
    상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 하는, 방법.
  15. 제13항에 있어서,
    상기 (d) 단계의 검체는 혈액, 혈장, 혈청, 소변, 타액, 분변 및 조직으로 이루어진 군으로부터 선택되는 것을 특징으로 하는, 방법.
  16. (a) DNA 복제수 변이 데이터를 암 종에서 얻는 단계;
    (b) 상기 복제수 변이 데이터를 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계;
    (c) 상기 자료값을 기반으로 머신러닝 기법을 이용해 암 종 예측 모형을 생성하는 단계;
    (d) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터를 상기 암 종 예측 모형에 입력하는 단계; 및
    (e) 상기 입력 결과에 따른 암 종 예측 모형으로부터 예측된 각 암 종의 클래스 라벨 순위를 바탕으로 대상자별 암 진단 정보를 생성하는 단계; 를 포함하는 DNA 복제수 변이 기반의 암 진단 방법.
  17. 제16항에 있어서,
    상기 (d) 단계의 DNA 복제수 변이 데이터는 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 단계; 를 거친 것을 특징으로 하는, 방법.
  18. (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈;
    (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈;
    (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 종 예측 정보를 생성하는 암 종 예측 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 종 예측 장치.
  19. (a) 대상자의 신체에서 분리하여 채취한 검체로부터 얻은 DNA 복제수 변이 데이터 정보를 입수하는 정보 입수 모듈;
    (b) 상기 복제수 변이 데이터에 대하여 염색체 상 특정 위치 또는 염기서열 상 일정한 구간에 매칭하여 해당 위치 또는 구간의 자료값으로 결정하는 변환 모듈;
    (c) 변환된 복제수 변이 데이터를 청구항 제2항의 방법을 통해 생성된 암 종 예측 모형에 입력하여 대상자별 암 진단 정보를 생성하는 암 진단 정보 생성 모듈; 을 포함하는 DNA 복제수 변이 기반의 암 진단 장치.
PCT/KR2018/011286 2017-09-27 2018-09-21 Dna 복제수 변이 기반의 암 종 예측 방법 WO2019066421A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20170125441 2017-09-27
KR10-2017-0125441 2017-09-27

Publications (2)

Publication Number Publication Date
WO2019066421A2 true WO2019066421A2 (ko) 2019-04-04
WO2019066421A3 WO2019066421A3 (ko) 2019-07-04

Family

ID=65903110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/011286 WO2019066421A2 (ko) 2017-09-27 2018-09-21 Dna 복제수 변이 기반의 암 종 예측 방법

Country Status (2)

Country Link
KR (1) KR102233740B1 (ko)
WO (1) WO2019066421A2 (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111402951A (zh) * 2020-03-17 2020-07-10 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
CN113838533A (zh) * 2021-08-17 2021-12-24 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒
WO2023010660A1 (zh) * 2021-08-03 2023-02-09 北京大学口腔医学院 一种生物材料功能预测评价方法
WO2023102142A1 (en) * 2021-12-02 2023-06-08 AiOnco, Inc. Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
CN118308490A (zh) * 2024-06-06 2024-07-09 南京世和医疗器械有限公司 不明原发灶肿瘤组织溯源检测标志物的用途及检测系统
WO2024183023A1 (zh) * 2023-03-08 2024-09-12 上海英医达医疗器械用品有限公司 癌种预测模型建立系统及建立方法、癌种预测系统

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102157613B1 (ko) * 2020-06-05 2020-09-18 현대엔지니어링(주) 기계학습을 이용한 자동화 철골구조물 설계 시스템 및 방법
US20220084631A1 (en) 2020-09-17 2022-03-17 Korea Advanced Institute Of Science And Technology Method and apparatus for machine learning based identification of structural variants in cancer genomes
KR102404947B1 (ko) 2020-09-17 2022-06-10 주식회사 지놈인사이트 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
KR20220074088A (ko) * 2020-11-27 2022-06-03 주식회사 지씨지놈 인공지능 기반 암 진단 및 암 종 예측방법
KR20220160807A (ko) * 2021-05-28 2022-12-06 주식회사 지씨지놈 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
KR20220160806A (ko) * 2021-05-28 2022-12-06 주식회사 지씨지놈 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR20230059423A (ko) * 2021-10-26 2023-05-03 주식회사 지씨지놈 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
KR20230064172A (ko) * 2021-11-03 2023-05-10 주식회사 지씨지놈 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
KR102477860B1 (ko) * 2021-12-15 2022-12-14 가천대학교 산학협력단 대장암 예측을 위한 세부유전자정보 선택방법 및 시스템
KR20230114952A (ko) * 2022-01-26 2023-08-02 권창혁 암 판별 장치 및 암 판별 방법
KR20230135782A (ko) 2022-03-17 2023-09-26 한국전자통신연구원 유전자 데이터를 활용하여 종양을 분류하기 위한 기계학습 장치 및 방법
US20240177806A1 (en) * 2022-11-29 2024-05-30 GC Genome Corporation Deep learning based method for diagnosing and predicting cancer type using characteristics of cell-free nucleic acid

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015139652A1 (en) * 2014-03-20 2015-09-24 Pharmacogenetics Limited Use of recurrent copy number variations in constitutional human genome for prediction of predisposition to cancer
CN107408163B (zh) * 2015-06-24 2021-03-05 吉尼努斯公司 用于分析基因的方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110289047A (zh) * 2019-05-15 2019-09-27 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN110289047B (zh) * 2019-05-15 2021-06-01 西安电子科技大学 基于测序数据的肿瘤纯度及绝对拷贝数预测方法及系统
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111145912B (zh) * 2019-12-23 2023-04-18 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置
CN111402951A (zh) * 2020-03-17 2020-07-10 至本医疗科技(上海)有限公司 拷贝数变异预测方法、装置、计算机设备和存储介质
WO2023010660A1 (zh) * 2021-08-03 2023-02-09 北京大学口腔医学院 一种生物材料功能预测评价方法
CN113838533A (zh) * 2021-08-17 2021-12-24 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒
CN113838533B (zh) * 2021-08-17 2024-03-12 福建和瑞基因科技有限公司 一种癌症检测模型及其构建方法和试剂盒
WO2023102142A1 (en) * 2021-12-02 2023-06-08 AiOnco, Inc. Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
US12014831B2 (en) 2021-12-02 2024-06-18 AiOnco, Inc. Approaches to reducing dimensionality of genetic information used for machine learning and systems for implementing the same
WO2024183023A1 (zh) * 2023-03-08 2024-09-12 上海英医达医疗器械用品有限公司 癌种预测模型建立系统及建立方法、癌种预测系统
CN118308490A (zh) * 2024-06-06 2024-07-09 南京世和医疗器械有限公司 不明原发灶肿瘤组织溯源检测标志物的用途及检测系统

Also Published As

Publication number Publication date
WO2019066421A3 (ko) 2019-07-04
KR102233740B1 (ko) 2021-03-30
KR20190036494A (ko) 2019-04-04

Similar Documents

Publication Publication Date Title
WO2019066421A2 (ko) Dna 복제수 변이 기반의 암 종 예측 방법
AU2020200571B2 (en) Distinguishing methylation levels in complex biological samples
JP7531217B2 (ja) 癌を査定および/または処置するためのセルフリーdna
CN108138233B (zh) Dna混合物中组织的单倍型的甲基化模式分析
CN105653898A (zh) 一种基于大规模数据挖掘的癌症检测试剂盒及检测方法
Dabas et al. Diagnostic role of chromosomal instability in melanoma
CN113234818B (zh) 前列腺癌症标志物基因组合及应用
CN110408706A (zh) 一种评估鼻咽癌复发的生物标志物及其应用
US20220223227A1 (en) Machine learning techniques for identifying malignant b- and t-cell populations
Saillard et al. PACpAInt: a deep learning approach to identify molecular subtypes of pancreatic adenocarcinoma on histology slides
Kuo et al. Gene expression levels in different stages of progression in oral squamous cell carcinoma.
CN106755322A (zh) 一种预测肺癌转移的试剂盒及其使用方法
CN117165689B (zh) 一种用于泛实体瘤早期筛查的甲基化标志物及其应用
KR102491322B1 (ko) 암 진단을 위한 다중 분석 예측 모델의 제조 방법
CN113278697B (zh) 一种基于外周血内基因甲基化的肺癌诊断试剂盒
US20240318261A1 (en) Molecular tools for the diagnosis and prognosis of melanocytic spitzoid tumors
US20220033882A1 (en) Methods of diagnosing and treating patients with pigmented skin lesions
WO2018131777A1 (ko) 폐암의 골전이 특이적 변이 유전자 마커
Shapochka et al. PO-335 EGFR and ALK mutation status in advanced lung adenocarcinoma: prevalence, gender and age-related peculiarities among patients in Ukraine
CN118207322A (zh) 胆汁cfDNA中的HDR信号通路突变在胆管癌预后评估中的应用
CN115667544A (zh) 鉴定染色体外dna特征的方法
CN109988833A (zh) 宫颈癌的判断方法及系统
Gillard et al. PIGMENT CELL & MELANOMA Research
WEBER ANNE-MARIE MARTIN

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18861661

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18861661

Country of ref document: EP

Kind code of ref document: A2