WO2022250513A1 - 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 - Google Patents

세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 Download PDF

Info

Publication number
WO2022250513A1
WO2022250513A1 PCT/KR2022/007651 KR2022007651W WO2022250513A1 WO 2022250513 A1 WO2022250513 A1 WO 2022250513A1 KR 2022007651 W KR2022007651 W KR 2022007651W WO 2022250513 A1 WO2022250513 A1 WO 2022250513A1
Authority
WO
WIPO (PCT)
Prior art keywords
nucleic acid
cancer
acid fragment
size
predicting
Prior art date
Application number
PCT/KR2022/007651
Other languages
English (en)
French (fr)
Inventor
조은해
이태림
박숙련
Original Assignee
주식회사 지씨지놈
재단법인 아산사회복지재단
울산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 지씨지놈, 재단법인 아산사회복지재단, 울산대학교 산학협력단 filed Critical 주식회사 지씨지놈
Priority to AU2022283089A priority Critical patent/AU2022283089A1/en
Priority to EP22811704.0A priority patent/EP4350708A1/en
Priority to CN202280038191.3A priority patent/CN117897776A/zh
Priority to CA3220412A priority patent/CA3220412A1/en
Publication of WO2022250513A1 publication Critical patent/WO2022250513A1/ko
Priority to US18/171,360 priority patent/US20230260655A1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/70Mechanisms involved in disease identification
    • G01N2800/7023(Hyper)proliferation
    • G01N2800/7028Cancer

Definitions

  • the present invention relates to a method for diagnosing cancer and predicting cancer types using the frequency and size of terminal sequence motifs of cell-free nucleic acid fragments, and more specifically, nucleic acids based on reads aligned by extracting nucleic acids from biological samples and obtaining sequence information.
  • Cancer diagnosis in clinical practice is usually confirmed by performing a tissue biopsy after a medical history, physical examination, and clinical evaluation. Cancer diagnosis by clinical tests is possible only when the number of cancer cells is 1 billion or more and the diameter of the cancer is 1 cm or more. In this case, the cancer cells already have the ability to metastasize, and at least half of them have already metastasized.
  • tissue biopsy is invasive, it causes considerable inconvenience to patients, and there are problems in that tissue biopsy can often not be performed while treating cancer patients.
  • cancer screening tumor markers are used to monitor substances produced directly or indirectly from cancer, but even when cancer is present, more than half of the tumor marker screening results are normal, and often positive even when there is no cancer. Because it appears, there is a limit to its accuracy.
  • liquid biopsy using a patient's body fluid as a recent cancer diagnosis and follow-up test (liquid biopsy) is widely used.
  • Liquid biopsy is a non-invasive diagnostic technique that is attracting attention as an alternative to conventional invasive diagnostic and examination methods.
  • an artificial neural network refers to a calculation model implemented in software or hardware that imitates the computational capability of a biological system by using a large number of artificial neurons connected by connection lines.
  • Artificial neural networks use artificial neurons that simplify the functions of biological neurons.
  • the human cognitive function or learning process is performed by interconnecting them through a connection line having a connection strength.
  • the connection strength is a specific value that a connection line has, and is also called a connection weight.
  • Learning of artificial neural networks can be divided into supervised learning and unsupervised learning.
  • Supervised learning is a method of putting input data and corresponding output data together into a neural network and updating the connection strength of connection lines so that output data corresponding to the input data is output.
  • Representative learning algorithms include Delta Rule and Back Propagation Learning.
  • Unsupervised learning is a method in which an artificial neural network learns connection strength by itself using only input data without a target value.
  • Unsupervised learning is a method of updating connection weights by correlation between input patterns.
  • the present inventors have made diligent efforts to solve the above problems and to develop a highly sensitive and accurate AI-based cancer diagnosis and cancer prediction method, based on the terminal sequence motif of cell-free nucleic acid fragments and the length information of nucleic acid fragments.
  • vectorized data was generated and analyzed with a learned artificial intelligence model, it was confirmed that cancer diagnosis and cancer types could be predicted with high sensitivity and accuracy, and the present invention was completed.
  • An object of the present invention is to provide a method for diagnosing cancer and predicting cancer types using cell-free nucleic acid fragment terminal sequence motif frequency and size.
  • Another object of the present invention is to provide an apparatus for diagnosing cancer and predicting cancer types using cell-free nucleic acid fragment terminal sequence motif frequency and size.
  • Another object of the present invention is to provide a computer readable storage medium containing instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types by the above method.
  • the present invention includes (a) obtaining sequence information by extracting nucleic acids from a biological sample; (b) aligning the obtained sequence information (reads) with a standard chromosome sequence database (reference genome database); (c) deriving the terminal sequence motif frequency and the size of the nucleic acid fragments using the aligned sequence reads; (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) determining the presence or absence of cancer by inputting the generated vectorized data to the learned artificial intelligence model and comparing the output result value analyzed with a cut-off value; and (f) estimating the type of cancer through comparison of the output result values.
  • the present invention also includes (a) obtaining sequence information by extracting nucleic acids from a biological sample; (b) aligning the obtained sequence information (reads) with a standard chromosome sequence database (reference genome database); (c) deriving the terminal sequence motif frequency and the size of the nucleic acid fragments using the aligned sequence reads; (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) determining the presence or absence of cancer by inputting the generated vectorized data to the learned artificial intelligence model and comparing the output result value analyzed with a cut-off value; and (f) predicting a cancer type through comparison of the output result value.
  • the present invention also includes a decoding unit for extracting nucleic acids from a biological sample and decoding sequence information; an alignment unit that aligns the translated sequence with a standard chromosomal sequence database; a nucleic acid fragment analyzer for deriving the frequency of terminal sequence motifs and the size of the nucleic acid fragments based on the aligned sequences; a data generation unit for generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; a cancer diagnosis unit that analyzes the generated vectorized data by inputting it to the learned artificial intelligence model and compares it with a reference value to determine whether or not there is cancer; and a cancer type prediction unit that analyzes the output result value and predicts the type of cancer.
  • a decoding unit for extracting nucleic acids from a biological sample and decoding sequence information
  • an alignment unit that aligns the translated sequence with a standard chromosomal sequence database
  • a nucleic acid fragment analyzer for deriving the frequency of
  • the present invention also provides a computer-readable storage medium comprising instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types, including: (a) obtaining sequence information by extracting nucleic acids from a biological sample; (b) aligning the obtained sequence information (reads) with a standard chromosome sequence database (reference genome database); (c) deriving the terminal sequence motif frequency and the size of the nucleic acid fragments using the aligned sequence reads; (d) generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment; (e) determining the presence or absence of cancer by inputting the generated vectorized data to the learned artificial intelligence model and comparing the output result value analyzed with a cut-off value; and (f) predicting the presence of cancer and the type of cancer through the step of predicting the type of cancer through the comparison of the output result values.
  • 1 is an overall flowchart for performing the method for diagnosing cancer and predicting cancer types using the frequency and size of cell-free nucleic acid fragment terminal sequence motifs according to the present invention.
  • Figure 2 is an example of a process for selecting a motif having a difference in expression frequency between a healthy person and a cancer patient, or each cancer type in one embodiment of the present invention.
  • 3 is a graph confirming the size distribution of nucleic acid fragments selected in one embodiment of the present invention.
  • the left panel of FIG. 4 is an example of the FEMS table prepared in one embodiment of the present invention using one nucleic acid fragment, and the right panel is an example of using the entire nucleic acid fragment.
  • the left panel of FIG. 5 is an example of an FEMS table created by additionally performing edge summary in an embodiment of the present invention, and the right panel is a result of visualizing it.
  • FIG. 6 is a visualization example of a FEMS table created based on data of healthy people, liver cancer patients, and esophageal cancer patients used in an embodiment of the present invention.
  • (A) is the result of confirming the performance of the CNN model constructed in one embodiment of the present invention with accuracy and micro AUC, and (B) is the confusion matrix.
  • FIG. 9 is a schematic diagram showing the configuration of a CNN model built in an embodiment of the present invention.
  • first, second, A, B, etc. may be used to describe various elements, but the elements are not limited by the above terms, and are merely used to distinguish one element from another. used only as For example, without departing from the scope of the technology described below, a first element may be referred to as a second element, and similarly, the second element may be referred to as a first element.
  • the terms and/or include any combination of a plurality of related recited items or any of a plurality of related recited items.
  • each component to be described below may be combined into one component, or one component may be divided into two or more for each more subdivided function.
  • each component to be described below may additionally perform some or all of the functions of other components in addition to its main function, and some of the main functions of each component may be performed by other components. Of course, it may be dedicated and performed by .
  • each process constituting the method may occur in a different order from the specified order unless a specific order is clearly described in context. That is, each process may occur in the same order as specified, may be performed substantially simultaneously, or may be performed in the reverse order.
  • the sequencing data obtained from the sample is aligned with the reference genome, and then the terminal sequence motif frequency and size of the nucleic acid fragment are derived based on the aligned sequence information, and the terminal sequence of the derived nucleic acid fragment is derived.
  • the frequency of the terminal sequence motif of the nucleic acid fragment and the size of the nucleic acid fragment are derived, and the terminal sequence of the nucleic acid fragment
  • the DPI value was calculated by learning it in a deep learning model, and cancer diagnosis was performed by comparing it with the reference value, Among the DPI values calculated for each cancer type, a method for determining the cancer type with the highest DPI value as the cancer type of the sample was developed (FIG. 1).
  • It relates to a method for providing information for diagnosing cancer and predicting cancer types, including the step of predicting cancer types through the comparison of the output result values.
  • the nucleic acid fragment can be used without limitation as long as it is a fragment of nucleic acid extracted from a biological sample, and preferably may be a fragment of cell-free nucleic acid or intracellular nucleic acid, but is not limited thereto.
  • the nucleic acid fragment can be obtained by any method known to those skilled in the art, and is preferably directly sequenced, sequenced through next-generation sequencing, or non-specific whole genome amplification. ), or obtained through sequencing or probe-based sequencing, but is not limited thereto.
  • the cancer may be solid cancer or hematological cancer, preferably non-Hodgkin lymphoma, non-Hodgkin lymphoma, acute myeloid leukemia, or acute lymphocytic leukemia.
  • acute-lymphoid leukemia multiple myeloma, head and neck cancer, lung cancer, glioblastoma, colon/rectal cancer, pancreatic cancer, breast cancer, ovarian cancer, melanoma, prostate cancer
  • It may be selected from the group consisting of liver cancer, thyroid cancer, gastric cancer, gallbladder cancer, bile duct cancer, bladder cancer, small intestine cancer, cervical cancer, cancer of unknown primary site, kidney cancer, esophageal cancer, and mesothelioma, more preferably liver cancer or esophageal cancer. It may, but is not limited thereto.
  • the step (a) is
  • the step of obtaining the sequence information of step (a) may be characterized in that the isolated cell-free DNA is obtained through whole genome sequencing at a depth of 1 million to 100 million reads.
  • the biological sample refers to any material, biological fluid, tissue or cell obtained from or derived from an individual, for example, whole blood, leukocytes, peripheral blood mononuclear peripheral blood mononuclear cells, leukocyte buffy coat, blood (including plasma and serum), sputum, tears, mucus, nasal washes, nasal aspirates, breath, urine, semen, saliva, peritoneal washings, pelvic fluids, cyst fluids ( cystic fluid, meningeal fluid, amniotic fluid, glandular fluid, pancreatic fluid, lymph fluid, pleural fluid, nipple aspirate, bronchi Bronchial aspirate, synovial fluid, joint aspirate, organ secretions, cells, cell extract, semen, hair, saliva, urine, oral cells , placental cells, cerebrospinal fluid, and mixtures thereof, but are not limited thereto.
  • cyst fluids cystic fluid, meningeal fluid, amniotic fluid, glandular fluid, pancreatic fluid, lymph fluid,
  • next-generation sequencer can be used with any sequencing method known in the art. Sequencing of nucleic acids isolated by selection methods is typically performed using next-generation sequencing (NGS).
  • Next-generation sequencing includes any sequencing method that determines the nucleotide sequence of an individual nucleic acid molecule or one of clonally expanded proxies for individual nucleic acid molecules in a highly similar manner (e.g., 105 or more molecules are sequenced simultaneously). do).
  • the relative abundance of a nucleic acid species in a library can be estimated by counting the relative number of occurrences of its cognate sequence in data generated by sequencing experiments. Next-generation sequencing methods are known in the art and are described, for example, in Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46, incorporated herein by reference.
  • next-generation sequencing is performed to determine the nucleotide sequence of individual nucleic acid molecules (e.g., the HeliScope Gene Sequencing system from Helicos BioSciences and the Pacific Biosciences' HeliScope Gene Sequencing system). PacBio RS system).
  • sequencing e.g., massively parallel short-read sequencing that yields more bases of sequence per sequencing unit than other sequencing methods that yield fewer but longer reads (e.g., San Diego, Calif.)
  • the Illumina Inc. Solexa sequencer method determines the nucleotide sequence of clonally expanded proxies for individual nucleic acid molecules (e.g., Illumina Inc., San Diego, CA).
  • Solexa sequencer 454 Life Sciences (Branford, Connecticut) and Ion Torrent).
  • Other methods or machines for next-generation sequencing include, but are not limited to, 454 Life Sciences (Branford, CT), Applied Biosystems (Foster City, CA; SOLiD sequencers), Helicos Provided by Bioscience Corporation (Cambridge, MA) and emulsion and microfluidic sequencing technology nanodroplets (eg, GnuBio droplets).
  • Genome Sequencer FLX system from Roche/454
  • Illumina/Solexa Genome Analyzer GA
  • Life/APG's Support Oligonucleotide Ligation Detection SOLiD
  • Polonator's G. 007 system Helicos BioSciences' HeliScope Gene Sequencing system and the PacBio RS system from Pacific Biosciences.
  • NGS techniques may include, for example, one or more of the steps of template preparation, sequencing and imaging, and data analysis.
  • Methods for template preparation include steps such as randomly disrupting nucleic acids (e.g., genomic DNA or cDNA) to small sizes and creating sequencing templates (e.g., fragment templates or mate-pair templates). can do.
  • Spatially separated templates can be attached to or immobilized on a solid surface or support, allowing a large number of sequencing reactions to be performed simultaneously.
  • the types of templates that can be used for the NGS reaction include, for example, templates in which clones derived from a single DNA molecule are amplified and single DNA molecule templates.
  • Methods for preparing a clone-amplified template include, for example, emulsion PCR (emPCR) and solid phase amplification.
  • emPCR emulsion PCR
  • solid phase amplification emulsion PCR
  • EmPCR can be used to prepare templates for NGS.
  • a library of nucleic acid fragments is created, and adapters containing universal priming sites are ligated to the ends of the fragments.
  • the fragments are then denatured into single strands and captured by beads. Each bead captures a single nucleic acid molecule.
  • a large amount of the template can be attached, fixed to a polyacrylamide gel on a standard microscope slide (e.g. Polonator), and placed on an amino-coated glass surface (e.g. Polonator). , Life/APG; Polonator), or deposited onto individual PicoTiterPlate (PTP) wells (e.g., Roche/454), wherein the NGS reaction this can be done
  • Solid phase amplification can also be used to generate templates for NGS.
  • the forward and reverse primers are covalently attached to the solid support.
  • the surface density of the amplified fragments is defined as the ratio of primer to template on the support.
  • Solid phase amplification can create millions of spatially separated clusters of templates (eg, Illumina/Solexa). The ends of the template cluster can be hybridized to universal primers for NGS reactions.
  • MDA Multiple Displacement Amplification
  • Template amplification methods such as PCR can couple the NGS platform to the target or can enrich specific regions of the genome (eg exons).
  • Representative template enrichment methods include, for example, microdroplet PCR techniques (Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), custom-designed oligonucleotide microarrays (eg, Roche/ NimbleGen oligonucleotide microarrays) and solution-based hybridization methods (eg, molecular inversion probes (MIPs)) (Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci.
  • MIPs molecular inversion probes
  • Single-molecule templates are another type of template that can be used for NGS reactions.
  • Spatially separated single molecular templates can be immobilized on solid supports by a variety of methods.
  • individual primer molecules are covalently attached to a solid support.
  • An adapter is added to the template, and the template is then hybridized to the immobilized primer.
  • a single-molecule template is covalently attached to a solid support by priming and extending a single-stranded single-molecule template from an immobilized primer.
  • the universal primer is then hybridized to the template.
  • a single polymerase molecule is attached to a solid support to which a primed template is bound.
  • sequencing and imaging methods for NGS include, but are not limited to, cyclic reversible termination (CRT), sequencing by ligation (SBL), single-molecule addition (pyrosequencing ( pyrosequencing)) and real-time sequencing.
  • CRT cyclic reversible termination
  • SBL sequencing by ligation
  • pyrosequencing pyrosequencing
  • CRT uses a reversible terminator in a cyclic method involving minimal steps of nucleotide embedding, fluorescence imaging and cleavage.
  • DNA polymerase incorporates in the primer a single fluorescently modified nucleotide that is complementary to the complementary nucleotide of the template base.
  • DNA synthesis is terminated after the addition of a single nucleotide, and unincorporated nucleotides are washed away. Imaging is performed to determine the identity of the included labeled nucleotides. Then, in a cleavage step, the terminator/repressor and fluorescent dye are removed.
  • Exemplary NGS platforms using the CRT method include, but are not limited to, the four-color CRT method detected by total internal reflection fluorescence (TIRF) and the combined clonally amplified template method using the method.
  • TIRF total internal reflection fluorescence
  • Illumina/Solexa Genome Analyzer (GA) and Helicos BioSciences/HeliScope, which uses a single-molecule template method coupled with a one-color CRT method detected by TIRF.
  • SBL uses DNA ligase and either a 1-base-encoded probe or a 2-base-encoded probe for sequencing.
  • fluorescently labeled probes hybridize to complementary sequences adjacent to the primed template.
  • DNA ligase is used to ligate the dye-labeled probe to the primer. After the non-ligated probes are washed away, fluorescence imaging is performed to determine the identity of the ligated probes.
  • the fluorescent dye can be removed using a cleavable probe that regenerates the 5'-PO4 group for subsequent ligation cycles.
  • new primers can be hybridized to the template after the old primers have been removed.
  • Exemplary SBL platforms include, but are not limited to, Life/APG/SOLiD (support oligonucleotide ligation detection), which uses a two-base-encoded probe.
  • the pyrosequencing method is based on detecting the activity of DNA polymerase with another chemiluminescent enzyme. Typically, the method sequences a single strand of DNA by synthesizing the complementary strand one base pair at a time and detecting the base actually added at each step.
  • the template DNA is static and solutions of A, C, G and T nucleotides are added sequentially and removed from the reaction. Light is produced only when the nucleotide solution replenishes the template's unpaired bases. The sequence of the solution that produces the chemiluminescent signal determines the sequence of the template.
  • Representative pyrosequencing platforms include, but are not limited to, the Roche/454 using DNA templates prepared by emPCR with 1 to 2 million beads deposited in PTP wells.
  • Real-time sequencing involves imaging the contiguous inclusion of dye-labeled nucleotides during DNA synthesis.
  • exemplary real-time sequencing platforms include, but are not limited to, individual zero-mode waveguides (ZMW) for obtaining sequence information when phosphate-linked nucleotides are included in growing primer strands.
  • ZMW zero-mode waveguides
  • NGS NGS
  • Other sequencing methods for NGS include, but are not limited to, nanopore sequencing, sequencing by hybridization, nano-transistor array based sequencing, polony sequencing, scanning tunneling microscopy (STM) based. sequencing and nanowire-molecular sensor-based sequencing.
  • Nanopore sequencing involves the electrophoresis of nucleic acid molecules in solution through nano-scale pores that provide a highly confined space in which single-nucleic acid polymers can be analyzed. Representative methods of nanopore sequencing are described, eg, in Branton D. et al., Nat Biotechnol. 2008; 26(10): 1146-53.
  • Sequencing by hybridization is a non-enzymatic method using DNA microarrays.
  • a single pool of DNA is fluorescently labeled and hybridized to an array containing known sequences.
  • a hybridization signal from a given spot on the array can identify the DNA sequence. Binding of one strand of DNA to its complementary strand in a DNA double-strand is sensitive even to single-base mismatches when the hybrid region is short or when a specific mismatch detection protein is present.
  • Representative methods of sequencing by hybridization are described, for example, in Hanna G.J. et al. J. Clin. Microbiol. 2000; 38(7): 2715-21; and Edwards J.R. et al., Mut. Res. 2005; 573 (1-2): 3-12).
  • Polony sequencing is based on following sequencing via Poloni amplification and multiple single-base-extension (FISSEQ).
  • Poloni amplification is a method of amplifying DNA in situ on a polyacrylamide film. Representative Poloni sequencing methods are described, for example, in US Patent Application Publication No. 2007/0087362.
  • Nano-transistor array based devices such as Carbon NanoTube Field Effect Transistors (CNTFETs) can also be used for NGS.
  • CNTFETs Carbon NanoTube Field Effect Transistors
  • DNA molecules are stretched and driven across nanotubes by micro-fabricated electrodes. DNA molecules come into contact with the carbon nanotube surface sequentially, and a difference in the current flow from each base is created due to charge transfer between the DNA molecule and the nanotube. DNA is sequenced by recording these differences.
  • An exemplary nano-transistor array based sequencing method is described, for example, in US Patent Publication No. 2006/0246497.
  • Scanning electron tunneling microscopy can also be used for NGS.
  • STM uses piezo-electronic-controlled probes to perform raster scans of a specimen to form images of its surface.
  • STM can be used to image the physical properties of single DNA molecules, for example, by integrating an actuator-driven flexible gap and a scanning electron tunneling microscope to create coherent electron tunneling imaging and spectroscopy. Representative sequencing methods using STM are described, for example, in US Patent Application Publication No. 2007/0194225.
  • Molecular-analysis devices composed of nanowire-molecular sensors can also be used for NGS. Such devices can detect interactions of nitrogenous substances disposed on nanowires such as DNA and nucleic acid molecules.
  • a molecular guide is positioned to guide molecules near the molecular sensor to allow interaction and subsequent detection. Representative sequencing methods using nanowire-molecular sensors are described, for example, in US Patent Application Publication No. 2006/0275779.
  • Double ended sequencing methods can be used for NGS.
  • Double end sequencing uses blocking and unblocking primers to sequence both the sense and antisense strands of DNA. Typically, these methods include annealing an unblocked primer to the first strand of the nucleic acid; annealing a second blocking primer to the second strand of the nucleic acid; extending the nucleic acid along the first strand with a polymerase; terminating the first sequencing primer; deblocking the second primer; and extending the nucleic acid along the second strand.
  • Representative double-stranded sequencing methods are described, for example, in US Pat. No. 7,244,567.
  • NGS reads are aligned to known reference sequences or assembled de novo. For example, identifying genetic alterations such as single-nucleotide polymorphisms and structural variants in a sample (eg, a tumor sample) can be performed by aligning NGS reads against a reference sequence (eg, a wild-type sequence).
  • a reference sequence eg, a wild-type sequence.
  • de novo assemblies are described, for example, in Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; and Zerbino D.R. and Birney E., Genome Res., 2008, 18:821-829).
  • Sequence alignment or assembly can be performed using read data from one or more NGS platforms, for example by mixing Roche/454 and Illumina/Solexa read data.
  • the alignment step is not limited thereto, but may be performed using the BWA algorithm and the hg19 sequence.
  • the sequence alignment in step (b) is a computer algorithm in which most of the lead sequences in the genome (eg, short-lead sequences from next-generation sequencing) are most similar to the lead sequence and the reference sequence. It includes computational methods or approaches used to determine identity from cases likely to be derived by evaluating.
  • a variety of algorithms can be applied to sequence alignment problems. Some algorithms are relatively slow, but allow relatively high specificity. These include, for example, dynamic programming-based algorithms. Dynamic programming is a way to solve complex problems by breaking them down into simpler steps. Other approaches are relatively more efficient, but are typically less thorough. This includes, for example, heuristic algorithms and probabilistic methods designed for bulk database searches.
  • candidate screening reduces the search space for sequence alignments from the whole genome to a shorter enumeration of possible alignment positions.
  • Sequence alignment involves aligning sequences with sequences provided in the candidate screening step. This can be done using a global alignment (eg Needleman-Wunsch alignment) or a local alignment (eg Smith-Waterman alignment).
  • Most attribute sorting algorithms can be characterized as one of three types based indexing methods: hash tables (e.g. BLAST, ELAND, SOAP), suffix trees (e.g. Bowtie, BWA), and merge sort. (e.g. Slider) based algorithm.
  • Short lead sequences are typically used for alignment. Examples of sequence alignment algorithms/programs for short-lead sequences include, but are not limited to, BFAST (Homer N. et al., PLoS One. 2009; 4(11): e7767), BLASTN (on the World Wide Web). from blast.ncbi.nlm.nih.gov), BLAT (Kent W.J. Genome Res.
  • Sequence alignment algorithms can be selected based on a number of factors including, for example, sequencing technique, read length, read number, available computing resources, and sensitivity/scoring requirements. Different sequence alignment algorithms can achieve different levels of speed, alignment sensitivity and alignment specificity. Alignment specificity refers to the percentage of target sequence residues that align, typically as found in a submission, that align correctly compared to a predicted alignment. Alignment sensitivity also refers to the percentage of target sequence residues that align correctly as found in normal predicted alignments that align correctly in a submission.
  • Alignment algorithms such as ELAND or SOAP, can be used for the purpose of aligning short reads (eg, from Illumina/Solexa sequencers) to a reference genome when speed is the first factor to be considered.
  • Alignment algorithms such as BLAST or Mega-BLAST can be used for similarity search purposes using short reads (e.g. from Roche FLX), although these methods are relatively slower when specificity is the most important factor.
  • Alignment algorithms such as MAQ or Novoalign take quality scores into account, and thus can be used for single- or paired-end data when accuracy is of the essence (e.g., in fast-mass SNP searches). ).
  • Alignment algorithms such as Bowtie or BWA use the Burrows-Wheeler Transform (BWT) and thus require a relatively small memory footprint. Alignment algorithms such as BFAST, PerM, SHRiMP, SOCS or ZOOM map color space reads and can therefore be used with ABI's SOLiD platform. In some applications, results from two or more sorting algorithms may be combined.
  • BWT Burrows-Wheeler Transform
  • the length of the sequence information (reads) in step (b) is 5 to 5000 bp, and the number of sequence information used may be 5,000 to 5 million, but is not limited thereto.
  • the nucleic acid fragment terminal sequence motif in step (c) may be a pattern of 2 to 30 nucleotide sequences at both ends of the nucleic acid fragment.
  • Reverse strand 3 ⁇ -ATGACTGAAAC CTTA -5 ⁇ (SEQ ID NO: 2)
  • TACA read sequentially from the 5' end of the forward strand and ATTC read sequentially from the 5' end of the reverse strand become the terminal sequence motif values of this nucleic acid fragment.
  • the frequency of the nucleic acid fragment terminal sequence motif in step (c) may be characterized in that the number of each motif detected in the entire nucleic acid fragment.
  • Motif frequency is the number of observations of each motif in all nucleic acid fragments produced by sequencing, and the value calculated by dividing this value by the total number of nucleic acid fragments produced is the relative frequency of each motif.
  • the frequency of AAAA nucleic acid fragment end sequence motifs is 125,071, which is The relative frequency of the nucleic acid fragment terminal sequence motif calculated by dividing by the total number of nucleic acid fragments is 0.00099.
  • the size of the nucleic acid fragment in step (c) may be the number of bases from the 5' end to the 3' end of the nucleic acid fragment.
  • the size of the nucleic acid fragment analyzed by SEQ ID NOs: 1 and 2 is 15.
  • the size of the nucleic acid fragment may be 1 to 10000, preferably 10 to 1000, more preferably 50 to 500, and most preferably 90 to 250. It is not limited.
  • the vectorized data in step (d) may be characterized in that the type of nucleic acid fragment terminal sequence motif is the X axis and the size of the nucleic acid fragment is the Y axis.
  • Reverse strand 3 ⁇ -ATGACTGATCA ... AAC CTTA -5 ⁇ (SEQ ID NO: 4)
  • This nucleic acid fragment can be expressed as a two-dimensional vector as shown in the left panel of FIG. 4, and when this process is extended and accumulated to the entire nucleic acid fragment, a two-dimensional vector as shown in the right panel of FIG. 4 is generated.
  • the vectorized data may further include the sum of frequencies for each nucleic acid fragment terminal motif and the sum of frequencies for each size of nucleic acid fragments.
  • a column sum value is added 4 times to the bottom of the 2-dimensional vector in FIG. 4, and fragment size information regardless of fragment end motif is added.
  • an edge summary is additionally performed in which a row sum value is added to the rightmost side of the 2D vector in FIG. 4 four times to generate a 2D vector as shown in the left panel of FIG. 5 .
  • the two-dimensional vector is defined as a Fragment End Motif frequency and size (FEMS) table.
  • FEMS Fragment End Motif frequency and size
  • the vectorized data in the present invention may be characterized as preferably imaged, but not limited thereto.
  • An image is basically composed of pixels.
  • a 1-dimensional 2D vector black and white
  • 3-dimensional 2D vector color (RGB)
  • CMLK 4-dimensional 2D vector
  • the vectorized data of the present invention is not limited to images, and can be used, for example, as input data for an artificial intelligence model by stacking several n black-and-white images and using n-dimensional 2D vectors (Multi-dimensional Vector).
  • step (c) prior to performing step (c), it may be characterized by further comprising the step of separately sorting nucleic acid fragments satisfying a mapping quality score of the aligned nucleic acid fragments.
  • the mapping quality score may vary depending on a desired criterion, but may be preferably 15 to 70 points, more preferably 50 to 70 points, and most preferably 60 points.
  • the artificial intelligence model in step (e) can be used without limitation as long as it can learn to distinguish images for each type of cancer, and is preferably a deep learning model.
  • the artificial intelligence model can be used without limitation as long as it is an artificial neural network algorithm capable of analyzing vectorized data based on an artificial neural network, but preferably a convolutional neural network (CNN) or a deep neural network (Deep Neural Network). It may be characterized in that it is selected from the group consisting of Neural Network (DNN) and Recurrent Neural Network (RNN), but is not limited thereto.
  • CNN convolutional neural network
  • RNN Recurrent Neural Network
  • the recurrent neural network is a group consisting of a long-short term memory (LSTM) neural network, a gated recurrent unit (GRU) neural network, a vanilla recurrent neural network, and an attentive recurrent neural network. It can be characterized as being selected.
  • the loss function for performing binary classification may be characterized in that it is represented by Equation 1 below, and the loss function for performing multi-class classification is represented by Equation 2 below. can be characterized as being
  • the binary classification means that an artificial intelligence model learns to determine the presence or absence of cancer
  • multi-class classification means that an artificial intelligence model learns to discriminate two or more types of cancer
  • learning when the artificial intelligence model is a CNN, learning may be performed including the following steps:
  • the training data is used when learning the CNN model
  • the validation data is used for hyper-parameter tuning verification
  • the test data is used for performance evaluation after producing the optimal model.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (the number of convolution layers, the number of dense layers, the number of convolution filters, etc.) constituting the CNN model, and the hyper-parameter tuning process includes Bayesian optimization and grid search techniques. It can be characterized by using.
  • the learning process optimizes the internal parameters (weights) of the CNN model using predetermined hyper-parameters, and when the validation loss compared to the training loss starts to increase, it is determined that the model is overfitting, and before that, the model It may be characterized as stopping learning.
  • the result value analyzed from the vectorized data input by the artificial intelligence model in step e) can be used without limitation as long as it is a specific score or real number, and is preferably a DPI (Deep Probability Index) value. It can, but is not limited thereto.
  • DPI Deep Probability Index
  • the Deep Probability Index uses a sigmoid function in the case of binary classification in the last layer of the artificial intelligence model and a softmax function in the case of multi-class classification to adjust the output of artificial intelligence to a scale of 0 to 1 to obtain a value expressed as a probability value. it means.
  • the sigmoid function is used to learn so that the DPI value becomes 1 in case of cancer. For example, if a breast cancer sample and a normal sample are input, the DPI value of the breast cancer sample is learned to be close to 1.
  • the softmax function is used to select as many DPI values as the number of classes.
  • the sum of DPI values equal to the number of classes is 1, and learning is performed so that the DPI value of the actual cancer type is 1. For example, if there are three classes breast cancer, liver cancer, and normal, and a breast cancer sample is received, the breast cancer class is learned close to 1.
  • the output result value of step (e) may be characterized in that it is derived for each type of cancer.
  • the artificial intelligence model learns, if there is cancer, the output result learns close to 1, and if there is no cancer, the output result learns close to 0. , 0.5 or less, it was judged that there was no cancer and performance measurement was performed (training, validation, test accuracy).
  • the reference value of 0.5 is a value that can be changed at any time. For example, if you want to reduce false positives, you can strictly set the standard value higher than 0.5 to determine that you have cancer. You can take a little weaker standard that judges that there is.
  • the standard value can be determined by checking the probability of the DPI value by applying unseen data (data for which the answer is not trained for learning) using the learned artificial intelligence model.
  • the step of predicting the cancer type through the comparison of the output result value of step (f) is performed by a method comprising determining the cancer type showing the highest value among the output result values as the cancer of the sample. It can be characterized by doing.
  • the present invention includes a decoding unit for decoding sequence information by extracting nucleic acids from a biological sample
  • an alignment unit that aligns the translated sequence with a standard chromosomal sequence database
  • nucleic acid fragment analyzer for deriving the frequency of terminal sequence motifs and the size of the nucleic acid fragments based on the aligned sequences
  • a data generation unit for generating vectorized data using the terminal sequence motif frequency of the derived nucleic acid fragment and the size of the nucleic acid fragment;
  • a cancer diagnosis unit that analyzes the generated vectorized data by inputting it to the learned artificial intelligence model and compares it with a reference value to determine whether or not there is cancer
  • An apparatus for diagnosing and predicting cancer including a cancer type prediction unit for predicting a cancer type by analyzing an output result value.
  • the decoding unit nucleic acid injection unit for injecting the extracted nucleic acid in an independent device; And it may include a sequence information analyzer for analyzing the sequence information of the injected nucleic acid, preferably an NGS analysis device, but is not limited thereto.
  • the decryption unit may be characterized in that it receives and decodes sequence information data generated in an independent device.
  • the present invention is a computer readable storage medium comprising instructions configured to be executed by a processor for diagnosing cancer and predicting cancer types,
  • It relates to a computer-readable storage medium including instructions configured to be executed by a processor for predicting the presence of cancer and the type of cancer through the step of (f) predicting the type of cancer through the comparison of output result values.
  • a method according to the present disclosure may be implemented using a computer.
  • a computer includes one or more processors coupled to a chip set.
  • a memory, a storage device, a keyboard, a graphics adapter, a pointing device, and a network adapter are connected to the chipset.
  • the performance of the chipset is enabled by a memory controller hub and an I/O controller hub.
  • the memory may be used directly coupled to the processor instead of a chip set.
  • a storage device is any device capable of holding data, including a hard drive, compact disk read-only memory (CD-ROM), DVD, or other memory device. Memory is concerned with data and instructions used by the processor.
  • the pointing device may be a mouse, track ball or other type of pointing device, and is used in combination with a keyboard to transmit input data to a computer system.
  • the graphics adapter presents images and other information on a display.
  • the network adapter is connected to the computer system through a local area network or a long distance communication network.
  • the computer used herein is not limited to the above configuration, may not have some configurations, may include additional configurations, and may also be part of a storage area network (SAN), and the computer of the present application May be configured to be suitable for the execution of modules in the program for the execution of the method according to the present invention.
  • SAN storage area network
  • a module herein may mean a functional and structural combination of hardware for implementing the technical idea according to the present application and software for driving the hardware.
  • the module may mean a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and does not necessarily mean a physically connected code or one type of hardware. is apparent to those skilled in the art.
  • It relates to a method for diagnosing cancer and predicting cancer types, including the step of predicting cancer types through the comparison of the output result values.
  • the nucleic acid fragment terminal motif is set to 4 bases (A, T, G, C), and there is no difference in relative frequency in the Normal / HCC / EC group among the total 256 (4*4*4*4) types of motifs. There are motifs. If an FEMS table is created including a motif without such a difference, it becomes noise that only increases the amount of computation of the model without providing meaningful information for classification. Therefore, in order to exclude these meaningless motifs, only specific motifs with significant differences in relative frequencies in the three groups were selected.
  • the nucleic acid fragment terminal motif was set to 4 bases (A, T, G, C), and a total of 256 (4*4*4*4) types of Some of the motifs show a statistically significant (Kruskal-wallis Test, FDR-adjust p ⁇ 0.05) difference in relative frequency between the healthy (Normal), liver cancer (HCC), and esophageal cancer (EC) patient groups. Motifs were selected (Fig. 2).
  • a motif with an average frequency higher than the random baseline (1/256, 0.004) in the healthy group was additionally selected to prevent overfitting.
  • nucleic acid fragment size screening In the case of nucleic acid fragment size screening, most of the nucleic acid fragments whose quality has been confirmed have a size in the range of 90 to 250, as shown in FIG. Since most of the area is filled with a value of 0 and only meaningless noise increases, the above size was selected.
  • a two-dimensional vector was created by arranging the motif type on the X axis and the fragment size on the Y axis so that the Fragment End Motif frequency value and Size information of the nucleic acid fragment selected in Example 2 could be simultaneously expressed. More specifically, as described in the left panel of FIG. 4, the types and sizes of nucleic acid motifs at both ends of one nucleic acid fragment are expressed as frequencies, expanded and accumulated to the entire nucleic acid fragment, and as described in FIG. The same 2D vector was created.
  • a 2D vector as shown in FIG. 5 was finally generated by performing an Edge Summary step of adding a row sum value to the rightmost side of the 2D vector 4 times.
  • This two-dimensional vector was defined as a Fragment End Motif frequency and size (FEMS) table, and an example of visualizing it is as described in FIG. 5.
  • FEMS Fragment End Motif frequency and size
  • the entire sample was divided into training, validation, and test data sets, and the training data set was used for model learning, the validation data set for hyper-parameter tuning, and the test data set for final model performance evaluation.
  • the number of samples for each set is as follows.
  • ReLU Rectified Linear Unit
  • one convolution layer was used, and five 10*10 patches were used.
  • the pooling method used max and used a 2x2 patch.
  • One fully connected layer was used and 512 hidden nodes were included.
  • the final DPI value was calculated using the softmax function value.
  • the hyper-parameter tuning process is a process of optimizing the values of various parameters (number of convolution layers, number of dense layers, number of convolution filters, etc.) that make up the CNN model.
  • Bayesian optimization and grid search techniques were used in the hyper-parameter tuning process, and Training When the validation loss versus the loss started to increase, it was judged that the model was overfitting, and model training was stopped.
  • the model with the best validation data set performance was determined to be the best model, and the final performance evaluation was performed with the test data set.
  • the probability of being a healthy person, liver cancer patient, and esophageal cancer patient of the sample are calculated through the softmax function, which is the last layer of the CNN model. and this probability value was defined as the Deep Probability Index (DPI).
  • DPI Deep Probability Index
  • a random sample is determined as a group having the highest value among the three types of DPI values. For example, when the DPI values of a healthy person, a liver cancer patient, and an esophageal cancer patient calculated in a random sample are 0.6, 0.3, and 0.1, respectively, the sample is determined to be a healthy person.
  • the X axis of FIG. 8 represents the group (True label) information of the actual sample
  • the Y axis represents the DPI values of healthy (Normal), liver cancer patients (HCC), and esophageal cancer patients (EC) calculated by the CNN model in order from the left. .
  • the DPI distribution confirmed that healthy samples had the highest probability of being healthy in all of the Train, Validation, and Test data sets, and liver cancer patient samples had the highest probability of being liver cancer patients. It was confirmed that esophageal cancer patient samples had the highest probability of being esophageal cancer patients.
  • the method for diagnosing cancer and predicting cancer types using the frequency and size of cell-free nucleic acid fragment terminal sequence motifs generates vectorized data and analyzes them using an AI algorithm, so it is useful because it shows high sensitivity and accuracy even if the read coverage is low. do.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 핵산단편의 말단 서열 모티프 빈도와 핵산단편의 크기를 도출한 다음, 이를 벡터화된 데이터로 생성한 후, 학습된 인공지능 모델에 입력하여 계산된 값을 분석하는 방법을 이용한 암 진단 및 암 종 예측방법에 관한 것이다. 본 발명에 따른 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법은 벡터화된 데이터를 생성하여 AI 알고리즘을 이용하여 분석하기 때문에 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.

Description

세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
본 발명은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법에 관한 것으로, 보다 구체적으로는 생체시료에서 핵산을 추출하여, 서열정보를 획득하여 정렬한 리드를 기반으로 핵산단편의 말단 서열 모티프 빈도와 핵산단편의 크기를 도출한 다음, 이를 벡터화된 데이터로 생성한 후, 학습된 인공지능 모델에 입력하여 계산된 값을 분석하는 방법을 이용한 암 진단 및 암 종 예측방법에 관한 것이다.
임상에서의 암 진단은 통상적으로 병력 조사, 물리적 검사 및 임상적 평가 후 조직 생검(tissue biopsy)을 수행 하여 확인하고 있다. 임상 실험에 의한 암 진단은 암 세포의 수가 10억 개 이상이고 암의 직경이 1cm 이상일 경우에만 가능하다. 이 경우, 암 세포는 이미 전이능력을 가지고 있으며, 적어도 이들 중 반은 이미 전이된 상태이다. 또한, 조직생검은 침습적이어서 환자에게 상당한 불편함을 주고, 암 환자를 치료하다 보면 조직생검을 수행할 수 없는 경우도 자주 있다는 문제점이 있다. 이외에, 암 스크리닝에 있어서 암으로부터 직접 또는 간접적으로 생산되는 물질을 모니터링하기 위한 종양 마커가 사용되고 있지만, 암이 존재하는 경우에도 종양 마커 스크리닝 결과 반 이상이 정상으로 나타나고, 암이 없는 경우에도 자주 양성으로 나타나기 때문에, 그 정확성에 한계가 있다.
이와 같은 통상적인 암 진단 방법의 문제점을 보완할 만한 비교적 간편하고 비침습적이며 높은 민감도 및 특이도를 가진 암 진단 방법의 요구에 따라, 최근 암의 진단, 추적 검사로 환자의 체액을 활용하는 액상생검(liquid biopsy)이 많이 이용되고 있다. 액상생검은 비침습적(non-invasive)인 방법으로, 기존의 침습적인 진단 및 검사방법의 대안으로 주목 받고 있는 진단기술이다.
최근에는 액상생검에서 획득한 세포 유리 DNA (cell free DNA)을 이용하여 암 진단 및 암 종 감별을 수행하는 방법이 개발되고 있으며(US 10975431, Zhou, Xionghui et al., bioRxiv, 2020.07.16.201350), 특히, 세포 유리 핵산 말단 서열의 모티프 빈도 정보를 분석하여 암 진단, 산전진단 또는 장기이식 모니터링에 이용하는 방법이 알려져 있다(WO 2020-125709, Peiyong Jiang et al., cancer discovery, Vol. 10, 2020, pp. 664-673).
한편, 인공 신경망이란 연결선으로 연결된 많은 수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 연산모델을 나타낸다. 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 된다. 그리고 연결강도를 갖는 연결선을 통해 상호 연결시켜 인간의 인지작용이나 학습과정을 수행하게 된다. 연결강도는 연결선이 갖는 특정 값으로, 연결가중치라고도 한다. 인공신경망의 학습은 지도 학습과 비지도 학습으로 나눌 수 있다. 지도 학습이란 입력 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 넣고, 입력 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결강도를 갱신시키는 방법이다. 대표적인 학습 알고리즘으로는 델타규칙(Delta Rule)과 오류 역전파 학습(Back propagation Learning)이 있다. 비지도 학습이란 목표 값 없이 입력 데이터만을 사용하여 인공신경망이 스스로 연결강도를 학습시키는 방법이다. 비지도 학습은 입력 패턴들 사이의 상관관계에 의해 연결가중치들을 갱신시켜 나가는 방법이다.
기계학습에서 적용되는 많은 데이터는 복잡해지고 차원이 늘어남에 따라 차원의 저주(curse of dimensionality)의 문제가 발생한다. 즉 이는, 필요한 데이터의 차원이 무한으로 갈수록 임의의 두 점간의 거리가 무한대로 발산하며 데이터의 존재량, 즉 밀도가 고차원의 공간에서는 다소 낮아져 데이터의 특성(Feature)을 제대로 반영하지 못하게 되는 것이다(Richard Bellman, Dynamic Programming, 2003, chapter 1). 최근 심층신경망(deep learning)의 발달은 입력층(input layer)과 출력층(output layer) 사이에 숨겨진 층(hidden layer)이 있는 구조로, 입력층으로부터 전달되는 변수 값의 선형 결합(linear combination)을 비선형 함수로 처리하면서 이미지, 영상, 신호데이터 등의 고차원의 데이터에서의 분류기(classifier)의 성능을 크게 향상시켰다고 보고되었다(Hinton, Geoffrey, et al., IEEESignal Processing Magazine Vol. 29.6, pp. 82-97, 2012).
이러한 인공신경망을 이용하여 바이오 분야에 활용하는 다양한 특허(KR KR 10-2018-0124550, KR 10-2019-7038076, KR 10-2019-0003676, KR 10-2019-0001741)가 존재하고 있으나, 혈액 내 무세포 DNA(cell-free DNA, cfDNA)의 서열분석 정보를 기반으로 인공신경망 분석을 통해 암 종을 예측하는 방법에 대해서는 연구가 부족한 실정이다.
이에, 본 발명자들은 상기 문제점들을 해결하고, 높은 민감도와 정확도의인공지능 기반 암 진단 및 암 종 예측방법을 개발하기 위해 예의 노력한 결과, 무세포 핵산단편의 말단 서열 모티프와 핵산단편의 길이 정보를 기반으로 벡터화된 데이터를 생성하고, 이를 학습된 인공지능 모델로 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종을 예측할 수 있다는 것을 확인하고, 본 발명을 완성하였다.
발명의 요약
본 발명의 목적은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법을 제공하는 것이다.
본 발명의 다른 목적은 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측장치를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 방법으로 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명은 (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법을 제공한다.
본 발명은 또한, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측 방법을 제공한다.
본 발명은 또한, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부; 해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부; 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성하는 데이터 생성부; 생성된 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및 출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치를 제공한다.
본 발명은 또한, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되, (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계; (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계; (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계; (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계; (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및 (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체를 제공한다.
도 1은 본 발명의 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법을 수행하기 위한 전체 흐름도이다.
도 2는 본 발명의 일 실시예에서 건강인과 암 환자, 또는 각 암 종 사이에서 발현 빈도에 차이가 있는 motif를 선별한 과정의 예시이다.
도 3은 본 발명의 일 실시예에서 선별한 핵산단편들의 크기 분포를 확인한 그래프이다.
도 4의 왼쪽 패널은 본 발명의 일 실시예에서 제작한 FEMS table을 하나의 핵산단편으로 작성한 예시이고, 오른쪽 패널은 전체 핵산단편으로 작성한 예시이다.
도 5의 왼쪽 패널은 본 발명의 일 실시예에서 Edge summary를 추가로 수행하여 작성한 FEMS table의 예시이며, 오른쪽 패널은 이를 시각화한 결과이다.
도 6은 본 발명의 일 실시예에서 사용한 건강인, 간암 환자 및 식도암 환자의 데이터를 바탕으로 작성한 FEMS table의 시각화 예시이다.
도 7의 (A)는 본 발명의 일 실시예에서 구축한 CNN 모델의 성능을 Accuracy와 micro AUC로 확인한 결과이며, (B)는 혼동행렬(confusion matrix)이다.
도 8은 본 발명의 일 실시예에서 구축한 CNN 모델에서 예측한 건강인, 간암 환자 및 식도암 환자의 확률값이 실제 환자와 얼마나 일치하는 지를 CNN 모델이 출력한 DPI 값의 분포를 통해 확인한 결과이다.
도 9는 본 발명의 일 실시예에서 구축한 CNN 모델의 구성을 나타낸 개략도이다.
발명의 상세한 설명 및 바람직한 구현예
다른 식으로 정의되지 않는 한, 본 명세서에서 사용된 모든 기술적 및 과학적 용어들은 본 발명이 속하는 기술 분야에서 숙련된 전문가에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 일반적으로 본 명세서에서 사용된 명명법 및 이하에 기술하는 실험 방법은 본 기술 분야에서 잘 알려져 있고 통상적으로 사용되는 것이다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명에서는, 샘플에서 획득한 서열 분석 데이터를 참조 유전체에 정렬한 다음, 정렬된 서열정보를 기반으로 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하고, 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성한 다음, 학습된 인공지능 모델에서 DPI값을 계산하여 분석할 경우, 높은 민감도와 정확도로 암 진단 및 암 종류를 예측할 수 있다는 것을 확인하고자 하였다.
즉, 본 발명의 일 실시예에서는, 혈액에서 추출한 DNA를 시퀀싱 한 뒤, 참조 염색체에 정렬한 다음, 이를 이용하여 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하고, 핵산단편의 말단 서열 모티프 빈도를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 벡터화된 데이터를 생성한 다음, 이를 딥러닝 모델에 학습시켜 DPI 값을 계산하였으며, 이를 기준값과 비교하여 암 진단을 수행한 다음, 각 암 종별로 계산된 DPI 값 중, 가장 높은 DPI값을 나타낸 암 종을 샘플의 암 종으로 결정하는 방법을 개발하였다(도 1)
따라서, 본 발명은 일관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법에 관한 것이다.
본 발명에 있어서, 상기 핵산 단편은 생체시료에서 추출한 핵산의 조각이면 제한없이 이용할 수 있으며, 바람직하게는 세포 유리 핵산 또는 세포 내 핵산의 조각일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 핵산 단편은 통상의 기술자에게 알려진 모든 방법으로 얻을 수 있으며, 바람직하게는 직접 서열분석하거나, 차세대 염기서열 분석을 통해 서열분석하거나 또는 비특이적 전장 유전체 증폭(non-specific whole genome amplification)을 통해 서열분석하여 얻거나, 프로브 기반 서열분석을 통해 얻을 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서 상기 암은 고형암 또는 혈액암일 수 있으며, 바람직하게는 비호지킨 림프종 (non-Hodgkin lymphoma), 호지킨 림프종 (non-Hodgkin lymphoma), 급성 골수성 백혈병 (acute-myeloid leukemia), 급성 림프구성 백혈병 (acute-lymphoid leukemia), 다발성 골수종 (multiple myeloma), 경부암 (head and neck cancer), 폐암, 교모세포종 (glioblastoma), 대장/직장암, 췌장암, 유방암, 난소암, 흑색종 (melanoma), 전립선암, 간암, 갑상선암, 위암, 담낭암, 담도암, 방광암, 소장암, 자궁경부암, 원발부위불명암, 신장암, 식도암 및 중피종 (mesothelioma)으로 구성된 군에서 선택될 수 있으며, 더욱 바람직하게는 간암 또는 식도암 일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서,
상기 (a) 단계는
(a-i) 생체시료에서 핵산을 수득하는 단계;
(a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
(a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
(a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
(a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계;
를 포함하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 (a) 단계의 서열정보를 획득하는 단계는 분리된 무세포 DNA를 1백만 내지 1억 리드 깊이로 전장 유전체 시퀀싱을 통해 획득하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 생체시료는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), (혈장(plasma) 및 혈청(serum)을 포함하는) 혈액, 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 골반 내 유체액(pelvic fluids), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract), 정액, 모발, 타액, 소변, 구강세포, 태반세포, 뇌척수액(cerebrospinal fluid) 및 이의 혼합물을 포함할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에 있어서, 상기 차세대 유전자서열검사기(next-generation sequencer)는 당업계에 공지된 임의의 시퀀싱 방법으로 사용될 수 있다. 선택 방법에 의해 분리된 핵산의 시퀀싱은 전형적으로는 차세대 시퀀싱(NGS)을 사용하여 수행된다. 차세대 시퀀싱은 개개의 핵산 분자 또는 고도로 유사한 방식으로 개개의 핵산 분자에 대해 클론으로 확장된 프록시 중 하나의 뉴클레오타이드 서열을 결정하는 임의의 시퀀싱 방법을 포함한다(예를 들어, 105개 이상의 분자가 동시에 시퀀싱된다). 일 실시형태에서, 라이브러리 내 핵산 종의 상대적 존재비는 시퀀싱 실험에 의해 만들어진 데이터에서 그것의 동족 서열의 상대적 발생 수를 계측함으로써 추정될 수 있다. 차세대 시퀀싱 방법은 당업계에 공지되어 있고, 예를 들어 본 명세서에 참조로서 포함된 문헌(Metzker, M. (2010) Nature Biotechnology Reviews 11:31-46)에 기재된다.
일 실시형태에서, 차세대 시퀀싱은 개개의 핵산 분자의 뉴클레오타이드 서열을 결정하기 위해 한다(예를 들어, 헬리코스 바이오사이언스(Helicos BioSciences)의 헬리스코프 유전자 시퀀싱 시스템(HeliScope Gene Sequencing system) 및 퍼시픽바이오사이언스의 팩바이오 알에스 시스템(PacBio RS system)). 다른 실시형태에서, 시퀀싱, 예를 들어, 더 적지만 더 긴 리드를 만들어내는 다른 시퀀싱 방법보다 시퀀싱 단위 당 서열의 더 많은 염기를 만들어내는 대량병렬의 짧은-리드 시퀀싱(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer)) 방법은 개개의 핵산 분자에 대해 클론으로 확장된 프록시의 뉴클레오타이드 서열을 결정한다(예를 들어, 캘리포니아주 샌디에고에 소재한 일루미나 인코포레이티드(Illumina Inc.) 솔렉사 시퀀서(Solexa sequencer); 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재) 및 아이온 토렌트(Ion Torrent)). 차세대 시퀀싱을 위한 다른 방법 또는 기계는, 이하에 제한되는 것은 아니지만, 454 라이프 사이언스(Life Sciences)(코네티컷주 브랜포드에 소재), 어플라이드 바이오시스템스(캘리포니아주 포스터 시티에 소재; SOLiD 시퀀서), 헬리코스 바이오사이언스 코포레이션(매사추세츠주 캠브릿지에 소재) 및 에멀젼 및 마이크로 유동 시퀀싱 기법 나노 점적(예를 들어, 지누바이오(GnuBio) 점적)에 의해 제공된다.
차세대 시퀀싱을 위한 플랫폼은, 이하에 제한되는 것은 아니지만, 로슈(Roche)/454의 게놈 시퀀서(Genome Sequencer: GS) FLX 시스템, 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(Genome Analyzer: GA), 라이프(Life)/APG의 서포트 올리고(Support Oligonucleotide Ligation Detection: SOLiD) 시스템, 폴로네이터(Polonator)의 G. 007 시스템, 헬리코스 바이오사이언스의 헬리스코프 유전자 시퀀싱 시스템(Helicos BioSciences' HeliScope Gene Sequencing system) 및 퍼시픽 바이오사이언스(Pacific Biosciences)의 팩바이오알에스(PacBio RS) 시스템을 포함한다.
NGS 기술은, 예를 들어 주형 제조, 시퀀싱 및 이미징 및 데이터 분석 단계 중 하나 이상을 포함할 수 있다.
주형 제조. 주형 제조를 위한 방법은 핵산(예를 들어, 게놈 DNA 또는 cDNA)을 작은 크기로 무작위로 파괴하는 단계 및 시퀀싱 주형(예를 들어, 단편 주형 또는 메이트-쌍 주형)을 만드는 단계와 같은 단계들을 포함할 수 있다. 공간적으로 분리된 주형은 고체 표면 또는 지지체에 부착되거나 또는 고정될 수 있는데, 이는 대량의 시퀀싱 반응이 동시에 수행되도록 한다. NGS 반응을 위해 사용될 수 있는 주형의 유형은, 예를 들어 단일 DNA 분자로부터 유래된 클론이 증폭된 주형 및 단일 DNA 분자 주형을 포함한다.
클론이 증폭된 주형의 제조방법은, 예를 들어 에멀젼 PCR(emulsion PCR: emPCR) 및 고체상 증폭을 포함한다.
EmPCR은 NGS를 위한 주형을 제조하기 위해 사용될 수 있다. 전형적으로, 핵산 단편의 라이브러리가 만들어지며, 보편적 프라이밍 부위를 함유하는 어댑터는 단편의 말단에 결찰된다. 그 다음에 단편은 단일 가닥으로 변성되고, 비드에 의해 포획된다. 각 비드는 단일 핵산 분자를 포획한다. 증폭 및 emPCR 비드의 풍부화 후, 다량의 주형이 부착될 수 있고, 표준 현미경 슬라이드(예를 들어, 폴로네이터(Polonator)) 상에서 폴리아크릴아마이드 겔에 고정되며, 아미노-코팅된 유리 표면(예를 들어, Life/APG; 폴로네이터(Polonator))에 화학적으로 가교되거나, 또는 개개의 피코타이터플레이트(PicoTiterPlate: PTP) 웰(예를 들어, 로슈(Roche)/454) 상에 증착되는데, 이때 NGS 반응이 수행될 수 있다.
고체상 증폭이 또한 사용되어 NGS를 위한 주형을 생성할 수 있다. 전형적으로, 전방 및 후방 프라이머는 고체지지체에 공유적으로 부착된다. 증폭된 단편의 표면 밀도는 지지체 상에서 프라이머 대 주형의 비로써 정의된다. 고체상 증폭은 수백만개의 공간적으로 분리된 주형 클러스터(예를 들어, 일루미나/솔렉사(Illumina/Solexa))를 생성할 수 있다. 주형 클러스터의 말단은 NGS 반응을 위한 보편적 프라이머에 혼성화될 수 있다.
클론으로 증폭된 주형의 제조를 위한 다른 방법은, 예를 들어 다중 치환 증폭(Multiple Displacement Amplification: MDA)(Lasken R. S. Curr Opin Microbiol. 2007; 10(5): 510-6)을 포함한다. MDA는 비-PCR 기반 DNA 증폭 기법이다. 반응은 주형에 대해 무작위 헥사머 프라이머를 어닐링하는 단계 및 일정한 온도에서 고충실도 효소, 전형적으로 Ф29에 의해 DNA를 합성하는 단계를 수반한다. MDA는 더 낮은 오류 빈도로 거대한 크기의 생성물을 만들 수 있다.
PCR과 같은 주형 증폭 방법은 표적에 NGS 플랫폼을 결합시킬 수 있거나 또는 게놈의 특이적 영역을 풍부화할 수 있다(예를 들어, 엑손). 대표적인 주형 풍부화 방법은, 예를 들어 마이크로점적 PCR 기법(Tewhey R. et al., Nature Biotech. 2009, 27:1025-1031), 맞춤-설계된 올리고뉴클레오타이드 마이크로어레이(예를 들어, 로슈(Roche)/님블젠(NimbleGen) 올리고뉴클레오타이드 마이크로어레이) 및 용액-기반 혼성화 방법(예를 들어, 분자역위 프로브(molecular inversion probe: MIP))(Porreca G. J. et al., Nature Methods, 2007, 4:931-936; Krishnakumar S. et al., Proc. Natl. Acad. Sci. USA, 2008, 105:9296-9310; Turner E. H. et al., Nature Methods, 2009, 6:315-316) 및 바이오틴화된 RNA 포획 서열 (Gnirke A. et al., Nat. Biotechnol. 2009; 27(2): 182-9)을 포함한다.
단일-분자 주형은 NGS 반응을 위해 사용될 수 있는 주형의 다른 유형이다. 공간적으로 분리된 단일 분자 주형은 다양한 방법에 의해 고체 지지체 상에 고정될 수 있다. 한 접근에서, 개개의 프라이머 분자는 고체 지지체에 공유적으로 부착된다. 어댑터는 주형에 첨가되고, 주형은 그 다음에 고정된 프라이머에 혼성화된다. 다른 접근에서, 단일-분자 주형은 고정된 프라이머로부터 단일-가닥의 단일-분자 주형을 프라이밍하고 연장시킴으로써 고체 지지체에 공유적으로 부착된다. 그 다음에 보편적 프라이머는 주형에 혼성화된다. 또 다른 접근에서, 단일 폴리머라제 분자는 프라이밍된 주형이 결합된 고체 지지체에 부착된다.
시퀀싱 및 이미징. NGS를 위한 대표적인 시퀀싱 및 이미징 방법은, 이하에 제한되는 것은 아니지만, 사이클릭 가역적 종결(cyclic reversible termination: CRT), 결찰에 의한 시퀀싱(sequencing by ligation: SBL), 단일-분자 첨가(파이로시퀀싱(pyrosequencing)) 및 실시간 시퀀싱을 포함한다.
CRT는 뉴클레오타이드 포함, 형광 이미징 및 절단 단계를 최소로 포함하는 사이클릭 방법에서 가역 종결자를 사용한다. 전형적으로, DNA 폴리머라제는 프라이머에 주형 염기의 상보적 뉴클레오타이드에 대해 상보적인 단일의 형광으로 변형된 뉴클레오타이드를 포함시킨다. DNA 합성은 단일 뉴클레오타이드의 첨가 후 종결되고, 미포함된 뉴클레오타이드는 세척된다. 포함된 표지 뉴클레오타이드의 동일성을 결정하기 위해 이미징이 수행된다. 그 다음에, 절단 단계에서, 종결/억제기 및 형광 염료는 제거된다. CRT 방법을 사용하는 대표적인 NGS 플랫폼은, 이하에 제한되는 것은 아니지만, 전체 내부 반사 형광(total internal reflection fluorescence: TIRF)에 의해 검출된 4-색 CRT 방법과 결합된 클론으로 증폭된 주형 방법을 사용하는 일루미나(Illumina)/솔렉사(Solexa) 게놈 분석기(GA); 및 TIRF에 의해 검출된 1-색 CRT 방법과 결합된 단일-분자 주형 방법을 사용하는 헬리코스 바이오사이언스(Helicos BioSciences)/헬리스코프(HeliScope)를 포함한다.
SBL은 시퀀싱을 위해 DNA 리가제 및 1-염기-암호화된 프로브 또는 2-염기-암호화된 프로브 중 하나를 사용한다.
전형적으로, 형광 표지된 프로브는 프라이밍된 주형에 인접한 상보적 서열에 혼성화된다. DNA 리가제는 프라이머에 염료-표지된 프로브를 결찰시키기 위해 사용된다. 비-결찰 프로브가 세척된 후 결찰된 프로브의 동일성을 결정하기 위하여 형광 이미징이 수행된다. 형광 염료는 후속의 결찰 주기를 위해 5'-PO4 기를 재생하는 절단가능한 프로브를 사용하여 제거될 수 있다. 대안적으로, 새로운 프라이머는 오래된 프라이머가 제거된 후 주형에 혼성화될 수 있다. 대표적인 SBL 플랫폼은, 이하에 제한되는 것은 아니지만, 라이프(Life)/APG/SOLiD(지지체 올리고뉴클레오타이드 결찰 검출)를 포함하는데, 이는 2-염기-암호화된 프로브를 사용한다.
파이로시퀀싱 방법은 다른 화학발광 효소로 DNA 폴리머라제의 활성을 검출하는 단계를 기반으로 한다. 전형적으로, 해당 방법은 한 번에 하나의 염기쌍을 따라 상보적 가닥을 합성하고, 각 단계에서 실제로 첨가된 염기를 검출함으로써 DNA의 단일 가닥을 시퀀싱시킨다. 주형 DNA는 고정적이며, A, C, G 및 T 뉴클레오타이드의 용액은 순차적으로 첨가되고, 반응으로부터 제거된다. 빛은 단지 뉴클레오타이드 용액이 주형의 짝지어지지 않은 염기를 보충할 때에만 생성된다. 화학발광 신호를 생성하는 용액의 서열은 주형의 서열을 결정하게 한다. 대표적인 파이로시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, PTP 웰에 증착된 백만 내지 2백만개의 비드에 의한 emPCR에 의해 제조된 DNA 주형을 사용하는 로슈(Roche)/454를 포함한다.
실시간 시퀀싱은 DNA 합성 동안 염료-표지된 뉴클레오타이드의 연속적 포함을 이미징하는 단계를 수반한다. 대표적인 실시간 시퀀싱 플랫폼은, 이하에 제한되는 것은 아니지만, 포스페이트 연결된 뉴클레오타이드가 성장되는 프라이머 가닥에 포함될 때 서열 정보를 얻기 위한 개개의 0-모드 웨이브가이드(zero-mode waveguide, ZMW)
검출기의 표면에 부착된 DNA 폴리머라제 분자를 사용하는 퍼시픽 바이오사이언스 플랫폼(Pacific Biosciences); 형광 공명 에너지 전달(fluorescence resonance energy transfer, FRET)에 의한 뉴클레오타이드 포함 후 향상된 신호를 만들기 위해 부착된 형광 염료와 함께 유전자 조작된 DNA 폴리머라제를 사용하는 라이프(Life)/비시겐(VisiGen) 플랫폼; 및 시퀀싱 반응에서 염료-퀀처 뉴클레오타이드를 사용하는 LI-COR 바이오사이언스(Biosciences) 플랫폼을 포함한다.
NGS의 다른 시퀀싱 방법은, 이하에 제한되는 것은 아니지만, 나노포어 시퀀싱, 혼성화에 의한 시퀀싱, 나노-트랜지스터 어레이 기반 시퀀싱, 폴로니(polony) 시퀀싱, 주사형전자 터널링 현미경(scanning tunneling microscopy, STM) 기반 시퀀싱 및 나노와이어-분자 센서 기반 시퀀싱을 포함한다.
나노포어 시퀀싱은 단일-핵산 폴리머에서 분석될 수 있는 고도로 밀폐된 공간을 제공하는 나노-규모 포어를 통해서 용액 중의 핵산 분자의 전기영동을 수반한다. 나노포어 시퀀싱의 대표적인 방법은, 예를 들어 문헌[Branton D. et al., Nat Biotechnol. 2008; 26(10): 1146-53]에 기재된다.
혼성화에 의한 시퀀싱은 DNA 마이크로어레이를 사용하는 비-효소적 방법이다. 전형적으로, DNA의 단일 풀은 형광으로 표지되며, 공지된 서열을 함유하는 어레이에 혼성화된다. 어레이 상의 주어진 스팟으로부터 혼성화 신호는 DNA 서열을 확인할 수 있다. DNA 이중-가닥에서 DNA 중 한 가닥의 그것의 상보적 가닥에 결합은 혼성체 영역이 짧거나 또는 구체된 미스매치 검출 단백질이 존재할 때, 단일-염기 미스매치에 대해서 조차도 민감하다. 혼성화에 의한 시퀀싱의 대표적인 방법은, 예를 들어 문헌(Hanna G.J. et al. J. Clin. Microbiol. 2000; 38(7): 2715-21; 및 Edwards J.R. et al., Mut. Res. 2005; 573(1-2): 3-12) 에 기재된다.
폴로니 시퀀싱은 폴로니 증폭 및 다중 단일-염기-연장(FISSEQ)을 통해 시퀀싱에 따르는 것을 기반으로 한다. 폴로니 증폭은 폴리아크릴아마이드 필름 상에서 인시츄로 DNA를 증폭시키는 방법이다. 대표적인 폴로니 시퀀싱 방법은, 예를 들어 미국특허 출원 공개 제2007/0087362호에 기재된다.
탄소나노튜브 전계 효과 트랜지스터(Carbon NanoTube Field Effect Transistor: CNTFET)와 같은 나노-트랜지스터 어레이 기반 장치가 또한 NGS를 위해 사용될 수 있다. 예를 들어, DNA 분자는 신장되고, 마이크로-제작된 전극에 의해 나노튜브에 걸쳐 구동된다. DNA 분자는 탄소 나노튜브 표면과 순차적으로 접촉하게 되고, DNA 분자와 나노튜브 사이의 전하 전달에 기인하여 각 염기로부터의 전류 흐름의 차이가 만들어진다. DNA는 이들 차이를 기록함으로써 시퀀싱된다. 대표적인 나노-트랜지스터 어레이 기반 시퀀싱 방법은, 예를 들어 미국특허 공개 제2006/0246497호에 기재된다.
주사형전자 터널링 현미경(STM)은 또한 NGS를 위해 사용될 수 있다. STM은 표본의 래스터 주사(raster scan)를 수행하는 피에조-전자-제어 프로브를 사용하여 그것 표면의 이미지를 형성한다. STM은, 예를 들어 작동기-구동 가요성 갭과 주사형전자 터널링 현미경을 통합시킴으로써 일관된 전자 터널링 이미징 및 분광학을 만드는 단일 DNA 분자의 물리적 특성을 이미징하기 위해 사용될 수 있다. STM을 사용하는 대표적인 시퀀싱 방법은, 예를 들어 미국특허출원 공개 제2007/0194225호에 기재된다.
나노와이어-분자 센서로 구성된 분자-분석 장치가 또한 NGS를 위해 사용될 수 있다. 이러한 장치는 DNA와 같은 나노와이어 및 핵산 분자에 배치된 질소성 물질의 상호작용을 검출할 수 있다. 분자 가이드는 상호작용 및 후속하는 검출을 허용하기 위해 분자 센서 근처의 분자를 가이딩하기 위해 배치된다. 나노와이어-분자 센서를 사용하는 대표적인 시퀀싱 방법은 예를 들어 미국특허 출원 공개 제2006/0275779호에 기재된다.
이중 말단의 시퀀싱 방법이 NGS를 위해 사용될 수 있다. 이중 말단 시퀀싱은 DNA의 센스와 안티센스 가닥 둘 다를 시퀀싱하기 위해 차단 및 미차단 프라이머를 사용한다. 전형적으로, 이들 방법은 핵산의 제1 가닥에 미차단 프라이머를 어닐링시키는 단계; 핵산의 제2 가닥에 제2의 차단 프라이머를 어닐링 시키는 단계; 폴리머라제로 제1 가닥을 따라 핵산을 연장시키는 단계; 제1 시퀀싱 프라이머를 종결시키는 단계; 제2 프라이머를 차단해제(deblocking)하는 단계; 및 제2 가닥을 따라 핵산을 연장시키는 단계를 포함한다. 대표적인 이중 가닥 시퀀싱 방법은, 예를 들어 미국특허 제7,244,567호에 기재된다.
NGS 리드가 만들어진 후, 그것들은 공지된 기준 서열에 대해 정렬되거나 데노보 조립된다. 예를 들어, 샘플(예를 들어, 종양 샘플)에서 단일-뉴클레오타이드 다형성 및 구조적 변이체와 같은 유전적 변형을 확인하는 것은 기준 서열(예를 들어, 야생형 서열)에 대해 NGS 리드를 정렬함으로써 수행될 수 있다. NGS에 대한 서열 정렬방법은, 예를 들어 문헌(Trapnell C. and Salzberg S.L. Nature Biotech., 2009, 27:455-457] 에 기재된다.
드노보 조립체의 예는, 예를 들어 문헌(Warren R. et al., Bioinformatics, 2007, 23:500-501; Butler J. et al., Genome Res., 2008, 18:810-820; 및 Zerbino D.R. 및 Birney E., Genome Res., 2008, 18:821-829) 에 기재된다.
서열 정렬 또는 어셈블리는 하나 이상의 NGS 플랫폼으로부터의 리드 데이터를 사용하여, 예를 들어 로슈(Roche)/454 및 일루미나(Illumina)/솔렉사(Solexa) 리드 데이터를 혼합하여 수행될 수 있다. 본 발명에 있어서, 상기 정렬단계는 이에 제한되지는 않으나, BWA 알고리즘 및 hg19 서열을 이용하여 수행되는 것일 수 있다.
본 발명에 있어서, 상기 (b) 단계의 서열 정렬은 컴퓨터 알고리즘으로서 게놈에서 리드 서열(예를 들어, 차세대 시퀀싱으로부터의, 예를 들어 짧은-리드 서열)이 대부분 리드 서열과 기준 서열 사이의 유사성을 평가함으로써 유래될 가능성이 있는 경우로부터 동일성에 대해 사용되는 컴퓨터적 방법 또는 접근을 포함한다. 서열 정렬 문제에 다양한 알고리즘이 적용될 수 있다. 일부 알고리즘은 상대적으로 느리지만, 상대적으로 높은 특이성을 허용한다. 이들은, 예를 들어 역동적 프로그래밍-기반 알고리즘을 포함한다. 역동적 프로그래밍은 그것들이 더 간단한 단계로 나누어짐으로써 복잡한 문제를 해결하는 방법이다. 다른 접근은 상대적으로 더 효율적이지만, 전형적으로 철저하지 않다. 이는, 예를 들어 대량 데이터베이스 검색을 위해 설계된 휴리스틱(heuristic) 알고리즘 및 확률적(probabilistic) 방법을 포함한다.
전형적으로, 정렬 과정에 두 단계가 있을 수 있다: 후보자 검사 및 서열 정렬. 후보자 검사는 가능한 정렬 위치의 더 짧은 열거에 대해 전체 게놈으로부터 서열 정렬을 위한 검색 공간을 감소시킨다. 용어가 시사하는 바와 같이 서열 정렬은 후보자 검사 단계에 제공된 서열을 갖는 서열을 정렬시키는 단계를 포함한다. 이는 광역 정렬(예를 들어, 니들만-분쉬(Needleman-Wunsch) 정렬) 또는 국소 정렬(예를 들어, 스미스-워터만 정렬)을 사용하여 수행될 수 있다.
대부분의 속성 정렬 알고리즘은 색인 방법에 기반한 3가지 유형 중 하나를 특징으로 할 수 있다: 해쉬 테이블(예를 들어, BLAST, ELAND, SOAP), 접미사트리(예를 들어, Bowtie, BWA) 및 병합 정렬(예를 들어, 슬라이더(Slider))에 기반한 알고리즘. 짧은 리드 서열은 정렬을 위해 전형적으로 사용된다. 짧은-리드 서열에 대한 서열 정렬 알고리즘/프로그램의 예는, 이하에 제한되는 것은 아니지만, BFAST (Homer N. et al., PLoS One. 2009; 4(11): e7767), BLASTN(월드 와이드 웹상의 blast.ncbi.nlm.nih.gov에서), BLAT(Kent W.J. Genome Res. 2002;12(4):656-64), 보타이(Bowtie) (Langmead B. et al., Genome Biol. 2009;10(3): R25), BWA (Li H. and Durbin R. Bioinformatics, 2009, 25:1754-60), BWA-SW (Li H. and Durbin R. Bioinformatics, 2010;26(5):589-95), 클라우드버스트(CloudBurst)(Schatz M.C. Bioinformatics. 2009;25(11):1363-9), 코로나 라이트(Corona Lite)(Applied Biosystems, Carlsbad, California, USA), CASHX(Fahlgren N. et al., RNA, 2009; 15, 992-1002), CUDA-EC (Shi H. et al., J Comput Biol. 2010;17(4):603-15), ELAND(월드 와이드 웹상의 bioit.dbi.udel.edu/howto/eland에서), GNUMAP(Clement N.L. et al., Bioinformatics. 2010;26(1):38-45), GMAP(Wu T.D. and Watanabe C.K. Bioinformatics. 2005;21(9):1859-75), GSNAP(Wu T.D. and Nacu S., Bioinformatics. 2010;26(7):873-81), 제니오스 어셈블러(Geneious Assembler)(뉴질랜드 오클랜드에 소재한 Biomatters Ltd.), LAST, MAQ(Li H. et al., Genome Res. 2008;18(11):1851-8), Mega-BLAST(월드 와이드 웹 상의 ncbi.nlm.nih.gov/blast/megablast.shtml에서), MOM(Eaves H.L. and Gao Y. Bioinformatics. 2009;25(7):969-70), MOSAIK(월드 와이드 웹 상의 bioinformatics.bc.edu/marthlab/Mosaik에서), 노보얼라인(Novoalign)(월드 와이드 웹 상의 novocraft.com/main/index.php에서), 팔맵퍼(PALMapper)(월드 와이드 웹 상의 fml.tuebingen.mpg.de/raetsch/suppl/palmapper에서), PASS(Campagna D. et al., Bioinformatics. 2009;25(7):967-8), PatMaN(Prufer K. et al., Bioinformatics. 2008; 24(13):1530-1), PerM(Chen Y. et al., Bioinformatics, 2009, 25 (19): 2514-2521), ProbeMatch(Kim Y.J. et al., Bioinformatics. 2009;25(11):1424-5), QPalma(de Bona F. et al., Bioinformatics, 2008, 24(16): i174), RazerS(Weese D. et al., Genome Research, 2009, 19:1646-1654), RMAP (Smith A.D. et al., Bioinformatics. 2009;25(21):2841-2), SeqMap(Jiang H. et al. Bioinformatics. 2008;24:2395-2396.), Shrec(Salmela L., Bioinformatics. 2010;26(10):1284-90), SHRiMP(Rumble S.M. et al., PLoS Comput. Biol., 2009, 5(5):e1000386), SLIDER(Malhis N. et al., Bioinformatics, 2009, 25 (1): 6-13), 슬림 서치(SLIM Search)(Muller T. et al., Bioinformatics. 2001;17 Suppl 1:S182-9), SOAP(Li R. et al., Bioinformatics. 2008;24(5):713-4), SOAP2(Li R. et al., Bioinformatics. 2009;25(15):1966-7), SOCS(Ondov B.D. et al., Bioinformatics, 2008; 24(23):2776-7), SSAHA(Ning Z. et al., Genome Res. 2001;11(10):1725-9), SSAHA2(Ning Z. et al., Genome Res. 2001;11(10):1725-9), 스탬피(Stampy)(Lunter G. and Goodson M. Genome Res. 2010, epub ahead of print), 타이판(Taipan)(월드 와이드 웹 상의 taipan.sourceforge.net에서), UGENE(월드 와이드 웹 상의 ugene.unipro.ru에서), XpressAlign(월드 와이드 웹 상의 bcgsc.ca/platform/bioinfo/software/XpressAlign에서), 및 ZOOM(캐나다 온타리오주 워터루에 소재한 바이오인포매틱스 솔루션 인코포레이티드(Bioinformatics Solutions Inc.))을 포함한다.
서열 정렬 알고리즘은, 예를 들어 시퀀싱 기법, 리드 길이, 리드 수, 입수가능한 컴퓨팅 자료 및 민감성/스코어링 필요조건을 포함하는 다수의 인자에 기반하여 선택될 수 있다. 상이한 서열 정렬 알고리즘은 상이한 속도 수준, 정렬 민감성 및 정렬 특이성을 달성할 수 있다. 정렬 특이성은 예측된 정렬과 비교하여 정확하게 정렬된 전형적으로 서브미션에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다. 정렬 민감성은 또한 서브미션에서 정확하게 정렬된 보통 예측된 정렬에서 발견되는 바와 같이 정렬된 표적 서열 잔기의 백분율을 지칭한다.
정렬 알고리즘, 예컨대 ELAND 또는 SOAP는 속도가 고려되는 제1 인자일 때 기준 게놈에 대해 짧은 리드(예를 들어, 일루미나(Illumina)/솔렉사(Solexa) 시퀀서제)을 정렬하는 목적으로 사용될 수 있다. BLAST 또는 Mega-BLAST와 같은 정렬 알고리즘은 특이성이 가장 중요한 인자일 때, 이들 방법이 상대적으로 더 느리지만, 짧은 판독(예를 들어, 로슈(Roche) FLX제)을 사용하여 유사성 조사의 목적을 위해 사용될 수 있다. MAQ 또는 노보얼라인(Novoalign)와 같은 정렬 알고리즘은 품질 스코어를 고려하며, 따라서 정확성이 본질을 가질 때 단일- 또는 짝지어진-말단 데이터에 대해 사용될 수 있다(예를 들어, 고속-대량 SNP 검색에서). 보타이(Bowtie) 또는 BWA와 같은 정렬 알고리즘은 버로우즈-휠러 변환(Burrows-Wheeler Transform: BWT)을 사용하며, 따라서 상대적으로 작은 메모리 풋프린트(memory footprint)를 필요로 한다. BFAST, PerM, SHRiMP, SOCS 또는 ZOOM과 같은 정렬 알고리즘은 색공간 리드를 맵핑하며, 따라서 ABI의 SOLiD 플랫폼과 함께 사용될 수 있다. 일부 적용에서, 2 이상의 정렬 알고리즘으로부터의 결과가 조합될 수 있다.
본 발명에 있어서, 상기 (b) 단계의 서열정보(reads)의 길이는, 5 내지 5000 bp이고, 사용하는 서열정보의 수는 5천 내지 500만개가 될 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 할 수 있다.
즉, 하기와 같이 페어드-엔드 시퀀싱에 의해 서열분석된 핵산단편이 있을 시,
Forward strand: 5`-TACAGACTTTGGAAT-3` (서열번호 1)
Reverse strand: 3`-ATGACTGAAACCTTA-5` (서열번호 2)
Forward strand 5` 말단에서부터 순서대로 읽은 TACA와, Reverse strand 5` 말단에서부터 순서대로 읽은 ATTC가 이 핵산단편의 말단 서열 모티프 값이 된다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편 말단 서열 모티프의 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 할 수 있다.
즉, 핵산단편 말단 서열 모티프를 양 말단의 4개의 염기를 바탕으로 분석할 경우(4-mer motif), 1, 2, 3, 4 번째 위치에 각각 A, T, G, C 네 종류의 염기 조합이 가능하기 때문에, 총 256 가지 (4*4*4*4) 조합의 motif 값이 분석 대상이 된다.
시퀀싱으로 생상된 전체 핵산 단편에서 각 motif들이 관측되는 수를 계수한 것이 모티프 빈도이고, 이 값을 생산된 전체 핵산 단편 숫자로 나누어 계산한 값이 각 motif의 상대 빈도(relative frequency)이다.
Figure PCTKR2022007651-appb-img-000001
상기 표 1에 기재된 바와 같이 전체 핵산 단편의 숫자가 126,430,124개 이고, AAAA가 핵산단편 말단 서열 모티프로 분석되는 핵산단편의 개수가 125,071개이므로, AAAA 핵산단편 말단 서열 모티프의 빈도는 125,071이되고, 이를 전체 핵산단편 숫자로 나누어 계산한 핵산단편 말단 서열 모티프의 상대 빈도는 0.00099가 되는 것이다.
본 발명에 있어서, 상기 (c) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 할 수 있다.
예를 들어, 상기 서열번호 1 및 2로 분석되는 핵산단편의 크기는 15이다.
본 발명에서, 상기 핵산단편의 크기는 1 내지 10000일 수 있고, 바람직하게는 10 내지 1000일 수 있으며, 더욱 바람직하게는 50 내지 500일 수 있고, 가장 바람직하게는 90 내지 250일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 (d) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 할 수 있다.
즉, 아래와 같은 핵산 단편이 하나 있다고 가정했을 때,
Forward strand: 5`-TACAGACTAGT … TTGGAAT-3` (서열번호 3)
Reverse strand: 3`-ATGACTGATCA … AACCTTA-5` (서열번호 4)
Fragment Size: 176
이 핵산단편은 도 4의 왼쪽 패널과 같은 2차원 벡터로 표현될 수 있으며, 이러한 과정을 전체 핵산 단편으로 확장하여 누적하면, 도 4의 오른쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 할 수 있다.
즉, Fragment Size에 관계 없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 도 4의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계 없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 도 4의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary를 추가적으로 수행하여, 도 5의 왼쪽 패널과 같은 2차원 벡터를 생성하는 것이다.
본 발명에서는 상기 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였다. FEMS table을 시각화하면 도 5의 오른쪽 패널 및 도 6과 같이 나타날 수 있다.
본 발명에서 벡터화된 데이터는 이에 한정되지는 않으나 바람직하게는 이미지화된 것을 특징으로 할 수 있다. 이미지는 기본적으로 픽셀로 구성되는데, 픽셀로 구성된 이미지를 벡터화 시키면, 이미지의 종류에 따라서 1차원 2D 벡터(흑백), 3차원 2D 벡터(color(RGB)) 또는 4차원 2D 벡터(color(CMYK))로 표현될 수 있다.
본 발명의 벡터화된 데이터는 이미지에 한정되지 않고, 예를 들어 n개의 흑백 이미지 여러 장으로 쌓아서 n차원의 2D 벡터(Multi-dimensional Vector)를 이용하여 인공지능 모델의 입력 데이터로 사용할 수 있다.
본 발명에서, 상기 (c) 단계를 수행하기에 앞서 정렬된 핵산단편의 정렬 일치도 점수(mapping quality score)를 만족하는 핵산단편을 따로 분류하는 단계를 추가로 포함하는 것을 특징으로 할 수 있다.
본 발명에서 상기 정렬 일치도 점수(mapping quality score)는 원하는 기준에 따라 달라질 수 있으나, 바람직하게는 15-70점, 더욱 바람직하게는 50~70점 일 수 있고, 가장 바람직하게는 60점일 수 있다.
본 발명에 있어서, 상기 (e) 단계의 인공지능 모델은 암 종류별 이미지를 구별할 수 있도록 학습할 수 있는 모델이면 제한없이 사용가능하며, 바람직하게는 딥러닝 모델인 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델은 인공신경망 기반으로 벡터화된 데이터를 분석할 수 있는 인공신경망 알고리즘이면 제한없이 이용할 수 있으나, 바람직하게는 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있으나, 이에 한정되는 것은 아니다.
본 발명에 있어서, 상기 순환 신경망은 LSTM(Long-short term memory) 신경망, GRU(Gated Recurrent Unit) 신경망, 바닐라 순환 신경망(Vanilla recurrent neural network) 및 집중적 순환 신경망(attentive recurrent neural network)으로 구성된 군에서 선택되는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 인공지능 모델이 CNN일 경우, binary classification을 수행하는 손실함수는 하기 수식 1로 표시되는 것을 특징으로 할 수 있고, Multi-class classification을 수행하는 손실함수는 하기 수식 2로 표시되는 것을 특징으로 할 수 있다.
Figure PCTKR2022007651-appb-img-000002
Figure PCTKR2022007651-appb-img-000003
본 발명에서, 상기 binary classification은 인공지능 모델이 암 유무를 판별하도록 학습하는 것을 의미하며, multi-class classification은 인공지능 모델이 두 가지 이상의 암 종을 판별하도록 학습하는 것을 의미한다.
본 발명에서, 상기 인공지능 모델이 CNN일 경우, 학습은 하기 단계를 포함하여 수행되는 것을 특징으로 할 수 있다:
i) 생산된 벡터 데이터를 training(학습), validation(검증), test(성능평가) 데이터로 분류하는 단계;
이 때, Training 데이터는 CNN 모델을 학습할 때 사용되고, Validation 데이터는 hyper-parameter tuning 검증에 사용되며, Test 데이터는 최적의 모델 생산 후, 성능 평가로 사용되는 것을 특징으로 함.
ii) Hyper-parameter tuning 및 학습 과정을 통해서 최적의 CNN 모델을 구축하는 단계;
iii) Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 validation data를 이용하여 비교하여, validation data 성능이 가장 좋은 모델을 최적의 모델로 결정하는 단계;
본 발명에서, 상기 Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화 하는 과정으로 Hyper-parameter tuning 과정으로는 Bayesian optimization 및 grid search 기법을 사용하는 것을 특징으로 할 수 있다.
본 발명에서, 상기 학습 과정은 정해진 hyper-parameter들을 이용하여 CNN 모델의 내부 parameter(weights)들을 최적화 시켜, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단하고, 그전에 model 학습을 중단하는 것을 특징으로 할 수 있다.
본 발명에 있어서, 상기 e) 단계에서 인공지능 모델이 입력된 벡터화된 데이터로부터 분석한 결과값은 특정 score 또는 실수이면 제한없이 이용가능하며, 바람직하게는 DPI(Deep Probability Index) 값인 것을 특징으로 할 수 있으나 이에 한정되는 것은 아니다.
본 발명에서, Deep probability Index는 인공지능 model의 마지막 layer에 binary classification일 경우 sigmoid function, multi-class classification일 경우 softmax function을 사용하여 인공지능의 output을 0 ~ 1 scale로 조정하여 확률값으로 표현한 값을 의미한다.
Binary classification일 경우에는 sigmoid function을 이용하여 암 일 경우 DPI 값이 1이 되게끔 학습을 하게 된다. 예를 들어, 유방암 샘플과 정상 샘플이 입력되면, 유방암 샘플의 DPI 값이 1에 가깝도록 학습하는 것이다.
Multi-class classification 일 경우에는 softmax function을 이용하여, class 개수만큼의 DPI 값을 뽑게 된다. Class 개수만큼의 DPI갑의 합은 1이되고, 실제 해당되는 암 종의 DPI값이 1이 되게끔 학습을 하게 된다. 예를 들어, 3개의 class 유방암, 간암, 정상이 있고, 유방암 sample이 들어오면, 유방암 class를 1에 가깝게 학습하게 되는 것이다.
본 발명에서 상기 (e) 단계의 출력 결과값은 암 종별로 도출되는 것을 특징으로 할수 있다.
본 발명에서, 상기 인공지능 모델은 학습할 때, 암이 있으면 output 결과가 1에 가깝게 학습하고, 암이 없으면 output 결과가 0에 가깝게 학습을 시켜서, 0.5를 기준으로 0.5 이상이면 암이 있다고 판단하고, 0.5 이하이면 암이 없다고 판단하여 performance 측정을 수행하였다(Training, validation, test accuracy).
여기서, 0.5의 기준값은 언제든지 바뀔 수 있는 값이라는 것은 통상의 기술자에게 자명한 것이다. 예를 들어서 False positive(위양성)를 줄이고자 하면, 0.5보다 높은 기준값을 설정하여 암이 있다고 판단되는 기준을 엄격하게 가져 갈 수 있고, False Negative(위음성)를 줄이고자 하면 기준값을 더 낮게 측정하여 암이 있다고 판단되는 기준을 조금 더 약하게 가져 갈 수 있다.
가장 바람직하게는 학습된 인공지능 모델을 이용하여 unseen data(학습에 training하지 않은 답을 알고 있는 data)를 적용시켜서, DPI값의 probability를 확인하여 기준값을 정할 수 있다.
본 발명에 있어서, 상기 (f) 단계의 출력 결과값 비교를 통해 암 종을 예측하는 단계는 출력 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 할 수 있다.
본 발명은 다른 관점에서, 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부; 및
정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성하는 데이터 생성부;
생성된 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치에 관한 것이다.
본 발명에서, 상기 해독부는 독립된 장치에서 추출된 핵산을 주입하는 핵산 주입부; 및 주입된 핵산의 서열정보를 분석하는 서열정보 분석부를 포함할 수 있으며, 바람직하게는 NGS 분석 장치일 수 있으나, 이에 한정되는 것은 아니다.
본 발명에서, 상기 해독부는 독립된 장치에서 생성된 서열정보 데이터를 수신하여 해독하는 것을 특징으로 할 수 있다.
본 발명은 또 다른 관점에서, 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
다른 양태에서 본원에 따른 방법은 컴퓨터를 이용하여 구현될 수 있다. 일 구현예에서, 컴퓨터는 칩 세트에 연결된 하나 이상의 프로세서를 포함한다. 또한 칩 세트에는 메모리, 저장 장치, 키보드, 그래픽 어댑터(Graphics Adapter), 포인팅 장치(Pointing Device) 및 네트워크 어댑터(Network Adapter) 등이 연결되어 있다. 일 구현예에서, 상기 칩 세트의 성능은 메모리 컨트롤러 허브(Memory Controller Hub) 및 I/O 컨트롤러 허브에 의하여 가능하다. 다른 구현예에서, 상기 메모리는 칩 세트 대신에 프로세서에 직접 연결되어 사용될 수 있다. 저장 장치는 하드 드라이브, CD-ROM(Compact Disk Read-Only Memory), DVD 또는 기타 메모리 장치를 포함하는 데이터를 유지할 수 있는 임의의 장치이다. 메모리는 프로세서에 의하여 사용된 데이터 및 명령에 관여한다. 상기 포인팅 디바이스는 마우스, 트랙볼 (Track Ball) 또는 다른 유형의 포인팅 디바이스일 수 있고, 키보드와 조합하여 입력 데이터를 컴퓨터 시스템으로 전송하는데 사용된다. 상기 그래픽 어댑터는 디스플레이 상에서 이미지 및 다른 정보를 나타낸다. 상기 네트워크 어댑터는 근거리 또는 장거리 통신망으로 컴퓨터 시스템과 연결된다. 본원에 사용되는 컴퓨터는 하지만 위와 같은 구성으로 제한되는 것은 아니고, 일부 구성이 없거나, 추가의 구성을 포함 할 수 있으며, 또한 저장장치영역네트워크(Storage Area Network, SAN)의 일부일 수 있으며, 본원의 컴퓨터는 본원에 따른 방법의 수행을 위한 프로그램에 모듈의 실행에 적합하도록 구성될 수 있다.
본원에서 모듈이라 함은, 본원에 따른 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스(Resource)의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본원 기술분야의 당업자에게 자명한 것이다.
본 발명은 또 다른 관점에서,
(a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
(b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
(c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
(d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
(e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
(f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법에 관한 것이다.
실시예
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 예시하기 위한 것으로서, 본 발명의 범위가 이들 실시예에 의해 제한되는 것으로 해석되지는 않는 것은 당업계에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예 1. 혈액에서 DNA를 추출하여, 차세대 염기서열 분석 수행
건강인 349명, 간암 환자 51명 및 식도암 환자 108명의 혈액을 10mL씩 채취하여 EDTA Tube에 보관하였으며, 채취 후 2시간 이내에 1200g, 4℃, 15분의 조건으로 혈장 부분만 1차 원심분리한 다음, 1차 원심분리된 혈장을 16000g, 4℃, 10분의 조건으로 2차 원심분리하여 침전물을 제외한 혈장 상층액을 분리하였다. 분리된 혈장에 대해 Tiangenmicro DNA kit (Tiangen)을 사용하여 cell-free DNA를 추출하고, MGIEasy cell-free DNA library prep set kit 를 사용하여 library preparation 과정을 수행 한 다음, DNBseq G400 장비 (MGI) 를 100 base Paired end 모드로 sequencing 하였다. 그 결과, 샘플 당 약 170 million 개의 reads가 생산되는 것을 확인 하였다.
실시예 2. 핵산단편 말단 모티프 및 핵산단편 크기 선별
2-1. 핵산단편 말단 모티프 선별
핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 중에는 Normal / HCC / EC 그룹에서 상대빈도 차이가 없는 motif 들이 있다. 이러한 차이가 없는 motif를 포함하여 FEMS table을 생성할 경우, Classification을 위한 의미 있는 정보는 주지 못하면서 모델의 연산 양만 늘리는 Noise가 된다. 따라서, 이러한 의미 없는 Motif는 제외시키기 위해, 세 그룹에서 상대빈도의 차이가 유의미하게 존재했던 특정 motif들만 선별하였다.
아울러, Size, Motif 선별 과정에서 모델 과적합 (Overfitting) 이슈가 생기는 것을 방지하기 위해, Size, Motif 선별 과정에는 Training set만을 사용하다.
즉, 실시예 1에서 생성한 NGS 데이터를 이용하여, 핵산단편 말단 모티프를 4개의 염기(A, T, G, C)로 설정하고, 전체 256가지(4*4*4*4) 가지 종류의 motif 들 중 건강인(Normal), 간암(HCC), 식도암(EC) 환자 그룹 사이에 통계적으로 유의미한 수준의 (Kruskal-wallis Test, FDR-adjust p < 0.05) 상대 빈도(relative frequency) 차이를 나타내는 일부 motif를 선별하였다(도 2).
또한, 위 과정에서 선별한 motif 중, overfitting을 방지하기 위하여 건강인 그룹에서의 평균 frequency가 random baseline (1/256, 0.004) 보다 높은 motif를 추가 선별하였다.
그 결과, 총 84개의 모티프를 선별하였으며, 상세한 모티프 정보는 아래와 같다:
CTGG, ACTT, CCTA, TGGA, TGGG, CAGG, TATA, CCTT, CAGC, TAGA, AGAA, AGAG, CATA, CAGT, CAGA, ACCT, CTGT, ACAT, GCTT, GCTA, TCAG, CTTA, GGCC, ATTT, CCCA, TATC, CCTG, TCTA, GCCT, ACTG, TGAG, GGTA, CATT, TATT, CCAT, CCTC, CCAA, CTTT, TAAG, GCTG, CCCT, TGAA, ACCA, GTTT, TGTA, CTCA, GCCA, TATG, GCAT, AAAG, AAAA, GGCT, TGAC, AGCA, TCTT, CTGA, CATC, ACAA, GACA, AACA, CCCC, CACT, GGAG, GGCA, TCAA, CAAG, TAAA, AAAT, TGCC, GGTT, GGGA, CCAC, TGTG, CATG, TGCA, GAAT, TGTC, TGCT, CAAT, GGAA, AGTG, TACT, CACA, TCCC
2-2. 핵산단편 크기 선별
핵산단편 크기 선별의 경우에는, 퀄리티 확인이 끝난 핵산 단편들은 대부분 도 3에 기재된 바와 같이, 90~250 범위의 size를 가지고 있으므로, 이 크기 범위를 벗어나는 ‘영역을 포함하여 FEMS table을 생성할 경우, 대부분의 영역이 0 값으로 채워지고, 의미 없는 Noise만 증가하게 되므로, 상기 크기를 선별하였다.
실시예 3. Fragment End Motif frequency and Size (FEMS) table 생성
실시예 2에서 선별한 핵산 단편의 Fragment End Motif frequency 값과 Size 정보를 동시에 표현할 수 있도록 X 축에는 motif 종류를, Y 축에는 Fragment Size를 배열하여 2차원의 벡터를 생성하였다. 보다 구체적으로는, 도 4의 왼쪽 패널에 기재된 바와 같이, 하나의 핵산 단편에 대하여 양 말단의 핵산 모티프 종류와 크기를 빈도수로 표현하고, 이를 전체 핵산 단편으로 확장시키고 누적하여, 도 4에 기재된 바와 같은 2차원 벡터를 생성하였다.
또한, Fragment Size에 관계 없는 Fragment End Motif별 frequency 정보를 추가하기 위해 열 합 (column sum) 값을 위의 2차원 벡터 가장 아래에 4번 추가하고, Fragment End Motif에 관계 없는 Fragment Size 정보를 추가하기 위해 행 합 (row sum) 값을 위의 2차원 벡터 가장 우측에 4번 추가하는 Edge Summary 단계를 수행하여 최종적으로 도 5에 기재된 바와 같은 2차원 벡터를 생성하였다. 이 2차원 벡터를 Fragment End Motif frequency and Size (FEMS) table이라 정의하였으며, 이를 시각화한 예시는 도 5에 기재된 바와 같다.
실시예 3. CNN 모델 구축 및 학습 과정
FEMS table 2차원 벡터를 인풋으로 하여 건강인, 간암 환자, 식도암 환자를 구분하는 CNN 인공지능 모델을 학습하였다.
전체 샘플을 Training, Validation, Test 데이터 세트로 나누어 Training 데이터 세트는 모델 학습에, Validation 데이터 세트는 hyper-parameter tuning에, Test 데이터 세트는 최종 모델 성능 평가에 사용하였다. 각 세트 별 샘플 수는 아래와 같다.
Figure PCTKR2022007651-appb-img-000004
CNN 모델의 기본적인 구성은 도 9와 같다. 활성함수는 ReLU (RectifiedLinearunit)을 사용하였고, convolution layer 는 1개를 사용하였고, 5개의 10*10 patch 를 사용하였다. Pooling 방식은 max 를 이용했고 2x2 patch 를 이용하였다. Fully connected layer는 1개를 사용하였고 512개의 hidden node가 포함되어 있다. 마지막으로 softmax 함수값을 이용해 최종 DPI 값을 계산하였다.
Hyper-parameter tuning 과정은 CNN 모델을 이루는 여러 parameter(convolution layer 수, dense layer 수, convolution filter 수 등) 값을 최적화하는 과정으로, Hyper-parameter tuning 과정에는 Bayesian optimization 및 grid search 기법을 사용하였고, Training loss 대비 validation loss가 증가하기 시작하면 모델이 과적합(Overfitting) 되었다 판단되어 model 학습을 중단하였다.
Hyper-parameter tuning을 통해서 얻어진 여러 모델의 성능을 Validation 데이터 세트를 이용하여 비교한 다음, Validation 데이터 세트 성능이 가장 좋은 모델을 최적의 모델이라 판단하고, Test 데이터 세트로 최종 성능 평가를 수행하였다.
상기 과정을 거쳐서 만들어진 모델에 임의의 샘플의 FEMS table 2차원 벡터를 넣어 주면, CNN 모델의 마지막 layer인 softmax 함수를 통해 해당 샘플의 건강인일 확률, 간암 환자일 확률, 식도암 환자일 확률이 각각 계산되고, 이 확률 값을 Deep Probability Index (DPI)라 정의하였다.
임의의 샘플은 세 종류의 DPI 값 중 가장 높은 값을 갖는 그룹으로 판단하게 된다. 예를 들어, 임의의 샘플에서 계산된 건강인, 간암 환자, 식도암 환자의 DPI 값이 각각 0.6, 0.3, 0.1 이었을 경우, 이 샘플은 건강인으로 판단하게 된다.
실시예 4. 구축한 딥러닝 모델의 성능 확인
4-1 성능 확인
실시예 3에서 구축한 딥러닝 모델에서 출력한 DPI 값의 성능을 테스트 하였다. 모든 샘플은 Train, Validation, Test 그룹으로 나눠 진행했고, Train 샘플을 이용하여 model을 구축한 다음 Validation 그룹 및 Test 그룹의 샘플을 이용해서, Train 샘플을 이용해 만든 모델의 성능을 확인하였다.
Figure PCTKR2022007651-appb-img-000005
그 결과, 표 3 및 도 7에 기재된 바와 같이, Accuracy 는 Train, Valid, Test 그룹에서 각각 91.3%, 92.7%, 89.5%인 것을 확인 하였고, Multi-class ROC 분석 결과인 micro AUC 값은 Train, Valid, Test 그룹에서 각각 0.991, 0.990, 0.955로 나타나는 것을 확인하였다. 도 7의 (A)는 Train, Validation, Test 그룹에서 CNN 모델의 성능을 Accuracy와 microAUC로 확인한 것이며, 도 7의 (B)는 Train, Validation, Test 그룹에서 CNN 모델의 성능을 혼동행렬 (confusion matrix)로 확인한 것이다.
4-2. DPI 분포 확인
실시예 3에서 구축한 딥러닝 모델의 출력값인 DPI 값이 실제 환자와 얼마나 일치하는 지를 확인하였다. 도 8의 X 축은 실제 샘플의 그룹 (True label) 정보를 나타내고, Y 축은 왼쪽에서부터 순서대로 CNN 모델에서 계산된 건강인(Normal), 간암 환자(HCC), 식도암 환자(EC)일 DPI 값을 나타낸다.
그 결과, 도 8에 기재된 바와 같이 DPI 분포는 Train, Validation, Test 데이터 세트 모두에서 건강인 샘플들은 건강인일 확률이 가장 높게 분포하는 것을 확인하였고, 간암 환자 샘플들은 간암 환자일 확률이 가장 높게 나타나는 것을 확인하였으며, 식도암 환자 샘플들은 식도암 환자일 확률이 가장 높게 분포하는 것을 확인하였다.
이상으로 본 발명 내용의 특정한 부분을 상세히 기술하였는 바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적 기술은 단지 바람직한 실시 양태일 뿐이며, 이에 의해 본 발명의 범위가 제한되는 것이 아닌 점은 명백할 것이다. 따라서, 본 발명의 실질적인 범위는 첨부된 청구항들과 그것들의 등가물에 의하여 정의된다고 할 것이다.
본 발명에 따른 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법은 벡터화된 데이터를 생성하여 AI 알고리즘을 이용하여 분석하기 때문에 리드 커버리지가 낮더라도 높은 민감도와 정확도를 나타내어 유용하다.
전자파일 첨부하였음.

Claims (16)

  1. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측을 위한 정보의 제공방법
  2. (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 포함하는 암 진단 및 암 종 예측방법.
  3. 제1항 또는 제2항에 있어서, 상기 (a) 단계는 다음의 단계를 포함하는 방법으로 수행되는 것을 특징으로 하는 방법:
    (a-i) 혈액, 정액, 질 세포, 모발, 타액, 소변, 구강세포, 태반세포 또는 태아세포를 포함하는 양수, 조직세포 또는 이의 혼합물에서 핵산을 수득하는 단계;
    (a-ii) 채취된 핵산에서 솔팅-아웃 방법(salting-out method), 컬럼 크로마토그래피 방법(column chromatography method) 또는 비드 방법(beads method)을 사용하여 단백질, 지방, 및 기타 잔여물을 제거하고 정제된 핵산을 수득하는 단계;
    (a-iii) 정제된 핵산 또는 효소적 절단, 분쇄, 수압 절단 방법(hydroshear method)으로 무작위 단편화(random fragmentation)된 핵산에 대하여, 싱글 엔드 시퀀싱(single-end sequencing) 또는 페어 엔드 시퀀싱(pair-end sequencing) 라이브러리(library)를 제작하는 단계;
    (a-iv) 제작된 라이브러리를 차세대 유전자서열검사기(next-generation sequencer)에 반응시키는 단계; 및
    (a-v) 차세대 유전자서열검사기에서 핵산의 서열정보(reads)를 획득하는 단계.
  4. 제1항에 있어서, 상기 (c) 단계의 말단 서열 모티프는 핵산단편 양 말단의 2 내지 30개의 염기서열의 패턴인 것을 특징으로 하는 방법.
  5. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 말단 서열 모티프 빈도는 전체 핵산 단편에서 검출된 각각의 모티프 수인 것을 특징으로 하는 방법.
  6. 제1항 또는 제2항에 있어서, 상기 (c) 단계의 핵산단편의 크기는 핵산단편의 5’ 말단에서 3’ 말단까지의 염기 개수인 것을 특징으로 하는 방법.
  7. 제1항 또는 제2항에 있어서, 상기 (d) 단계의 벡터화된 데이터는 핵산단편 말단 서열 모티프 종류를 X축으로 하고, 핵산단편의 크기를 Y축으로 하는 것을 특징으로 하는 방법.
  8. 제7항에 있어서, 상기 벡터화된 데이터는 핵산단편 말단 모티프별 빈도의 총합 및 핵산단편 크기별 빈도의 총합을 추가로 포함하는 것을 특징으로 하는 방법.
  9. 제1항 또는 제2항에 있어서, 상기 (e) 단계의 인공지능 모델은 건강인 벡터화된 데이터와 암이 있는 벡터화된 데이터를 구별할 수 있도록 학습하는 것을 특징으로 하는 방법.
  10. 제9항에 있어서, 상기 인공지능 모델은 합성곱 신경망(convolutional neural network, CNN), 심층 신경망(Deep Neural Network, DNN) 및 순환 신경망(Recurrent Neural Network, RNN)으로 구성된 군에서 선택되는 것을 특징으로 하는 방법.
  11. 제10항에 있어서, 상기 인공지능 모델이 CNN이고, binary classification 을 학습할 경우, 손실함수는 하기 수식 1로 표시되며, 상기 인공지능 모델이 CNN이고, Multi-class classification을 학습할 경우, 손실함수는 하기 수식 2으로 표시되는 것을 특징으로 하는 방법:
    Figure PCTKR2022007651-appb-img-000006
    Figure PCTKR2022007651-appb-img-000007
  12. 제1항 또는 제2항에 있어서, 상기 (e) 단계의 인공지능 모델이 입력된 벡터화된 데이터를 분석하여 출력하는 결과값은 DPI(Deep Probability Index)값인 것을 특징으로 하는 방법.
  13. 제1항 또는 제2항에 있어서, 상기 (e) 단계의 기준값은 0.5이며, 0.5 이상일 경우, 암 인 것으로 판정하는 것을 특징으로 하는 방법.
  14. 제1항 또는 제2항에 있어서,
    상기 (f) 단계의 출력 결과값 비교를 통해 암 종을 예측하는 단계는 출력 결과값 중, 가장 높은 값을 나타내는 암 종을 샘플의 암으로 판정하는 단계를 포함하는 방법으로 수행하는 것을 특징으로 하는 방법.
  15. 생체시료에서 핵산을 추출하여 서열정보를 해독하는 해독부;
    해독된 서열을 표준 염색체 서열 데이터베이스에 정렬하는 정렬부;
    정렬된 서열 기반의 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의크기를 도출하는 핵산단편 분석부;
    도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용한 벡터화된 데이터를 생성하는 데이터 생성부;
    생성된 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석하고, 기준값과 비교하여 암 유무를 판정하는 암 진단부; 및
    출력된 결과값을 분석하여 암 종을 예측하는 암 종 예측부를 포함하는 암 진단 및 암 종 예측 장치.
  16. 컴퓨터 판독 가능한 저장 매체로서, 암 진단 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하되,
    (a) 생체시료에서 핵산을 추출하여 서열정보를 획득하는 단계;
    (b) 획득한 서열정보(reads)를 표준 염색체 서열 데이터베이스(reference genome database)에 정렬(alignment)하는 단계;
    (c) 상기 정렬된 서열정보(reads)를 이용하여 핵산단편(fragments)의 말단 서열 모티프 빈도 및 핵산단편의 크기를 도출하는 단계;
    (d) 상기 도출된 핵산단편의 말단 서열 모티프 빈도 및 핵산단편의 크기를 이용하여 벡터화된 데이터를 생성하는 단계;
    (e) 생성된 상기 벡터화된 데이터를 학습된 인공지능 모델에 입력하여 분석한 출력 결과값과 기준값(cut-off value)을 비교하여 암 유무를 판정하는 단계; 및
    (f) 상기 출력 결과값 비교를 통해 암 종을 예측하는 단계를 통하여, 암 유무 및 암 종을 예측하는 프로세서에 의해 실행되도록 구성되는 명령을 포함하는 컴퓨터 판독 가능한 저장 매체.
PCT/KR2022/007651 2021-05-28 2022-05-30 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법 WO2022250513A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
AU2022283089A AU2022283089A1 (en) 2021-05-28 2022-05-30 Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment
EP22811704.0A EP4350708A1 (en) 2021-05-28 2022-05-30 Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment
CN202280038191.3A CN117897776A (zh) 2021-05-28 2022-05-30 使用细胞游离核酸片段的末端序列基序频率和大小诊断癌症和预测癌症类型的方法
CA3220412A CA3220412A1 (en) 2021-05-28 2022-05-30 Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment
US18/171,360 US20230260655A1 (en) 2021-05-28 2023-02-19 Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210068891A KR20220160806A (ko) 2021-05-28 2021-05-28 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR10-2021-0068891 2021-05-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/171,360 Continuation US20230260655A1 (en) 2021-05-28 2023-02-19 Method for diagnosing cancer and predicting cancer type by using terminal sequence motif frequency and size of cell-free nucleic acid fragment

Publications (1)

Publication Number Publication Date
WO2022250513A1 true WO2022250513A1 (ko) 2022-12-01

Family

ID=84229107

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/007651 WO2022250513A1 (ko) 2021-05-28 2022-05-30 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법

Country Status (7)

Country Link
US (1) US20230260655A1 (ko)
EP (1) EP4350708A1 (ko)
KR (1) KR20220160806A (ko)
CN (1) CN117897776A (ko)
AU (1) AU2022283089A1 (ko)
CA (1) CA3220412A1 (ko)
WO (1) WO2022250513A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116083578A (zh) * 2022-12-15 2023-05-09 华中科技大学同济医学院附属同济医院 预测宫颈癌新辅助化疗效果或复发高危分类的系统及其方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060246497A1 (en) 2005-04-27 2006-11-02 Jung-Tang Huang Ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070087362A1 (en) 2004-02-27 2007-04-19 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
US7244567B2 (en) 2003-01-29 2007-07-17 454 Life Sciences Corporation Double ended sequencing
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
KR20180124550A (ko) 2017-05-12 2018-11-21 한국전자통신연구원 연관패턴 학습을 통한 사용자 일정 추천 시스템 및 방법
KR20190001741A (ko) 2017-06-28 2019-01-07 삼성전자주식회사 안테나 장치 및 안테나를 포함하는 전자 장치
KR20190003676A (ko) 2016-05-02 2019-01-09 코닝 인코포레이티드 광학적 선명도(clarity)를 갖는 적층된(laminated) 유리 구조물 및 이의 제조 방법.
KR20190036494A (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
WO2020125709A1 (en) 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20200108938A (ko) * 2019-03-04 2020-09-22 주식회사 엑소퍼트 엑소좀에 의한 인공지능 기반의 액체생검을 이용한 암 진단 정보 제공 방법 및 시스템
US10975431B2 (en) 2018-05-18 2021-04-13 The Johns Hopkins University Cell-free DNA for assessing and/or treating cancer

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7244567B2 (en) 2003-01-29 2007-07-17 454 Life Sciences Corporation Double ended sequencing
US20070087362A1 (en) 2004-02-27 2007-04-19 President And Fellows Of Harvard College Polony fluorescent in situ sequencing beads
US20060246497A1 (en) 2005-04-27 2006-11-02 Jung-Tang Huang Ultra-rapid DNA sequencing method with nano-transistors array based devices
US20060275779A1 (en) 2005-06-03 2006-12-07 Zhiyong Li Method and apparatus for molecular analysis using nanowires
US20070194225A1 (en) 2005-10-07 2007-08-23 Zorn Miguel D Coherent electron junction scanning probe interference microscope, nanomanipulator and spectrometer with assembler and DNA sequencing applications
KR20190003676A (ko) 2016-05-02 2019-01-09 코닝 인코포레이티드 광학적 선명도(clarity)를 갖는 적층된(laminated) 유리 구조물 및 이의 제조 방법.
KR20180124550A (ko) 2017-05-12 2018-11-21 한국전자통신연구원 연관패턴 학습을 통한 사용자 일정 추천 시스템 및 방법
KR20190001741A (ko) 2017-06-28 2019-01-07 삼성전자주식회사 안테나 장치 및 안테나를 포함하는 전자 장치
KR20190036494A (ko) * 2017-09-27 2019-04-04 이화여자대학교 산학협력단 Dna 복제수 변이 기반의 암 종 예측 방법
US20190189242A1 (en) * 2017-12-18 2019-06-20 Personal Genome Diagnostics Inc. Machine learning system and method for somatic mutation discovery
US10975431B2 (en) 2018-05-18 2021-04-13 The Johns Hopkins University Cell-free DNA for assessing and/or treating cancer
WO2020125709A1 (en) 2018-12-19 2020-06-25 The Chinese University Of Hong Kong Cell-free dna end characteristics
KR20200101106A (ko) * 2019-02-19 2020-08-27 주식회사 녹십자지놈 혈중 무세포 dna 기반 간암 치료 예후예측 방법
KR20200108938A (ko) * 2019-03-04 2020-09-22 주식회사 엑소퍼트 엑소좀에 의한 인공지능 기반의 액체생검을 이용한 암 진단 정보 제공 방법 및 시스템

Non-Patent Citations (32)

* Cited by examiner, † Cited by third party
Title
BRANTON D ET AL., NAT. BIOTECHNOL., vol. 26, no. 10, 2008, pages 1146 - 53
CLEMENT N. L. ET AL., BIOINFORMATICS, vol. 26, no. 10, 2010, pages 1284 - 90
EDWARDS J. R. ET AL., MUT. RES., vol. 573, no. 1-2, 2005, pages 3 - 12
FAHLGREN N ET AL., RNA, vol. 15, 2009, pages 992 - 1002
GNIRKE A ET AL., NAT. BIOTECHNOL., vol. 27, no. 2, 2009, pages 182 - 9
HANNA G. J. ET AL., J. CLIN. MICROBIOL., vol. 38, no. 7, 2000, pages 2715 - 21
HINTONGEOFFREY ET AL., IEEE SIGNAL PROCESSING MAGAZINE, vol. 29, no. 6, 2012, pages 82 - 97
HOMER N ET AL., PLOS ONE, vol. 4, no. 11, 2009, pages e7767
JIANG PEIYONG, SUN KUN, PENG WENLEI, CHENG SUK HANG, NI MENG, YEUNG PHILIP C., HEUNG MACY M.S., XIE TINGTING, SHANG HUIMIN, ZHOU Z: "Plasma DNA End-Motif Profiling as a Fragmentomic Marker in Cancer, Pregnancy, and Transplantation", CANCER DISCOVERY, AMERICAN ASSOCIATION FOR CANCER RESEARCH, US, vol. 10, no. 5, 1 May 2020 (2020-05-01), US , pages 664 - 673, XP093007557, ISSN: 2159-8274, DOI: 10.1158/2159-8290.CD-19-0622 *
KENT W, J. GENOME RES., vol. 12, no. 4, 2002, pages 656 - 64
KRISHNAKUMAR S ET AL., PROC. NATL. ACAD. SCI. USA, vol. 105, 2008, pages 9296 - 9310
LANGMEAD B ET AL., GENOME BIOL, vol. 10, no. 3, 2009, pages R25
LASKEN R. S., CURR. OPIN. MICROBIOL., vol. 10, no. 5, 2007, pages 510 - 6
LI H ET AL., GENOME RES, vol. 18, no. 11, 2008, pages 1851 - 8
LUNTER G.GOODSON M., GENOME RES, 2010
METZKER, M, NATURE BIOTECHNOLOGY REVIEWS, vol. 11, 2010, pages 31 - 46
MULLER T ET AL., BIOINFORMATICS, vol. 17, 2001, pages S182 - 9
NING Z ET AL., GENOME RES, vol. 11, no. 10, 2001, pages 1725 - 9
ONDOV B.D. ET AL., BIOINFORMATICS, vol. 24, no. 23, 2008, pages 2776 - 2396
PEIYONG JIANG ET AL., CANCER DISCOVERY, vol. 10, 2020, pages 664 - 673
PORRECA GJ ET AL., NATURE METHODS, vol. 4, 2007, pages 931 - 936
RUMBLE S.M. ET AL., PLOS COMPUT. BIOL., vol. 5, no. 5, 2009, pages e1000386
SHI H ET AL., J. COMPUT. BIOL., vol. 17, no. 4, 2010, pages 603 - 15
SMITH A.D. ET AL., BIOINFORMATICS, vol. 25, no. 15, 2009, pages 1966 - 2521
TEWHEY R ET AL., NATURE BIOTECH, vol. 27, 2009, pages 1025 - 1031
TRAPNELL CSALZBERG S.L., NATURE BIOTECH., vol. 27, 2009, pages 455 - 457
TURNER EH ET AL., NATURE METHODS, vol. 6, 2009, pages 315 - 316
WARREN R ET AL., BIOINFORMATICS, vol. 23, 2007, pages 500 - 501
WEESE D ET AL., GENOME RESEARCH, vol. 19, 2009, pages 1646 - 1654
WU T.D.WATANABE C.K., BIOINFORMATICS, vol. 21, no. 9, 2005, pages 1859 - 75
ZERBINO D.R.BIRNEY E., GENOME RES., vol. 18, 2008, pages 821 - 829
ZHOU, XIONGHUI ET AL., BIORXIV, 2020.07.16.201350

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116083578A (zh) * 2022-12-15 2023-05-09 华中科技大学同济医学院附属同济医院 预测宫颈癌新辅助化疗效果或复发高危分类的系统及其方法

Also Published As

Publication number Publication date
AU2022283089A9 (en) 2024-01-04
EP4350708A1 (en) 2024-04-10
US20230260655A1 (en) 2023-08-17
CA3220412A1 (en) 2022-12-01
KR20220160806A (ko) 2022-12-06
CN117897776A (zh) 2024-04-16
AU2022283089A1 (en) 2023-12-14

Similar Documents

Publication Publication Date Title
WO2021107676A1 (ko) 인공지능 기반 염색체 이상 검출 방법
WO2022114631A1 (ko) 인공지능 기반 암 진단 및 암 종 예측방법
WO2022250513A1 (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
WO2022097844A1 (ko) 유전자 복제수 변이 정보를 이용하여 췌장암 환자의 생존 예후를 예측하는 방법
JP2024028758A (ja) 核酸断片間距離情報を用いた染色体異常検出方法
WO2022250514A1 (ko) 세포유리 핵산과 이미지 분석기술 기반의 암 진단 및 암 종 예측 방법
WO2024117792A1 (ko) 세포유리 핵산단편 말단 서열 모티프 빈도 및 크기를 이용한 암 진단 및 암 종 예측방법
KR102452413B1 (ko) 핵산 단편간 거리 정보를 이용한 염색체 이상 검출 방법
WO2023075402A1 (ko) 메틸화된 무세포 핵산을 이용한 암 진단 및 암 종 예측방법
WO2022108407A1 (ko) 핵산 길이 비를 이용한 암 진단 및 예후예측 방법
WO2023080586A1 (ko) 세포유리 핵산단편 위치별 서열 빈도 및 크기를 이용한 암 진단 방법
WO2022250512A1 (ko) 조직 특이적 조절지역의 무세포 dna 분포를 이용한 인공지능 기반 암 조기진단 방법
WO2022203437A1 (ko) 인공지능 기반 무세포 dna의 종양 유래 변이 검출 방법 및 이를 이용한 암 조기 진단 방법
WO2024096538A1 (ko) 간암 진단용 dna 메틸화 마커 및 이의 용도
KR20220062839A (ko) 인공지능 기반 모체 시료 중 태아 분획 결정 방법
Huang Computational Discovery and Annotations of Cell-Type Specific Long-Range Gene Regulation
KR101023163B1 (ko) 컴퓨터로 구현되는 생물학적 서열 동정자 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22811704

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2301007635

Country of ref document: TH

WWE Wipo information: entry into national phase

Ref document number: 3220412

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: P6003073/2023

Country of ref document: AE

WWE Wipo information: entry into national phase

Ref document number: 202280038191.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2023573426

Country of ref document: JP

Ref document number: 805960

Country of ref document: NZ

Ref document number: 2022283089

Country of ref document: AU

Ref document number: AU2022283089

Country of ref document: AU

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112023024444

Country of ref document: BR

ENP Entry into the national phase

Ref document number: 2022283089

Country of ref document: AU

Date of ref document: 20220530

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2022811704

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022811704

Country of ref document: EP

Effective date: 20240102

WWE Wipo information: entry into national phase

Ref document number: 523451696

Country of ref document: SA

REG Reference to national code

Ref country code: BR

Ref legal event code: B01E

Ref document number: 112023024444

Country of ref document: BR

Free format text: APRESENTE A DECLARACAO CONTENDO TODOS OS TITULARES E DEMAIS DADOS DA PRIORIDADE KR 10-2021-0068891 DE 28/05/2021 CONFORME O PARAGRAFO UNICO DO ART. 15 DA PORTARIA/INPI/NO 39/2021, A DECLARACAO ENVIADA NAO POSSUI A INFORMACAO COMPLETA. A EXIGENCIA DEVE SER RESPONDIDA EM ATE 60 (SESSENTA) DIAS DE SUA PUBLICACAO E DEVE SER REALIZADA POR MEIO DA PETICAO GRU CODIGO DE SERVICO 207.

ENP Entry into the national phase

Ref document number: 112023024444

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20231123