WO2017191871A1 - 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치 - Google Patents

변이 검출 표지의 신뢰도를 결정하는 방법 및 장치 Download PDF

Info

Publication number
WO2017191871A1
WO2017191871A1 PCT/KR2016/009491 KR2016009491W WO2017191871A1 WO 2017191871 A1 WO2017191871 A1 WO 2017191871A1 KR 2016009491 W KR2016009491 W KR 2016009491W WO 2017191871 A1 WO2017191871 A1 WO 2017191871A1
Authority
WO
WIPO (PCT)
Prior art keywords
depth
equation
score
variation
reliability
Prior art date
Application number
PCT/KR2016/009491
Other languages
English (en)
French (fr)
Inventor
손대순
박동현
정종석
박웅양
Original Assignee
삼성전자 주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자 주식회사
Publication of WO2017191871A1 publication Critical patent/WO2017191871A1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • a method for determining the reliability of a variation detection mark an apparatus for determining the reliability of a variation detection mark, and a computer readable recording medium having recorded thereon a program for executing the method.
  • a genome is all the genetic information of a living thing.
  • Techniques for sequencing a genome of an individual are being developed by various technologies such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology.
  • Next-generation sequencing can be used interchangeably with large-scale parallel sequencing or second-generation sequencing.
  • genetic information such as nucleotide sequences, proteins, etc. is widely used to find genes expressing diseases such as diabetes and cancer, or to identify correlations between genetic diversity and expression characteristics of individuals.
  • the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression.
  • genetic data such as individual nucleotide sequences, proteins, etc. are essential data to identify current and future disease-related information to prevent disease or to select the optimal treatment method in the early stages of disease.
  • Techniques for accurately analyzing and diagnosing mutations such as Single Nucleotide Variant (SNV), Copy Number Variation (CNV), Insertion and Deletion (InDel), and Translocation using diseases are being studied.
  • One aspect relates to a method of determining the reliability of a single nucleotide variant detection label.
  • Another aspect relates to an apparatus for determining the reliability of a single nucleotide variant detection label.
  • Another aspect relates to a computer readable recording medium having recorded thereon a program for executing a method for determining the reliability of a single nucleotide variation detection label.
  • a part when a part is connected to another part, it includes not only a case where the part is directly connected, but also an electric part connected between other components in between. .
  • a part when a part includes a certain component, this means that it may further include other components, without excluding other components unless otherwise stated.
  • the terms "... unit”, “... module” described in the embodiments means a unit for processing at least one function or operation, which is implemented in hardware or software, or a combination of hardware and software. Can be implemented.
  • One aspect includes performing target sequencing on a single nucleotide variant (SNV) predictive site of a test gene from a nucleic acid sample comprising the test gene to obtain a read; Mapping the reads to a reference dielectric and calculating a quality control score from a depth of reads aligned with the reference dielectric; And evaluating the reliability of the single nucleotide variation detection label according to the calculated QC score.
  • SNV single nucleotide variant
  • a method of determining the reliability of a variation detection label includes performing target sequencing on a single nucleotide variation prediction site to obtain a read (110), mapping a read to a reference genome (120), and the like. Computing the QC score from the depth of the reads aligned with the dielectric 130, and evaluating the reliability of the variation detection label 140.
  • single nucleotide variant refers to the difference between a single nucleotide that appears in a small population within a sequence or species, and means that the number of copies in a gene that appears repeatedly, with relatively large regions missing or amplified. Unlike a copy number variant (CNV), a single nucleotide is substituted.
  • the single nucleotide variant may be a variant with respect to the reference genome, for example, a difference from the nucleotide sequence of the reference genome.
  • QC can be used interchangeably with quality control or quality control, and how reliable a variation detection label is in an experiment or diagnosis that determines whether the single nucleotide variation is present, for example a lead mapped to a mutation prediction site. It is an index indicating whether the depth of? Is sufficiently secured.
  • step 110 target sequencing is performed on a specific region including a single nucleotide variation (SNV) prediction site of a test gene to obtain a read.
  • SNV single nucleotide variation
  • the nucleic acid sample analyzed by step 110 may be obtained from a biological material of the subject.
  • the subject may include primates and humans, such as humans, non-human primates, cattle, horses, pigs, sheep, goats, dogs, cats or rodents.
  • the biological material may be obtained from blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof.
  • the nucleic acid may be used interchangeably with a polynucleotide or oligonucleotide of any length.
  • the nucleic acid may be a cell-free DNA (cf DNA, RNA), or may be isolated DNA or RNA.
  • the method for separating the nucleic acid can be carried out by a method known to those skilled in the art.
  • Targeted sequencing or panel sequencing based on next generation sequencing may be performed on single nucleotide variation prediction sites of a test gene.
  • Next-generation sequencing refers to a technique of fragmenting a full-length genome in chip-based and PCR-based paired end formats, and performing the sequencing of the fragments at high speed based on hybridization. More specifically, reads for each of the single nucleotide variant (SNV) predictive genes are obtained by performing targeted deep sequencing.
  • target deep sequencing is a sequencing that identifies nucleic acids of some target genes, not the entire genome, by sequencing nucleic acids such as DNA fragments, RNA fragments, and the like by repeatedly aligning leads to nucleic acids such as DNA fragments, RNA fragments, and the like. It is technology
  • the method may further comprise preparing a nucleic acid library to perform next generation sequencing.
  • the nucleic acid library can be prepared according to the next generation sequencing scheme.
  • Nucleic acid libraries can be constructed according to the manufacturer's instructions to provide next generation sequencing.
  • the term “lead” refers to sequence information of one or more nucleic acid fragments.
  • the read may be about 10bp (base pair) to about 2000bp, about 15bp to about 1500bp, about 20bp to about 1000bp, about 20bp to about 500bp or about 20 to about 200bp.
  • depth can be used interchangeably with the same meaning as the term “read-depth” and means the thickness or depth of the lead.
  • the FASTQ format is usually a text-based format that stores biological sequences, such as nucleic acid sequences, and corresponding quality scores.
  • the present invention is not limited to the FASTQ format, and sequencing data in other formats can be analyzed.
  • the leads are aligned and mapped to the target sites of the reference genome.
  • Sequence information that maps to only one genomic location in the reference genome can be designated as unique sequence information.
  • Reads can be assigned to positions on the chromosome based on the unique sequence number assigned.
  • the mapping may locate the entire read sequence at the most similar portion of the target site of the reference genome (Global alignment), or may place the read partial sequence at the most similar portion of the target site of the reference genome (local alignment). , Local alignment).
  • the depth data generated by the step 120 may include data representing the depth of the read mapped to the target nucleotide site of the reference genome.
  • the reference genome or single nucleotide variation (SNV) prediction site may be a National Center for Biotechnology Information (NCBI), Gene®Expression Omnibus (GEO), Food and Drug Administration (FDA), My Cancer Genome, or KFDA (Food Drug). It may be obtained from a database (DB) already known in the art such as the Ministry of Safety. That is, the reference genome may be obtained from public genomic data or public map data (HapMap).
  • the reference genome may be a human reference genome without mutation, and may be hg18 or hg19.
  • the target site of the reference genome and the single nucleotide variation (SNV) predictive site of the test gene may be, for example, the same exon site or intron site, and may be the same sequence number site on the same number of chromosomes.
  • FIG. 3 shows target sequencing of biopsy sample 410 or FFPE treated sample 425 of subject 400, and depth 430 of read aligned to chromosome target site nucleotides (1,2,3,4 or 5). ) Is a diagram for explaining. It may be related to the method performed in step 120 of FIG.
  • the sample may be obtained from a biopsy tissue, formalin-fixed tissue, or paraffin-embedded (FFPE) tissue of the subject.
  • the sample may be obtained from biopsy tissue based on DNA input, or from FFPE tissue based on DNA concentration.
  • the sample obtained from the biopsy tissue is important to the amount of DNA introduced for use in the hybridization step, the DNA can be added to 400ng or more, 600ng or more or 800ng or more for use in the hybridization step.
  • Samples obtained from FFPE tissue are of significant DNA concentration and may be at least 10 ng / ⁇ l, 20 ng / ⁇ l or 30 ng / ⁇ l. Within this range, a sufficient depth of reads can be ensured to improve the reliability of the single nucleotide variant detection label.
  • the method may include identifying a variation in the DNA of the sample.
  • the mutation check may be performed using a known mutation detection program, for example, GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer, and Mutek, but is not limited thereto.
  • Calculating the QC score 130 calculates a QC score (quality control score) based on the data representing the depth.
  • the QC score may take into account the depth, the strand bias, the standard deviation, or the coefficient of variation.
  • the QC score may be calculated according to Equations 1 and 2 below.
  • D i means the average of the depth of the read mapped to each of the nucleotides in the depth analysis interval for the i-th target site of the chromosome.
  • the depth of the peripheral site adjacent to the i-th target site may be considered, and the depth analysis interval is determined between the c-nucleotide in the 5 'direction and the c-nucleotide in the 3' direction from the target site of the reference genome.
  • the average of these can be calculated from the depth of the read mapped to each of the 2c + 1 nucleotides in the depth analysis section. This average value can be defined as D i .
  • C may be 0 or a natural number.
  • a depth analysis interval may be determined between the target site and the second nucleotide in the 5 'direction and the second nucleotide in the 3' direction from the target site. Referring to FIG. 6, for example, the depths of the reads mapped to each of the 5 'and 3' directions, ie, ⁇ 2 nucleotides from the target site, are analyzed together.
  • Depth of the lead mapped to nucleotides at 11168334 and 11168335 sites in the 5 'direction of chromosome 1 168 and nucleotides at 11168337 and 11168338 sites in the 3' direction based on 11168336 sites of chromosome 1 The depth of the lead mapped to can be analyzed, and the average of the depths at five positions can be determined as the target position, D i at 11168336 positions.
  • I Di has a value of 1 when the average (D i ) of the read depths mapped to each of the nucleotides in the depth analysis interval for the i th target site of the chromosome is greater than or equal to the minimum depth (d) and less than the minimum depth (d). Pointer function with a value of zero.
  • S i is a biased component of the lead (strand bias) mapped to each nucleotide in the depth analysis interval for the i-th target position in the chromosome.
  • S i is calculated according to Equation 2 above.
  • S i is a depth analysis of the i-th target site from the difference between the number of forward reads and the number of reverse reads among the reads mapped to each of the nucleotides in the depth analysis section for the i-th target site. The number divided by the total number of reads mapped to each of the nucleotides in the interval.
  • n denotes the number of reads corresponding to the parentheses.
  • the leads may be aligned in the forward or reverse direction and may be aligned so that they are not biased in either direction.
  • the number of the count and a direction opposite to the forward direction of the lead lead more equal, S i becomes close to zero. If S i satisfies a condition of less than 0.9, the reliability is improved in determining whether a single nucleotide variation exists. At this time, S i may be less than about 0.9, less than about 0.8, less than about 0.7, less than about 0.6, less than about 0.5, less than about 0.4, less than about 0.3, less than about 0.2, or less than about 0.1.
  • I Si is an indicator function having a value of 1 when the component deflection S i of the read mapped to each of the nucleotides in the depth analysis interval for the i th target site is less than 0.9 and a value of 0 when it is 0.9 or more.
  • n is the total number of target sites.
  • the minimum depth d means the minimum depth required to determine whether a single nucleotide variation is present.
  • the minimum depth d may be determined based on detection sensitivity, detection limit of variation, number of supporting reads, or a combination thereof.
  • limit of detection of variations means the minimum gene frequency of variation that can be detected.
  • detection sensitivity refers to how well a variant gene can be detected in the presence of a variant gene in determining whether a variant gene is present.
  • supporting lead refers to a lead that contains a mutation at its target site.
  • the detection limit and the detection sensitivity of the allele frequency of the variation can be set, and based on this, the minimum depth for sufficiently securing the number of supporting leads supporting the detection limit of the variation can be determined. At this time, the detection limit of the allele frequency of the mutation can be set differently according to the state of the sample.
  • the minimum depth d of the step 130 may be calculated according to Equation 3 below.
  • r is the number of support leads. It may be the number of support leads required to achieve the desired detection sensitivity.
  • is the detection limit of the mutation.
  • the QC scores for the total n target sites are based on the average (D i ) criterion of the depth of the read mapped to each of the nucleotides in the depth analysis section and the component bias (S i ) of the reads mapped to each of the nucleotides in the depth analysis section.
  • the number of target sites that are satisfied at the same time that is, I Di and I Si
  • the number of target sites, each of which satisfies the value of 1, is defined as the number divided by the total number of target sites, n.
  • the QC score is 50, only half of the total target sites may mean that the depth (D i ) criterion and the component deflection (S i ) criterion of the depth are simultaneously satisfied.
  • the reliability of the variation detection marker may be evaluated from the ratio of the reliable variation detection marker among the variation detection markers for the total n target sites. That is, the QC score may mean that the mutation detection label capable of reliably detecting a single nucleotide variation is what percentage of the mutation detection labels for the total n target sites. As the QC score for a total of n target sites is close to 100, it is possible to evaluate the results of detection of close to n single nucleotide mutations as reliable.
  • Another aspect includes a sequencing portion that performs target sequencing on a single nucleotide variation predicting site of a test gene from a nucleic acid sample containing the test gene to obtain a read; A mapping unit for mapping the lead to a reference dielectric; A QC score calculator for calculating a QC score from a depth of a lead aligned with the reference dielectric; And a reliability evaluator for evaluating the reliability of the single nucleotide variation detection label according to the calculated QC score.
  • the apparatus 300 for determining the reliability of the single nucleotide variation detection label shown in FIG. 2 may implement the method for determining the reliability described above.
  • other general purpose components may be further included.
  • the sequencing unit 310 may obtain a read by performing target sequencing on a specific region including a single nucleotide variation (SNV) prediction site of a test gene. For example, target deep sequencing can be performed to obtain reads for each of the single nucleotide variant (SNV) predictive genes.
  • SNV single nucleotide variation
  • the sample may be obtained from a biopsy tissue or FFPE tissue of the subject.
  • the sample may be obtained from biopsy tissue based on DNA input, or from FFPE tissue based on DNA concentration.
  • the mapping unit 320 may analyze the depth by aligning each lead with a target site of the reference genome.
  • the depth data generated by the mapping unit 320 may include data representing a depth of a lead mapped to each of the nucleotides in the depth analysis section with respect to the target site of the reference genome.
  • the QC score calculator 330 may calculate a QC score based on the data representing the depth.
  • the QC score may take into account depth, component deflection, standard deviation, or coefficient of variation.
  • the QC scores for the total n target positions in the calculator 330 may be calculated according to Equations 1 and 2 below.
  • D i in Equation 1 is the average of the depths of the reads mapped to each of the nucleotides in the depth analysis interval for the i th target site of the chromosome, and I Di is an indicator function.
  • the depth of the peripheral site adjacent to the i-th target site may be considered, and the depth analysis interval is determined between the c-nucleotide in the 5 'direction and the c-nucleotide in the 3' direction from the target site of the reference genome.
  • the average of these can be calculated from the depth of the read mapped to each of the 2c + 1 nucleotides in the depth analysis section.
  • This average value can be defined as D i .
  • C may be 0 or a natural number.
  • C may be 0 to 10, 0 to 7, 0 to 5, 0 to 3 or 0 to 2.
  • S i refers to the component bias of the read mapped to each of the nucleotides in the depth analysis interval for the i th target site of the chromosome
  • I Si is an indicator function.
  • n is the total number of target sites.
  • d means the minimum depth required to determine whether a single nucleotide variation is present. The minimum depth d may be determined based on detection sensitivity, detection limit of variation, number of support leads, or a combination thereof.
  • the minimum depth d in the calculator 330 may be calculated according to Equation 3 below.
  • r is the number of support leads and ⁇ is the detection limit of the variation.
  • the QC scores for a total of n target sites are based on the average (D i ) criterion of the read's depth mapped to each of the nucleotides in the depth analysis interval and the component bias of the read mapped to each of the nucleotides in the depth analysis interval.
  • the number of target sites that simultaneously satisfy the (S i ) criterion, ie I Di And I Si is defined as the number divided by the total number of target sites, n.
  • the reliability evaluator 340 may evaluate the reliability of the variation detection marker from the ratio of the reliable variation detection marker among the variation detection markers for the total n target sites. That is, the QC score may mean that the mutation detection label capable of reliably detecting a single nucleotide variation is what percentage of the mutation detection labels for the total n target sites. As the QC score for a total of n target sites is close to 100, it is possible to evaluate the results of detection of close to n single nucleotide mutations as reliable.
  • the device 300 may include an output unit.
  • the output unit may be a display device displaying the reliability of the shift detection mark.
  • the output unit may present the reliability of the variation detection label as a binary variable, image, graph, or the like of QC score, grade, PASS or FAIL. Any device may be used as long as the user can display the reliability of the variation detection mark. Referring to FIG. 9, for example, reads mapped to five nucleotides within each chromosomal target site, the depth analysis interval for each target site, with a single nucleotide variation detection label (only N of Y or N indicated).
  • PASS or FAIL is evaluated by evaluating the reliability of the variation detection label from the average of the depth of the component, the component bias, the coefficient of variation and the standard deviation of the reads mapped to the five nucleotides within the depth analysis interval, and the QC score. File format).
  • the apparatus 300 for determining the reliability of the single nucleotide variation detection label includes all of the sequencing unit 310, the mapping unit 320, the QC score calculating unit 330, and the reliability evaluating unit 340 according to FIG. 2. Although shown as being, but not limited thereto. That is, each of the sequencing unit 310, the mapping unit 320, the QC score calculating unit 330, and the reliability evaluating unit 340 may be configured as a whole of a device that is independent of each other or as a part of an independent device, and a plurality of them may be used. The groups of four may be a whole of a single device or part of a separate device, each of which may be a device 300 for determining the reliability of a single nucleotide variation detection label as a whole.
  • Another aspect provides a computer readable recording medium having recorded thereon a program for executing a method for determining the reliability of a single nucleotide variation detection label.
  • the method may be implemented in software form readable by various computer means and recorded on a computer readable recording medium.
  • the recording medium may include a program command, a data file, a data structure, etc. alone or in combination.
  • the program instructions recorded on the recording medium may be those specially designed and constructed for the method according to the above, or may be known and available to those skilled in the computer software arts.
  • the recording medium may include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as compact disk read only memory (CD-ROM), digital video disk (DVD), Hardware devices specially configured to store and execute program instructions, such as magneto-optical media, such as floppy disks, and ROM, random access memory (RAM), flash memory, and the like. It includes.
  • Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.
  • Such a hardware device may be configured to operate as one or more software modules to perform the operation of the method according to the above, and vice versa.
  • the specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or modified from the structures and structural equivalents disclosed herein. It may be implemented in computer software, firmware or hardware, including, or a combination of one or more of them. Implementations of the subject matter described herein relate to one or more computer program products, ie computer program instructions encoded on a program storage medium of tangible type for controlling or by the operation of an apparatus according to the method. It may be implemented as the above module.
  • the computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of materials affecting a machine readable propagated signal, or a combination of one or more thereof.
  • a computer program (also known as a program, software, software application, script or code) mounted on a device according to the method and executing the method may be any of a programming language including a compiled or interpreted language or a priori or procedural language. It can be written in any form, and can be deployed in any form, including stand-alone programs or modules, components, subroutines, or other units suitable for use in a computer environment. Computer programs do not necessarily correspond to files in the file system.
  • a program may be in a single file provided to the requested program, in multiple interactive files (eg, a file that stores one or more modules, subprograms, or parts of code), or part of a file that holds other programs or data. (Eg, one or more scripts stored in a markup language document).
  • the computer program may be deployed to run on a single computer or on multiple computers located at one site or distributed across multiple sites and interconnected by a communication network.
  • 1 shows the overall flow of a method for determining the reliability of a single nucleotide variant detection label.
  • FIG. 2 is a diagram illustrating the configuration of a device for determining the reliability of a single nucleotide variation detection label.
  • 3 shows target sequencing and mapping of test genes obtained from a subject.
  • FIG. 4 is a diagram showing the detection limit, depth, and detection sensitivity of a variation referred to to obtain a minimum depth.
  • 5 shows target sites selected from a single nucleotide variant list of chromosomes.
  • FIG. 6 is a diagram illustrating a result of analyzing a mean (D i ) and a component deflection (S i ) of a depth of a read mapped to each of nucleotides in a depth analysis section for one target site.
  • D i mean
  • S i component deflection
  • FIG. 7 shows QC scores and mean depths calculated from the genes of each of 1283 biopsy samples and 1012 FFPE samples.
  • Fig. 8 is a diagram showing the average depth and QC score, and the depth at the chromosome target site.
  • FIG. 10 is a diagram illustrating depths of chromosome target sites using different DNA extraction kits.
  • the detection sensitivity of the variable caller provided by MuTect and the detection sensitivity according to the depth were referred to.
  • the support leads required to achieve the desired detection sensitivity can be determined by the detector's ability to detect variations. In the case of MuTect, with 10 support leads, variance detection is possible with 99% detection sensitivity. Referring to FIG. 4, if the detection limit of the variation is greater than 0.04, there must be at least 10 support leads to have 99% detection sensitivity, and even if the detection limit of the variation is less than 0.04, there must be approximately 10 support leads. It can have a detection sensitivity of%.
  • a biopsy sample set a detection limit of variation of 2% and a FFPE sample of 5%, considering that the sample condition was relatively poor.
  • Target sequencing targets FDA approved drug target mutations, My Cancer Genome, or single nucleotide variations (SNVs) listed in KFDA and identifies 137 chromosomal target sites, excluding overlapping mutation sites. Selected (see FIG. 5).
  • the depth of the reads mapped to each of the nucleotides in the depth analysis section was calculated using SAMTOOLS mpileup.
  • the final BAM file just before entering the mutation detector was used. Substituted in Equation 1 above, the QC score was calculated.
  • the QC score was calculated to evaluate the percentage of 137 target sites for the mutation detection markers that can reliably detect single nucleotide variations.
  • the average depth and QC scores at 137 chromosome target sites of 1283 biopsy samples and 1012 FFPE samples were identified (see Table 1). Looking at the average depth, the FFPE sample is about 728, the biopsy sample is about 954, which is much higher than the criteria for detection sensitivity considering the detection limit. On the other hand, looking at the average of the QC score, the FFPE sample was about 92.7, the biopsy sample was about 97.3. That is, it was confirmed that the variation detection label having an average of 7.3% in the FFPE sample and the average 2.7% in the biopsy sample did not meet the required depth criterion and component bias criterion.
  • QC scores were used to identify key factors that could affect QC scores before performing target sequencing.
  • the QC score is binary and divided into PASS or FAIL based on 80.
  • the QC scores of 696 FFPE samples (97.6%) among the 713 FFPE samples after QuPC's DNA concentration of 26.5 ng / ⁇ l or more after PrePCR satisfied 80 or more.
  • the QC score of 668 FFPE samples (98%) among the 702 FFPE samples having a Molarity greater than 3.92 nM after postPCR satisfied 80 or more.
  • the QC score of 212 FFPE samples (70.9%) among 299 FFPE samples with Prebit DNA concentrations of less than 26.5 ng / ⁇ L after PrePCR satisfied 80 or more.
  • the QC score of 184 FFPE samples of 80 or more among 213 FFPE samples with an average library size of greater than 274 was satisfied.
  • the FFPE sample can obtain a high QC score by controlling DNA concentration, DNA molar concentration after postPCR, and average library size generated by the library preparation.
  • DNA was extracted from the same FFPE sample using two kinds of DNA extraction kits, and the average depth, quality items of the Picard tool (DNA purity, GC concentration, and average library size) and QC score were calculated through the above procedure.
  • Kit type DNA Purity 260/280 Ratio
  • GC concentration %
  • Average library size bp
  • Average depth QC score A kit 1.895 ⁇ 0.067 49.2 ⁇ 1.8 300.3 ⁇ 22.5 728 ⁇ 279 93.5 ⁇ 21.6
  • the sample extracted DNA using the A kit compared to the sample extracted DNA using the B kit, the distribution of the depth is even, and the depth criteria more satisfied Can be.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법, 변이 검출 표지의 신뢰도를 결정하기 위한 장치 및 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것으로, 유전체의 표적 자리를 중심으로 리드의 뎁스에 기초하여 QC점수를 산출함으로써, 변이 검출 표지의 신뢰도를 결정할 수 있다.

Description

변이 검출 표지의 신뢰도를 결정하는 방법 및 장치
변이 검출 표지의 신뢰도를 결정하는 방법, 변이 검출 표지의 신뢰도를 결정하기 위한 장치 및 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것이다.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들로 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다.
뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.
일 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법에 관한 것이다.
다른 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치에 관한 것이다.
다른 양상은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체에 관한 것이다.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 통상의 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 "...부", "...모듈"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
본 실시예들에서 사용되는 "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 통상의 기술자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 예시를 위한 실시예들을 상세히 설명하기로 한다.
일 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계; 참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및 산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 제공한다.
도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름도이다. 도 1을 참고하면, 변이 검출 표지의 신뢰도를 결정하는 방법은 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 단계(110), 참조 유전체에 리드를 맵핑하는 단계(120), 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 단계(130), 변이 검출 표지의 신뢰도를 평가하는 단계(140)를 포함할 수 있다.
용어 "단일 뉴클레오티드 변이(single nucleotide variant, SNV)"는 하나의 서열 또는 종 내 소수의 집단에서 나타나는 단일 뉴클레오티드의 차이를 의미하는 것으로, 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전자 내의 복제수 변이(copy number variant, CNV)와는 다르게 단일 뉴클레오티드의 치환 등을 의미한다. 상기 단일 뉴클레오티드 변이는 참조 유전체에 대하여 변이를 갖는 것일 수 있고, 예를 들면 참조 유전체의 뉴클레오티드 서열과의 차이일 수 있다.
용어 "QC"는 quality control 또는 품질관리와 혼용될 수 있으며, 상기 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는 실험 또는 진단에서 변이 검출 표지를 얼마나 신뢰할 수 있는지, 예를 들면 변이 예측 자리에 맵핑된 리드의 뎁스가 충분하게 확보되었는지를 나타내는 지표가 된다.
상기 단계(110)는, 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드를 수득한다.
상기 단계(110)에 의해 분석되는 핵산 시료는, 피검체의 생물학적 물질로부터 수득될 수 있다. 상기 피검체는 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 상기 생물학적 물질은 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 핵산은 임의의 길이를 지닌 폴리뉴클레오티드 또는 올리고뉴클레오티드와 상호교환적으로 사용될 수 있다. 상기 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA, RNA)일 수 있으며, 또는 분리된 DNA 또는 RNA일 수 있다. 상기 핵산을 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다.
피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 차세대 시퀀싱(next generation sequencing, NGS) 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 차세대 시퀀싱은 칩(chip) 기반 그리고 PCR 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 보다 상세하게는, 표적 딥 시퀀싱(targeted deep sequencing)을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득한다.
용어 "표적 딥 시퀀싱"은 전체 유전체가 아닌, 일부 표적 유전자의 핵산을 식별하는 시퀀싱으로, DNA 절편, RNA 절편 등과 같은 핵산들에 리드들을 반복적으로 정렬시킴으로써, DNA 절편, RNA 절편 등과 같은 핵산을 시퀀싱하는 기술이다.
상기 방법은 차세대 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다. 상기 핵산 라이브러리는 차세대 시퀀싱 방식에 따라 제조될 수 있다. 차세대 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다.
용어 "리드"는 하나 이상의 핵산 단편의 서열 정보를 의미한다. 상기 리드는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다.
용어 "뎁스(depth)"는 용어 "리드의 뎁스(read-depth)"와 동일한 의미로 혼용되어 사용될 수 있으며, 리드의 두께 또는 깊이를 의미한다.
시퀀싱 수행 결과 FASTQ 파일 포맷의 유전자 데이터를 획득할 수 있다. FASTQ 포맷은 보통 핵산 서열과 같은 생물학적 서열과, 그에 대응되는 퀄리티 스코어를 저장하는 텍스트 기반 포맷(text-based format)이다. 다만, FASTQ 포맷에 제한되지 않고, 다른 포맷의 시퀀싱 데이터도 분석이 가능하다.
참조 유전체에 리드를 맵핑하는 단계(120)에서 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 맵핑한다. 참조 유전체에서 하나의 유전체 위치에만 맵핑되는 서열 정보를 고유한 서열 정보로 지정할 수 있다. 지정된 고유한 서열 번호를 기준으로 리드를 염색체의 위치에 지정할 수 있다. 상기 맵핑은 리드 전체 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분에 위치시킬 수 있고(글로벌 정렬, Global alignment), 또는 리드 일부 서열을 참조 유전체의 표적 자리 중 가장 유사한 부분 위치시킬 수 있다(로컬 정렬, Local alignment). 결국, 상기 단계(120)에 의해 생성된 뎁스 데이터는, 참조 유전체의 표적 뉴클레오티드 자리에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.
한편, 참조(reference) 유전체 또는 단일 뉴클레오티드 변이(SNV) 예측 자리는 NCBI(National Center for Biotechnology Information), GEO (Gene Expression Omnibus), FDA(Food and Drug Administration), My Cancer Genome, 또는 KFDA(식품의약품안전처) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득된 것일 수 있다. 즉, 참조유전체는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다. 상기 참조 유전체는 변이를 포함하지 않는 인간 참조 유전체일 수 있고, hg18 또는 hg19일 수 있다. 참조 유전체의 표적 자리와 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리는, 예를 들면 동일한 엑손 자리 또는 인트론 자리일 수 있고, 동일한 넘버의 염색체 상에 동일한 서열 번호 자리일 수 있다.
도 3은 피검체(400)의 생검 샘플(410) 또는 FFPE 처리 샘플(425)을 표적 시퀀싱하고, 염색체 표적 자리 뉴클레오티드 각각(1,2,3,4 또는 5)에 정렬된 리드의 뎁스(430)를 설명하기 위한 도면이다. 도 1의 단계(120)에서 수행되는 방법과 관련된 것일 수 있다.
상기 시료는 피검체의 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded: FFPE) 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다. 상기 생검 조직으로부터 획득된 시료는 혼성화 단계에서 사용하기 위해 투입된 DNA 양이 중요하며, 혼성화 단계에서 사용하기 위하여 DNA를 400ng 이상, 600ng 이상 또는 800ng 이상 투입할 수 있다. FFPE 조직으로부터 획득된 시료는 DNA 농도가 중요하며, 10ng/㎕, 20ng/㎕ 또는 30ng/㎕ 이상 일 수 있다. 상기 범위에서, 리드의 뎁스가 충분하게 확보되어, 단일 뉴클레오티드 변이 검출 표지의 신뢰도가 향상될 수 있다.
상기 방법은 시료의 DNA의 변이를 확인하는 단계를 포함할 수 있다. 상기 변이 확인은 공지된 변이 검출 프로그램, 예를 들면 GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer 및 Mutek등을 이용하여 수행할 수 있으나, 이에 제한되지 않는다.
QC점수를 산출하는 단계(130)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수(품질관리점수, Quality control score)를 산출한다. QC점수는 뎁스와 성분 편향(Strand bias), 표준 편차(standard deviation) 또는 변동 계수(coefficient of variation) 등을 고려할 수 있다. 상기 단계(130)에서, 총 n 개의 표적 자리에 대하여, QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.
[수학식 1]
Figure PCTKR2016009491-appb-I000001
[수학식 2]
Figure PCTKR2016009491-appb-I000002
식 1에서, Di는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균을 의미한다. Di를 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 Di으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다. 예를 들면, 3개의 코돈이 하나의 아미노산으로 번역되는 것을 고려하여, 표적 자리와 상기 표적 자리로부터 5' 방향으로 2번째 뉴클레오티드 및 3' 방향으로 2번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정할 수 있다. 도 6을 참조하여 예를 들면, 표적 자리로부터 5' 방향 및 3' 방향, 즉 ±2 번째 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 함께 분석한다. 1번 염색체의 11168336 자리를 기준으로 5' 방향에 있는 11168334 및 11168335 자리에서의 뉴클레오티드에 맵핑된 리드의 뎁스와, 1번 염색체의 11168336 자리를 기준으로 3' 방향에 있는 11168337 및 11168338 자리에서의 뉴클레오티드에 맵핑된 리드의 뎁스를 분석하고, 다섯 자리에서의 뎁스의 평균을 표적 자리, 11168336 자리에서의 Di으로 결정할 수 있다.
IDi는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(Di)이 최소 뎁스(d) 이상일 때 1의 값을 갖고, 최소 뎁스(d) 미만일 때 0의 값을 갖는 지시 함수이다.
Si는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(strand bias)이다. 상기 수학식 1에서, Si는 상기의 수학식 2에 따라 산출된다. 수학식 2에 따르면, Si는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드 중에서, 정방향의 리드의 수와 역방향의 리드의 수의 차이를, i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 총 수로 나눈 수치이다. 수학식 2에서 n은 괄호에 해당하는 리드의 수를 의미한다. 리드는 순방향 또는 역방향으로 정렬될 수 있고, 어느 하나의 방향으로 치우치지 않도록 정렬될 수 있다. 순방향의 리드의 수 및 역방향의 리드의 수가 같을수록, Si는 0에 가까워진다. Si가 0.9 미만의 조건을 만족하는 경우 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 신뢰도가 향상된다. 이 때, Si는 약 0.9 미만, 약 0.8 미만, 약 0.7 미만, 약 0.6 미만, 약 0.5 미만, 약 0.4 미만, 약 0.3 미만, 약 0.2 미만, 또는 약 0.1 미만일 수 있다. ISi 는, i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(Si)이 0.9 미만일 때 1의 값을 갖고, 0.9 이상일 때 0의 값을 갖는 지시 함수이다.
수학식 1에서 n은 총 표적 자리의 수이다.
d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합에 기초하여 결정될 수 있다.
용어 "변이의 검출 한계"는 검출할 수 있는 최소의, 변이의 유전자 빈도를 의미한다.
용어 "검출 민감도"는 변이 유전자가 존재하는지 여부를 판단함에 있어서 어떤 변이 유전자가 존재하는 상태에서 그 변이를 얼마나 잘 검출할 수 있는지를 의미한다.
용어 "지지 리드"는 해당 표적 자리에 변이를 포함하고 있는 리드를 의미한다.
변이의 대립유전자 빈도의 검출 한계 및 검출 민감도를 설정하고, 이에 기초하여 변이의 검출 한계를 지지하는 지지 리드의 수를 충분하게 확보하는 최소 뎁스를 결정할 수 있다. 이 때, 시료의 상태에 따라 변이의 대립유전자 빈도의 검출 한계를 달리 설정할 수 있음은 물론이다.
상기 단계(130)의 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.
[수학식 3]
Figure PCTKR2016009491-appb-I000003
r은 지지 리드의 수이다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드의 수일 수 있다.
α는 변이의 검출 한계이다.
총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(Di) 기준과 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(Si) 기준을 동시에 만족하는 표적 자리의 수, 즉 IDi 및 ISi 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다. 총 표적 자리의 수에 대하여, 상기 뎁스의 평균(Di) 기준과 성분 편향(Si) 기준을 동시에 만족하는 표적 자리의 수의 비율이 높을수록, 상기 QC점수는 100에 가까울 수 있다. QC점수가 50인 경우, 총 표적 자리 가운데 절반만이, 상기 뎁스의 평균(Di) 기준과 성분 편향(Si) 기준을 동시에 만족하는 것을 의미할 수 있다.
변이 검출 표지의 신뢰도를 평가하는 단계(140)에서, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.
종래 변이의 존재 여부를 판단하는 기술은, 연구의 측면에서 변이 유전자를 검출하는 것에 초점이 맞추어져 있다. 종래의 평균 뎁스(mean depth), 100x OnTarget Rate, Q30/FASTQ TotalBases(Gb) 등을 이용하는 경우, 특정 변이를 진단하기 위한 활용도가 낮은 문제가 있다. 임상에서 시퀀싱은 표적 자리가 정해져 있는 경우가 대부분이므로, 표적 자리의 뎁스를 해당 표적 자리에서의 변이 검출의 신뢰도를 판단하는 기준으로 활용하는 것이 진단에 보다 적합하다. 나아가, 임상적으로는 피검체의 변이 예측 자리로부터 변이 유전자가 검출되는 경우뿐만 아니라, 변이 유전자가 검출되지 않는 경우에도, 해당 변이 예측 자리의 뎁스를 파악하면 변이 유전자가 존재하지 않는 것인지, 리드가 부족하여 존재하는지 여부를 판단하지 못하는 것인지에 대한 정보를 제공할 수 있다.
다른 양상은, 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부; 참조 유전체에 상기 리드를 맵핑하는 맵핑부; 참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및 산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치를 제공한다.
도 2에 도시된 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)는 앞서 설명된 신뢰도를 결정하는 방법을 구현할 수 있다. 도 2에 도시된 구성요소 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.
시퀀싱부(310)는 피검 유전자의 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 특정 영역에 대하여 표적 시퀀싱을 수행하여 리드를 수득할 수 있다. 예를 들면, 표적 딥 시퀀싱을 수행함으로써 단일 뉴클레오티드 변이(SNV) 예측 유전자들 각각에 대한 리드들을 획득할 수 있다.
상기 시료는 피검체의 생검 조직 또는 FFPE 조직으로부터 획득된 것일 수 있다. 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득될 수 있다.
맵핑부(320)는 각 리드들을 참조 유전체의 표적 자리에 정렬시켜 뎁스를 분석할 수 있다. 맵핑부(320)에서 생성된 뎁스 데이터는, 참조 유전체의 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 나타내는 데이터를 포함할 수 있다.
QC점수 산출부(330)는 상기 뎁스를 나타내는 데이터에 기초하여 QC점수를 산출할 수 있다. 상기 QC점수는 뎁스와 성분 편향, 표준 편차 또는 변동 계수 등을 고려할 수 있다. 산출부(330)에서 총 n 개의 표적 자리에 대한 QC점수는 하기의 수학식 1 및 2에 따라 산출될 수 있다.
[수학식 1]
Figure PCTKR2016009491-appb-I000004
[수학식 2]
Figure PCTKR2016009491-appb-I000005
앞서 설명된 바와 같이, 식 1에서 Di는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고, IDi는 지시 함수이다. Di를 구하기 위하여, i번째 표적 자리와 인접하는 주변 자리의 뎁스를 고려할 수 있고, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터, 이들의 평균을 계산할 수 있다. 이 평균값을 Di으로 정의할 수 있다. 상기 c는 0 또는 자연수일 수 있다. 상기 c는 0 내지 10, 0 내지 7, 0 내지 5, 0 내지 3 또는 0 내지 2일 수 있다.
앞서 설명된 바와 같이, 식 1에서 Si는 염색체의 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향을 의미하고, ISi는 지시 함수이다. 수학식 1에서 n은 총 표적 자리의 수이다. d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스를 의미한다. 상기 최소 뎁스(d)는 검출 민감도, 변이의 검출 한계, 지지 리드의 수 또는 이들의 조합에 기초하여 결정될 수 있다.
상기 산출부(330)에서 최소 뎁스(d)는 하기의 수학식 3에 따라 산출될 수 있다.
[수학식 3]
앞서 설명된 바와 같이, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
앞서 설명된 바와 같이, 총 n 개의 표적 자리에 대한 QC점수는, 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균(Di) 기준과 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향(Si) 기준을 동시에 만족하는 표적 자리의 수, 즉 IDi 및 ISi 각각이 1의 값을 만족하는 표적 자리의 수를 총 표적 자리의 수 n으로 나눈 값으로 정의한다.
신뢰도 평가부(340)는 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 변이 검출 표지의 신뢰도를 평가할 수 있다. 즉, QC점수는 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 n개의 표적 자리에 대한 변이 검출 표지 중 몇 %인지를 의미할 수 있다. 총 n 개의 표적 자리에 대한 QC점수가 100에 가까울수록, n개에 가까운 단일 뉴클레오티드 변이 검출 결과를 신뢰할 수 있는 것으로 평가할 수 있다.
부가적으로, 상기 장치(300)는 출력부를 포함할 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 표시하는 디스플레이 장치가 될 수 있다. 상기 출력부는 상기 변이 검출 표지의 신뢰도를 QC점수, 등급, PASS 또는 FAIL의 2치 변수(binary variable), 이미지, 그래프 등으로 제시할 수 있다. 그 외 사용자가 상기 변이 검출 표지의 신뢰도를 표시할 수 있는 장치라면 어떠한 장치도 가능하다. 도 9를 참조하여 예를 들면, 단일 뉴클레오티드 변이 검출 표지(Y 또는 N 중 N만 표기됨)와 함께, 각각의 염색체 표적 자리, 각각의 표적 자리에 대한 뎁스 분석 구간 내의 5개의 뉴클레오티드에 맵핑된 리드의 뎁스의 평균, 상기 뎁스 분석 구간 내의 5개의 뉴클레오티드에 맵핑된 리드의 성분 편향, 변동 계수 및 표준 편차, 및 QC점수로부터 변이 검출 표지의 신뢰도를 평가하여 PASS 또는 FAIL(PASS 또는 FAIL 중 PASS만 표기됨)로 나타내는 파일 포맷을 제공할 수 있다.
단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)는 도 2에 따르면 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340)를 모두 포함하는 것으로 도시되어 있으나, 이에 한정하는 것은 아니다. 즉, 시퀀싱부(310), 맵핑부(320), QC점수 산출부(330) 및 신뢰도 평가부(340) 각각은 서로 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있고, 이들 중 복수개의 그룹이 하나의 독립된 장치의 전체 또는 독립된 장치의 일부의 구성이 될 수도 있으며, 각 구성은 전체로서 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치(300)가 될 수 있다.
다른 양상은, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.
상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들면 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.
상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
상기된 바에 따르면, 피검 유전자로부터 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하는데 있어서 변이 검출 결과에 신뢰도를 부여하고, 특히 종양 특이적인 유전자 변이를 검출하는데 유용하다.
도 1은 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법의 전반적인 흐름을 나타내는 도면이다.
도 2는 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 장치의 구성들을 도시한 도면이다.
도 3은 피검체로부터 수득된 피검 유전자들에 대한 표적 시퀀싱 및 맵핑을 수행하는 것을 나타내는 도면이다.
도 4는 최소 뎁스를 구하기 위하여 참조된, 변이의 검출 한계, 뎁스 및 검출 민감도를 나타내는 도면이다.
도 5는 염색체의 단일 뉴클레오티드 변이 리스트로부터 선정된 표적 자리를 나타내는 도면이다.
도 6은 일 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의, 뎁스의 평균(Di) 및 성분 편향(Si)을 분석한 결과를 나타내는 도면이다.
도 7은 1283개의 생검 샘플 및 1012개의 FFPE 샘플 각각의 유전자로부터 산출된 QC점수 및 평균 뎁스를 나타내는 도면이다.
도 8은 평균 뎁스 및 QC점수, 및 염색체 표적 자리에서의 뎁스를 나타내는 도면이다.
도 9는 단일 뉴클레오티드 변이 검출 표지 및 그의 신뢰도를 제시하는 도면이다.
도 10은 서로 다른 DNA 추출 키트를 사용하여 염색체 표적 자리 별로 뎁스를 나타내는 도면이다.
이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
실시예 1. 검출 민감도 및 검출 한계에 따른 뎁스 결정
검출 한계에 따라 얼마나 많은 리드의 뎁스가 요구되는지 확인하기 위하여, MuTect이 제공하는 변이 검출기(variant caller)의 검출 한계 및 뎁스에 따른 검출 민감도 결과를 참조하였다. 목표하는 검출 민감도를 달성하기 위해 요구되는 지지 리드는 변이를 검출하는 검출기의 성능에 의해 결정될 수 있다. MuTect의 경우에는 10개의 지지 리드가 있는 경우, 99%의 검출 민감도로 변이 검출이 가능하다. 도 4를 참조하면, 변이의 검출 한계가 0.04 초과인 경우, 최소 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있고, 변이의 검출 한계가 0.04 이하인 경우에도 대략 10개의 지지 리드가 있어야 99%의 검출 민감도를 가질 수 있다.
예를 들면, 생검 샘플은 변이의 검출 한계를 2%, FFPE 샘플은 샘플 상태가 상대적으로 양호하지 못한 점을 고려하여 변이의 검출 한계를 5%로 설정하였다. 식 3에 따라, 2%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.02로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 500이 된다. 5%의 변이를 검출하려 하고, 검출기로 MuTect을 사용하는 경우, r=10, α=0.05로 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스(d)는 200이 된다.
실시예 2. 단일 뉴클레오티드 변이( SNV ) 예측 자리 선정
표적 시퀀싱의 대상으로 FDA 승인 약물 표적 변이(FDA approved drug target mutation), My Cancer Genome, 또는 KFDA에 등재된 단일 뉴클레오티드 변이(SNV)를 조사하고, 중복되는 변이 자리를 제외하여 137개의 염색체 표적 자리를 선정하였다(도 5 참조).
실시예 3. 표적 시퀀싱
DNA 프렙 키트를 이용하여 인간의 1283개의 생검 샘플과 1012개의 FFPE 샘플로부터 gDNA를 추출한 후, 나노드롭(Nanodrop)과 Qubit 2.0 형광광도계(Fluorometer)를 이용하여 DNA 농도와 순도를 측정하였다. 이어서, 가이드라인에 따라 라이브러리를 제작하고, Illumina의 HiSeq 2500 시퀀싱 플랫폼 상에서 TruSeq Rapid PE Cluster 키트 및 TruSeq Rapid SBS 키트의 100bp 쌍-말단 모드(paired-end mode)를 사용하여 시퀀싱을 수행하였다.
실시예 4. QC점수 산출
시퀀싱된 리드의 데이터를 hg19 인간 참조 서열에 로컬 정렬(local alignment)하였다. 낮은 품질의 리드, 단일 뉴클레오티드 변이(SNV) 예측 자리를 포함하는 영역에서 벗어난 리드를 필터한 후, MuTect 1.1.4로 변이 유전자가 존재하는지 여부를 확인하여 변이 검출 표지를 수득하였다.
이 때, SAMTOOLS mpileup을 이용하여 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스를 구하였다. 변이 검출기에 들어가기 직전의 최종 BAM 파일을 사용하였다. 상기 식 1에 대입하여 QC점수를 산출하였다.
실시예 5. 신뢰도 평가 1
QC점수를 산출하여 단일 뉴클레오티드 변이를 신뢰성 있게 검출할 수 있는 변이 검출 표지가, 총 137개의 표적 자리 중 몇 %인지 평가하였다.
1283개의 생검 샘플과 1012개의 FFPE 샘플의, 평균 뎁스와 137개의 염색체 표적 자리에서의 QC점수를 확인하였다(표 1 참조). 평균 뎁스를 살펴보면, FFPE 샘플은 약 728, 생검 샘플은 약 954로, 검출 한계를 고려한 검출 민감도의 기준보다 훨씬 높은 수치를 나타내었다. 한편, QC점수의 평균을 살펴보면, FFPE 샘플은 약 92.7, 생검 샘플은 약 97.3을 나타내었다. 즉, FFPE 샘플에서 평균 7.3%, 생검 샘플에서 평균 2.7%의 변이 검출 표지는, 요구되는 뎁스 기준 및 성분 편향 기준에 미치지 못한다는 것을 확인하였다.
샘플 종류 N 평균 뎁스 QC점수
FFPE 1012 727.8 ±279.2 92.7±22.3
생검(FF) 1283 954.3 ±181.5 97.3±9.1
도 7을 참조하면, 전체 샘플 중 일부 샘플은 충분히 높은 평균 뎁스를 가짐에도 불구하고, 검출 한계를 충족하지 못하는 것을 알 수 있다. 특히, FFPE 샘플은 샘플의 품질이 생검 샘플에 비하여 상대적으로 낮기 때문에, 평균 뎁스가 높게 나타난 경우에도 QC점수는 아주 낮은 경우가 존재할 수 있다. 즉, QC점수는 평균 뎁스가 놓친 변이 검출 표지의 품질을 설명할 수 있다.
실시예 6. 신뢰도 평가 2
임의의 FFPE 샘플 2개를 선정하고 137개의 염색체 자리에서의 뎁스 평균 및 QC점수를 산출하였다. A 샘플의 경우 평균 뎁스는 324.1, QC점수는 100을 기록하였다. B 샘플의 경우 평균 뎁스는 634.4, QC점수는 45.26을 기록하였다. 도 8에 137개의 염색체 표적 자리 각각에서의 뎁스를 함께 도시하였다. A 샘플의 평균 뎁스는 B 샘플의 평균 뎁스보다 낮았으나, 뎁스의 분포가 고르며, 모든 표적 자리에서 뎁스 기준 및 성분 편향 기준을 충족한 것을 알 수 있다.
FFPE 샘플 평균 뎁스 QC점수
A 샘플 324.1 100
B 샘플 634.4 45.26
실시예 7. QC점수를 제어하는 요인 확인
QC점수를 활용하여, 표적 시퀀싱을 수행하기 전 QC점수에 영향을 미칠 수 있는 주요 요인들을 확인하였다. 편의상 QC점수를 binary하여 80을 기준으로 PASS 또는 FAIL로 구분하였다.
1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/㎕ 이상을 만족하는 713개의 FFPE 샘플 중에서 696개의 FFPE 샘플(97.6%)의 QC점수는 80 이상을 만족하였다. 또한, 상기 713개의 FFPE 샘플에 대하여, postPCR 후 몰농도(Molarity)가 3.92nM 초과를 만족하는 702개의 FFPE 샘플 중에서 668개의 FFPE 샘플(98%)의 QC점수는 80 이상을 만족하였다.
1012개의 FFPE 샘플에 대하여, PrePCR 후 Qubit의 DNA 농도가 26.5ng/㎕ 미만인 299개의 FFPE 샘플 중에서 212개의 FFPE 샘플(70.9%)의 QC점수는 80 이상을 만족하였다. 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 초과를 만족하는 213개의 FFPE 샘플 중에서 184개의 FFPE 샘플의 QC점수는 80 이상을 만족하였다. 그러나, 상기 299개의 FFPE 샘플에 대하여, 평균 라이브러리 크기가 274 미만인 84개의 FFPE 샘플 가운데 26개의 FFPE 샘플의 QC점수만이 80을 만족하였다. 즉, FFPE 샘플은, 1차적으로 라이브러리 제작으로 생성된 DNA 농도, postPCR 후 DNA 몰농도 및 평균 라이브러리 크기를 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.
1246개의 생검 샘플에 대하여, 혼성화 단계에서 투입된 DNA 양이 648.06ng 초과를 만족하는 1160개의 생검 샘플 중에서 1147개의 생검 샘플(98.9%)의 QC점수는 80 이상을 만족하였다. 생검 샘플은 혼성화 단계에서 투입된 DNA 양을 제어하여 높은 QC점수를 수득할 수 있음을 알 수 있다.
실시예 8. DNA 추출 키트의 품질 평가
2가지 종류의 DNA 추출 키트를 사용하여 동일한 FFPE 샘플로부터 DNA를 추출하고, 상기의 과정을 통해 평균 뎁스, Picard tool의 품질 항목(DNA 순도, GC농도 및 평균 라이브러리 크기) 및 QC점수 산출하였다.
키트 종류 DNA 순도(260/280 비율) GC 농도(%) 평균 라이브러리 크기(bp) 평균 뎁스 QC점수
A키트 1.895±0.067 49.2±1.8 300.3±22.5 728±279 93.5±21.6
B키트 1.875±0.076 51.5±3.5 313.3±23.4 775±326 77.7±23.7
A 키트와 B 키트를 사용하여 DNA를 추출한 경우, 평균 뎁스와 Picard tool의 품질 항목에 유의성 있는 차이가 없는 것으로 나타나는 때에도, QC점수에 유의한 차이가 존재하는 것을 확인하였다.
도 10을 참조하여 염색체 표적 자리 별로 뎁스를 살펴보면, A 키트를 사용하여 DNA를 추출한 샘플은 B 키트를 사용하여 DNA를 추출한 샘플에 비하여, 뎁스의 분포가 고르며, 뎁스 기준을 더 많이 만족한 것을 알 수 있다.
부호의 설명
110 : 리드 수득 단계
120 : 맵핑 단계
130 : QC점수 산출 단계
140 : 신뢰도 평가 단계
300 : 신뢰도를 결정하기 위한 장치
310 : 시퀀싱부
320 : 맵핑부
330 : QC점수 산출부
340 : 신뢰도 평가부
400 : 피검체
410 : 생검 샘플
425 : FFPE 처리 샘플
430 : 참조 유전체에 정렬된 리드의 뎁스
1,2,3,4,5 : 뉴클레오티드

Claims (19)

  1. 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이(single nucleotide variant, SNV) 예측 자리에 대하여 표적 시퀀싱(targeted sequencing)을 수행하여 리드(read)를 수득하는 단계;
    참조(reference) 유전체에 상기 리드를 맵핑(mapping)하고 참조 유전체에 정렬된 리드의 뎁스(depth)로부터 QC(Quality control)점수를 산출하는 단계; 및
    산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 단계를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법.
  2. 청구항 1에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터 산출되는 것인 방법(c는 0 또는 자연수).
  3. 청구항 2에 있어서, 상기 c는 2인 것인 방법.
  4. 청구항 1에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 방법:
    [수학식 1]
    Figure PCTKR2016009491-appb-I000007
    식 중, Di는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고,
    IDi는 Di가 d 이상일 때 1의 값을 갖고, Di가 d 미만일 때 0의 값을 갖는 지시 함수이며,
    Si는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향이고,
    ISi는 Si가 0.9 미만일 때 1의 값을 갖고, Si가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
    n은 총 표적 자리의 수이고,
    d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
    상기 수학식 1에서, Si는 하기의 수학식 2에 따라 산출된다
    [수학식 2]
    Figure PCTKR2016009491-appb-I000008
    .
  5. 청구항 4에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 방법.
  6. 청구항 5에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 방법:
    [수학식 3]
    Figure PCTKR2016009491-appb-I000009
    식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
  7. 청구항 1에 있어서, 상기 시료는 생검 조직 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인 방법.
  8. 청구항 7에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검 조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 방법.
  9. 청구항 1에 있어서, 상기 신뢰도를 평가하는 단계는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 방법.
  10. 청구항 1 내지 9 중 어느 하나의 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
  11. 피검 유전자를 포함하는 핵산 시료로부터 피검 유전자의 단일 뉴클레오티드 변이 예측 자리에 대하여 표적 시퀀싱을 수행하여 리드를 수득하는 시퀀싱부;
    참조 유전체에 상기 리드를 맵핑하는 맵핑부;
    참조 유전체에 정렬된 리드의 뎁스로부터 QC점수를 산출하는 QC점수 산출부; 및
    산출된 QC점수에 따라 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 평가하는 신뢰도 평가부를 포함하는, 단일 뉴클레오티드 변이 검출 표지의 신뢰도를 결정하기 위한 장치.
  12. 청구항 11에 있어서, 상기 QC점수는, 참조 유전체의 표적 자리로부터 5' 방향으로 c번째 뉴클레오티드 및 3' 방향으로 c번째 뉴클레오티드 사이를 뎁스 분석 구간으로 결정하고, 상기 뎁스 분석 구간 내의 2c+1개의 뉴클레오티드 각각에 맵핑된 리드의 뎁스로부터 산출되는 것인 장치(c는 0 또는 자연수).
  13. 청구항 12에 있어서, 상기 c는 2인 것인 장치.
  14. 청구항 11에 있어서, 상기 QC점수는 하기의 수학식 1에 따라 산출되는 것인 장치:
    [수학식 1]
    Figure PCTKR2016009491-appb-I000010
    식 중, Di는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 뎁스의 평균이고,
    IDi는 Di가 d 이상일 때 1의 값을 갖고, Di가 d 미만일 때 0의 값을 갖는 지시 함수이며,
    Si는 i번째 표적 자리에 대한 뎁스 분석 구간 내의 뉴클레오티드 각각에 맵핑된 리드의 성분 편향이고,
    ISi는 Si가 0.9 미만일 때 1의 값을 갖고, Si가 0.9 이상일 때 0의 값을 갖는 지시 함수이며,
    n은 총 표적 자리의 수이고,
    d는 단일 뉴클레오티드 변이가 존재하는지 여부를 판단하기 위해 요구되는 최소 뎁스이며,
    상기 수학식 1에서, Si는 하기의 수학식 2에 따라 산출된다
    [수학식 2]
    Figure PCTKR2016009491-appb-I000011
    .
  15. 청구항 14에 있어서, 상기 최소 뎁스(d)는 검출 민감도(detection sensitivity), 변이의 검출 한계(detection limit), 지지 리드(supporting read)의 수 또는 이들의 조합으로부터 산출되는 것인 장치.
  16. 청구항 15에 있어서, 상기 최소 뎁스(d)는 하기의 수학식 3에 따라 산출되는 것인 장치:
    [수학식 3]
    Figure PCTKR2016009491-appb-I000012
    식 중, r은 지지 리드의 수이고, α는 변이의 검출 한계이다.
  17. 청구항 11에 있어서, 상기 시료는 생검 조직 또는 FFPE 조직으로부터 획득된 것인 장치.
  18. 청구항 17에 있어서, 상기 시료는 DNA 투입양에 기초하여 생검조직으로부터 획득되거나, 또는 DNA 농도에 기초하여 FFPE 조직으로부터 획득된 것인 장치.
  19. 청구항 11에 있어서, 상기 신뢰도를 평가부는, 총 n개의 표적 자리에 대한 변이 검출 표지 중 신뢰성 있는 변이 검출 표지의 비율로부터 평가하는 장치.
PCT/KR2016/009491 2016-05-04 2016-08-26 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치 WO2017191871A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0055771 2016-05-04
KR1020160055771A KR101882867B1 (ko) 2016-05-04 2016-05-04 변이 검출 표지의 신뢰도 결정 방법 및 장치

Publications (1)

Publication Number Publication Date
WO2017191871A1 true WO2017191871A1 (ko) 2017-11-09

Family

ID=60203755

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/009491 WO2017191871A1 (ko) 2016-05-04 2016-08-26 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치

Country Status (2)

Country Link
KR (1) KR101882867B1 (ko)
WO (1) WO2017191871A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310704A (zh) * 2019-05-08 2019-10-08 西安电子科技大学 一种基于局部异常因子的拷贝数变异检测方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020067603A1 (ko) * 2018-09-28 2020-04-02 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치
KR102215151B1 (ko) * 2018-09-28 2021-02-10 한양대학교 산학협력단 다중 참조 유전체에 기반한 유전체 구조변이 검출 방법 및 구조변이 검출 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140099189A (ko) * 2013-02-01 2014-08-11 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR101460520B1 (ko) * 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR20160020400A (ko) * 2014-07-18 2016-02-23 에스케이텔레콤 주식회사 산모의 혈청 dna를 이용한 태아의 단일유전자 유전변이의 예측방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101460520B1 (ko) * 2012-11-12 2014-11-11 (주)신테카바이오 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
KR20140099189A (ko) * 2013-02-01 2014-08-11 에스케이텔레콤 주식회사 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR20160020400A (ko) * 2014-07-18 2016-02-23 에스케이텔레콤 주식회사 산모의 혈청 dna를 이용한 태아의 단일유전자 유전변이의 예측방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LI ET AL.: "Mapping Short DNA Sequencing Reads and Calling Variants Using Mapping Quality Scores", GENOME RESEARCH, vol. 18, 2008, pages 1851 - 1858, XP001503357 *
ZHANG ET AL.: "Improved Variant Calling Accuracy by Merging Replicates in Whole-Exome Sequencing Studies", BIOMED RESEARCH INTERNATIONAL, vol. 2014, 2014, XP055436466 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110310704A (zh) * 2019-05-08 2019-10-08 西安电子科技大学 一种基于局部异常因子的拷贝数变异检测方法

Also Published As

Publication number Publication date
KR101882867B1 (ko) 2018-07-27
KR20170125278A (ko) 2017-11-14

Similar Documents

Publication Publication Date Title
WO2016167408A1 (ko) 차세대 염기서열 분석기법을 이용한 장기 이식 거부 반응 예측 방법
Domagalska et al. Genomes of Leishmania parasites directly sequenced from patients with visceral leishmaniasis in the Indian subcontinent
WO2016195382A1 (ko) 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
Umbarger et al. Next-generation carrier screening
Lawrence et al. Recurrent loss of heterozygosity correlates with clinical outcome in pancreatic neuroendocrine cancer
Hu et al. Location of balanced chromosome-translocation breakpoints by long-read sequencing on the Oxford Nanopore platform
BR112015032031B1 (pt) Métodos e processos para avaliação não invasiva das variações genéticas
WO2019139363A1 (ko) 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도
WO2017191871A1 (ko) 변이 검출 표지의 신뢰도를 결정하는 방법 및 장치
Hills et al. BAIT: Organizing genomes and mapping rearrangements in single cells
WO2019031785A9 (ko) 유전자 패널에 기초한 염기서열의 변이 검출방법 및 이를 이용한 염기서열의 변이 검출 디바이스
Carbone et al. A high-resolution map of synteny disruptions in gibbon and human genomes
WO2017135768A1 (ko) 추정 자손의 유전질환 발병 위험성을 예측하는 방법 및 시스템
Nejsum et al. Ascaris phylogeny based on multiple whole mtDNA genomes
WO2020096248A1 (ko) 폐암 조직 내 세포 유래 돌연변이를 검출하기 위한 프로브 제조 및 검출 방법
Balachandran et al. Structural variant identification and characterization
WO2017086675A1 (ko) 대사 이상 질환 진단 장치 및 그 방법
Revollo et al. Spectrum of benzo [a] pyrene-induced mutations in the Pig-a gene of L5178YTk+/− cells identified with next generation sequencing
KR101857735B1 (ko) 실험실 내 벡터 오염으로 인해 발생하는 위양 체성변이의 검출 및 제거방법
WO2021132920A1 (ko) 유전자 검사를 위한 맞춤형 유전자칩 및 이의 제작 방법
Thomas et al. A population study of the minicircles in Trypanosoma cruzi: predicting guide RNAs in the absence of empirical RNA editing
Yadav et al. Next-Generation sequencing transforming clinical practice and precision medicine
Villela et al. Efficient detection of chromosome imbalances and single nucleotide variants using targeted sequencing in the clinical setting
WO2017204414A1 (ko) 시료의 교차 오염 정도를 분석하는 방법 및 장치
Vincent et al. Microdeletion on chromosome 8p23. 1 in a familial form of severe Buruli ulcer

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16901097

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16901097

Country of ref document: EP

Kind code of ref document: A1