WO2017204414A1 - Method and apparatus for analyzing degree of cross-contamination of sample - Google Patents

Method and apparatus for analyzing degree of cross-contamination of sample Download PDF

Info

Publication number
WO2017204414A1
WO2017204414A1 PCT/KR2016/009451 KR2016009451W WO2017204414A1 WO 2017204414 A1 WO2017204414 A1 WO 2017204414A1 KR 2016009451 W KR2016009451 W KR 2016009451W WO 2017204414 A1 WO2017204414 A1 WO 2017204414A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence information
allele
sample
alleles
target sample
Prior art date
Application number
PCT/KR2016/009451
Other languages
French (fr)
Korean (ko)
Inventor
박동현
손대순
박웅양
Original Assignee
삼성전자 주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자 주식회사
Publication of WO2017204414A1 publication Critical patent/WO2017204414A1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Definitions

  • a method for analyzing the degree of contamination between samples a computer-readable recording medium having recorded thereon a program for executing the method, and an apparatus for analyzing the degree of contamination between samples.
  • a genome is all the genetic information of a living thing.
  • Techniques for sequencing a person's genome have been developed such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology.
  • Next-generation sequencing can be used interchangeably with large-scale parallel sequencing or second-generation sequencing.
  • genetic information such as nucleotide sequences, proteins, etc. is widely used to find genes expressing diseases such as diabetes and cancer, or to identify correlations between genetic diversity and expression characteristics of individuals.
  • the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression.
  • genetic data such as individual nucleotide sequences, proteins, etc. are essential data to identify current and future disease-related information to prevent disease or to select the optimal treatment method in the early stages of disease.
  • Techniques for accurately analyzing and diagnosing mutations such as Single Nucleotide Variant (SNV), Copy Number Variation (CNV), Insertion and Deletion (InDel), and Translocation using diseases are being studied.
  • the sequence information obtaining unit for obtaining the first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and the second sequence information of the nucleic acid fragment from the mixed sample mixed with the target sample and the additional sample;
  • An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and the second sequence information, respectively; And it provides a device for analyzing the degree of cross-contamination of the sample to the target sample, including a calculation unit for comparing the calculated allele frequency for a specific site of the chromosome.
  • a computer-readable recording medium having recorded thereon a program for executing the method.
  • the sample may be a biological sample or a compound of the subject, that is, a synthetic sample.
  • the subject may include primates and humans, such as humans, non-human primates, cattle, horses, pigs, sheep, goats, dogs, cats, or rodents.
  • the biological sample may be obtained from blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof.
  • the biological sample of the subject may be a sample of eukaryotic cells, prokaryotic cells, viruses, bacteriophage, etc. derived from various species.
  • the sample may include a nucleic acid or synthetic nucleic acid of the subject.
  • the nucleic acid may be used interchangeably with a polynucleotide or oligonucleotide of any length.
  • the nucleic acid may be a cell-free DNA (cf DNA) or an isolated DNA.
  • the method of separating nucleic acid from the sample may be performed by a method known to those skilled in the art.
  • the length of the nucleic acid fragment may be about 10bp (base pair) to about 2000bp, about 15bp to about 1500bp, about 20bp to about 1000bp, about 20bp to about 500bp or about 20 to about 200bp.
  • Obtaining sequence information of the nucleic acid fragment may include obtaining sequence information by performing next-generation sequencing (NGS) on the separated nucleic acid.
  • NGS next-generation sequencing
  • the "next generation sequencing” may be used interchangeably with “massive parallel sequencing” or second-generation sequencing.
  • Next-generation sequencing refers to a technique of fragmenting a full-length genome in chip-based and PCR-based paired end formats, and performing the sequencing of the fragments at high speed based on hybridization.
  • Next-generation sequencing is a technique for sequencing multiple nucleic acids of a large amount of fragments, and may perform targeted sequencing or panel sequencing based on next-generation sequencing.
  • Next-generation sequencing includes, for example, 454 platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences Heliscope , Single molecule real time (SMRT TM) technology from Pacific Biosciences, or a combination thereof.
  • 454 platform Roche
  • GS FLX Titanium Illumina MiSeq
  • Illumina HiSeq Illumina Genome Analyzer
  • Solexa platform Solexa platform
  • SOLiD System Applied Biosystems
  • Ion Proton Life Technologies
  • Complete Genomics Helicos Biosciences Heliscope
  • Single molecule real time (SMRT TM) technology from Pacific Biosciences, or a combination thereof.
  • the method may further comprise preparing a nucleic acid library to perform next generation sequencing.
  • the nucleic acid library can be prepared according to the next generation sequencing scheme.
  • Nucleic acid libraries can be constructed according to the manufacturer's instructions to provide next generation sequencing.
  • the sequence information of the obtained nucleic acid fragments may be called a read.
  • Sequence information of the nucleic acid fragments may be stored in the system, and N masking may be performed.
  • N masking means treating missing individual nucleic acids with too low quality.
  • a low quality lead filter can be performed.
  • the low quality read filter means processing to exclude sequence information of nucleic acid fragments that have been read with excessively low quality.
  • the method may include assigning sequence information of the nucleic acid fragment to a chromosome by mapping the obtained sequence information to a human reference genome.
  • the human reference genome may be hg18 or hg19. Sequence information mapped to only one genomic position in the human reference genome may be designated as unique sequence information.
  • the sequence information of the nucleic acid fragments can be assigned to the position of the chromosome based on the designated unique sequence number.
  • the locus of the chromosome may be a continuous range on a chromosome having a length of at least about 5 kb, about 10 kb, about 20 kb, about 50 kb, about 100 kb, about 1000 kb, or 2000 kb.
  • the chromosomal locus may be a single chromosome.
  • a global alignment or a local alignment may be performed in parallel.
  • the global alignment refers to a method of placing the entire sequence information of the nucleic acid fragments in the most similar portion of the reference genome
  • the local alignment refers to a method of positioning some of the sequence information of the nucleic acid fragments in the most similar portion of the reference genome sequence. do.
  • the method may include identifying a variation in the DNA of the sample.
  • the mutation check may be performed using a known mutation detection program, for example, GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer, and Mutek, but is not limited thereto.
  • the first sequence information may be sequence information of a nucleic acid fragment obtained from each of a plurality of samples including a target sample and an additional sample.
  • the first sequence information may be a result of sequencing the target sample alone.
  • the first sequence information may be a result of sequencing each sample individually for one or more, two or more, or five or more additional samples.
  • the second sequence information may be sequence information of a nucleic acid fragment obtained from a mixed sample in which a target sample and an additional sample are mixed.
  • a sequencer that performs sequencing may be a mixed sample in which a plurality of samples are mixed. In the case of using a mixed sample in which a plurality of samples are mixed, there is an advantage of reducing the cost of increasing the concentration of the target and providing high throughput in a short time. At this time, a plurality of samples can be distinguished from each other by tagging a label unique to a library of a plurality of samples.
  • the method may include calculating an allele frequency from each of the obtained first and second sequence information.
  • the allele frequency of each allele can be calculated.
  • the allele frequency may refer to a numerical value representing a composition ratio between different alleles constituting the same gene in one sample.
  • the allele frequency may be expressed as one or more of A, G, C, and T, or the frequency of sequence information of all of A, G, C, and T.
  • the method may comprise comparing the calculated allele frequency for a particular site of the chromosome.
  • the specific position of the chromosome may be the same or corresponding exon site or intron site between a plurality of samples, and may be the same sequence number site on the same number of chromosomes.
  • the specific site of the chromosome may be a part or all of a region including the mutation predicting site and the surrounding site to be subjected to sequencing in sequencing or target sequencing.
  • the allele frequency obtained from the first sequence information and the allele frequency obtained from the second sequence information can be compared.
  • the allele frequency of A from the first sequence information and the allele frequency of A from the second sequence information can be compared.
  • allele frequencies of G, C, and T from the first sequence information and allele frequencies of each of G, C, and T from the second sequence information can be compared with respect to specific sites of the same target sample and chromosome.
  • the allele frequency may be compared by the number of alleles having the allele frequency, or the ratio of the number of alleles having the allele frequency in the total allele number may be compared.
  • the "cross-contamination" of the sample is a tag tagged in the sequence information of the nucleic acid fragment of another sample tagged with the sequence information of the nucleic acid fragment of one sample, or the sequence information of the nucleic acid fragments of different samples By exchanging the label between the liver, it means that the sequence information of the nucleic acid fragment in which the label is incorrectly tagged. Due to cross-contamination of the samples, allele frequencies are significant when the allele frequency is analyzed from the first sequence information and the allele frequency is analyzed from the second sequence information for a specific chromosomal site of the sample. The difference can be seen.
  • the method selects a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample in the obtained first sequence information, and selects the positions excluding the mutation prediction site set as control site sets. Selecting as; Calculating allelic frequencies of genotype alleles and background alleles from the obtained first sequence information and the second sequence information, respectively, for the set of predictive mutation sites or the set of control sites; And comparing the calculated allele frequency with respect to the mutation prediction site set or the control site set.
  • the variation may mean different characteristics of a plurality of samples appearing at specific sites of the chromosome.
  • the property may be a nucleic acid sequence or a nucleotide sequence.
  • the genotype allele of one sample obtained from the first sequence information may have a nucleic acid sequence or nucleotide sequence different from the genotype allele of another sample obtained from the first sequence information.
  • the mutation may be Single Nucleotide Polymorphism (SNP).
  • SNP Single Nucleotide Polymorphism
  • SNP refers to the difference between a single nucleotide that appears between individuals in one species, and is a genetic change or variation showing a difference of a nucleotide sequence (A, G, C, T) at a specific position in the nucleic acid sequence.
  • SNP is a genetic factor associated with the disease, and different SNPs show different resistance, sensitivity, and degree of disease to each subject.
  • Each of the plurality of samples may have different or identical SNP sites from each other.
  • the variation may have a variation with respect to the reference dielectric.
  • the variation may include a variation of the nucleic acid sequence or the nucleotide sequence with respect to the reference genome.
  • Variation of the nucleic acid sequence or nucleotide sequence may comprise substitution, insertion, deletion, or translocation of one or more nucleotide sequences relative to a reference genome.
  • Substitution of the one nucleotide sequence may be, for example, Single Nucleotide Variation (SNV).
  • SNV refers to the difference between a single nucleotide that appears in a few populations in one sequence or species, and may be, for example, a difference from the nucleotide sequence of a reference genome appearing in sequencing data.
  • Each of the plurality of samples may have different or identical SNV sites from each other. Allele frequencies of variation can be calculated by counting the number of alleles in existing generation sequencing data using existing programs such as samtools.
  • the method includes selecting a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and selecting the positions other than the mutation prediction site set as the control site sets.
  • the "mutation prediction site” may mean a specific site of the chromosome having the above-described mutation.
  • the spot may be a predictive site of variation of the sample.
  • the SNP site may be included in the predictive site of the mutation of the target sample.
  • Each of the plurality of samples may have different or identical mutation prediction sites from each other. Referring to FIG. 3, for positions 1, 2, 3, 4, and 5, the predicted variance is 2 to 4 digits for sample 1 (S 1), and the predicted variance for sample 2 (S 2).
  • the seat may be 2 to 5 seats.
  • the "union variant set” is a collection of variation prediction sites that combines the variation prediction sites of each of the plurality of samples, that is, the target sample and the additional sample, and is a union of the variation prediction sites of the plurality of samples. Can be. Referring to FIG. 3, for the first to fifth digits, the set of variation prediction sites of the first and second samples may be the second to fifth digits.
  • control position set is a set of sites for which no mutation is detected in any of the plurality of samples because the background alleles of the plurality of samples obtained from the first sequence information are the same for a specific site of the chromosome. Means.
  • the method may calculate the allele frequencies of the alleles, ie, genotype alleles and / or background alleles, from the obtained first sequence information and the second sequence information, respectively, for the set of mutation prediction sites or the control site set. have.
  • allele frequencies calculated from the first sequence information and the second sequence information described above allele frequencies of genotype alleles and / or background alleles for the set of predictive or control sites can be selected or derived.
  • the allele frequency of the target sample may be represented by the frequency of sequence information of one or more of A, G, C and T or all of A, G, C and T.
  • the method determines the allele as a background allele if the allele obtained from the first sequence information has an allele frequency of less than 10%, and if the allele has an allele frequency of 10% or more, the allele Genes can be determined as genotype alleles.
  • the criterion for distinguishing the allele may be any criterion for genotyping.
  • the "background allele” may mean an allele having an allele frequency of less than 10%, 5% or less, 1% or less, 0.5% or 0.1% or less obtained from sequence information.
  • the background allele can be understood as the meaning of the background allele used in the art.
  • the "genotype allele” may refer to an allele having an allele frequency of 10% or more obtained from sequence information.
  • the allele frequency of the genotype allele may be at least 10%, at least 30%, at least 50%, at least 90%, or 100%.
  • the genotype allele may be understood as meaning genotype alleles used in the art.
  • alleles can typically have A, G, C, and T genotypes, of which base sequences having an allele frequency of at least 10% are assigned to genotype alleles, allele frequencies of 1% or less.
  • the branch can be determined by the background allele as the base sequence. Referring to FIG. 3, the genotype allele at position 1 of Sample 1 is represented by T, and the background alleles are A, G, and C. In addition, genotype allele at position 5 of Sample 1 was indicated by T and C, and the background allele was A and G.
  • the method may include comparing the calculated allele frequencies with respect to the mutant prediction site set or the control site set.
  • allele frequencies can be compared in the first sequence information and the second sequence information. For example, for the same target sample and set of mutation prediction sites, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, for the same target sample and the set of mutation prediction sites, allele frequencies of G, C and T in the second sequence information and allele frequencies of G, C and T in the first sequence information can be compared. As a result of the comparison, if there is a significant difference in the allele frequency of any one of A, G, C or T, it may be determined that the target sample is contaminated by another sample.
  • allele frequencies can be compared in the first sequence information and the second sequence information. For example, for the same target sample and control site set, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, for the same target sample and the set of control sites, allele frequencies of G, C and T in the second sequence information and allele frequencies of G, C and T in the first sequence information can be compared. In this case, since the background alleles and genotype alleles of the plurality of samples obtained from the first sequence information are the same for the control site set, it may be determined that there is no cross contamination of the samples. Referring to FIG.
  • the first site of all samples is the same genotype allele as T, the background allele is the same as A, G, and C, and no mutation is detected.
  • the first position becomes one of the set of control sites. In this position, the background allele of one sample may be determined not to be interfered by the genotype allele of another sample.
  • the method selects alleles that are the background alleles of the target sample and the genotype alleles of the additional sample in the first sequence information as a test group, and the mutation prediction site sets and the control site sets.
  • the first sequence information may include the step of selecting the allele that is the background allele of the target sample and the background allele of the additional sample as a control group.
  • control group means an allele that is a background allele of a target sample in the first sequence information and a background allele of a further sample with respect to the mutation predicting site set and the control site set.
  • the method may include comparing allele frequencies of the control group obtained from the target sample in the first sequence information, and allele frequencies of the control group obtained from the target sample in the second sequence information.
  • Alleles that are genes are A, G and C.
  • allele frequencies of A, G, and C, which are control groups of Sample 1 and allele frequencies of A, G, and C, which are control groups of Sample 1 may be compared, respectively, in the second sequence information.
  • the allele which is the background allele of the 2nd position of the sample 1, and the background allele of the sample 2, the sample 3, and the sample 4 which are additional samples at the same time is G and C.
  • the allele frequencies of the control group G and C of sample 1 and the allele frequencies of the control groups G and C of sample 1 in the second sequence information may be compared, respectively.
  • the background allele of the 3rd position of sample 1, and the background allele of sample 2, the sample 3, and the sample 4 which are additional samples are allele A.
  • the allele frequency of A, which is a control group of Sample 1 and the allele frequency of A, which is a control group of Sample 1 may be compared with each other in the second sequence information.
  • the control group of these target samples when comparing the allele frequency in the first sequence information and the allele frequency in the second sequence information, there may be little or no difference.
  • the control group may determine that there is no possibility of cross contamination of the sample.
  • test group refers to the allele which is the background allele of the target sample in the first sequence information and the genotype allele of the additional sample with respect to the set of mutation prediction sites. Since the test group determines that there is a possibility of cross contamination of a sample at a chromosome specific site corresponding to a plurality of samples, the test group may be an object to analyze the degree of contamination.
  • the method may compare the allele frequency of the test group obtained from the target sample in the first sequence information, and the allele frequency of the test group obtained from the target sample in the second sequence information.
  • the method of analyzing the degree of contamination and the method of selecting a test group may vary depending on how and what samples are mixed. If contamination occurs by sample and by chromosome specific site, it may be different. If cross contamination between samples for a target sample occurs, the allele frequency of the background allele in the set of predictive sites of variation of the target sample may be affected by genotype alleles of other samples.
  • the comparing step may analyze the number of alleles having any allele frequency in the test group and / or control group. The number of alleles having the allele frequency by allele frequency may be compared, or the ratio of the number of alleles having the allele frequency in the total alleles by group may be compared.
  • the allele which is the background allele of the fourth position of Sample 1 and the genotype allele of Sample 2, Sample 3, and Sample 4, which are additional samples is T.
  • the allele frequency of T which is the test group of Sample 1 and the allele frequency of T which is the test group of Sample 1 in the second sequence information can be compared.
  • the allele which is the background allele of the 4th position of sample 2, and the genotype allele of sample 1, sample 3, and sample 4 which is an additional sample is G.
  • the allele frequency of G which is the test group of Sample 2 and the allele frequency of G which is the test group of Sample 2 in the second sequence information can be compared.
  • the allele frequency of the background allele G of the fourth digit of Sample 2 may be affected by the genotype allele G of Sample 1, Sample 3, and Sample 4, the allele frequency of the background allele G of Sample 2 is increased. Can vary.
  • the allele which is the genotype allele of the additional sample 2 the sample 2, the sample 3, and the sample 4 is T.
  • the allele frequency of T which is the test group of Sample 1 and the allele frequency of T which is the test group of Sample 1 in the second sequence information can be compared.
  • Another aspect includes a sequence information obtaining unit for obtaining first sequence information of a nucleic acid fragment from each of a target sample and an additional sample, and second sequence information of the nucleic acid fragment from a mixed sample of the target sample and the additional sample; An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and the second sequence information, respectively; And it provides a device 100 for analyzing the degree of cross-contamination of the sample to the target sample, including a calculation unit for comparing the calculated allele frequency for a specific site of the chromosome.
  • the device may include a "... part” or “... module” that implements a time series method of analyzing the degree of cross contamination of the sample. Therefore, even if omitted below, the above description of the method for analyzing the degree of cross contamination of a sample may be applied to an apparatus for analyzing the degree of cross contamination of the sample.
  • the components may correspond to a processor.
  • a processor may be implemented as an array of multiple logic gates, or may be implemented as a combination of a general purpose microprocessor and a memory storing a program that may be executed on the microprocessor.
  • it will be understood by those skilled in the art that other types of hardware may be implemented.
  • the sequence information obtaining unit 110 obtains sequence information from a sequencing device.
  • the calculation unit 120 analyzes allele frequencies from the obtained first and second sequence information, respectively.
  • the operation unit compares the allele frequencies calculated from the first sequence information and the second sequence information with respect to a specific site of the chromosome.
  • the operation unit 130 may compare the number of alleles having the allele frequency for each allele frequency, or compare the ratio of the number of alleles having the allele frequency in the total allele number.
  • the apparatus selects a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and selects the positions other than the mutation prediction site set as control site sets.
  • Seat selection unit to be selected as;
  • An allele frequency calculator configured to calculate an allele frequency of genotype alleles and background alleles from the obtained first sequence information and the second sequence information with respect to the set of predictive sites or the set of control sites;
  • the position selector 140 selects a set of predictive positions by combining the predictive positions of each of a plurality of samples, and selects a set of control positions by combining the positions of which no mutation is detected in any of the plurality of samples. .
  • the device may include a group selector for selecting a test group and a control group based on the mutation prediction site set and the control site set.
  • the group selector 150 selects a test group and a control group.
  • the apparatus may include an allele frequency calculation unit for calculating an allele frequency of genotype alleles and background alleles from the obtained first sequence information and the second sequence information, respectively, with respect to the mutation prediction site set or the control site set. Can be.
  • the allele frequency calculating unit may calculate an allele frequency of an allele including a genotype allele and / or a background allele.
  • the group selector selects alleles, which are the background alleles of the target sample and the genotype alleles of the additional samples, as the test group, and the mutation predictive site sets and the control site with respect to the mutation predicting site set. For the set, alleles that are the background alleles of the target sample and the background alleles of the additional sample in the first sequence information can be selected as the control group. If necessary, the test group and the control group may be selected simultaneously or sequentially.
  • the calculating unit compares the allele frequency of the test group obtained from the target sample in the first sequence information, and the allele frequency of the test group obtained from the target sample in the second sequence information, and obtains from the target sample in the first sequence information.
  • the allele frequency of the control group, and the allele frequency of the control group obtained from the target sample in the second sequence information can be compared.
  • the calculating unit may analyze the number of alleles having any allele frequency in the test group and / or the control group. The number of alleles having the allele frequency by allele frequency may be compared, or the ratio of the number of alleles having the allele frequency in the total alleles by group may be compared.
  • the apparatus determines the allele as a background allele when the allele obtained from the first sequence information has an allele frequency of less than 10%, and the allele when the allele has an allele frequency of 10% or more.
  • the allele determining unit 160 may determine the gene as the genotype allele.
  • Another aspect provides a computer readable recording medium having recorded thereon a program for executing a method of analyzing a degree of cross contamination of a sample with respect to the target sample.
  • the method may be implemented in software form readable by various computer means and recorded on a computer readable recording medium.
  • the recording medium may include a program command, a data file, a data structure, etc. alone or in combination.
  • the program instructions recorded on the recording medium may be those specially designed and constructed for the method according to the above, or may be known and available to those skilled in the computer software arts.
  • the recording medium may be magnetic media such as hard disks, floppy disks and magnetic tapes, optical disks such as Compact Disk Read Only Memory (CD-ROM), digital video disks (DVD), Magnetic-Optical Media, such as floppy disks, and hardware devices specially configured to store and execute program instructions, such as ROM, random access memory (RAM), flash memory, and the like. do.
  • program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler.
  • Such a hardware device may be configured to operate as one or more software modules to perform the operation of the method according to the above, and vice versa.
  • the specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or modified from the structures and structural equivalents disclosed herein. It may be implemented in computer software, firmware or hardware, including, or a combination of one or more of them. Implementations of the subject matter described herein relate to one or more computer program products, ie computer program instructions encoded on a program storage medium of tangible type for controlling or by the operation of an apparatus according to the method. It may be implemented as the above module.
  • the computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of materials affecting a machine readable propagated signal, or a combination of one or more thereof.
  • a computer program (also known as a program, software, software application, script or code) mounted on a device according to the method and executing the method may be any of a programming language including a compiled or interpreted language or a priori or procedural language. It can be written in any form, and can be deployed in any form, including stand-alone programs or modules, components, subroutines, or other units suitable for use in a computer environment. Computer programs do not necessarily correspond to files in the file system.
  • a program may be in a single file provided to the requested program, in multiple interactive files (eg, a file that stores one or more modules, subprograms, or parts of code), or part of a file that holds other programs or data. (Eg, one or more scripts stored in a markup language document).
  • the computer program may be deployed to run on a single computer or on multiple computers located at one site or distributed across multiple sites and interconnected by a communication network.
  • the contamination rate at the corresponding chromosome site can be accurately measured when the samples are contaminated.
  • the effects of cross contamination between samples were ignored or estimated by comparison with known database values, the degree of contamination between samples can be measured using the results of experiments obtained in the platform of the experiment. Therefore, reliability can be given to the result of variation extraction of individual samples.
  • 1 is a diagram for describing a method of selecting a set of disparity prediction positions.
  • FIG. 2 is a graph showing the ratio of the number of background alleles with allele frequencies of 0 to 0.01 in the test and control groups.
  • FIG. 3 is a view for explaining a method of selecting a control group and a test group between a plurality of samples.
  • FIG. 4 is a block diagram showing the configuration of an apparatus for analyzing the degree of cross contamination of a sample.
  • Agilent SureDesign was used to design a unique RNA bait that targeted ⁇ 0.5 Mb of the human genome.
  • the genome is one that contains introns from exons and five genes from 83 cancer related genes that are frequently rearranged in solid tumors.
  • the double stranded DNA concentration was measured using a QubitFluorometer (Life Technologies). Section size distribution was measured using a 2200 TapeStation instrument (Agilent Technologies). The library was adjusted to a total of 750 ng of DNA for each hybridization selection reaction. SureSelect's blocking oligonucleotides were used for hybridization selection.
  • libraries Prior to capture hybridization, libraries were labeled so as to be distinguishable for each of a plurality of samples based on DNA concentration and average fragment size, and each library was normalized to the same 2 nM concentration and pooled to the same volume. After denaturing the library with 0.2 N NaOH, the library was diluted to 20 pM. Perform cluster amplification of the denatured template and sequence the flowcell using HiSeq 2500 v3 Sequencing-by-Synthesis kit (2 ⁇ 100 bp read), followed by RTA v.1.12. Base calling was performed using 4.2.
  • the reads obtained were arranged in hg19 human reference using BWA v0.7.5a 35 to obtain BAM files.
  • the number of background alleles having a specific allele frequency is different.
  • the group having an allele frequency of 0.007 was about 0.176% when the single sample was analyzed and about 0.427% when the eight mixed samples were analyzed.
  • the frequency of the allele of the background allele was changed even in the same sum map cell line sample.
  • the average allele frequency of the sum map cell line sample was about 0.052% when analyzed by the sum map cell line sample alone.
  • the average allele frequency of the Hapmap cell line sample was about 0.077%. Therefore, it can be seen that the test group of the sum map cell line sample has an average degree of contamination of about 0.025% by the other sum map cell line samples.
  • the average allele frequency of the hapmap cell line sample was about 0.012% when analyzed by the hapmap cell line sample alone.
  • the average allele frequency of the Hapmap cell line sample was about 0.011%. Therefore, it was confirmed that the control group of the corresponding Hapmap cell line sample had no or minimal influence of contamination by other Hapmap cell line samples.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Ecology (AREA)
  • Physiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

Provided are a method and an apparatus for analyzing a degree of cross-contamination of a sample with regard to a target sample, comprising the steps of: acquiring first sequence information of a nucleic acid fragment from each of a target sample and an additional sample, and second sequence information of a nucleic acid fragment from a mixed sample of the target sample and the additional sample; calculating allele frequency from each of the first sequence information and the second sequence information acquired; and comparing the calculated allele frequencies with regard to a specific chromosomal locus. By measuring a degree of cross-contamination between samples at a specific chromosomal locus, the method and the apparatus can guarantee reliability to variation detection results.

Description

시료의 교차 오염 정도를 분석하는 방법 및 장치Method and apparatus for analyzing the degree of cross contamination of a sample
시료 상호간의 오염 정도를 분석하는 방법, 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체 및 시료 상호간의 오염 정도를 분석하는 장치에 관한 것이다.A method for analyzing the degree of contamination between samples, a computer-readable recording medium having recorded thereon a program for executing the method, and an apparatus for analyzing the degree of contamination between samples.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다. A genome is all the genetic information of a living thing. Techniques for sequencing a person's genome have been developed such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology. Next-generation sequencing can be used interchangeably with large-scale parallel sequencing or second-generation sequencing.
뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.Analysis of genetic information such as nucleotide sequences, proteins, etc. is widely used to find genes expressing diseases such as diabetes and cancer, or to identify correlations between genetic diversity and expression characteristics of individuals. In particular, the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression. Thus, genetic data such as individual nucleotide sequences, proteins, etc. are essential data to identify current and future disease-related information to prevent disease or to select the optimal treatment method in the early stages of disease. Techniques for accurately analyzing and diagnosing mutations such as Single Nucleotide Variant (SNV), Copy Number Variation (CNV), Insertion and Deletion (InDel), and Translocation using diseases are being studied.
종래에는 변이를 검출하는데 있어서, 시료 상호간의 오염에 의한 영향이 미미하여 이를 고려하지 않거나, 또는 알려진 데이터베이스가 제공하는 일반적인 집단 대립유전자 빈도(general population frequency)를 이용하여 추정하는 경우가 대부분이었다. 그러나, 낮은 대립유전자 빈도를 갖는 변이를 검출하기 위하여 시료 상호간의 간섭에 의한 영향을 측정 또는 보정하는 기술이 요구된다.Conventionally, in detecting variations, the effects of contamination between samples are insignificant, and most of them are not taken into consideration or estimated using general population frequencies provided by known databases. However, there is a need for a technique for measuring or correcting the effects of interference between samples in order to detect mutations with low allele frequencies.
일 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 제공한다. According to one aspect, obtaining first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and second sequence information of the nucleic acid fragment from the mixed sample of the target sample and the additional sample; Calculating allele frequencies from the obtained first and second sequence information, respectively; And comparing the calculated allele frequency with respect to a specific site of the chromosome, to provide a method for analyzing the degree of cross contamination of the sample with respect to the target sample.
다른 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치를 제공한다.According to another aspect, the sequence information obtaining unit for obtaining the first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and the second sequence information of the nucleic acid fragment from the mixed sample mixed with the target sample and the additional sample; An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and the second sequence information, respectively; And it provides a device for analyzing the degree of cross-contamination of the sample to the target sample, including a calculation unit for comparing the calculated allele frequency for a specific site of the chromosome.
다른 양상에 따르면, 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.According to another aspect, there is provided a computer-readable recording medium having recorded thereon a program for executing the method.
일 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 제공한다. According to one aspect, obtaining first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and second sequence information of the nucleic acid fragment from the mixed sample of the target sample and the additional sample; Calculating allele frequencies from the obtained first and second sequence information, respectively; And comparing the calculated allele frequency with respect to a specific site of the chromosome, to provide a method for analyzing the degree of cross contamination of the sample with respect to the target sample.
상기 시료는 대상체의 생물학적 시료 또는 합성물, 즉 합성 시료일 수 있다. 상기 대상체는 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 대상체의 생물학적 시료는 다양한 종으로부터 유래되는 진핵세포, 원핵세포, 바이러스, 박테리오 파지 등의 시료일 수 있다. 또한, 상기 시료는 대상체의 핵산 또는 합성 핵산을 포함할 수 있다. 상기 핵산은 임의의 길이를 지닌 폴리뉴클레오티드 또는 올리고뉴클레오티드와 상호교환적으로 사용될 수 있다. 상기 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA)일 수 있으며, 또는 분리된 DNA일 수 있다. The sample may be a biological sample or a compound of the subject, that is, a synthetic sample. The subject may include primates and humans, such as humans, non-human primates, cattle, horses, pigs, sheep, goats, dogs, cats, or rodents. The biological sample may be obtained from blood, plasma, serum, urine, saliva, mucosal secretions, sputum, feces, tears, or a combination thereof. The biological sample of the subject may be a sample of eukaryotic cells, prokaryotic cells, viruses, bacteriophage, etc. derived from various species. In addition, the sample may include a nucleic acid or synthetic nucleic acid of the subject. The nucleic acid may be used interchangeably with a polynucleotide or oligonucleotide of any length. The nucleic acid may be a cell-free DNA (cf DNA) or an isolated DNA.
상기 시료로부터 핵산을 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다. 상기 핵산 단편의 길이는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다. The method of separating nucleic acid from the sample may be performed by a method known to those skilled in the art. The length of the nucleic acid fragment may be about 10bp (base pair) to about 2000bp, about 15bp to about 1500bp, about 20bp to about 1000bp, about 20bp to about 500bp or about 20 to about 200bp.
상기 핵산 단편의 서열정보를 수득하는 단계는 분리된 핵산을 차세대 시퀀싱(next-generation sequencing: NGS)을 수행하여 서열정보를 수득하는 단계를 포함할 수 있다. 상기 "차세대 시퀀싱"은 "대규모 병렬 시퀀싱(massive parallel sequencing)"은 또는 2세대 시퀀싱(second-generation sequencing)과 상호 교환적으로 사용될 수 있다. 차세대 시퀀싱은 칩(chip) 기반 그리고 PCR 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 차세대 시퀀싱은 대량의 단편의 핵산을 동시다발적으로 시퀀싱하는 기법으로서, 차세대 시퀀싱 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 차세대 시퀀싱은 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행될 수 있다.Obtaining sequence information of the nucleic acid fragment may include obtaining sequence information by performing next-generation sequencing (NGS) on the separated nucleic acid. The "next generation sequencing" may be used interchangeably with "massive parallel sequencing" or second-generation sequencing. Next-generation sequencing refers to a technique of fragmenting a full-length genome in chip-based and PCR-based paired end formats, and performing the sequencing of the fragments at high speed based on hybridization. Next-generation sequencing is a technique for sequencing multiple nucleic acids of a large amount of fragments, and may perform targeted sequencing or panel sequencing based on next-generation sequencing. Next-generation sequencing includes, for example, 454 platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences Heliscope , Single molecule real time (SMRT ™) technology from Pacific Biosciences, or a combination thereof.
상기 방법은 차세대 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다. 상기 핵산 라이브러리는 차세대 시퀀싱 방식에 따라 제조될 수 있다. 차세대 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다. The method may further comprise preparing a nucleic acid library to perform next generation sequencing. The nucleic acid library can be prepared according to the next generation sequencing scheme. Nucleic acid libraries can be constructed according to the manufacturer's instructions to provide next generation sequencing.
수득된 핵산 단편의 서열정보는 리드(read)로 불릴 수 있다. The sequence information of the obtained nucleic acid fragments may be called a read.
상기 핵산 단편의 서열정보를 시스템에 저장하고, N 마스킹을 수행할 수 있다. 상기 N 마스킹은 지나치게 낮은 품질로 읽혀진 개별 핵산에 대해 결측치로 처리하는 것을 의미한다. 또한, 저품질 리드 필터를 수행할 수 있다. 상기 저품질 리드필터는 지나치게 낮은 품질로 읽혀진 핵산 단편의 서열정보에 대해 분석에서 제외하도록 처리하는 것을 의미한다. Sequence information of the nucleic acid fragments may be stored in the system, and N masking may be performed. N masking means treating missing individual nucleic acids with too low quality. In addition, a low quality lead filter can be performed. The low quality read filter means processing to exclude sequence information of nucleic acid fragments that have been read with excessively low quality.
상기 방법은 수득된 서열정보를 인간 참조 유전체에 맵핑하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계를 포함할 수 있다. 상기 인간 참조 유전체는 hg18 또는 hg19일 수 있다. 인간 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열정보를 고유한(unique) 서열정보로 지정할 수 있다. 지정된 고유한 서열번호를 기준으로 핵산 단편의 서열정보를 염색체의 자리(position)에 지정할 수 있다. 상기 염색체의 자리는 약 5 kb, 약 10 kb, 약 20 kb, 약 50 kb, 약 100 kb, 약 1000 kb, 또는 2000 kb 이상의 길이를 갖는 염색체 상의 연속적인 범위일 수 있다. 상기 염색체 자리는 단일 염색체일 수 있다. The method may include assigning sequence information of the nucleic acid fragment to a chromosome by mapping the obtained sequence information to a human reference genome. The human reference genome may be hg18 or hg19. Sequence information mapped to only one genomic position in the human reference genome may be designated as unique sequence information. The sequence information of the nucleic acid fragments can be assigned to the position of the chromosome based on the designated unique sequence number. The locus of the chromosome may be a continuous range on a chromosome having a length of at least about 5 kb, about 10 kb, about 20 kb, about 50 kb, about 100 kb, about 1000 kb, or 2000 kb. The chromosomal locus may be a single chromosome.
수득된 서열정보를 인간 참조 유전체에 맵핑하는 단계에 있어서, 글로벌 정렬법(Global aligment) 또는 로컬 정렬법(local alignment)을 병행할 수 있다. 상기 글로벌 정렬법은 핵산 단편의 서열정보 전체서열을 참고 유전체 중 가장 유사한 부분에 위치시키는 방법을 의미하고, 로컬 정렬법은 핵산 단편의 서열정보 중 일부를 참고 유전체 서열 중 가장 유사한 부분에 위치시키는 방법을 의미한다. In the step of mapping the obtained sequence information to the human reference genome, a global alignment or a local alignment may be performed in parallel. The global alignment refers to a method of placing the entire sequence information of the nucleic acid fragments in the most similar portion of the reference genome, and the local alignment refers to a method of positioning some of the sequence information of the nucleic acid fragments in the most similar portion of the reference genome sequence. do.
상기 방법은 시료의 DNA의 변이를 확인하는 단계를 포함할 수 있다. 상기 변이 확인은 공지된 변이 검출 프로그램, 예를 들면 GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer 및 Mutek등을 이용하여 수행할 수 있으나, 이에 제한되지 않는다. The method may include identifying a variation in the DNA of the sample. The mutation check may be performed using a known mutation detection program, for example, GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer, and Mutek, but is not limited thereto.
상기 제1 서열정보는 표적 시료 및 추가 시료가 포함된 복수의 시료들 각각으로부터 수득된 핵산 단편의 서열정보일 수 있다. 상기 제1 서열정보는 표적 시료 단독으로 시퀀싱을 수행한 결과일 수 있다. 또한, 상기 제1 서열정보는 1종 이상, 2종 이상 또는 5종 이상의 추가 시료에 대하여, 각각의 시료 개별적으로 시퀀싱을 수행한 결과일 수 있다. The first sequence information may be sequence information of a nucleic acid fragment obtained from each of a plurality of samples including a target sample and an additional sample. The first sequence information may be a result of sequencing the target sample alone. In addition, the first sequence information may be a result of sequencing each sample individually for one or more, two or more, or five or more additional samples.
상기 제2 서열정보는 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 수득된 핵산 단편의 서열정보일 수 있다. 시퀀싱을 수행하는 시퀀서는 복수의 시료가 혼합된 혼합 시료를 대상으로 할 수 있다. 복수의 시료가 혼합된 혼합 시료를 이용하는 경우, 표적의 농도를 높이는(enrichment) 단계에서의 비용을 절감하고, 단시간에 높은 처리량(throughput)을 제공하는 이점이 있다. 이 때, 복수의 시료의 라이브러리에 각각 고유한 표지를 태깅(tag)함으로써, 복수의 시료를 서로 구별할 수 있다. The second sequence information may be sequence information of a nucleic acid fragment obtained from a mixed sample in which a target sample and an additional sample are mixed. A sequencer that performs sequencing may be a mixed sample in which a plurality of samples are mixed. In the case of using a mixed sample in which a plurality of samples are mixed, there is an advantage of reducing the cost of increasing the concentration of the target and providing high throughput in a short time. At this time, a plurality of samples can be distinguished from each other by tagging a label unique to a library of a plurality of samples.
상기 방법은 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계를 포함할 수 있다. 시퀀싱을 수행한 표적 영역에서, 각각의 대립유전자의 대립유전자 빈도를 계산할 수 있다. 상기 대립유전자 빈도(allele frequency)는 어느 하나의 시료 내에서 같은 유전자를 구성하는 서로 다른 대립유전자 사이의 구성 비율을 나타내는 수치를 의미할 수 있다. 상기 대립유전자 빈도는 A, G, C 및 T 가운데 하나 이상, 또는 A, G, C 및 T 모두의 서열정보의 빈도로 나타낼 수 있다. The method may include calculating an allele frequency from each of the obtained first and second sequence information. In the target region where sequencing was performed, the allele frequency of each allele can be calculated. The allele frequency may refer to a numerical value representing a composition ratio between different alleles constituting the same gene in one sample. The allele frequency may be expressed as one or more of A, G, C, and T, or the frequency of sequence information of all of A, G, C, and T.
상기 방법은 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may comprise comparing the calculated allele frequency for a particular site of the chromosome.
상기 염색체의 특정 자리(position)는 복수의 시료간에 동일한 또는 상응하는 엑손 자리 또는 인트론 자리일 수 있고, 동일한 번호의 염색체 상에 동일한 서열 번호 자리일 수 있다. 상기 염색체의 특정 자리는 시퀀싱 또는 표적 시퀀싱에서 시퀀싱의 대상이 되는 변이 예측 자리 및 그 주변 자리를 포함하는 영역의 일부 또는 전부일 수 있다.The specific position of the chromosome may be the same or corresponding exon site or intron site between a plurality of samples, and may be the same sequence number site on the same number of chromosomes. The specific site of the chromosome may be a part or all of a region including the mutation predicting site and the surrounding site to be subjected to sequencing in sequencing or target sequencing.
동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 수득된 대립유전자 빈도와 제2 서열정보로부터 수득된 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 A의 대립유전자 빈도와 제2 서열정보로부터 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 G, C, T 각각의 대립유전자 빈도와 제2 서열정보로부터 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 비교 결과, A, G, C 또는 T 중 어느 하나의 대립유전자 빈도에 유의한 차이가 있으면 표적 시료는 추가 시료에 의해 오염된 것으로 판단할 수 있다. 유의한 차이가 클수록 표적 시료의 해당 특정 자리는 추가 시료에 의해 더욱 오염된 것으로 판단할 수 있다. 대립유전자 빈도별로 해당 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. For specific sites of the same target sample and chromosome, the allele frequency obtained from the first sequence information and the allele frequency obtained from the second sequence information can be compared. For example, for the specific target of the same target sample and chromosome, the allele frequency of A from the first sequence information and the allele frequency of A from the second sequence information can be compared. Similarly, allele frequencies of G, C, and T from the first sequence information and allele frequencies of each of G, C, and T from the second sequence information can be compared with respect to specific sites of the same target sample and chromosome. As a result of the comparison, if there is a significant difference in the allele frequency of any one of A, G, C or T, the target sample may be determined to be contaminated by the additional sample. The greater the significant difference, the more likely that particular site of the target sample is contaminated by further samples. The allele frequency may be compared by the number of alleles having the allele frequency, or the ratio of the number of alleles having the allele frequency in the total allele number may be compared.
상기 "시료의 교차 오염(cross-contamination)"은 어느 하나의 시료의 핵산 단편의 서열정보에 다른 시료의 핵산 단편의 서열정보에 태깅된 표지가 태깅되거나, 또는 서로 다른 시료의 핵산 단편의 서열정보간에 표지를 교환하여, 표지가 잘못 태깅된 핵산 단편의 서열정보가 생기는 것을 의미한다. 시료의 교차 오염으로 인하여, 어느 하나의 시료의 특정 염색체 자리에 대하여, 제1 서열정보로부터 대립유전자 빈도를 분석한 경우와 제2 서열정보로부터 대립유전자 빈도를 분석한 경우, 대립유전자 빈도가 유의한 차이를 보일 수 있다. The "cross-contamination" of the sample is a tag tagged in the sequence information of the nucleic acid fragment of another sample tagged with the sequence information of the nucleic acid fragment of one sample, or the sequence information of the nucleic acid fragments of different samples By exchanging the label between the liver, it means that the sequence information of the nucleic acid fragment in which the label is incorrectly tagged. Due to cross-contamination of the samples, allele frequencies are significant when the allele frequency is analyzed from the first sequence information and the allele frequency is analyzed from the second sequence information for a specific chromosomal site of the sample. The difference can be seen.
상기 방법은 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계; 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 단계; 및 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method selects a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample in the obtained first sequence information, and selects the positions excluding the mutation prediction site set as control site sets. Selecting as; Calculating allelic frequencies of genotype alleles and background alleles from the obtained first sequence information and the second sequence information, respectively, for the set of predictive mutation sites or the set of control sites; And comparing the calculated allele frequency with respect to the mutation prediction site set or the control site set.
상기 변이는 염색체의 특정 자리에서 나타나는 복수의 시료의 서로 다른 특성을 의미할 수 있다. 상기 특성은 핵산 서열 또는 뉴클레오티드 서열일 수 있다. 염색체의 특정 자리에 대하여, 제1 서열정보로부터 수득된 어느 하나의 시료의 유전형 대립유전자가, 제1 서열정보로부터 수득된 다른 시료의 유전형 대립유전자와 서로 다른 핵산 서열 또는 뉴클레오티드 서열을 가지는 것일 수 있다. 상기 변이는 단일 뉴클레오티드 다형성(Single Nucleotide Polymorphism:SNP)일 수 있다. SNP는 하나의 종 내 개체 사이에서 나타나는 단일 뉴클레오티드의 차이를 의미하는 것으로, 핵산 서열에서 특정 자리의 뉴클레오티드 서열(A, G, C, T)의 차이를 보이는 유전적 변화 또는 변이이다. 특히, SNP는 질병과 연관된 유전적인 요소로써, SNP 차이로 대상체마다 질병에 대한 저항성, 민감성 및 질병의 정도가 다르게 나타난다. 복수의 시료 각각은 서로 상이한 또는 동일한 SNP 자리를 갖을 수 있다. The variation may mean different characteristics of a plurality of samples appearing at specific sites of the chromosome. The property may be a nucleic acid sequence or a nucleotide sequence. For a specific site of the chromosome, the genotype allele of one sample obtained from the first sequence information may have a nucleic acid sequence or nucleotide sequence different from the genotype allele of another sample obtained from the first sequence information. . The mutation may be Single Nucleotide Polymorphism (SNP). SNP It refers to the difference between a single nucleotide that appears between individuals in one species, and is a genetic change or variation showing a difference of a nucleotide sequence (A, G, C, T) at a specific position in the nucleic acid sequence. In particular, SNP is a genetic factor associated with the disease, and different SNPs show different resistance, sensitivity, and degree of disease to each subject. Each of the plurality of samples may have different or identical SNP sites from each other.
상기 변이는 참조 유전체에 대하여 변이를 갖는 것일 수 있다. 구체적으로 상기 변이는 참조 유전체에 대하여 핵산 서열 또는 뉴클레오티드 서열의 변이를 포함할 수 있다. 상기 핵산 서열 또는 뉴클레오티드 서열의 변이는 참조 유전체에 대하여 하나 이상의 뉴클레오티드 서열의 치환, 삽입, 결실, 또는 전좌를 포함할 수 있다. 상기 하나의 뉴클레오티드 서열의 치환은 예를 들면 단일 뉴클레오티드 변이(Single Nucleotide Variation:SNV)일 수 있다. SNV는 하나의 서열 또는 종 내 소수의 집단에서 나타나는 단일 뉴클레오티드의 차이를 의미하는 것으로, 예를 들면 시퀀싱 데이터에서 나타나는 참조 유전체의 염기서열과의 차이일 수 있다. 복수의 시료 각각은 서로 상이한 또는 동일한 SNV 자리를 갖을 수 있다. 변이의 대립유전자 빈도는 차세대 서열분석 자료에서 samtools와 같은 기존의 프로그램을 이용하여 각 대립유전자의 개수를 계수함으로써 계산될 수 있다.The variation may have a variation with respect to the reference dielectric. Specifically, the variation may include a variation of the nucleic acid sequence or the nucleotide sequence with respect to the reference genome. Variation of the nucleic acid sequence or nucleotide sequence may comprise substitution, insertion, deletion, or translocation of one or more nucleotide sequences relative to a reference genome. Substitution of the one nucleotide sequence may be, for example, Single Nucleotide Variation (SNV). SNV refers to the difference between a single nucleotide that appears in a few populations in one sequence or species, and may be, for example, a difference from the nucleotide sequence of a reference genome appearing in sequencing data. Each of the plurality of samples may have different or identical SNV sites from each other. Allele frequencies of variation can be calculated by counting the number of alleles in existing generation sequencing data using existing programs such as samtools.
상기 방법은 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계를 제공한다.The method includes selecting a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and selecting the positions other than the mutation prediction site set as the control site sets.
상기 "변이 예측 자리"는 앞에서 기술한 변이를 가지는 염색체의 특정 자리를 의미할 수 있다. 제1 서열정보로부터 수득된 어느 하나의 시료의 유전형 대립유전자가, 제1 서열정보로부터 수득된 다른 시료의 유전형 대립유전자와 상이한 경우, 그 자리를 의미할 수 있다. 그 자리는 해당 시료의 변이 예측 자리가 될 수 있다. 예를 들면, 표적 시료의 유전형 대립유전자가 SNP를 가지는 경우, 해당 SNP 자리는 표적 시료의 변이 예측 자리에 포함될 수 있다. 복수의 시료 각각은 서로 상이한 또는 동일한 변이 예측 자리를 갖을 수 있다. 도 3을 참조하면, 1, 2, 3, 4 및 5번 자리에 대하여, 시료 1(S 1)에 대하여 변이 예측 자리는 2번 내지 4번 자리이며, 시료 2(S 2)에 대하여 변이 예측 자리는 2번 내지 5번 자리가 될 수 있다.The "mutation prediction site" may mean a specific site of the chromosome having the above-described mutation. When the genotype allele of one sample obtained from the first sequence information is different from the genotype allele of another sample obtained from the first sequence information, it may mean the site. The spot may be a predictive site of variation of the sample. For example, when the genotype allele of the target sample has an SNP, the SNP site may be included in the predictive site of the mutation of the target sample. Each of the plurality of samples may have different or identical mutation prediction sites from each other. Referring to FIG. 3, for positions 1, 2, 3, 4, and 5, the predicted variance is 2 to 4 digits for sample 1 (S 1), and the predicted variance for sample 2 (S 2). The seat may be 2 to 5 seats.
상기 "변이 예측 자리 집합(union variant set)"은 상기 복수의 시료들, 즉 표적 시료 및 추가 시료 각각의 변이 예측 자리를 조합한 변이 예측 자리의 모음으로서, 복수의 시료가 가지는 변이 예측 자리의 합집합일 수 있다. 도 3을 참조하면, 1 내지 5번 자리에 대하여, 시료 1 및 시료 2의 변이 예측 자리 집합은 2 내지 5번 자리가 될 수 있다.The "union variant set" is a collection of variation prediction sites that combines the variation prediction sites of each of the plurality of samples, that is, the target sample and the additional sample, and is a union of the variation prediction sites of the plurality of samples. Can be. Referring to FIG. 3, for the first to fifth digits, the set of variation prediction sites of the first and second samples may be the second to fifth digits.
상기 변이 예측 자리 집합을 제외한 자리를 상기 대조군 자리 집합으로 선정할 수 있다. 상기 "대조군(control) 자리 집합"는 염색체의 특정 자리에 대하여, 제1 서열정보에서 수득된 복수의 시료들의 배경 대립유전자가 동일하므로, 복수의 시료 가운데 어느 시료에서도 변이가 검출되지 않는 자리의 집합을 의미한다. A position excluding the mutation prediction position set may be selected as the control position set. The "control site set" is a set of sites for which no mutation is detected in any of the plurality of samples because the background alleles of the plurality of samples obtained from the first sequence information are the same for a specific site of the chromosome. Means.
상기 방법은 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자, 즉 유전형 대립유전자 및/또는 배경 대립유전자의 대립 유전자 빈도를 산출할 수 있다. 앞에서 기술한 제1 서열정보 및 제2 서열정보로부터 산출된 대립유전자 빈도 중에서, 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대한 유전형 대립유전자 및/또는 배경 대립유전자의 대립유전자 빈도를 선택 또는 도출할 수 있다. 상기 표적 시료의 대립유전자 빈도는 A, G, C 및 T 가운데 하나 이상 또는 A, G, C 및 T 모두의 서열정보의 빈도로 나타낼 수 있다. The method may calculate the allele frequencies of the alleles, ie, genotype alleles and / or background alleles, from the obtained first sequence information and the second sequence information, respectively, for the set of mutation prediction sites or the control site set. have. Among allele frequencies calculated from the first sequence information and the second sequence information described above, allele frequencies of genotype alleles and / or background alleles for the set of predictive or control sites can be selected or derived. have. The allele frequency of the target sample may be represented by the frequency of sequence information of one or more of A, G, C and T or all of A, G, C and T.
상기 방법은 상기 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, 상기 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정할 수 있다. 상기 대립유전자를 구별하는 기준은, 유전형을 분석(genotyping)하는 임의의 기준일 수 있다.The method determines the allele as a background allele if the allele obtained from the first sequence information has an allele frequency of less than 10%, and if the allele has an allele frequency of 10% or more, the allele Genes can be determined as genotype alleles. The criterion for distinguishing the allele may be any criterion for genotyping.
상기 "배경 대립유전자(background allele)"는 서열정보에서 수득된 대립유전자 빈도가 10% 미만, 5% 이하, 1% 이하, 0.5% 또는 0.1% 이하인 대립유전자를 의미할 수 있다. 상기 배경 대립유전자는 당해 기술분야에서 사용되는 배경 대립유전자의 의미로 이해될 수 있다. 상기 "유전형 대립유전자(genotype allele)"는 서열정보에서 수득된 대립유전자 빈도가 10% 이상인 대립유전자를 의미할 수 있다. 상기 유전형 대립유전자의 대립유전자 빈도는 10% 이상, 30% 이상, 50% 이상, 90% 이상 또는 100%일 수 있다. 상기 유전형 대립유전자는 당해 기술분야에서 사용되는 유전형 대립유전자의 의미로 이해될 수 있다. 특정 염색체 자리에 대하여, 대립유전자는 유전자형으로 통상적으로 A, G, C 및 T를 가질 수 있으며, 이 가운데 10% 이상의 대립유전자 빈도를 가지는 염기 서열을 유전형 대립유전자, 1% 이하의 대립유전자 빈도를 가지는 염기 서열를 배경 대립유전자로 결정할 수 있다. 도 3을 참조하면, 시료 1의 1번 자리의 유전형 대립유전자는 T로 표시하였고, 이 때 배경 대립유전자는 A, G 및 C이다. 또한, 시료 1의 5번 자리의 유전형 대립유전자는 T 및 C로 표시하였고, 배경 대립유전자는 A 및 G이다.The "background allele" may mean an allele having an allele frequency of less than 10%, 5% or less, 1% or less, 0.5% or 0.1% or less obtained from sequence information. The background allele can be understood as the meaning of the background allele used in the art. The "genotype allele" may refer to an allele having an allele frequency of 10% or more obtained from sequence information. The allele frequency of the genotype allele may be at least 10%, at least 30%, at least 50%, at least 90%, or 100%. The genotype allele may be understood as meaning genotype alleles used in the art. For certain chromosomal loci, alleles can typically have A, G, C, and T genotypes, of which base sequences having an allele frequency of at least 10% are assigned to genotype alleles, allele frequencies of 1% or less. The branch can be determined by the background allele as the base sequence. Referring to FIG. 3, the genotype allele at position 1 of Sample 1 is represented by T, and the background alleles are A, G, and C. In addition, genotype allele at position 5 of Sample 1 was indicated by T and C, and the background allele was A and G.
상기 방법은 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may include comparing the calculated allele frequencies with respect to the mutant prediction site set or the control site set.
동일한 표적 시료 및 상기 변이 예측 자리 집합에 대하여, 제1 서열정보 및 제2 서열정보에서 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 변이 예측 자리 집합에 대하여, 제2 서열정보에서 A의 대립유전자 빈도와 제1 서열정보에서 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 상기 변이 예측 자리 집합에 대하여, 제2 서열정보에서 G, C, T 각각의 대립유전자 빈도와 제1 서열정보에서 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 비교 결과, A, G, C 또는 T 중 어느 하나의 대립유전자 빈도에 유의한 차이가 있으면 표적 시료는 다른 시료에 의해 오염된 것으로 판단할 수 있다. For the same target sample and the set of mutation prediction sites, allele frequencies can be compared in the first sequence information and the second sequence information. For example, for the same target sample and set of mutation prediction sites, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, for the same target sample and the set of mutation prediction sites, allele frequencies of G, C and T in the second sequence information and allele frequencies of G, C and T in the first sequence information can be compared. As a result of the comparison, if there is a significant difference in the allele frequency of any one of A, G, C or T, it may be determined that the target sample is contaminated by another sample.
동일한 표적 시료 및 상기 대조군 자리 집합에 대하여, 제1 서열정보 및 제2 서열정보에서 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 대조군 자리 집합에 대하여, 제2 서열정보에서 A의 대립유전자 빈도와 제1 서열정보에서 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 상기 대조군 자리 집합에 대하여, 제2 서열정보에서 G, C, T 각각의 대립유전자 빈도와 제1 서열정보에서 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 이 때, 상기 대조군 자리 집합에 대하여, 제1 서열정보로부터 수득된 복수의 시료들의 배경 대립유전자 및 유전형 대립유전자가 동일하므로, 시료의 교차 오염이 없는 것으로 판단할 수 있다. 도 3을 참조하면, 모든 시료의 1번 자리는 유전형 대립유전자가 T로 동일하게 나타나고, 배경 대립유전자가 A, G 및 C로 동일하게 나타나며, 변이가 검출되지 않은 자리이다. 상기 1번 자리는 대조군 자리 집합 중에 하나의 자리가 된다. 상기 자리에서 어느 하나의 시료의 배경 대립유전자는 다른 시료의 유전형 대립유전자에 의하여 간섭을 받지 않는 것으로 판단할 수 있다. For the same target sample and the set of control sites, allele frequencies can be compared in the first sequence information and the second sequence information. For example, for the same target sample and control site set, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, for the same target sample and the set of control sites, allele frequencies of G, C and T in the second sequence information and allele frequencies of G, C and T in the first sequence information can be compared. In this case, since the background alleles and genotype alleles of the plurality of samples obtained from the first sequence information are the same for the control site set, it may be determined that there is no cross contamination of the samples. Referring to FIG. 3, the first site of all samples is the same genotype allele as T, the background allele is the same as A, G, and C, and no mutation is detected. The first position becomes one of the set of control sites. In this position, the background allele of one sample may be determined not to be interfered by the genotype allele of another sample.
상기 방법은 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 단계를 포함할 수 있다. The method selects alleles that are the background alleles of the target sample and the genotype alleles of the additional sample in the first sequence information as a test group, and the mutation prediction site sets and the control site sets. For, in the first sequence information may include the step of selecting the allele that is the background allele of the target sample and the background allele of the additional sample as a control group.
상기 "대조군(control) 그룹"은 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 의미한다. The “control group” means an allele that is a background allele of a target sample in the first sequence information and a background allele of a further sample with respect to the mutation predicting site set and the control site set.
상기 방법은 제1 서열정보 중 표적시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may include comparing allele frequencies of the control group obtained from the target sample in the first sequence information, and allele frequencies of the control group obtained from the target sample in the second sequence information.
도 3을 참조하면, 시료 1(S 1)의 1번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2(S 2), 시료 3(S 3), 및 시료 4(S 4)의 배경 대립유전자인 대립유전자는 A, G 및 C 이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 A, G 및 C의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 A, G 및 C의 대립유전자 빈도를 각각 비교할 수 있다. 또한, 시료 1의 2번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 배경 대립유전자인 대립유전자는 G 및 C 이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 G 및 C의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 G 및 C의 대립유전자 빈도를 각각 비교할 수 있다. 또한, 시료 1의 3번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 배경 대립유전자이 대립유전자는 A이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 A의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 A의 대립유전자 빈도를 각각 비교할 수 있다. 이들 표적 시료의 대조군 그룹은, 제1 서열정보에서 대립유전자 빈도와 제2 서열정보에서 대립유전자 빈도를 비교하였을 때, 그 차이가 없거나 거의 없는 것일 수 있다. 상기 대조군 그룹은 시료의 교차 오염의 가능성이 없다고 판단할 수 있다. Referring to FIG. 3, the background allele of the first allele of sample 1 (S 1) and at the same time, the background alleles of sample 2 (S 2), sample 3 (S 3), and sample 4 (S 4), which are additional samples. Alleles that are genes are A, G and C. In the obtained first sequence information, allele frequencies of A, G, and C, which are control groups of Sample 1, and allele frequencies of A, G, and C, which are control groups of Sample 1, may be compared, respectively, in the second sequence information. In addition, the allele which is the background allele of the 2nd position of the sample 1, and the background allele of the sample 2, the sample 3, and the sample 4 which are additional samples at the same time is G and C. In the obtained first sequence information, the allele frequencies of the control group G and C of sample 1 and the allele frequencies of the control groups G and C of sample 1 in the second sequence information may be compared, respectively. In addition, the background allele of the 3rd position of sample 1, and the background allele of sample 2, the sample 3, and the sample 4 which are additional samples are allele A. In the obtained first sequence information, the allele frequency of A, which is a control group of Sample 1, and the allele frequency of A, which is a control group of Sample 1, may be compared with each other in the second sequence information. The control group of these target samples, when comparing the allele frequency in the first sequence information and the allele frequency in the second sequence information, there may be little or no difference. The control group may determine that there is no possibility of cross contamination of the sample.
상기 "테스트(test) 그룹"은 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 의미한다. 테스트 그룹은 복수의 시료간에 대응되는 염색체 특정 자리에서, 시료의 교차 오염의 가능성이 있다고 판단되므로, 오염 정도를 분석하는 대상이 될 수 있다. The "test group" refers to the allele which is the background allele of the target sample in the first sequence information and the genotype allele of the additional sample with respect to the set of mutation prediction sites. Since the test group determines that there is a possibility of cross contamination of a sample at a chromosome specific site corresponding to a plurality of samples, the test group may be an object to analyze the degree of contamination.
상기 방법은 제1 서열정보 중 표적시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교할 수 있다. The method may compare the allele frequency of the test group obtained from the target sample in the first sequence information, and the allele frequency of the test group obtained from the target sample in the second sequence information.
어떠한 시료를 어떻게 혼합하느냐에 따라 오염 정도를 분석하는 방법, 테스트 그룹을 선정하는 방법은 달라질 수 있다. 시료 및 염색체 특정 자리별로 오염이 일어나는 경우는 상이할 수 있다. 표적 시료에 대한 시료간에 교차 오염이 발생하면, 표적 시료의 변이 예측 자리 집합에서의 배경 대립유전자의 대립유전자 빈도는 다른 시료의 유전형 대립유전자에 의해 영향을 받을 수 있다. 상기 비교하는 단계는 테스트 그룹 및/또는 대조군 그룹에서 임의의 대립유전자 빈도를 가지는 대립유전자의 수를 분석할 수 있다. 대립유전자 빈도별로 해당 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 그룹 별로 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. The method of analyzing the degree of contamination and the method of selecting a test group may vary depending on how and what samples are mixed. If contamination occurs by sample and by chromosome specific site, it may be different. If cross contamination between samples for a target sample occurs, the allele frequency of the background allele in the set of predictive sites of variation of the target sample may be affected by genotype alleles of other samples. The comparing step may analyze the number of alleles having any allele frequency in the test group and / or control group. The number of alleles having the allele frequency by allele frequency may be compared, or the ratio of the number of alleles having the allele frequency in the total alleles by group may be compared.
도 3을 참조하면, 시료 1의 4번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 유전형 대립유전자인 대립유전자는 T이다. 상기 수득된 제1 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도와 제2 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도를 비교할 수 있다. 또한, 시료 2의 4번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 1, 시료 3, 시료 4의 유전형 대립유전자인 대립유전자는 G이다. 상기 수득된 제1 서열정보에서 시료 2의 테스트 그룹인 G의 대립유전자 빈도와 제2 서열정보에서 시료 2의 테스트 그룹인 G의 대립유전자 빈도를 비교할 수 있다. 시료 2의 4번 자리의 배경 대립유전자 G의 대립유전자 빈도는, 시료 1, 시료 3 및 시료 4의 유전형 대립유전자 G에 의해 영향을 받을 수 있으므로, 시료 2의 배경 대립유전자 G의 대립유전자 빈도가 달라질 수 있다. 또한, 시료 1의 2번 자리의 배경 대립유전자이면, 동시에 추가 시료인 시료 2, 시료 3 및 시료 4의 유전형 대립유전자인 대립유전자는 T이다. 상기 수득된 제1 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도와 제2 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도를 비교할 수 있다. Referring to FIG. 3, the allele which is the background allele of the fourth position of Sample 1 and the genotype allele of Sample 2, Sample 3, and Sample 4, which are additional samples, is T. In the obtained first sequence information, the allele frequency of T which is the test group of Sample 1 and the allele frequency of T which is the test group of Sample 1 in the second sequence information can be compared. In addition, the allele which is the background allele of the 4th position of sample 2, and the genotype allele of sample 1, sample 3, and sample 4 which is an additional sample is G. In the obtained first sequence information, the allele frequency of G which is the test group of Sample 2 and the allele frequency of G which is the test group of Sample 2 in the second sequence information can be compared. Since the allele frequency of the background allele G of the fourth digit of Sample 2 may be affected by the genotype allele G of Sample 1, Sample 3, and Sample 4, the allele frequency of the background allele G of Sample 2 is increased. Can vary. In addition, if it is the background allele of the 2nd position of the sample 1, the allele which is the genotype allele of the additional sample 2, the sample 2, the sample 3, and the sample 4 is T. In the obtained first sequence information, the allele frequency of T which is the test group of Sample 1 and the allele frequency of T which is the test group of Sample 1 in the second sequence information can be compared.
다른 양상은, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치(100)를 제공한다.Another aspect includes a sequence information obtaining unit for obtaining first sequence information of a nucleic acid fragment from each of a target sample and an additional sample, and second sequence information of the nucleic acid fragment from a mixed sample of the target sample and the additional sample; An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and the second sequence information, respectively; And it provides a device 100 for analyzing the degree of cross-contamination of the sample to the target sample, including a calculation unit for comparing the calculated allele frequency for a specific site of the chromosome.
상기 장치는 상기 시료의 교차 오염 정도를 분석하는 방법을 시계열적으로 구현하는 "...부" 또는 "...모듈"을 포함할 수 있다. 따라서 이하 생략된 내용이라 하더라도 시료의 교차 오염 정도를 분석하는 방법에 관하여 이상에서 기술된 내용은 본 시료의 교차 오염 정도를 분석하는 장치에도 적용될 수 있다. 상기 구성요소들은 프로세서에 해당될 수 있다. 따라서, 이와 같은 프로세서는 다수의 논리 게이트들의 어레이로 구현될 수 있고, 범용적인 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수도 있다. 또한, 다른 형태의 하드웨어로 구현될 수도 있음을 통상의 기술자라면 이해할 수 있다. The device may include a "... part" or "... module" that implements a time series method of analyzing the degree of cross contamination of the sample. Therefore, even if omitted below, the above description of the method for analyzing the degree of cross contamination of a sample may be applied to an apparatus for analyzing the degree of cross contamination of the sample. The components may correspond to a processor. Thus, such a processor may be implemented as an array of multiple logic gates, or may be implemented as a combination of a general purpose microprocessor and a memory storing a program that may be executed on the microprocessor. In addition, it will be understood by those skilled in the art that other types of hardware may be implemented.
상기 서열정보 수득부(110)는 시퀀싱 장치로부터 서열정보를 수득한다. 상기 산출부(120)는 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 분석한다. 상기 연산부는 염색체의 특정 자리에 대하여, 제1 서열정보 및 제2 서열정보로부터 산출된 대립유전자 빈도를 비교한다. 상기 연산부(130)는 대립유전자 빈도 별로 상기 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다.The sequence information obtaining unit 110 obtains sequence information from a sequencing device. The calculation unit 120 analyzes allele frequencies from the obtained first and second sequence information, respectively. The operation unit compares the allele frequencies calculated from the first sequence information and the second sequence information with respect to a specific site of the chromosome. The operation unit 130 may compare the number of alleles having the allele frequency for each allele frequency, or compare the ratio of the number of alleles having the allele frequency in the total allele number.
상기 장치는 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 자리 선정부; 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함할 수 있다. In the obtained first sequence information, the apparatus selects a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and selects the positions other than the mutation prediction site set as control site sets. Seat selection unit to be selected as; An allele frequency calculator configured to calculate an allele frequency of genotype alleles and background alleles from the obtained first sequence information and the second sequence information with respect to the set of predictive sites or the set of control sites; And a calculation unit for comparing the calculated allele frequencies with respect to the mutation prediction site set or the control site set.
상기 자리 선정부(140)는 복수의 시료들 각각의 변이 예측 자리를 조합하여 변이 예측 자리 집합을 선정하고, 복수의 시료 가운데 어느 시료에서도 변이가 검출되지 않는 자리를 조합하여 대조군 자리 집합을 선정한다.The position selector 140 selects a set of predictive positions by combining the predictive positions of each of a plurality of samples, and selects a set of control positions by combining the positions of which no mutation is detected in any of the plurality of samples. .
상기 장치는 상기 변이 예측 자리 집합 및 대조군 자리 집합에 기초하여, 테스트 그룹 및 대조군 그룹을 선별하는 그룹 선별부를 포함할 수 있다. 상기 그룹 선별부(150)는 테스트 그룹과 대조군 그룹을 선별한다.The device may include a group selector for selecting a test group and a control group based on the mutation prediction site set and the control site set. The group selector 150 selects a test group and a control group.
상기 장치는 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부를 포함할 수 있다. 상기 대립유전자 빈도 산출부는 유전형 대립유전자 및/또는 배경 대립유전자를 포함하는 대립유전자의 대립유전자 빈도를 산출할 수 있다. The apparatus may include an allele frequency calculation unit for calculating an allele frequency of genotype alleles and background alleles from the obtained first sequence information and the second sequence information, respectively, with respect to the mutation prediction site set or the control site set. Can be. The allele frequency calculating unit may calculate an allele frequency of an allele including a genotype allele and / or a background allele.
상기 그룹 선별부는 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별할 수 있다. 필요에 따라 테스트 그룹과 대조군 그룹을 동시에 선별하거나, 또는 순차적으로 선별할 수 있다. The group selector selects alleles, which are the background alleles of the target sample and the genotype alleles of the additional samples, as the test group, and the mutation predictive site sets and the control site with respect to the mutation predicting site set. For the set, alleles that are the background alleles of the target sample and the background alleles of the additional sample in the first sequence information can be selected as the control group. If necessary, the test group and the control group may be selected simultaneously or sequentially.
상기 연산부는 제1 서열정보 중 표적시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하고, 제1 서열정보 중 표적시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교할 수 있다. 상기 연산부는 테스트 그룹 및/또는 대조군 그룹에서 임의의 대립유전자 빈도를 가지는 대립유전자의 수를 분석할 수 있다. 대립유전자 빈도별로 해당 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 그룹 별로 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. The calculating unit compares the allele frequency of the test group obtained from the target sample in the first sequence information, and the allele frequency of the test group obtained from the target sample in the second sequence information, and obtains from the target sample in the first sequence information. The allele frequency of the control group, and the allele frequency of the control group obtained from the target sample in the second sequence information can be compared. The calculating unit may analyze the number of alleles having any allele frequency in the test group and / or the control group. The number of alleles having the allele frequency by allele frequency may be compared, or the ratio of the number of alleles having the allele frequency in the total alleles by group may be compared.
상기 장치는 상기 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, 상기 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 대립유전자 결정부(160)를 포함할 수 있다.The apparatus determines the allele as a background allele when the allele obtained from the first sequence information has an allele frequency of less than 10%, and the allele when the allele has an allele frequency of 10% or more. The allele determining unit 160 may determine the gene as the genotype allele.
다른 양상은, 상기 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer readable recording medium having recorded thereon a program for executing a method of analyzing a degree of cross contamination of a sample with respect to the target sample.
상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.The method may be implemented in software form readable by various computer means and recorded on a computer readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be those specially designed and constructed for the method according to the above, or may be known and available to those skilled in the computer software arts.
예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.For example, the recording medium may be magnetic media such as hard disks, floppy disks and magnetic tapes, optical disks such as Compact Disk Read Only Memory (CD-ROM), digital video disks (DVD), Magnetic-Optical Media, such as floppy disks, and hardware devices specially configured to store and execute program instructions, such as ROM, random access memory (RAM), flash memory, and the like. do. Examples of program instructions may include high-level language code that can be executed by a computer using an interpreter as well as machine code such as produced by a compiler. Such a hardware device may be configured to operate as one or more software modules to perform the operation of the method according to the above, and vice versa.
비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or modified from the structures and structural equivalents disclosed herein. It may be implemented in computer software, firmware or hardware, including, or a combination of one or more of them. Implementations of the subject matter described herein relate to one or more computer program products, ie computer program instructions encoded on a program storage medium of tangible type for controlling or by the operation of an apparatus according to the method. It may be implemented as the above module. The computer readable medium may be a machine readable storage device, a machine readable storage substrate, a memory device, a composition of materials affecting a machine readable propagated signal, or a combination of one or more thereof.
상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script or code) mounted on a device according to the method and executing the method may be any of a programming language including a compiled or interpreted language or a priori or procedural language. It can be written in any form, and can be deployed in any form, including stand-alone programs or modules, components, subroutines, or other units suitable for use in a computer environment. Computer programs do not necessarily correspond to files in the file system. A program may be in a single file provided to the requested program, in multiple interactive files (eg, a file that stores one or more modules, subprograms, or parts of code), or part of a file that holds other programs or data. (Eg, one or more scripts stored in a markup language document). The computer program may be deployed to run on a single computer or on multiple computers located at one site or distributed across multiple sites and interconnected by a communication network.
개별 시료가 혼합된 복수의 생물학적 시료로부터 서열정보를 수득하고, 변이를 추출하는 과정에서, 시료간에 오염되어 있는 경우, 해당 염색체 자리에서의 오염 비율을 정확하게 측정할 수 있다. 종래 시료간 교차 오염에 의한 영향을 무시하거나, 또는 이미 알려진 데이터 베이스의 수치와 비교하여 추정하였으나, 해당 실험의 플랫폼 내에서 수득한 실험 결과 수치를 이용하여 시료간의 오염 정도를 측정할 수 있는 점에서, 개별 시료의 변이 추출 결과에 신뢰도를 부여할 수 있다. 나아가, 유사한 시료을 분석함에 있어서, 분석에 사용되는 프로토콜이 발생시킬 수 있는 시료의 교차 오염의 정도을 표준화할 수 있다. In the process of obtaining sequence information from a plurality of biological samples mixed with individual samples and extracting mutations, the contamination rate at the corresponding chromosome site can be accurately measured when the samples are contaminated. Although the effects of cross contamination between samples were ignored or estimated by comparison with known database values, the degree of contamination between samples can be measured using the results of experiments obtained in the platform of the experiment. Therefore, reliability can be given to the result of variation extraction of individual samples. Furthermore, in analyzing similar samples, it is possible to standardize the degree of cross contamination of the samples that can be generated by the protocol used for the analysis.
도 1은 변이 예측 자리 집합을 선정하는 방법을 설명하기 위한 도면이다.1 is a diagram for describing a method of selecting a set of disparity prediction positions.
도 2는 테스트 그룹 및 대조군 그룹에서, 0 내지 0.01의 대립유전자 빈도를 갖는 배경 대립유전자의 수의 비율을 나타낸 그래프이다. FIG. 2 is a graph showing the ratio of the number of background alleles with allele frequencies of 0 to 0.01 in the test and control groups.
도 3는 복수의 시료간에 대조군 그룹과 테스트 그룹을 선정하는 방법을 설명하기 위한 도면이다.3 is a view for explaining a method of selecting a control group and a test group between a plurality of samples.
도 4는 시료의 교차 오염 정도를 분석하는 장치의 구성을 나타내는 블록도이다. 4 is a block diagram showing the configuration of an apparatus for analyzing the degree of cross contamination of a sample.
이하 본 발명을 실시예에 의해 보다 상세하게 설명한다. 그러나 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 의해 제한되는 것은 아니다.Hereinafter, the present invention will be described in more detail with reference to Examples. However, these examples are for illustrative purposes only and are not intended to limit the scope of the present invention.
실시예Example 1.  One. 합맵Sum map 세포주로부터 변이 추출 Mutation Extraction from Cell Lines
8종의 정상 합맵 세포주(HapMap cell line)를 Coriell Institute(http://ccr.coriell.org/)에서 구입하였다. 세포주의 DNA 농도 및 순도를 나노드롭 8000 UV-비스 분광계(Nanodrop 8000 UV-Vis spectrometer)(Thermo Scientific) 및 큐빗(Qubit) 2.0 형광광도계(Life Technologies)를 사용하여 피코그린(Picogreen) 형광 분석으로 측정하였다. DNA 분해(degradation) 정도를 나타내는 절편 크기 분포를 2200 TapeStation 기기(Agilent Technologies) 및 실시간 PCR(real-time PCR) Mx3005p(Agilent Technologies)를 제조사의 지침에 따라 사용하여 측정하였다. Eight normal HapMap cell lines were purchased from the Coriell Institute (http://ccr.coriell.org/). DNA concentration and purity of cell lines measured by Picogreen fluorescence analysis using Nanodrop 8000 UV-Vis spectrometer (Thermo Scientific) and Qubit 2.0 fluorescence spectrometer (Life Technologies) It was. Section size distributions indicating the degree of DNA degradation were measured using a 2200 TapeStation instrument (Agilent Technologies) and real-time PCR Mx3005p (Agilent Technologies) according to the manufacturer's instructions.
상기 세포주의 gDNA는 Covaris S2(7분, 0.5% duty, 강도 = 0.1, 50 사이클/버스트(burst); Covaris Inc.)를 사용하여 음파처리(sonication)하여 약 150 내지 약 200bp의 절편으로 절편화하였다. 그 후 절편화된 gDNA 시료의 1.8배 부피의 AMPure XP 비드(Beckman Coulter)를 사용하여 정제하였다. 절편화한 후, 표적의 농도를 높이기(enrichment) 전에, 말단-쌍(end-pair), A-테일링(A-tailing), 어답터 리게이션(adopter ligation), 및 PCR 반응을 KAPA Hyper 키트(Kapa Biosystem Inc.)를 사용하여 수행하였다. 어답터로 Pentabase indexed adaptoer를 사용하여 4℃에서 리게이션을 밤새 수행하였다. GDNA of the cell line was sonicated using Covaris S2 (7 min, 0.5% duty, intensity = 0.1, 50 cycles / burst; Covaris Inc.) and sectioned into fragments of about 150 to about 200 bp. It was. The purified fragments were then purified using 1.8 times the volume of AMPure XP beads (Beckman Coulter) of the sectioned gDNA samples. After fragmentation, prior to enriching the target, end-pair, A-tailing, adapter ligation, and PCR reactions were subjected to KAPA Hyper kit (Kapa). Biosystem Inc.). Ligation was performed overnight at 4 ° C. using a Pentabase indexed adapter as an adapter.
Agilent SureDesign을 인간 유전체(genome)의 ~0.5Mb를 표적으로하는 고유한 RNA 미끼(bait)를 설계하는데 사용하였다. 상기 유전체는 고형 종양에서 빈번하게 재배열되는 83개의 암 관련 유전자로부터 엑손 및 5개의 유전자로부터 인트론을 포함하는 것이다. 세포주 시료의 라이브러리를 사전 증폭(pre-amplification)한 후, 이중 가닥 DNA 농도를 큐빗 형광광도계(QubitFluorometer)(Life Technologies)를 사용하여 측정하였다. 절편 크기 분포는 2200 TapeStation 기기(Agilent Technologies)를 사용하여 측정하였다. 상기 라이브러리를 각각의 혼성화 선택 반응에 대하여 총 750ng의 DNA로 조정하였다. SureSelect's 블로킹(blocking) 올리고뉴클레오티드를 혼성화 선택에 사용하였다. Agilent SureDesign was used to design a unique RNA bait that targeted ˜0.5 Mb of the human genome. The genome is one that contains introns from exons and five genes from 83 cancer related genes that are frequently rearranged in solid tumors. After pre-amplification of the library of cell line samples, the double stranded DNA concentration was measured using a QubitFluorometer (Life Technologies). Section size distribution was measured using a 2200 TapeStation instrument (Agilent Technologies). The library was adjusted to a total of 750 ng of DNA for each hybridization selection reaction. SureSelect's blocking oligonucleotides were used for hybridization selection.
캡쳐 혼성화 전에, DNA 농도 및 평균 절편 크기에 기초하여, 라이브러리를 복수의 시료 각각에 대하여 구별할 수 있도록 표지하고, 각 라이브러리를 동일한 2nM의 농도로 표준화하고, 동일한 부피로 풀링(pooling)하였다. 0.2N의 NaOH를 사용하여 라이브러리를 변성(denaturation)시킨 후, 이 라이브러리를 20pM로 희석하였다. 변성된 주형(template)의 클러스터(cluster) 증폭을 수행하고, flowcell을 HiSeq 2500 v3 시퀀싱-및-합성(Sequencing-by-Synthesis) 키트(2x100bp 리드)를 사용하여 시퀀싱한 후, RTA v.1.12.4.2를 사용하여 염기를 추출(base calling)하였다. Prior to capture hybridization, libraries were labeled so as to be distinguishable for each of a plurality of samples based on DNA concentration and average fragment size, and each library was normalized to the same 2 nM concentration and pooled to the same volume. After denaturing the library with 0.2 N NaOH, the library was diluted to 20 pM. Perform cluster amplification of the denatured template and sequence the flowcell using HiSeq 2500 v3 Sequencing-by-Synthesis kit (2 × 100 bp read), followed by RTA v.1.12. Base calling was performed using 4.2.
수득된 리드를 BWA v0.7.5a 35를 사용하여 hg19 인간 참조에 배열하여 BAM 파일을 획득하였다. SAMtools v0.1.18 36, GATK v2.2-2537, 및 Picard v1.93를 자리 재배열(local realignment), 중복 표시(duplicate markings), SAM/BAM을 분류하는데 사용하여, 표적에서 벗어난 리드, 부적절한 쌍, 중복을 제거하였다. 그 후, MuTect 1.1.4를 이용하여 변이를 검출하였다. The reads obtained were arranged in hg19 human reference using BWA v0.7.5a 35 to obtain BAM files. Off-target leads, inappropriate pairs, using SAMtools v0.1.18 36, GATK v2.2-2537, and Picard v1.93 to sort local realignment, duplicate markings, and SAM / BAM , Remove duplicates. Thereafter, mutations were detected using MuTect 1.1.4.
실시예Example 2. 시료의 교차 오염 정도 확인 2. Check the level of cross contamination of the sample
서열정보를 수득하고, 산출된 대립유전자 빈도로부터 하기와 같이 테스트 그룹 및 대조군 그룹을 선별하였다. 그리고 각 그룹에서 배경 대립유전자의 대립유전자 빈도를 확인하였다. 0 내지 0.01의 대립유전자 빈도 구간 내에서, 이 구간 내의 대립유전자 빈도를 갖는 배경 대립유전자의 수를 확인하였다. 그룹 별로 총 배경 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 배경 대립유전자의 수의 비율을 계산하였다. 이 때, 대립유전자 빈도가 1% 이하인 것은 배경 대립유전자로 결정하고, 대립유전자 빈도가 10% 이상인 것은 유전형 대립유전자로 결정하였다. Sequence information was obtained and test and control groups were selected as follows from the calculated allele frequencies. And allele frequency of background alleles in each group was confirmed. Within the allele frequency interval of 0 to 0.01, the number of background alleles with allele frequency in this interval was identified. The ratio of the number of background alleles with corresponding allele frequency from the total number of background alleles by group was calculated. At this time, the allele frequency was determined to be the background allele of 1% or less, and the allele frequency was determined to be the genotype allele of 10% or more.
각 그룹 중에서 해당 대립유전자 빈도를 가지는 대립유전자의 평균 비율Average ratio of alleles with corresponding allele frequencies in each group 각 그룹 중에서 해당 대립유전자 빈도를 가지는 대립유전자의 수The number of alleles with corresponding allele frequencies in each group
대립유전자 빈도IntervalAllele frequency 단독테스트 그룹 Standalone test group 8종 혼합테스트 그룹8 mixed test groups 단독대조군 그룹Single Control Group 8종 혼합대조군 그룹Eight mixed control group 단독테스트 그룹 Standalone test group 8종테스트 그룹8 test groups 단독대조군 그룹 Single Control Group 8종대조군 그룹8 species control group
00 0.7978488690.797848869 0.6691693060.669169306 0.9194251210.919425121 0.9250680920.925068092 373155 373155 312971 312971 1291528 1291528 1299454 1299454
0.0010.001 0.0887722810.088772281 0.1512915050.151291505 0.0559965320.055996532 0.0532926860.053292686 41519 41519 70759 70759 78659 78659 74861 74861
0.0020.002 0.0492085930.049208593 0.0768759780.076875978 0.0160105770.016010577 0.0143894260.014389426 23015 23015 35955 35955 22490 22490 20213 20213
0.0030.003 0.0245149340.024514934 0.0456593920.045659392 0.0052708310.005270831 0.0045364280.004536428 11466 11466 21355 21355 7404 7404 6372 6372
0.0040.004 0.0193198210.019319821 0.0251207660.025120766 0.0019019910.001901991 0.0015617080.001561708 9036 9036 11749 11749 2672 2672 2194 2194
0.0050.005 0.0108290320.010829032 0.0124804060.012480406 0.0007166950.000716695 0.0005876650.000587665 5065 5065 5837 5837 1007 1007 826 826
0.0060.006 0.0024576440.002457644 0.0069906890.006990689 0.0003032650.000303265 0.0002442670.000244267 1149 1149 3270 3270 426 426 343 343
0.0070.007 0.0017612650.001761265 0.0042645140.004264514 0.0001438020.000143802 0.0001203980.000120398 824 824 1995 1995 202 202 169 169
0.0080.008 0.0010604890.001060489 0.0033647110.003364711 7.51044E-057.51044E-05 6.83414E-056.83414E-05 496 496 1574 1574 106 106 96 96
0.0090.009 0.0003597120.000359712 0.0012906740.001290674 4.62728E-054.62728E-05 3.94209E-053.94209E-05 168 168 604 604 65 65 55 55
0.010.01 0.0007007760.000700776 0.0007094090.000709409 2.86536E-052.86536E-05 2.45602E-052.45602E-05 328 328 332 332 40 40 35 35
0.0110.011 0.0014086780.001408678 0.000360750.00036075 1.44158E-051.44158E-05 1.41488E-051.41488E-05 659 659 169 169 20 20 20 20
0.0120.012 00 0.0001803750.000180375 1.47717E-051.47717E-05 1.03224E-051.03224E-05 0 0 84 84 21 21 15 15
0.0130.013 00 00 1.06783E-051.06783E-05 6.40701E-066.40701E-06 0 0 0 0 15 15 9 9
0.0140.014 00 0.0001803750.000180375 5.69512E-065.69512E-06 5.7841E-065.7841E-06 0 0 84 84 8 8 8 8
- 0.014 미만의 대립유전자 빈도 수치는 표시를 생략함Allele frequency values less than 0.014 are omitted.
(1) 테스트 그룹의 대립유전자 빈도 분포 확인(1) Confirmation of allele frequency distribution in test group
어느 하나의 합맵 세포주 시료의 서열정보를 수득한 결과에서, 467,701개의 대립유전자가 테스트 그룹에 포함되는 것을 확인하였다. 해당 합맵 세포주 시료 단독으로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하고, 그 비율을 그래프에 도시하였다(표 1 및 도 2 단독(single), 테스트(test) 그룹 참조). 또한, 해당 합맵 세포주 시료를 포함하는 8종의 합맵 세포주의 혼합 시료로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하고, 그 비율을 그래프에 도시하였다(표 1 및 도 2 8종(8-plex), 테스트(Test) 그룹 참조). As a result of obtaining sequence information of any one of the sum map cell line samples, it was confirmed that 467,701 alleles were included in the test group. In the result of sequencing with the corresponding sum map cell line sample alone, the number of alleles having an allele frequency within an allele frequency range of 0 to 0.01 was analyzed for the test group, and the ratios are shown in the graph (Table 1 and FIG. 2 single, test group). In addition, as a result of sequencing with a mixed sample of eight kinds of summapped cell lines including the summated cell line sample, the number of alleles having an allele frequency within an allelic frequency range of 0 to 0.01 for the test group was determined. Analyzes and the ratios are shown in the graph (see Table 1 and FIG. 2 8-plex, Test group).
도 2 및 표 1을 참조하면, 특정 대립유전자 빈도(배경 대립유전자의 대립유전자 빈도)를 갖는 배경 대립유전자 수가 서로 다른 것을 알 수 있다. 예들 들면, 테스트 그룹에서 0.007의 대립유전자 빈도를 가지는 그룹은 단독 시료를 분석한 경우 약 0.176%이고, 8종 혼합 시료에서 분석한 경우 약 0.427%로 나타났다. 단독 또는 8종의 혼합 시료에서 분석한 경우, 동일한 합맵 세포주 시료일지라도 배경 대립유전자의 대립유전자 빈도가 달라진 것을 확인하였다. 2 and Table 1, it can be seen that the number of background alleles having a specific allele frequency (allele frequency of background alleles) is different. For example, in the test group, the group having an allele frequency of 0.007 was about 0.176% when the single sample was analyzed and about 0.427% when the eight mixed samples were analyzed. When analyzed in single or mixed samples of eight species, it was confirmed that the frequency of the allele of the background allele was changed even in the same sum map cell line sample.
대립유전자 빈도 및 상기 대립유전자 빈도를 가지는 대립유전자의 수의 곱을, 테스트 그룹에 속하는 대립유전자의 총 수로 나누어, 평균 대립유전자 빈도를 구하였다. 도 2를 참조하면, 해당 합맵 세포주 시료 단독에서 분석한 경우 해당 합맵 세포주 시료의 평균 대립유전자 빈도는 약 0.052%로 나타났다. 8개의 합맵 세포주 시료를 포함한 혼합 시료에서 분석한 경우 해당 합맵 세포주 시료의 평균 대립유전자 빈도는 약 0.077%로 나타났다. 따라서, 해당 합맵 세포주 시료의 테스트 그룹은 다른 합맵 세포주 시료에 의하여 약 0.025%의 평균 오염 정도를 가지는 것을 알 수 있다.The product of the allele frequency and the number of alleles having the allele frequency was divided by the total number of alleles belonging to the test group to obtain the average allele frequency. Referring to FIG. 2, the average allele frequency of the sum map cell line sample was about 0.052% when analyzed by the sum map cell line sample alone. When analyzed in a mixed sample containing eight Hapmap cell line samples, the average allele frequency of the Hapmap cell line sample was about 0.077%. Therefore, it can be seen that the test group of the sum map cell line sample has an average degree of contamination of about 0.025% by the other sum map cell line samples.
(2) 대조군 그룹의 대립유전자 빈도 분포 확인(2) Confirmation of allele frequency distribution of control group
어느 하나의 합맵 세포주 시료의 서열정보를 수득한 결과에서, 1,404,712개의 대립유전자가 대조군 그룹에 포함되는 것을 확인하였다. 해당 합맵 세포주 시료 단독으로 시퀀싱을 수행한 결과에서, 상기 대조군 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하여, 그 비율을 그래프에 도시하였다(표 1 및 도 2 단독(single), 대조군(control) 그룹 참조). 또한, 해당 합맵 세포주 시료를 포함하는 8종의 합맵 세포주의 혼합 시료로 시퀀싱을 수행한 결과에서, 상기 대조군 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하여, 그 비율을 그래프에 도시하였다(표 1 및 도 2 8종(8-plex), 대조군(control) 그룹 참조). 도 2 및 표 1을 참조하면, 특정 대립유전자 빈도를 갖는 대립유전자 수가 거의 차이가 없는 것을 알 수 있다. 예들 들면, 대조군 그룹에서 0.007의 대립유전자 빈도를 가지는 그룹은 단독 시료를 분석한 경우 약 0.014%이고, 8종 혼합 시료에서 분석한 경우 약 0.012%로 나타났다. 단독 또는 8종의 혼합 시료에서 분석한 경우, 동일한 합맵 세포주 시료는 배경 대립유전자의 대립유전자 빈도에 차이가 거의 없는 것을 확인하였다. As a result of obtaining sequence information of any one of the sum map cell line samples, it was confirmed that 1,404,712 alleles were included in the control group. In the result of sequencing with the corresponding sum map cell line sample alone, the number of alleles having an allele frequency within an allele frequency range of 0 to 0.01 was analyzed for the control group, and the ratio is shown in the graph (Table 1 and FIG. 2 alone, see control group). In addition, as a result of sequencing with a mixed sample of eight kinds of summapped cell lines including the corresponding summapped cell line sample, the number of alleles having an allele frequency within an allele frequency range of 0 to 0.01 for the control group was determined. Analyzes and the ratios are shown in the graph (see Table 1 and Figure 8, 8-plex, control group). Referring to Figure 2 and Table 1, it can be seen that the number of alleles having a specific allele frequency is almost no difference. For example, in the control group, the group having an allele frequency of 0.007 was about 0.014% when the single sample was analyzed and about 0.012% when the 8 mixed samples were analyzed. When analyzed in single or mixed samples of eight species, it was confirmed that the same synapse cell line sample had little difference in allele frequency of the background allele.
대립유전자 빈도 및 상기 대립유전자 빈도를 가지는 대립유전자의 수의 곱을, 대조군 그룹에 속하는 대립유전자의 총 수로 나누어, 평균 대립유전자 빈도를 구하였다. 도 2를 참조하면, 해당 합맵 세포주 시료 단독에서 분석한 경우 해당 합맵 세포주 시료의 평균 대립유전자 빈도는 약 0.012%로 나타났다. 8개의 합맵 세포주 시료를 포함한 혼합 시료에서 분석한 경우 해당 합맵 세포주 시료의 평균 대립유전자 빈도는 약 0.011%로 나타났다. 따라서, 해당 합맵 세포주 시료의 대조군 그룹은 다른 합맵 세포주 시료에 의하여 오염의 영향이 없거나 미미한 것을 확인하였다.The product of the allele frequency and the number of alleles having the allele frequency was divided by the total number of alleles belonging to the control group to obtain the average allele frequency. Referring to FIG. 2, the average allele frequency of the hapmap cell line sample was about 0.012% when analyzed by the hapmap cell line sample alone. When analyzed in a mixed sample containing eight Hapmap cell line samples, the average allele frequency of the Hapmap cell line sample was about 0.011%. Therefore, it was confirmed that the control group of the corresponding Hapmap cell line sample had no or minimal influence of contamination by other Hapmap cell line samples.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will understand that the present invention may be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.

Claims (15)

  1. 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계;Obtaining first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and second sequence information of the nucleic acid fragment from the mixed sample in which the target sample and the additional sample are mixed;
    수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및Calculating allele frequencies from the obtained first and second sequence information, respectively; And
    염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법.A method for analyzing the degree of cross contamination of a sample with respect to a target sample, comprising comparing the calculated allele frequency with respect to a particular site of the chromosome.
  2. 청구항 1에 있어서,The method according to claim 1,
    상기 비교하는 단계는, 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계;In the comparing step, in the obtained first sequence information, a mutation prediction site set is selected by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and the positions other than the mutation prediction site set are selected. Selecting a set of control sites;
    상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 단계; 및Calculating allelic frequencies of genotype alleles and background alleles from the obtained first sequence information and the second sequence information, respectively, for the set of predictive mutation sites or the set of control sites; And
    상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는 것인 방법.Comparing the calculated allele frequencies with respect to the set of predictive sites or the set of control sites.
  3. 청구항 2에 있어서, The method according to claim 2,
    상기 선정하는 단계는, 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, The selecting may include selecting alleles, which are the background alleles of the target sample and the genotype alleles of the additional samples, as the test group, for the set of the predictive predicting sites.
    상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 단계를 포함하는 것인 방법.Selecting the alleles, which are the background alleles of the target sample and the background alleles of the additional sample, in the first sequence information, for the mutation prediction site set and the control site set.
  4. 청구항 2에 있어서, The method according to claim 2,
    상기 비교하는 단계는, 제1 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하는 단계를 포함하는 것인 방법.The comparing may include comparing allele frequencies of the test group obtained from the target sample in the first sequence information, and allele frequencies of the test group obtained from the target sample in the second sequence information. .
  5. 청구항 2에 있어서, The method according to claim 2,
    상기 비교하는 단계는, 제1 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 단계를 포함하는 것인 방법.The comparing may include comparing the allele frequency of the control group obtained from the target sample in the first sequence information, and the allele frequency of the control group obtained from the target sample in the second sequence information. .
  6. 청구항 2에 있어서, The method according to claim 2,
    상기 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, The background allele determines the allele as the background allele when the allele obtained from the first sequence information has an allele frequency of less than 10%.
    상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 것인 방법.Wherein said genotype allele is determined as a genotype allele when the allele obtained from the first sequence information has an allele frequency of 10% or more.
  7. 청구항 1에 있어서, 상기 변이는 SNP 또는 SNV인 것인 방법.The method of claim 1, wherein the mutation is SNP or SNV.
  8. 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부;A sequence information obtaining unit for obtaining first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and second sequence information of the nucleic acid fragment from the mixed sample of the target sample and the additional sample;
    수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and the second sequence information, respectively; And
    염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는, Comprising a calculation unit for comparing the calculated allele frequency for a specific site of the chromosome,
    표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치.A device for analyzing the degree of cross contamination of a sample to a target sample.
  9. 청구항 8에 있어서, The method according to claim 8,
    상기 장치는 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 자리 선정부;In the obtained first sequence information, the apparatus selects a mutation prediction site set by combining the mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample, and selects the positions other than the mutation prediction site set as control site sets. Seat selection unit to be selected as;
    상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및An allele frequency calculator configured to calculate an allele frequency of genotype alleles and background alleles from the obtained first sequence information and the second sequence information with respect to the set of predictive sites or the set of control sites; And
    상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는 것인 장치.Apparatus comprising a calculation unit for comparing the calculated allele frequency with respect to the set of predictive prediction sites or the set of control sites.
  10. 청구항 9에 있어서, The method according to claim 9,
    상기 장치는, 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, The apparatus selects alleles that are the background alleles of the target sample and the genotype alleles of the additional samples in the first sequence information as the test group, for the set of mutation prediction sites.
    상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 그룹 선별부를 포함하는 것인 장치.And a group selector for selecting the alleles, which are the background alleles of the target sample and the background alleles of the additional sample, in the first sequence information, for the mutation prediction site set and the control site set.
  11. 청구항 9에 있어서, The method according to claim 9,
    상기 연산부는, 제1 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하는 것인 장치.The operation unit compares the allele frequency of the test group obtained from the target sample in the first sequence information, and the allele frequency of the test group obtained from the target sample in the second sequence information.
  12. 청구항 9에 있어서, The method according to claim 9,
    상기 연산부는, 제1 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 것인 장치.The operation unit compares the allele frequency of the control group obtained from the target sample in the first sequence information, and the allele frequency of the control group obtained from the target sample in the second sequence information.
  13. 청구항 9에 있어서, The method according to claim 9,
    상기 장치는, 상기 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, The device determines that the allele is a background allele if the allele obtained from the first sequence information has an allele frequency of less than 10%.
    상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 대립유전자 결정부를 포함하는 것인 장치.Wherein the genotype allele comprises an allele determining portion that determines the allele as a genotype allele when the allele obtained from the first sequence information has an allele frequency of 10% or more.
  14. 청구항 8에 있어서, 상기 변이는 SNP 또는 SNV인 것인 장치.The device of claim 8, wherein the mutation is SNP or SNV.
  15. 1 내지 7항 중 어느 한 항에 따른 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method according to any one of claims 1 to 7.
PCT/KR2016/009451 2016-05-25 2016-08-25 Method and apparatus for analyzing degree of cross-contamination of sample WO2017204414A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0064067 2016-05-25
KR1020160064067A KR101882866B1 (en) 2016-05-25 2016-05-25 Method for analyzing cross-contamination of samples and apparatus using the same method

Publications (1)

Publication Number Publication Date
WO2017204414A1 true WO2017204414A1 (en) 2017-11-30

Family

ID=60411779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/009451 WO2017204414A1 (en) 2016-05-25 2016-08-25 Method and apparatus for analyzing degree of cross-contamination of sample

Country Status (2)

Country Link
KR (1) KR101882866B1 (en)
WO (1) WO2017204414A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114730609A (en) * 2019-11-21 2022-07-08 豪夫迈·罗氏有限公司 Systems and methods for contamination detection in next generation sequencing samples

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101913735B1 (en) * 2018-05-03 2018-11-01 주식회사 셀레믹스 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples
KR102192864B1 (en) * 2019-03-29 2020-12-18 연세대학교 산학협력단 Method for verification of ngs sample and device for verification of ngs sample using the same

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050048505A1 (en) * 2003-09-03 2005-03-03 Fredrick Joseph P. Methods to detect cross-contamination between samples contacted with a multi-array substrate
US20120046877A1 (en) * 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2891099A4 (en) 2012-08-28 2016-04-20 Broad Inst Inc Detecting variants in sequencing data and benchmarking
WO2015184246A1 (en) 2014-05-29 2015-12-03 Synta Pharmaceuticals Corp. Targeted therapeutics
CA2961179A1 (en) 2014-09-14 2016-03-17 Washington University Personalized cancer vaccines and methods therefor
EP3253819B1 (en) 2015-02-08 2020-04-01 Argaman Technologies Ltd. Antimicrobial material comprising synergistic combinations of metal oxides

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050048505A1 (en) * 2003-09-03 2005-03-03 Fredrick Joseph P. Methods to detect cross-contamination between samples contacted with a multi-array substrate
US20120046877A1 (en) * 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CIBULSKIS ET AL.: "ContEst: Estimating Cross-contamination of Human Samples in Next-generation Sequencing Data", BIOINFORMATICS, vol. 27, no. 18, 2011, pages 2601 - 2602, XP055442350 *
JUN ET AL.: "Detecting and Estimating Contamination of Human DNA Samples in Sequencing and Array-based Genotype Data", THE AMERICAN JOURNAL OF HUMAN GENETICS, vol. 91, 2012, pages 839 - 848, XP055442346 *
KIM ET AL.: "Virmid: Accurate Detection of Somatic Mutations with Sample Impurity Inference", GENOME BIOLOGY, vol. 14, 2013, pages 1 - 17, XP021165712 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114730609A (en) * 2019-11-21 2022-07-08 豪夫迈·罗氏有限公司 Systems and methods for contamination detection in next generation sequencing samples

Also Published As

Publication number Publication date
KR20170133079A (en) 2017-12-05
KR101882866B1 (en) 2018-08-24

Similar Documents

Publication Publication Date Title
Turner et al. Genomic islands of speciation in Anopheles gambiae
Banovich et al. Methylation QTLs are associated with coordinated changes in transcription factor binding, histone modifications, and gene expression levels
Tatsumoto et al. Direct estimation of de novo mutation rates in a chimpanzee parent-offspring trio by ultra-deep whole genome sequencing
Fujiki et al. Assessing the accuracy of variant detection in cost-effective gene panel testing by next-generation sequencing
BR112015032031B1 (en) METHODS AND PROCESSES FOR NON-INVASIVE ASSESSMENT OF GENETIC VARIATIONS
Corrales et al. High-throughput molecular diagnosis of von Willebrand disease by next generation sequencing methods
Beal et al. Whole genome sequencing for quantifying germline mutation frequency in humans and model species: cautious optimism
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
WO2017204414A1 (en) Method and apparatus for analyzing degree of cross-contamination of sample
Wang et al. Investigation of rare and low-frequency variants using high-throughput sequencing with pooled DNA samples
Lian et al. inGAP-family: accurate detection of meiotic recombination loci and causal mutations by filtering out artificial variants due to genome complexities
Pankratov et al. Prioritizing autoimmunity risk variants for functional analyses by fine-mapping mutations under natural selection
Trudsø et al. A comparative study of single nucleotide variant detection performance using three massively parallel sequencing methods
KR102347463B1 (en) Method and appartus for detecting false positive variants in nucleic acid sequencing analysis
WO2021037016A1 (en) Methods for detecting absence of heterozygosity by low-pass genome sequencing
KR102169699B1 (en) Customized DNA chip for genetic test and manufacturing method thereof)
Celestino-Soper et al. Validation and utilization of a clinical next-generation sequencing panel for selected cardiovascular disorders
CA2901773A1 (en) Determining fetal genomes for multiple fetus pregnancies
Viluma et al. Evaluation of whole-genome sequencing of four Chinese crested dogs for variant detection using the ion proton system
Fountain et al. Cross-species application of Illumina iScan microarrays for cost-effective, high-throughput SNP discovery
JP2023526441A (en) Methods and systems for detection and phasing of complex genetic variants
Billingsley et al. Genome-wide analysis of structural variants in Parkinson’s disease using short-read sequencing data
WO2016208827A1 (en) Method and device for analyzing gene
Gao et al. A systematic evaluation of hybridization-based mouse exome capture system
WO2019031867A1 (en) Method for increasing accuracy of analysis by removing primer sequence in amplicon-based next-generation sequencing

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16903262

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16903262

Country of ref document: EP

Kind code of ref document: A1