KR101882866B1 - Method for analyzing cross-contamination of samples and apparatus using the same method - Google Patents

Method for analyzing cross-contamination of samples and apparatus using the same method Download PDF

Info

Publication number
KR101882866B1
KR101882866B1 KR1020160064067A KR20160064067A KR101882866B1 KR 101882866 B1 KR101882866 B1 KR 101882866B1 KR 1020160064067 A KR1020160064067 A KR 1020160064067A KR 20160064067 A KR20160064067 A KR 20160064067A KR 101882866 B1 KR101882866 B1 KR 101882866B1
Authority
KR
South Korea
Prior art keywords
allele
sequence information
sample
frequency
target sample
Prior art date
Application number
KR1020160064067A
Other languages
Korean (ko)
Other versions
KR20170133079A (en
Inventor
박동현
손대순
박웅양
Original Assignee
삼성전자주식회사
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사, 사회복지법인 삼성생명공익재단 filed Critical 삼성전자주식회사
Priority to KR1020160064067A priority Critical patent/KR101882866B1/en
Priority to PCT/KR2016/009451 priority patent/WO2017204414A1/en
Publication of KR20170133079A publication Critical patent/KR20170133079A/en
Application granted granted Critical
Publication of KR101882866B1 publication Critical patent/KR101882866B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium
    • G06F19/18
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • G06F19/22
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법 및 장치를 제공한다. 상기 방법 및 장치는 특정 염색체 자리에서 시료간 교차 오염 정도를 측정하여, 변이 추출 결과에 신뢰도를 부여할 수 있다. Obtaining first sequence information of the nucleic acid fragment from each of the target sample and the additional sample, and second sequence information of the nucleic acid fragment from the mixed sample in which the target sample and the additional sample are mixed; Calculating allelic frequency from each of the obtained first sequence information and second sequence information; And comparing the calculated allele frequency with a specific locus of the chromosome, the method comprising the steps of: comparing the frequency of alleles of the sample with respect to the target sample; The method and apparatus can measure the degree of cross-contamination between samples at a particular chromosomal location, thereby imparting reliability to the mutation extraction results.

Description

시료의 교차 오염 정도를 분석하는 방법 및 장치{Method for analyzing cross-contamination of samples and apparatus using the same method}BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method and apparatus for analyzing cross-

시료 상호간의 오염 정도를 분석하는 방법 및 장치에 관한 것이다.To a method and apparatus for analyzing the degree of contamination between samples.

유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체를 서열화(sequencing)하는 기술은 DNA 칩 및 차세대 시퀀싱(Next Generation Sequencing) 기술, 차차세대 시퀀싱(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 차세대 시퀀싱은 대규모 병렬 시퀀싱 또는 2세대 시퀀싱과 상호 교환적으로 사용될 수 있다. A genome is any genetic information that a creature has. Techniques for sequencing one individual's genome include DNA chip, next generation sequencing technology, and next generation sequencing technology. Next-generation sequencing can be used interchangeably with large-scale parallel sequencing or second-generation sequencing.

뉴클레오티드 서열, 단백질 등과 같은 유전 정보들의 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 뉴클레오티드 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 이러한 생물의 유전 정보들을 이용하여 질병과 관련된 SNV(Single Nucleotide Variant), CNV(Copy Number Variation), InDel(Insertion and Deletion), Translocation 등의 변이를 정확히 분석하고, 진단하는 기술들이 연구 중에 있다.Analysis of genetic information such as nucleotide sequence and protein is widely used to find genes expressing diseases such as diabetes and cancer or to correlate genetic diversity and expression characteristics of individuals. In particular, genetic data collected from individuals is important in identifying genetic characteristics of individuals with different symptoms or progression of disease. Thus, genetic data such as individual nucleotide sequences, proteins, and the like are key data that can provide information on current and future disease-related information to prevent disease or to select optimal treatment methods in the early stages of the disease. Techniques for precisely analyzing and diagnosing mutations such as SNV (Single Nucleotide Variant), CNV (Copy Number Variation), InDel (Insertion and Deletion) and translocation related to diseases using these genetic information of living organisms are under study.

종래에는 변이를 검출하는데 있어서, 시료 상호간의 오염에 의한 영향이 미미하여 이를 고려하지 않거나, 또는 알려진 데이터베이스가 제공하는 일반적인 집단 대립유전자 빈도(general population frequency)를 이용하여 추정하는 경우가 대부분이었다. 그러나, 낮은 대립유전자 빈도를 갖는 변이를 검출하기 위하여 시료 상호간의 간섭에 의한 영향을 측정 또는 보정하는 기술이 요구된다.In the past, most of the cases of mutation detection were estimated using the general population frequency provided by a known database or not considering the influence of contamination between samples. However, there is a need for techniques for measuring or correcting the effects of interferences between samples in order to detect mutations having a low allele frequency.

일 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 제공한다. According to an aspect, there is provided a method for detecting a nucleic acid fragment, comprising: obtaining first sequence information of a nucleic acid fragment from a target sample and an additional sample, respectively, and second sequence information of a nucleic acid fragment from a mixed sample in which the target sample and the additional sample are mixed; Calculating allelic frequency from each of the obtained first sequence information and second sequence information; And comparing the calculated allele frequency for a particular locus of the chromosome to analyze the degree of cross contamination of the sample with respect to the target sample.

다른 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치를 제공한다.According to another aspect, there is provided a nucleic acid probe comprising: a sequence information obtaining unit for obtaining first sequence information of a nucleic acid fragment from each of a target sample and an additional sample, and second sequence information of a nucleic acid fragment from a mixed sample containing the target sample and the additional sample; An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and second sequence information, respectively; And an arithmetic unit for comparing the calculated allele frequency with respect to a specific site of the chromosome. The apparatus for analyzing the degree of cross contamination of a sample with respect to a target sample is provided.

다른 양상은 상기 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer readable recording medium on which a program for executing the above method is recorded.

일 양상에 따르면, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 제공한다. According to an aspect, there is provided a method for detecting a nucleic acid fragment, comprising: obtaining first sequence information of a nucleic acid fragment from a target sample and an additional sample, respectively, and second sequence information of a nucleic acid fragment from a mixed sample in which the target sample and the additional sample are mixed; Calculating allelic frequency from each of the obtained first sequence information and second sequence information; And comparing the calculated allele frequency for a particular locus of the chromosome to analyze the degree of cross contamination of the sample with respect to the target sample.

상기 시료는 대상체의 생물학적 시료 또는 합성물, 즉 합성 시료일 수 있다. 상기 대상체는 영장류 및 인간, 예를 들면, 인간, 비-인간 영장류, 소, 말, 돼지, 양, 염소, 개, 고양이 또는 설치류를 포함할 수 있다. 상기 생물학적 시료는 혈액, 혈장, 혈청, 소변, 타액, 점막 분비물, 객담, 대변, 눈물 또는 이들의 조합으로부터 획득된 것일 수 있다. 상기 대상체의 생물학적 시료는 다양한 종으로부터 유래되는 진핵세포, 원핵세포, 바이러스, 박테리오 파지 등의 시료일 수 있다. 또한, 상기 시료는 대상체의 핵산 또는 합성 핵산을 포함할 수 있다. 상기 핵산은 임의의 길이를 지닌 폴리뉴클레오티드 또는 올리고뉴클레오티드와 상호교환적으로 사용할 수 있다. 상기 핵산은 세포를 포함하지 않는 핵산(cell-free DNA: cf DNA)일 수 있으며, 분리된 DNA일 수 있다. The sample may be a biological sample or compound of the subject, i.e., a synthetic sample. The subject may include primates and humans, for example, humans, non-human primates, cows, horses, pigs, sheep, goats, dogs, cats or rodents. The biological sample may be obtained from blood, plasma, serum, urine, saliva, mucous secretion, sputum, feces, tears or a combination thereof. The biological sample of the subject may be a sample of eukaryotic cells, prokaryotes, viruses, bacteriophages, etc. derived from various species. In addition, the sample may include a nucleic acid of the subject or a synthetic nucleic acid. The nucleic acid can be used interchangeably with polynucleotides or oligonucleotides having any length. The nucleic acid may be a cell-free DNA (cf DNA), or may be a separate DNA.

상기 시료로부터 핵산을 분리하는 방법은 통상의 기술자에게 공지된 방법으로 수행될 수 있다. 상기 분리된 핵산 단편의 길이는 약 10bp(염기쌍) 내지 약 2000bp, 약 15bp 내지 약 1500bp, 약 20bp 내지 약 1000bp, 약 20bp 내지 약 500bp 또는 약 20 내지 약 200bp 일 수 있다. The method of separating the nucleic acid from the sample can be carried out by a method known to a person skilled in the art. The length of the isolated nucleic acid fragment may be from about 10 bp (base pair) to about 2000 bp, from about 15 bp to about 1500 bp, from about 20 bp to about 1000 bp, from about 20 bp to about 500 bp, or from about 20 to about 200 bp.

상기 핵산 단편의 서열정보를 수득하는 단계는 분리된 핵산을 차세대 시퀀싱(next-generation sequencing: NGS)을 수행하여 서열정보를 수득하는 단계를 포함할 수 있다. 상기 "차세대 시퀀싱"은 "대규모 병렬 시퀀싱(massive parallel sequencing)"은 또는 2세대 시퀀싱(second-generation sequencing)과 상호 교환적으로 사용될 수 있다. 차세대 시퀀싱은 칩(chip) 기반 그리고 PCR 기반 쌍 말단(paired end) 형식으로 전장 유전체를 조각내고, 상기 조각을 혼성화 반응(hybridization)에 기초하여 초고속으로 시퀀싱을 수행하는 기술을 의미한다. 차세대 시퀀싱은 대량의 단편의 핵산을 동시다발적으로 시퀀싱하는 기법으로서, 차세대 시퀀싱 기반의 표적 시퀀싱(targeted sequencing) 또는 패널 시퀀싱(panel sequencing)을 수행할 수 있다. 차세대 시퀀싱은 예를 들어, 454 플랫폼(Roche), GS FLX 티타늄, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System(Applied Biosystems), Ion Proton(Life Technologies), Complete Genomics, Helicos Biosciences Heliscope, Pacific Biosciences의 단일 분자 실시간(SMRT™) 기술, 또는 이들의 조합에 의해 수행될 수 있다.The step of obtaining the sequence information of the nucleic acid fragment may include the step of performing next-generation sequencing (NGS) on the separated nucleic acid to obtain the sequence information. The "next generation sequencing" can be used interchangeably with "massive parallel sequencing" or second-generation sequencing. Generation sequencing refers to a technique of fragmenting a full-length genome in a chip-based and PCR-based paired end format and performing sequencing at a very high rate based on hybridization of the fragment. Next-generation sequencing is a technique for simultaneously sequencing large quantities of nucleic acids of a fragment, and can perform next-generation sequencing-based targeted sequencing or panel sequencing. Generation sequencing can be performed, for example, on a 454 platform (Roche), GS FLX Titanium, Illumina MiSeq, Illumina HiSeq, Illumina Genome Analyzer, Solexa platform, SOLiD System (Applied Biosystems), Ion Proton (Life Technologies), Complete Genomics, Helicos Biosciences Heliscope , The Single Molecular Real Time (SMRT (TM)) technology of Pacific Biosciences, or a combination thereof.

상기 방법은 차세대 시퀀싱을 수행하기 위해 핵산 라이브러리를 제조하는 단계를 더 포함할 수 있다. 상기 핵산 라이브러리는 차세대 시퀀싱 방식에 따라 제조될 수 있다. 차세대 시퀀싱을 제공하는 제조자의 지시에 따라 핵산 라이브러리를 제작할 수 있다. The method may further comprise preparing a nucleic acid library to perform next generation sequencing. The nucleic acid library can be prepared according to the next generation sequencing method. A nucleic acid library can be prepared according to the manufacturer's instructions to provide next generation sequencing.

수득된 핵산 단편의 서열정보는 리드(read)로 불릴 수 있다. The sequence information of the obtained nucleic acid fragment can be referred to as a read.

상기 핵산 단편의 서열정보를 시스템에 저장하고, N 마스킹을 수행할 수 있다. 상기 N 마스킹은 지나치게 낮은 품질로 읽혀진 개별 핵산에 대해 결측치로 처리하는 것을 의미한다. 또한, 저품질 리드 필터를 수행할 수 있다. 상기 저품질 리드필터는 지나치게 낮은 품질로 읽혀진 핵산 단편의 서열정보에 대해 분석에서 제외하도록 처리하는 것을 의미한다. The sequence information of the nucleic acid fragment can be stored in the system and N-masking can be performed. The N masking means treating the individual nucleic acid read with an excessively low quality as a missing value. In addition, a low-quality read filter can be performed. The low-quality lead filter means that the sequence information of the nucleic acid fragment read at an excessively low quality is processed to be excluded from the analysis.

상기 방법은 수득된 서열정보를 인간 참조 유전체에 맵핑하여 상기 핵산 단편의 서열정보를 염색체에 지정하는 단계를 포함할 수 있다. 상기 인간 참조 유전체는 hg18 또는 hg19일 수 있다. 인간 참조 유전체에서 하나의 게놈 위치에만 맵핑되는 서열정보를 고유한(unique) 서열정보로 지정할 수 있다. 지정된 고유한 서열번호를 기준으로 핵산 단편의 서열정보를 염색체의 자리(position)에 지정할 수 있다. 상기 염색체의 자리는 약 5 kb, 약 10 kb, 약 20 kb, 약 50 kb, 약 100 kb, 약 1000 kb, 또는 2000 kb 이상의 길이를 갖는 염색체 상의 연속적인 범위일 수 있다. 상기 염색체 자리는 단일 염색체일 수 있다. The method may include mapping the obtained sequence information to a human reference genome to designate the sequence information of the nucleic acid fragment to a chromosome. The human reference genome may be hg18 or hg19. Sequence information mapped to only one genome position in the human reference genome can be designated as unique sequence information. Sequence information of the nucleic acid fragment can be assigned to the position of the chromosome based on the designated unique sequence number. The site of the chromosome may be a continuous range on a chromosome having a length of about 5 kb, about 10 kb, about 20 kb, about 50 kb, about 100 kb, about 1000 kb, or 2000 kb or more. The chromosomal locus may be a single chromosome.

수득된 서열정보를 인간 참조 유전체에 맵핑하는 단계에 있어서, 글로벌 정렬법(Global aligment) 또는 로컬 정렬법(local alignment)을 병행할 수 있다. 상기 글로벌 정렬법은 핵산 단편의 서열정보 전체서열을 참고 유전체 중 가장 유사한 부분에 위치시키는 방법을 의미하고, 로컬 정렬법은 핵산 단편의 서열정보 중 일부를 참고 유전체 서열 중 가장 유사한 부분에 위치시키는 방법을 의미한다. In mapping the obtained sequence information to a human reference genome, a global alignment or a local alignment may be performed in parallel. The global alignment means a method of locating the whole sequence information of the nucleic acid fragment at the most similar part of the reference genome and the local sorting method is a method of locating a part of the sequence information of the nucleic acid fragment at the most similar part of the reference genome sequence do.

상기 방법은 시료의 DNA의 변이를 확인하는 단계를 포함할 수 있다. 상기 변이 확인은 공지된 변이 검출 프로그램, 예를 들면 GATK, SAMtool, MoDIL, SeqSeq, PeMer, VariationHunter, Pindel, BreakDancer 및 Mutek등을 이용하여 수행할 수 있으나, 이에 제한되지 않는다. The method may comprise identifying a variation in the DNA of the sample. The mutation confirmation can be performed using known mutation detection programs such as GATK, SAMtool, MoDIL, SeqSeq, PeMer, Variation Hunter, Pindel, BreakDancer and Mutek, but is not limited thereto.

상기 제1 서열정보는 표적 시료 및 추가 시료가 포함된 복수의 시료들 각각으로부터 수득된 핵산 단편의 서열정보일 수 있다. 상기 제1 서열정보는 표적 시료 단독으로 시퀀싱을 수행한 결과일 수 있다. 또한, 상기 제1 서열정보는 1종 이상, 2종 이상 또는 5종 이상의 추가 시료에 대하여, 각각의 시료 개별적으로 시퀀싱을 수행한 결과일 수 있다. The first sequence information may be sequence information of the nucleic acid fragments obtained from each of the plurality of samples including the target sample and the additional sample. The first sequence information may be a result of sequencing the target sample alone. In addition, the first sequence information may be a result of performing sequencing of each sample separately for one or more, two or more, or five or more additional samples.

상기 제2 서열정보는 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 수득된 핵산 단편의 서열정보일 수 있다. 시퀀싱을 수행하는 시퀀서는 복수의 시료가 혼합된 혼합 시료를 대상으로 할 수 있다. 복수의 시료가 혼합된 혼합 시료를 이용하는 경우, 표적의 농도를 높이는(enrichment) 단계에서의 비용을 절감하고, 단시간에 높은 처리량(throughput)을 제공하는 이점이 있다. 이 때, 복수의 시료의 라이브러리에 각각 고유한 표지를 태깅(tag)함으로써, 복수의 시료를 서로 구별할 수 있다. The second sequence information may be sequence information of the nucleic acid fragment obtained from the mixed sample in which the target sample and the additional sample are mixed. The sequencer performing the sequencing can be a mixed sample in which a plurality of samples are mixed. In the case of using a mixed sample in which a plurality of samples are mixed, there is an advantage in that the cost in the enrichment step of the target is reduced and the high throughput is provided in a short time. At this time, a plurality of samples can be distinguished from each other by tagging a unique mark to each of a plurality of sample libraries.

상기 방법은 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계를 포함할 수 있다. 시퀀싱을 수행한 표적 영역에서, 각각의 대립유전자의 대립유전자 빈도를 계산할 수 있다. 상기 대립유전자 빈도(allele frequency)는 어느 하나의 시료 내에서 같은 유전자를 구성하는 서로 다른 대립유전자 사이의 구성 비율을 나타내는 수치를 의미할 수 있다. 상기 대립유전자 빈도는 A, G, C 및 T 가운데 하나 이상, 또는 A, G, C 및 T 모두의 서열정보의 빈도로 나타낼 수 있다. The method may comprise calculating allelic frequency from each of the obtained first sequence information and second sequence information, respectively. In the target region subjected to sequencing, the allele frequency of each allele can be calculated. The allele frequency may refer to a numerical value indicating the proportion of different alleles constituting the same gene in a sample. The allele frequency can be represented by the frequency of one or more of A, G, C, and T, or the sequence information of all of A, G, C, and T.

상기 방법은 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may comprise comparing the calculated allele frequency for a particular locus of the chromosome.

상기 염색체의 특정 자리(position)는 복수의 시료간에 동일한 엑손 자리 또는 인트론 자리일 수 있고, 동일한 번호의 염색체 상에 동일한 번호의 자리일 수 있다. The specific position of the chromosome may be the same exon or intron spot among the plurality of samples and may be the same number of digits on the same number of chromosomes.

동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 각각의 대립유전자 빈도와 제2 서열정보로부터 각각의 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 A의 대립유전자 빈도와 제2 서열정보로부터 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 염색체의 특정 자리에 대하여, 제1 서열정보로부터 G, C, T 각각의 대립유전자 빈도와 제2 서열정보로부터 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 비교 결과, A, G, C 또는 T 중 어느 하나의 대립유전자 빈도에 유의한 차이가 있으면 표적 시료는 추가 시료에 의해 오염된 것으로 판단할 수 있다. 유의한 차이가 클수록 표적 시료의 해당 특정 자리는 추가 시료에 의해 더욱 오염된 것으로 판단할 수 있다. 대립유전자 빈도 별로 상기 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. For each specific site of the same target sample and chromosome, the respective allele frequency can be compared from the first sequence information to the respective allele frequency and the second sequence information. For example, the allele frequency of A from the first sequence information and the allele frequency of A from the second sequence information can be compared for a specific site of the same target sample and chromosome. Likewise, the frequencies of alleles of G, C, and T, respectively, from the allele frequency of each of G, C, and T from the first sequence information and the second sequence information can be compared with respect to specific positions of the same target sample and chromosome. As a result of comparison, if there is a significant difference in the allele frequency of any of A, G, C, or T, the target sample may be judged to be contaminated by the additional sample. The larger the significant difference, the more likely that the particular spot in the target sample is more contaminated by the additional sample. The number of alleles having the above-mentioned allele frequency may be compared with the number of alleles having the frequency of alleles or the total number of alleles may be compared with the number of alleles having the corresponding allele frequency.

상기 "시료의 교차 오염(cross-contamination)"은 어느 하나의 시료의 핵산 단편의 서열정보에 다른 시료의 핵산 단편의 서열정보에 태깅된 표지가 태깅되거나, 또는 서로 다른 시료의 핵산 단편의 서열정보간에 표지를 교환하여, 표지가 잘못 태깅된 핵산 단편의 서열정보가 생기는 것을 의미한다. 시료의 교차 오염으로 인하여, 어느 하나의 시료의 특정 염색체 자리에 대하여, 제1 서열정보로부터 대립유전자 빈도를 분석한 경우와 제2 서열정보로부터 대립유전자 빈도를 분석한 경우, 대립유전자 빈도가 유의한 차이를 보일 수 있다. The "cross-contamination of the sample" means that the tagged tagged in the sequence information of the nucleic acid fragment of another sample is tagged in the sequence information of the nucleic acid fragment of one sample, or the sequence information of the nucleic acid fragment of different samples By exchanging tags in the liver, it means that sequence information of the nucleic acid fragments to which the tag is wrongly tagged is generated. Due to the cross contamination of the sample, when the allele frequency was analyzed from the first sequence information and the allele frequency was analyzed from the second sequence information, the allele frequency was significant It can show a difference.

상기 방법은 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계; 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 단계; 및 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method comprises the steps of: selecting, in the obtained first sequence information, a set of mutation prediction positions by combining mutation prediction positions obtained from the sequence information of each of the target sample and the additional sample; ; Calculating an allele frequency of a genotype allele and a background allele from the first sequence information and the second sequence information on the mutation predicted spot set or the control group spot set; And comparing the calculated allele frequencies with respect to the mutation prediction set or control set.

상기 변이는 염색체의 특정 자리에서 나타나는 복수의 시료의 서로 다른 특성을 의미할 수 있다. 상기 특성은 핵산 서열일 수 있다. 염색체의 특정 자리에 대하여, 제1 서열정보로부터 수득된 어느 하나의 시료의 유전형 대립유전자가, 제1 서열정보로부터 수득된 다른 시료의 유전형 대립유전자와 서로 다른 핵산 서열을 가지는 것일 수 있다. 상기 변이는 단일 뉴클레오티드 다형성(Single Nucleotide Polymorphism:SNP)일 수 있다. SNP는 DNA 핵산 서열에서 특정 자리의 핵산 서열(A, G, C, T)의 차이를 보이는 유전적 변화 또는 변이를 의미하는 것으로서, 하나의 종의 개체 사이에서 나타나는 단일 핵산의 차이 변이의 형태이다. 특히, SNP는 질병과 연관된 유전적인 요소로써, SNP 차이로 대상체마다 질병에 대한 저항성, 민감성 및 질병의 정도가 다르게 나타난다. 복수의 시료 각각은 서로 상이한 또는 동일한 SNP 자리를 갖을 수 있다. The mutation may refer to different characteristics of a plurality of samples appearing at a specific site of a chromosome. The characteristic may be a nucleic acid sequence. For a particular locus of a chromosome, the genotype allele of any one of the samples obtained from the first sequence information may have a different nucleic acid sequence from the genotype allele of the other sample obtained from the first sequence information. The mutation may be a single nucleotide polymorphism (SNP). SNP refers to a genetic change or mutation that shows differences in the nucleotide sequence (A, G, C, T) of a specific site in a DNA nucleic acid sequence, and is a variation of a single nucleic acid difference between single species of individuals . In particular, SNP is a genetic component associated with disease, and the difference in SNP results in different disease resistance, sensitivity, and degree of disease for each subject. Each of the plurality of samples may have different or identical SNP positions.

상기 변이는 참조 유전체에 대하여 변이를 갖는 것일 수 있다. 구체적으로 상기 변이는 참조 유전체에 대하여 핵산 서열의 변이를 포함할 수 있다. 상기 핵산 서열의 변이는 참조 유전체에 대하여 하나 이상의 뉴클레오티드 서열의 치환, 삽입, 결실, 또는 전좌를 포함할 수 있다. 상기 하나 이상의 뉴클레오티드 서열의 치환은 예를 들면 단일 뉴클레오티드 변이(Single Nucleotide Variation:SNV)일 수 있다. SNV는 하나의 서열 또는 종 내 소수의 집단에서 나타나는 단일염기의 차이를 의미하는 것으로, 예를 들면 시퀀싱 데이터에서 나타나는 참조 유전체의 염기서열과의 차이일 수 있다. 복수의 시료 각각은 서로 상이한 또는 SNV 자리를 갖을 수 있다. 변이의 대립유전자 빈도는 차세대 서열분석 자료에서 samtools와 같은 기존의 프로그램을 이용하여 각 대립유전자의 개수를 계수함으로써 계산될 수 있다.The variation may be a variation with respect to the reference dielectric. Specifically, the mutation may comprise a variation of the nucleic acid sequence relative to the reference genome. Variations of the nucleic acid sequence may include substitution, insertion, deletion, or translocation of one or more nucleotide sequences relative to the reference genome. The substitution of the one or more nucleotide sequences may be, for example, Single Nucleotide Variation (SNV). SNV refers to the difference between single bases occurring in a single sequence or a small group of species within a species, for example, the difference from the sequence of the reference genome that appears in the sequencing data. Each of the plurality of samples may have different or SNV positions. The allele frequency of a mutation can be calculated by counting the number of each allele using an existing program such as samtools in the next generation sequencing data.

상기 방법은 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계를 제공한다.The method comprises the steps of: selecting a set of mutation prediction sites by combining mutation prediction sites obtained from the sequence information of each of the target sample and the additional sample; and selecting a place excluding the mutation prediction site set as a control site set.

상기 "변이 예측 자리"는 앞에서 기술한 변이를 가지는 염색체의 특정 자리를 의미할 수 있다. 제1 서열정보로부터 수득된 어느 하나의 시료의 유전형 대립유전자가, 제1 서열정보로부터 수득된 다른 시료의 유전형 대립유전자와 상이한 경우, 그 자리를 의미할 수 있다. 그 자리는 해당 시료의 변이 예측 자리가 될 수 있다. 예를 들면, 표적 시료의 유전형 대립유전자가 SNP를 가지는 경우, 해당 SNP 자리는 표적 시료의 변이 예측 자리에 포함될 수 있다. 복수의 시료 각각은 서로 상이한 또는 동일한 변이 예측 자리를 갖을 수 있다. 도 3을 참조하면, 1, 2, 3, 4 및 5번 자리에 대하여, 시료 1(S 1)에 대하여 변이 예측 자리는 2번 내지 4번 자리이며, 시료 2(S 2)에 대하여 변이 예측 자리는 2번 내지 5번 자리가 될 수 있다.The "variation prediction site" may refer to a specific site of a chromosome having the mutation described above. May refer to the place where the genotype allele of any one of the samples obtained from the first sequence information differs from the genotype allele of another sample obtained from the first sequence information. The place may be a predictor of variation of the sample. For example, if the genotype allele of the target sample has a SNP, the SNP site may be included in the predicted position of the target sample. Each of the plurality of samples may have mutually different or similar mutation prediction sites. Referring to FIG. 3, for the 1 st, 2 nd, 3 rd, 4 th and 5 th digits, the predicted place for the variation is 2 to 4 for the sample 1 (S 1) The seat can be numbered 2 to 5.

상기 "변이 예측 자리 집합(union variant set)"은 상기 복수의 시료들, 즉 표적 시료 및 추가 시료 각각의 변이 예측 자리를 조합한 변이 예측 자리의 모음으로서, 복수의 시료가 가지는 변이 예측 자리의 합집합일 수 있다. 도 3을 참조하면, 1 내지 5번 자리에 대하여, 시료 1 및 시료 2의 변이 예측 자리 집합은 2 내지 5번 자리가 될 수 있다.The "union variant set" is a set of mutation prediction positions obtained by combining the plurality of samples, that is, the mutation prediction positions of each of the target sample and the additional sample, as the union variance set of the plurality of samples. Lt; / RTI > Referring to FIG. 3, for the 1 st to 5 th digits, the predicted place set of the samples 1 and 2 may be 2 to 5 digits.

상기 변이 예측 자리 집합을 제외한 자리를 상기 대조군 자리 집합으로 선정할 수 있다. 상기 "대조군(control) 자리 집합"는 염색체의 특정 자리에 대하여, 제1 서열정보에서 수득된 복수의 시료들의 배경 대립유전자가 동일하므로, 복수의 시료 가운데 어느 시료에서도 변이가 검출되지 않는 자리의 집합을 의미한다. A place excluding the set of the predicted shifts may be selected as the set of the control group. Since the background alleles of the plurality of samples obtained in the first sequence information are the same for a specific site of the chromosome, the "control site set" is a set of segregations in which no mutation is detected in any of the plurality of samples .

상기 방법은 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자, 즉 유전형 대립유전자 및/또는 배경 대립유전자의 대립 유전자 빈도를 산출할 수 있다. 앞에서 기술한 제1 서열정보 및 제2 서열정보로부터 산출된 대립유전자 빈도 중에서, 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대한 유전형 대립유전자 및/또는 배경 대립유전자의 대립유전자 빈도를 선택할 수 있다. 상기 표적 시료의 대립유전자 빈도는 A, G, C 및 T 가운데 하나 이상 또는 A, G, C 및 T 모두의 서열정보의 빈도로 나타낼 수 있다. The method can calculate the allele frequency of the alleles, that is, the genotype allele and / or the allele of the background allele from the first sequence information and the second sequence information obtained for the mutation prediction set group or the control group set, have. Of allelic frequencies calculated from the first sequence information and the second sequence information described above, the allele frequency of the genotype allele and / or the background allele to the mutation predictor set or the control group set can be selected. The allele frequency of the target sample can be represented by the frequency of one or more of A, G, C, and T or the sequence information of all of A, G, C, and T.

상기 방법은 상기 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, 상기 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정할 수 있다. 상기 대립유전자를 구별하는 기준은, 유전형을 분석(genotyping)하는 임의의 기준일 수 있다.Wherein the allele obtained from the first sequence information has an allele frequency of less than 10%, the allele is determined as a background allele, and if the allele has an allele frequency of 10% or more, The gene can be determined as a genotype allele. The criteria for distinguishing the allele may be any criterion for genotyping the genotype.

상기 "배경 대립유전자(background allele)"는 서열정보에서 수득된 대립유전자 빈도가 10% 미만, 5% 이하, 1% 이하, 0.5% 또는 0.1% 이하인 대립유전자를 의미할 수 있다.The "background allele" may refer to an allele having an allele frequency of less than 10%, 5%, 1%, 0.5% or 0.1% in the sequence information.

상기 "유전형 대립유전자(genotype allele)"는 서열정보에서 수득된 대립유전자 빈도가 10% 이상인 대립유전자를 의미할 수 있다. 상기 유전형 대립유전자의 대립유전자 빈도는 10% 이상, 30% 이상, 50% 이상, 90% 이상 또는 100%일 수 있다. 특정 염색체 자리에 대하여, 통상적으로 A, G, C 및 T, 총 4개의 대립유전자가 나타날 수 있으며, 이 가운데 10% 이상의 대립유전자 빈도를 가지는 핵산 서열을 유전형 대립유전자, 1% 이하의 대립유전자 빈도를 가지는 핵산 서열를 배경 대립유전자로 결정할 수 있다. 도 3을 참조하면, 시료 1의 1번 자리의 유전형 대립유전자는 T로 표시하였고, 이 때 배경 대립유전자는 A, G 및 C이다. 또한, 시료 1의 5번 자리의 유전형 대립유전자는 T 및 C로 표시하였고, 배경 대립유전자는 A 및 G이다.The "genotype allele" may refer to an allele having an allele frequency of 10% or more obtained from the sequence information. The allele frequency of the genotype allele may be greater than 10%, greater than 30%, greater than 50%, greater than 90%, or 100%. For a specific chromosomal locus, a total of four alleles, typically A, G, C and T, may be present, and a nucleic acid sequence having an allele frequency of 10% or more may be used as a genotype allele, May be determined as a background allele. Referring to FIG. 3, the genotype allele at position 1 of sample 1 is denoted by T, wherein the background alleles are A, G, and C, respectively. In addition, the genotype allele at position 5 of sample 1 is denoted by T and C, and the background alleles are A and G, respectively.

상기 방법은 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may comprise comparing the calculated allele frequencies for a set of mutation predicted sites or a set of control sites.

동일한 표적 시료 및 상기 변이 예측 자리 집합에 대하여, 제1 서열정보 및 제2 서열정보에서 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 변이 예측 자리 집합에 대하여, 제2 서열정보에서 A의 대립유전자 빈도와 제1 서열정보에서 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 상기 변이 예측 자리 집합에 대하여, 제2 서열정보에서 G, C, T 각각의 대립유전자 빈도와 제1 서열정보에서 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 비교 결과, A, G, C 또는 T 중 어느 하나의 대립유전자 빈도에 유의한 차이가 있으면 표적 시료는 다른 시료에 의해 오염된 것으로 판단할 수 있다. The allele frequency can be compared in the first sequence information and the second sequence information with respect to the same target sample and the set of predicted displacement. For example, with respect to the same target sample and a set of predicted positions of mutation, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, the allele frequency of each of G, C, and T in the first sequence information and the allele frequency of each of G, C, and T in the second sequence information can be compared with respect to the same target sample and the predicted sequence of the mutation. As a result of the comparison, if there is a significant difference in the allele frequency of any of A, G, C, or T, the target sample may be judged to be contaminated by another sample.

동일한 표적 시료 및 상기 대조군 자리 집합에 대하여, 제1 서열정보 및 제2 서열정보에서 대립유전자 빈도를 비교할 수 있다. 예를 들면, 동일한 표적 시료 및 대조군 자리 집합에 대하여, 제2 서열정보에서 A의 대립유전자 빈도와 제1 서열정보에서 A의 대립유전자 빈도를 비교할 수 있다. 마찬가지로, 동일한 표적 시료 및 상기 대조군 자리 집합에 대하여, 제2 서열정보에서 G, C, T 각각의 대립유전자 빈도와 제1 서열정보에서 G, C, T 각각의 대립유전자 빈도를 비교할 수 있다. 이 때, 상기 대조군 자리 집합에 대하여, 제1 서열정보로부터 수득된 복수의 시료들의 배경 대립유전자 및 유전형 대립유전자가 동일하므로, 시료의 교차 오염이 없는 것으로 판단할 수 있다. 도 3을 참조하면, 모든 시료의 1번 자리는 유전형 대립유전자가 T로 동일하게 나타나고, 배경 대립유전자가 A, G 및 C로 동일하게 나타나며, 변이가 검출되지 않은 자리이다. 상기 1번 자리는 대조군 자리 집합 중에 하나의 자리가 된다. 상기 자리에서 어느 하나의 시료의 배경 대립유전자는 다른 시료의 유전형 대립유전자에 의하여 간섭을 받지 않는 것으로 판단할 수 있다. For the same target sample and the control site set, the allele frequency can be compared in the first sequence information and the second sequence information. For example, for the same target sample and control set, the allele frequency of A in the second sequence information and the allele frequency of A in the first sequence information can be compared. Similarly, for all of the same target sample and control set, the allele frequency of each of G, C and T in the second sequence information and the allele frequency of each of G, C and T in the first sequence information can be compared. At this time, since the background allele and the genotype allele of the plurality of samples obtained from the first sequence information are the same for the control site set, it can be judged that there is no cross contamination of the sample. Referring to FIG. 3, the first position of all the samples is a place where the genotype allele is the same as T, the background allele is the same as A, G and C, and the mutation is not detected. The first digit is a place in the control set. It can be judged that the background allele of any one sample is not interfered with by the genotype allele of another sample.

상기 방법은 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 단계를 포함할 수 있다. The method comprises selecting for a set of mutation predicting place alleles which are both a background allele of the target sample and a genotype allele of the additional sample in the first sequence information into a test group, , Selecting alleles which are background alleles of the target sample and background alleles of the additional sample in the first sequence information as a control group.

상기 "대조군(control) 그룹"은 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 의미한다. The "control group" means an allele, which is the background allele of the target sample and the background allele of the additional sample in the first sequence information with respect to the mutation predicted spot set and the control group spot set.

상기 방법은 제1 서열정보 중 표적시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 단계를 포함할 수 있다. The method may include comparing the allele frequency of the control group obtained from the target sample in the first sequence information and the allele frequency of the control group obtained from the target sample in the second sequence information.

도 3을 참조하면, 시료 1(S 1)의 1번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2(S 2), 시료 3(S 3), 및 시료 4(S 4)의 배경 대립유전자인 대립유전자는 A, G 및 C 이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 A, G 및 C의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 A, G 및 C의 대립유전자 빈도를 각각 비교할 수 있다. 또한, 시료 1의 2번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 배경 대립유전자인 대립유전자는 G 및 C 이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 G 및 C의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 G 및 C의 대립유전자 빈도를 각각 비교할 수 있다. 또한, 시료 1의 3번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 배경 대립유전자이 대립유전자는 A이다. 상기 수득된 제1 서열정보에서 시료 1의 대조군 그룹인 A의 대립유전자 빈도와 제2 서열정보에서 시료 1의 대조군 그룹인 A의 대립유전자 빈도를 각각 비교할 수 있다. 이들 표적 시료의 대조군 그룹은, 제1 서열정보에서 대립유전자 빈도와 제2 서열정보에서 대립유전자 빈도를 비교하였을 때, 그 차이가 없거나 거의 없는 것일 수 있다. 상기 대조군 그룹은 시료의 교차 오염의 가능성이 없다고 판단할 수 있다. 3, the background allele of the first spot of the sample 1 (S 1) and the background allele of the sample 2 (S 2), the sample 3 (S 3), and the sample 4 (S 4) Alleles that are genes are A, G, and C. In the obtained first sequence information, the allele frequency of A, G and C as the control group of sample 1 and the allele frequency of A, G and C of the control group of sample 1 can be compared with each other in the second sequence information. Alleles which are background alleles at position 2 of sample 1 and at the same time background alleles of sample 2, sample 3 and sample 4 which are additional samples are G and C, respectively. In the obtained first sequence information, the allele frequency of G and C as the control group of sample 1 and the allele frequency of G and C as the control group of sample 1 in the second sequence information can be respectively compared. Also, the allele of the background allele of sample 1, the background allele of sample 1, and the background allele of sample 2, sample 3, and sample 4, which are additional samples, is A at the same time. In the obtained first sequence information, the allele frequency of the control group A of the sample 1 and the allele frequency of the control group A of the sample 1 can be compared with each other in the second sequence information. The control group of these target samples may have little or no difference when the allele frequency in the first sequence information is compared with the allele frequency in the second sequence information. The control group can judge that there is no possibility of cross contamination of the sample.

상기 "테스트(test) 그룹"은 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 의미한다. 테스트 그룹은 복수의 시료간에 대응되는 염색체 특정 자리에서, 시료의 교차 오염의 가능성이 있다고 판단되므로, 오염 정도를 분석하는 대상이 될 수 있다. The "test group" means an allele, which is the background allele of the target sample and the genotype allele of the additional sample, in the first sequence information with respect to the set of mutation prediction positions. Since the test group is judged to have a possibility of cross contamination of a sample at a chromosome specific site corresponding to a plurality of samples, the degree of contamination can be analyzed.

상기 방법은 제1 서열정보 중 표적시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교할 수 있다. The method may compare the allele frequency of the test group obtained from the target sample obtained from the target sample among the first sequence information and the allele frequency of the test group obtained from the target sample among the second sequence information.

어떠한 시료를 어떻게 혼합하느냐에 따라 오염 정도를 분석하는 방법, 테스트 그룹을 선정하는 방법은 달라질 수 있다. 시료 및 염색체 특정 자리별로 오염이 일어나는 경우는 상이할 수 있다. 표적 시료에 대한 시료간에 교차 오염이 발생하면, 표적 시료의 변이 예측 자리 집합에서의 배경 대립유전자의 대립유전자 빈도는 다른 시료의 유전형 대립유전자에 의해 영향을 받을 수 있다. 상기 비교하는 단계는 테스트 그룹 및/또는 대조군 그룹에서 임의의 대립유전자 빈도를 가지는 대립유전자의 수를 분석할 수 있다. 대립유전자 빈도 별로 상기 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 그룹 별로 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. Depending on how the sample is mixed, the method of analyzing the degree of contamination and selecting the test group may vary. Samples and chromosomes may be different if contamination occurs at specific sites. If cross-contamination occurs between samples of a target sample, the allele frequency of the background allele in the set of predicted shifts of the target sample may be affected by genotype alleles of other samples. The comparing step may analyze the number of alleles having an arbitrary allele frequency in the test group and / or the control group. The number of alleles having the allele frequency may be compared with the number of alleles having the frequency of alleles or the number of alleles having the frequency of alleles may be compared with the total number of alleles.

도 3을 참조하면, 시료 1의 4번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 2, 시료 3, 및 시료 4의 유전형 대립유전자인 대립유전자는 T이다. 상기 수득된 제1 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도와 제2 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도를 비교할 수 있다. 또한, 시료 2의 4번 자리의 배경 대립유전자이면서, 동시에 추가 시료인 시료 1, 시료 3, 시료 4의 유전형 대립유전자인 대립유전자는 G이다. 상기 수득된 제1 서열정보에서 시료 2의 테스트 그룹인 G의 대립유전자 빈도와 제2 서열정보에서 시료 2의 테스트 그룹인 G의 대립유전자 빈도를 비교할 수 있다. 시료 2의 4번 자리의 배경 대립유전자 G의 대립유전자 빈도는, 시료 1, 시료 3 및 시료 4의 유전형 대립유전자 G에 의해 영향을 받을 수 있으므로, 시료 2의 배경 대립유전자 G의 대립유전자 빈도가 달라질 수 있다. 또한, 시료 1의 2번 자리의 배경 대립유전자이면, 동시에 추가 시료인 시료 2, 시료 3 및 시료 4의 유전형 대립유전자인 대립유전자는 T이다. 상기 수득된 제1 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도와 제2 서열정보에서 시료 1의 테스트 그룹인 T의 대립유전자 빈도를 비교할 수 있다. Referring to FIG. 3, alleles which are background alleles at position 4 of sample 1 and at the same time additional samples, sample 2, sample 3, and sample 4, which are genotype alleles, are T. In the obtained first sequence information, the allele frequency of T, which is the test group of sample 1, and the allele frequency of T, which is the test group of sample 1, can be compared with the second sequence information. In addition, the allele gene which is the background allele of the 4th position of the sample 2 and the additional alleles of the sample 1, the sample 3 and the sample 4, which is a genotype allele, is G. In the obtained first sequence information, the allele frequency of the test group G of the sample 2 can be compared with the allele frequency of the test group G of the sample 2 in the second sequence information. Since the allele frequency of background allele G at position 4 in sample 2 can be influenced by genotype allele G of sample 1, sample 3 and sample 4, the allele frequency of background allele G in sample 2 is It can be different. In addition, if it is the background allele of the second position of the sample 1, the allele of the additional alleles of the sample 2, the sample 3 and the sample 4 is T. In the obtained first sequence information, the allele frequency of T, which is the test group of sample 1, and the allele frequency of T, which is the test group of sample 1, can be compared with the second sequence information.

다른 양상은, 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부; 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치(100)를 제공한다.In another aspect, there is provided a nucleic acid amplification apparatus comprising: a sequence information obtaining unit for obtaining first sequence information of a nucleic acid fragment from a target sample and an additional sample, respectively, and second sequence information of a nucleic acid fragment from a mixed sample in which the target sample and the additional sample are mixed; An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and second sequence information, respectively; And an arithmetic part for comparing the calculated allele frequency with respect to a specific site of the chromosome. The apparatus 100 is provided for analyzing the cross contamination degree of a sample with respect to a target sample.

상기 장치는 상기 시료의 교차 오염 정도를 분석하는 방법을 시계열적으로 구현하는 "...부" 또는 "...모듈"을 포함할 수 있다. 따라서 이하 생략된 내용이라 하더라도 시료의 교차 오염 정도를 분석하는 방법에 관하여 이상에서 기술된 내용은 본 시료의 교차 오염 정도를 분석하는 장치에도 적용될 수 있다. 상기 구성요소들은 프로세서에 해당될 수 있다. 따라서, 이와 같은 프로세서는 다수의 논리 게이트들의 어레이로 구현될 수 있고, 범용적인 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리의 조합으로 구현될 수도 있다. 또한, 다른 형태의 하드웨어로 구현될 수도 있음을 통상의 기술자라면 이해할 수 있다. The apparatus may comprise a " part "or" ... "module that implements the method of analyzing the degree of cross contamination of the sample in a time-series manner. Therefore, even if omitted below, the method described above for analyzing the cross-contamination degree of the sample can be applied to the apparatus for analyzing the degree of cross-contamination of the sample. The components may correspond to a processor. Thus, such a processor may be implemented as an array of logic gates, and may be implemented as a combination of a general purpose microprocessor and a memory in which a program executable in the microprocessor is stored. It will be appreciated by those of ordinary skill in the art that other types of hardware may also be implemented.

상기 서열정보 수득부(110)는 시퀀싱 장치로부터 서열정보를 수득한다. 상기 산출부(120)는 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 분석한다. 상기 연산부는 염색체의 특정 자리에 대하여, 제1 서열정보 및 제2 서열정보로부터 산출된 대립유전자 빈도를 비교한다. 상기 연산부(130)는 대립유전자 빈도 별로 상기 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다.The sequence information obtaining unit 110 obtains sequence information from the sequencing device. The calculating unit 120 analyzes the allele frequency from the obtained first sequence information and second sequence information, respectively. The calculation unit compares the allele frequency calculated from the first sequence information and the second sequence information with respect to a specific spot of the chromosome. The operation unit 130 may compare the number of alleles having the allele frequency by the allele frequency, or may compare the ratio of the number of alleles having the allele frequency with the total number of alleles.

상기 장치는 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 자리 선정부; 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및 상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함할 수 있다. Wherein the apparatus comprises: a means for selecting, as a set of mutation prediction positions, a set of mutation prediction positions obtained by combining the mutation prediction positions obtained from the sequence information of each of the target sample and the additional sample in the obtained first sequence information, A seat for selecting a seat; An allelic frequency calculating unit for calculating the allele frequency of the genotype allele and the background allele from the first sequence information and the second sequence information for the mutation predicted spot set or the control group spot set; And an arithmetic unit for comparing the calculated allele frequency with respect to the set of the predicted shift positions or the set of the control group.

상기 자리 선정부(140)는 복수의 시료들 각각의 변이 예측 자리를 조합하여 변이 예측 자리 집합을 선정하고, 복수의 시료 가운데 어느 시료에서도 변이가 검출되지 않는 자리를 조합하여 대조군 자리 집합을 선정한다.The digit selection unit 140 selects a set of predicted shift positions by combining the predicted positions of each of the plurality of samples and selects a control group set by combining the positions where no variation is detected in any of the plurality of samples .

상기 장치는 상기 변이 예측 자리 집합 및 대조군 자리 집합에 기초하여, 테스트 그룹 및 대조군 그룹을 선별하는 그룹 선별부를 포함할 수 있다. 상기 그룹 선별부(150)는 테스트 그룹과 대조군 그룹을 선별한다.The apparatus may include a group selection unit for selecting a test group and a control group based on the set of the predictive shift positions and the set of control sequences. The group selector 150 selects a test group and a control group.

상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부를 포함할 수 있다. 상기 대립유전자 빈도 산출부는 유전형 대립유전자 및/또는 배경 대립유전자를 포함하는 대립유전자의 대립유전자 빈도를 산출할 수 있다. And an allelic frequency calculating unit for calculating the allele frequency of the genotype allele and the background allele from the first sequence information and the second sequence information obtained for the mutation predicted spot set or the control group spot set. The allele frequency calculating unit may calculate the allele frequency of an allele including a genotype allele and / or a background allele.

상기 그룹 선별부는 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고, 상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별할 수 있다. 필요에 따라 테스트 그룹과 대조군 그룹을 동시에 선별하거나, 또는 순차적으로 선별할 수 있다. The group selector may select alleles that are both a background allele of the target sample and a genotype allele of the additional sample as test groups in the first sequence information, For the set, alleles which are both the background allele of the target sample and the background allele of the additional sample in the first sequence information can be selected as a control group. If necessary, the test group and the control group can be selected at the same time or sequentially.

상기 연산부는 제1 서열정보 중 표적시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하고, 제1 서열정보 중 표적시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교할 수 있다. 상기 연산부는 테스트 그룹 및/또는 대조군 그룹에서 임의의 대립유전자 빈도를 가지는 대립유전자의 수를 분석할 수 있다. 대립유전자 빈도 별로 상기 대립유전자 빈도를 가지는 대립유전자의 수를 비교하거나, 또는 그룹 별로 총 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 대립유전자의 수의 비율을 비교할 수 있다. The arithmetic unit compares the allele frequency of the test group obtained from the target sample among the first sequence information and the allele frequency of the test group obtained from the target sample among the second sequence information and obtains from the target sample among the first sequence information The allele frequency of the control group obtained from the target sample and the allele frequency of the control group obtained from the target sample among the second sequence information. The arithmetic unit may analyze the number of alleles having an arbitrary allele frequency in the test group and / or the control group. The number of alleles having the allele frequency may be compared with the number of alleles having the frequency of alleles or the number of alleles having the frequency of alleles may be compared with the total number of alleles.

상기 장치는 상기 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고, 상기 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 대립유전자 결정부(160)를 포함할 수 있다.Wherein the alleles obtained from the first sequence information have an allele frequency of less than 10%, the alleles are determined as background alleles, and if the allele has an allele frequency of 10% or more, And an allele determining unit 160 for determining the gene as a genotype allele.

다른 양상은, 상기 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체를 제공한다.Another aspect provides a computer-readable recording medium on which a program for executing a method for analyzing the degree of cross contamination of a sample with respect to the target sample is recorded.

상기 방법은 다양한 컴퓨터 수단을 통하여 판독 가능한 소프트웨어 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 상기에 따른 방법을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당 분야의 통상의 기술자에게 공지되어 사용 가능한 것일 수도 있다.The method may be implemented in the form of software readable by various computer means and recorded in a computer-readable recording medium. Here, the recording medium may include program commands, data files, data structures, and the like, alone or in combination. The program instructions to be recorded on the recording medium may be those specially designed and constructed for the method according to the above, or may be available to those skilled in the art of computer software.

예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM, Random Access Memory), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한 하드웨어 장치는 상기에 따른 방법의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.For example, the recording medium may be an optical recording medium such as a magnetic medium such as a hard disk, a floppy disk and a magnetic tape, a compact disk read only memory (CD-ROM), a digital video disk (DVD) Includes a hardware device that is specially configured to store and execute program instructions such as a magneto-optical medium such as a floppy disk and a ROM, a random access memory (RAM), a flash memory, do. Examples of program instructions may include machine language code such as those generated by a compiler, as well as high-level language code that may be executed by a computer using an interpreter or the like. Such a hardware device may be configured to operate as one or more software modules to perform the operations of the above-described method, and vice versa.

비록 본 명세서와 도면에서는 예시적인 장치 구성을 기술하고 있지만, 본 명세서에서 설명하는 기능적인 동작과 주제의 구현물들은 다른 유형의 디지털 전자 회로로 구현되거나, 본 명세서에서 개시하는 구조 및 그 구조적인 등가물들을 포함하는 컴퓨터 소프트웨어, 펌웨어 혹은 하드웨어로 구현되거나, 이들 중 하나 이상의 결합으로 구현 가능하다. 본 명세서에서 설명하는 주제의 구현물들은 하나 이상의 컴퓨터 프로그램 제품, 다시 말해 상기 방법에 따른 장치의 동작을 제어하기 위하여 혹은 이것에 의한 실행을 위하여 유형의 프로그램 저장매체 상에 인코딩된 컴퓨터 프로그램 명령에 관한 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장 장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조성물 혹은 이들 중 하나 이상의 조합일 수 있다.Although the present specification and drawings describe exemplary device configurations, the functional operations and subject matter implementations described herein may be embodied in other types of digital electronic circuitry, or alternatively, of the structures disclosed herein and their structural equivalents May be embodied in computer software, firmware, or hardware, including, or in combination with, one or more of the foregoing. Implementations of the subject matter described herein may be embodied in one or more computer program products, that is, a computer program product encoded on a type of program storage medium for execution by, or in control of, And can be implemented as a module as described above. The computer-readable medium can be a machine-readable storage device, a machine-readable storage substrate, a memory device, a composition of matter that affects the machine readable propagation type signal, or a combination of one or more of the foregoing.

상기 방법에 따른 장치에 탑재되고 상기 방법을 실행하는 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 혹은 코드로도 알려져 있음)은 컴파일 되거나 해석된 언어나 선험적 혹은 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 혹은 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 혹은 다중의 상호 작용하는 파일(예컨대, 하나 이상의 모듈, 하위 프로그램 혹은 코드의 일부를 저장하는 파일) 내에, 혹은 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상의 스크립트) 내에 저장될 수 있다. 컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.A computer program (also known as a program, software, software application, script, or code) that is embedded in the apparatus according to the above method and that executes the method may be any of a compiled or interpreted language, a programming language including a priori or procedural language And may be deployed in any form including stand-alone programs or modules, components, subroutines, or other units suitable for use in a computer environment. A computer program does not necessarily correspond to a file in the file system. The program may be stored in a single file provided to the requested program, or in multiple interactive files (e.g., a file storing one or more modules, subprograms, or portions of code) (E.g., one or more scripts stored in a markup language document). A computer program may be deployed to run on multiple computers or on one computer, located on a single site or distributed across multiple sites and interconnected by a communications network.

개별 시료가 혼합된 복수의 생물학적 시료로부터 서열정보를 수득하고, 변이를 추출하는 과정에서, 시료간에 오염되어 있는 경우, 해당 염색체 자리에서의 오염 비율을 정확하게 측정할 수 있다. 종래 시료간 교차 오염에 의한 영향을 무시하거나, 또는 이미 알려진 데이터 베이스의 수치와 비교하여 추정하였으나, 해당 실험의 플랫폼 내에서 수득한 실험 결과 수치를 이용하여 시료간의 오염 정도를 측정할 수 있는 점에서, 개별 시료의 변이 추출 결과에 신뢰도를 부여할 수 있다. 나아가, 유사한 시료을 분석함에 있어서, 분석에 사용되는 프로토콜이 발생시킬 수 있는 시료의 교차 오염의 정도을 표준화할 수 있다. Sequence information is obtained from a plurality of biological samples in which individual samples are mixed, and in the process of extracting mutations, the contamination ratio at the chromosomal site can be accurately measured when the sample is contaminated. The influence of cross contamination between conventional samples is ignored or compared with numerical values of known databases. However, since the degree of contamination between samples can be measured using numerical values of experimental results obtained in the platform of the experiment , Reliability can be given to the mutation extraction result of the individual samples. Further, in analyzing similar samples, the degree of cross-contamination of the sample that can be generated by the protocol used for analysis can be normalized.

도 1은 변이 예측 자리 집합을 선정하는 방법을 설명하기 위한 도면이다.
도 2는 테스트 그룹 및 대조군 그룹에서, 0 내지 0.01의 대립유전자 빈도를 갖는 배경 대립유전자의 수의 비율을 나타낸 그래프이다.
도 3는 복수의 시료간에 대조군 그룹과 테스트 그룹을 선정하는 방법을 설명하기 위한 도면이다.
도 4는 시료의 교차 오염 정도를 분석하는 장치의 구성을 나타내는 블록도이다.
FIG. 1 is a diagram for explaining a method of selecting a set of prediction prediction positions.
Figure 2 is a graph showing the proportion of the number of background alleles having an allele frequency of 0 to 0.01 in the test group and the control group.
3 is a diagram for explaining a method of selecting a control group and a test group among a plurality of samples.
4 is a block diagram showing a configuration of an apparatus for analyzing the degree of cross contamination of a sample.

이하 본 발명을 실시예에 의해 보다 상세하게 설명한다. 그러나 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 의해 제한되는 것은 아니다.Hereinafter, the present invention will be described in more detail with reference to examples. However, these examples are intended to illustrate the present invention, and the scope of the present invention is not limited by these examples.

1. One. 합맵Hapmap 세포주로부터 변이 추출 Mutation extraction from cell line

8종의 정상 합맵 세포주(HapMap cell line)를 Coriell Institute(http://ccr.coriell.org/)에서 구입하였다. 세포주의 DNA 농도 및 순도를 나노드롭 8000 UV-비스 분광계(Nanodrop 8000 UV-Vis spectrometer)(Thermo Scientific) 및 큐빗(Qubit) 2.0 형광광도계(Life Technologies)를 사용하여 피코그린(Picogreen) 형광 분석으로 측정하였다. DNA 분해(degradation) 정도를 나타내는 절편 크기 분포를 2200 TapeStation 기기(Agilent Technologies) 및 실시간 PCR(real-time PCR) Mx3005p(Agilent Technologies)를 제조사의 지침에 따라 사용하여 측정하였다. Eight normal HapMap cell lines were purchased from the Coriell Institute (http://ccr.coriell.org/). DNA concentration and purity of the cell line were measured by Picogreen fluorescence analysis using a Nanodrop 8000 UV-Vis spectrometer (Thermo Scientific) and Qubit 2.0 fluorescence photometer (Life Technologies) Respectively. Slice size distributions representing the extent of DNA degradation were measured using a 2200 TapeStation instrument (Agilent Technologies) and real-time PCR Mx3005p (Agilent Technologies) using the manufacturer's instructions.

상기 세포주의 gDNA는 Covaris S2(7분, 0.5% duty, 강도 = 0.1, 50 사이클/버스트(burst); Covaris Inc.)를 사용하여 음파처리(sonication)하여 약 150 내지 약 200bp의 절편으로 절편화하였다. 그 후 절편화된 gDNA 시료의 1.8배 부피의 AMPure XP 비드(Beckman Coulter)를 사용하여 정제하였다. 절편화한 후, 표적의 농도를 높이기(enrichment) 전에, 말단-쌍(end-pair), A-테일링(A-tailing), 어답터 리게이션(adopter ligation), 및 PCR 반응을 KAPA Hyper 키트(Kapa Biosystem Inc.)를 사용하여 수행하였다. 어답터로 Pentabase indexed adaptoer를 사용하여 4℃에서 리게이션을 밤새 수행하였다. The gDNA of the cell line was subjected to sonication using Covaris S2 (7 min, 0.5% duty, intensity = 0.1, 50 cycles / burst; Covaris Inc.) and sectioned into about 150 to about 200 bp Respectively. The fragments were then purified using a 1.8-fold volume of AMPure XP beads (Beckman Coulter) of the gDNA samples. After fragmentation, end-pair, A-tailing, adopter ligation, and PCR reactions were performed in KAPA Hyper kit (Kapa), before enrichment of the target Biosystem Inc.). Ligation was performed overnight at 4 ° C using Pentabase indexed adapters as an adapter.

Agilent SureDesign을 인간 유전체(genome)의 ~0.5Mb를 표적으로하는 고유한 RNA 미끼(bait)를 설계하는데 사용하였다. 상기 유전체는 고형 종양에서 빈번하게 재배열되는 83개의 암 관련 유전자로부터 엑손 및 5개의 유전자로부터 인트론을 포함하는 것이다. 세포주 시료의 라이브러리를 사전 증폭(pre-amplification)한 후, 이중 가닥 DNA 농도를 큐빗 형광광도계(QubitFluorometer)(Life Technologies)를 사용하여 측정하였다. 절편 크기 분포는 2200 TapeStation 기기(Agilent Technologies)를 사용하여 측정하였다. 상기 라이브러리를 각각의 혼성화 선택 반응에 대하여 총 750ng의 DNA로 조정하였다. SureSelect's 블로킹(blocking) 올리고뉴클레오티드를 혼성화 선택에 사용하였다. Agilent SureDesign was used to design a unique RNA bait targeting ~ 0.5 Mb of the human genome. The genome contains an exon from 83 cancer-related genes that are frequently rearranged in solid tumors and an intron from 5 genes. After library of cell line samples was pre-amplified, double stranded DNA concentrations were measured using a Qubit Fluorometer (Life Technologies). The section size distribution was measured using a 2200 TapeStation instrument (Agilent Technologies). The library was adjusted to a total of 750 ng of DNA for each hybridization selection reaction. SureSelect's blocking oligonucleotides were used for hybridization selection.

캡쳐 혼성화 전에, DNA 농도 및 평균 절편 크기에 기초하여, 라이브러리를 복수의 시료 각각에 대하여 구별할 수 있도록 표지하고, 각 라이브러리를 동일한 2nM의 농도로 표준화하고, 동일한 부피로 풀링(pooling)하였다. 0.2N의 NaOH를 사용하여 라이브러리를 변성(denaturation)시킨 후, 이 라이브러리를 20pM로 희석하였다. 변성된 주형(template)의 클러스터(cluster) 증폭을 수행하고, flowcell을 HiSeq 2500 v3 시퀀싱-및-합성(Sequencing-by-Synthesis) 키트(2x100bp 리드)을 사용하여 시퀀싱한 후, RTA v.1.12.4.2를 사용하여 염기를 추출(base calling)하였다. Prior to capture hybridization, based on DNA concentration and average slice size, the library was labeled to be distinguishable for each of a plurality of samples, and each library was normalized to the same concentration of 2 nM and pooled to the same volume. After denaturation of the library with 0.2N NaOH, the library was diluted to 20 pM. Cluster amplification of the denatured template was performed and the flowcells were sequenced using a HiSeq 2500 v3 Sequencing-by-Synthesis Kit (2x100 bp lead) followed by RTA v. 0.12. Base was extracted using 4.2.

수득된 리드를 BWA v0.7.5a 35를 사용하여 hg19 인간 참조에 배열하여 BAM 파일을 획득하였다. SAMtools v0.1.18 36, GATK v2.2-2537, 및 Picard v1.93를 자리 재배열(local realignment), 중복 표시(duplicate markings), SAM/BAM를 분류하는데 사용하여, 표적에서 벗어난 리드, 부적절한 쌍, 중복을 제거하였다. 그 후, MuTect 1.1.4를 이용하여 변이를 검출하였다. The resulting leads were aligned to the hg19 human reference using BWA v0.7.5a35 to obtain BAM files. SAMtools v0.1.18 36, GATK v2.2-2537, and Picard v1.93 can be used to classify local realignment, duplicate markings, and SAM / BAM to identify out-of-target leads, , And redundancy was removed. Mutations were then detected using MuTect 1.1.4.

2. 2. 시료의Of the sample 교차 오염 정도 확인 Check the degree of cross contamination

서열정보를 수득하고, 산출된 대립유전자 빈도로부터 하기와 같이 테스트 그룹 및 대조군 그룹을 선별하였다. 그리고 각 그룹에서 배경 대립유전자의 대립유전자 빈도를 확인하였다. 0 내지 0.01의 대립유전자 빈도 구간 내에서, 이 구간 내의 대립유전자 빈도를 갖는 배경 대립유전자의 수를 확인하였다. 그룹 별로 총 배경 대립유전자 수에서, 해당 대립유전자 빈도를 갖는 배경 대립유전자의 수의 비율을 계산하였다. 이 때, 대립유전자 빈도가 1% 이하인 것은 배경 대립유전자로 결정하고, 대립유전자 빈도가 10% 이상인 것은 유전형 대립유전자로 결정하였다. Sequence information was obtained and the test group and control group were selected from the calculated allele frequencies as follows. Allelic frequencies of background alleles were confirmed in each group. Within the allele frequency interval of 0 to 0.01, the number of background alleles having an allele frequency in this interval was confirmed. The ratio of the number of background alleles with the allele frequency in the total number of background alleles by group was calculated. At this time, the allele frequency of 1% or less was determined as the background allele, and the allele frequency of 10% or more was determined as the genotype allele.

각 그룹 중에서
해당 대립유전자 빈도를 가지는
대립유전자의 평균 비율
Among each group
Have the allele frequency
Average ratio of alleles
각 그룹 중에서
해당 대립유전자 빈도를 가지는
대립유전자의 수
Among each group
Have the allele frequency
Number of alleles
대립유전자 빈도
Interval
Allele frequency
Interval
단독
테스트
그룹
Exclusive
Test
group
8종 혼합
테스트
그룹
8 species mixed
Test
group
단독
대조군
그룹
Exclusive
Control group
group
8종 혼합
대조군
그룹
8 species mixed
Control group
group
단독
테스트
그룹
Exclusive
Test
group
8종
테스트
그룹
8 species
Test
group
단독
대조군
그룹
Exclusive
Control group
group
8종
대조군
그룹
8 species
Control group
group
00 0.7978488690.797848869 0.6691693060.669169306 0.9194251210.919425121 0.9250680920.925068092 373155 373155 312971 312971 1291528 1291528 1299454 1299454 0.0010.001 0.0887722810.088772281 0.1512915050.151291505 0.0559965320.055996532 0.0532926860.053292686 41519 41519 70759 70759 78659 78659 74861 74861 0.0020.002 0.0492085930.049208593 0.0768759780.076875978 0.0160105770.016010577 0.0143894260.014389426 23015 23015 35955 35955 22490 22490 20213 20213 0.0030.003 0.0245149340.024514934 0.0456593920.045659392 0.0052708310.005270831 0.0045364280.004536428 11466 11466 21355 21355 7404 7404 6372 6372 0.0040.004 0.0193198210.019319821 0.0251207660.025120766 0.0019019910.001901991 0.0015617080.001561708 9036 9036 11749 11749 2672 2672 2194 2194 0.0050.005 0.0108290320.010829032 0.0124804060.012480406 0.0007166950.000716695 0.0005876650.000587665 5065 5065 5837 5837 1007 1007 826 826 0.0060.006 0.0024576440.002457644 0.0069906890.006990689 0.0003032650.000303265 0.0002442670.000244267 1149 1149 3270 3270 426 426 343 343 0.0070.007 0.0017612650.001761265 0.0042645140.004264514 0.0001438020.000143802 0.0001203980.000120398 824 824 1995 1995 202 202 169 169 0.0080.008 0.0010604890.001060489 0.0033647110.003364711 7.51044E-057.51044E-05 6.83414E-056.83414E-05 496 496 1574 1574 106 106 96 96 0.0090.009 0.0003597120.000359712 0.0012906740.001290674 4.62728E-054.62728E-05 3.94209E-053.94209E-05 168 168 604 604 65 65 55 55 0.010.01 0.0007007760.000700776 0.0007094090.000709409 2.86536E-052.86536E-05 2.45602E-052.45602E-05 328 328 332 332 40 40 35 35 0.0110.011 0.0014086780.001408678 0.000360750.00036075 1.44158E-051.44158E-05 1.41488E-051.41488E-05 659 659 169 169 20 20 20 20 0.0120.012 00 0.0001803750.000180375 1.47717E-051.47717E-05 1.03224E-051.03224E-05 0 0 84 84 21 21 15 15 0.0130.013 00 00 1.06783E-051.06783E-05 6.40701E-066.40701E-06 0 0 0 0 15 15 9 9 0.0140.014 00 0.0001803750.000180375 5.69512E-065.69512E-06 5.7841E-065.7841E-06 0 0 84 84 8 8 8 8

- 0.014 미만의 대립유전자 빈도 수치는 표시를 생략함- Allele frequency values less than 0.014 are omitted.

2-1. 테스트 그룹의 대립유전자 빈도 분포 확인2-1. Identification of allele frequency distribution in test group

어느 하나의 합맵 세포주 시료의 서열정보를 수득한 결과에서, 467,701개의 대립유전자가 테스트 그룹에 포함되는 것을 확인하였다. 해당 합맵 세포주 시료 단독으로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하고, 그 비율을 그래프에 도시하였다(표 1 및 도 2 단독(single), 테스트(test) 그룹 참조). 또한, 해당 합맵 세포주 시료를 포함하는 8종의 합맵 세포주의 혼합 시료로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하고, 그 비율을 그래프에 도시하였다(표 1 및 도 2 8종(8-plex), 테스트(Test) 그룹 참조). In the result of obtaining the sequence information of any one of the haplotype cell samples, it was confirmed that 467,701 alleles were included in the test group. The number of alleles having an allele frequency in the allele frequency interval of 0 to 0.01 was analyzed for the test group in the result of performing sequencing on the mock matrix cell sample alone and the ratio thereof was shown in the graph 1 and 2, single test group). In addition, the number of alleles having an allele frequency in the allele frequency interval of 0 to 0.01 was calculated for the test group by sequencing with a mixed sample of eight kinds of mapped cell lines containing the corresponding mapped cell line sample (See Table 1 and Fig. 2, 8-plex, Test group).

도 2 및 표 1을 참조하면, 특정 배경 대립유전자 빈도(배경 대립유전자의 대립유전자 빈도)를 갖는 대립유전자 수가 서로 다른 것을 알 수 있다. 예들 들면, 테스트 그룹에서 0.007의 대립유전자 빈도를 가지는 그룹은 단독 시료를 분석한 경우 약 0.176%이고, 8종 혼합 시료에서 분석한 경우 약 0.427%로 나타났다. 단독 또는 8종의 혼합 시료에서 분석한 경우, 동일한 합맵 세포주 시료일지라도 배경 대립유전자의 대립유전자 빈도가 달라진 것을 확인하였다. Referring to FIG. 2 and Table 1, it can be seen that the number of alleles having a specific background allele frequency (allele frequency of background allele) is different. For example, the group with an allele frequency of 0.007 in the test group was found to be about 0.176% when analyzed alone and about 0.427% when analyzed in a mixture of eight samples. When analyzed in single or mixed samples of 8 species, the allele frequency of background allele was changed even in the same mock-up cell line sample.

배경 대립유전자 빈도 및 상기 배경 대립유전자 빈도를 가지는 대립유전자의 수의 곱을, 테스트 그룹에 속하는 대립유전자의 총 수로 나누어, 평균 대립유전자 빈도를 구하였다. 도 2를 참조하면, 해당 합맵 세포주 시료 단독에서 분석한 경우 해당 합맵 세포주 시료의 평균 배경 대립유전자 빈도는 약 0.052%로 나타났다. 8개의 합맵 세포주 시료를 포함한 혼합 시료에서 분석한 경우 해당 합맵 세포주 시료의 평균 배경 대립유전자 빈도는 약 0.077%로 나타났다. 따라서, 해당 합맵 세포주 시료는 다른 합맵 세포주 시료에 의하여 약 0.025%의 평균 오염 정도를 가지는 것을 알 수 있다.The average allele frequency was determined by dividing the product of the background allele frequency and the number of alleles having the background allele frequency by the total number of alleles belonging to the test group. Referring to FIG. 2, the average background allele frequency of the mock-up cell line samples was about 0.052% when the mock-up cell line samples were analyzed alone. The average background allele frequency of the mock-up cell line samples was about 0.077% when analyzed in mixed samples containing 8 hap cell line samples. Therefore, it can be seen that the sample cell line has an average contamination level of about 0.025% by the other mock-up cell line samples.

2-2. 대조군 그룹의 대립유전자 빈도 분포 확인2-2. Identification of the allele frequency distribution of the control group

어느 하나의 합맵 세포주 시료의 서열정보를 수득한 결과에서, 1,404,712개의 대립유전자가 대조군 그룹에 포함되는 것을 확인하였다. 해당 합맵 세포주 시료 단독으로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하여, 그 비율을 그래프에 도시하였다(표 1 및 도 2 단독(single), 대조군(control) 그룹 참조). 또한, 해당 합맵 세포주 시료를 포함하는 8종의 합맵 세포주의 혼합 시료로 시퀀싱을 수행한 결과에서, 상기 테스트 그룹에 대하여, 0 내지 0.01의 대립유전자 빈도 구간 내의 대립유전자 빈도를 갖는 대립유전자의 수를 분석하여, 그 비율을 그래프에 도시하였다(표 1 및 도 2 8종(8-plex), 대조군(control) 그룹 참조). 도 2 및 표 1을 참조하면, 특정 배경 대립유전자 빈도를 갖는 대립유전자 수가 거의 차이가 없는 것을 알 수 있다. 예들 들면, 대조군 그룹에서 0.007의 대립유전자 빈도를 가지는 그룹은 단독 시료를 분석한 경우 약 0.014%이고, 8종 혼합 시료에서 분석한 경우 약 0.012%로 나타났다. 단독 또는 8종의 혼합 시료에서 분석한 경우, 동일한 합맵 세포주 시료는 배경 대립유전자의 대립유전자 빈도에 차이가 거의 없는 것을 확인하였다. As a result of obtaining the sequence information of any one of the mosaic cell line samples, it was confirmed that 1,404,712 alleles were included in the control group. The number of alleles having an allele frequency in the allele frequency interval of 0 to 0.01 was analyzed for the test group in the result of performing the sequencing by the sample myeon cell line alone, and the ratio thereof was shown in the graph 1 and 2, single, control group). In addition, the number of alleles having an allele frequency in the allele frequency interval of 0 to 0.01 was calculated for the test group by sequencing with a mixed sample of eight kinds of mapped cell lines containing the corresponding mapped cell line sample , And the ratio is shown in the graph (see Table 1 and Fig. 2, 8-plex, control group). Referring to FIG. 2 and Table 1, it can be seen that the number of alleles having a specific background allele frequency is not substantially different. For example, the group with an allele frequency of 0.007 in the control group was about 0.014% when analyzed alone and about 0.012% when analyzed in a mixed sample of 8. When analyzed in single or mixed samples of 8 species, it was confirmed that there was little difference in allele frequency of background allele in the same mock-up cell line sample.

배경 대립유전자 빈도 및 상기 배경 대립유전자 빈도를 가지는 대립유전자의 수의 곱을, 콘트롤 그룹에 속하는 대립유전자의 총 수로 나누어, 평균 대립유전자 빈도를 구하였다. 도 2를 참조하면, 해당 합맵 세포주 시료 단독에서 분석한 경우 해당 합맵 세포주 시료의 평균 배경 대립유전자 빈도는 약 0.012%로 나타났다. 8개의 합맵 세포주 시료를 포함한 혼합 시료에서 분석한 경우 해당 합맵 세포주 시료의 평균 배경 대립유전자 빈도는 약 0.011%로 나타났다. 따라서, 해당 합맵 세포주 시료의 대조군 그룹은 다른 합맵 세포주 시료에 의하여 오염의 영향이 없거나 미미한 것을 확인하였다.The average allele frequency was determined by dividing the product of the background allele frequency and the number of alleles having the background allele frequency by the total number of alleles belonging to the control group. Referring to FIG. 2, the average background allele frequency of the mock-up cell line samples was about 0.012% when the mock-up cell line samples were analyzed alone. The mean background allele frequency of the mock-up cell line samples was about 0.011% when analyzed in mixed samples containing 8 hap cell line samples. Therefore, it was confirmed that the control group of the haplotype cell line samples had little or no influence of contamination by other haplotype cell line samples.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.The present invention has been described with reference to the preferred embodiments. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.

Claims (15)

컴퓨터를 이용한 시스템에서, 컴퓨터가 갖춘 서열정보 수득 수단이 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 단계;
산출 수단이 수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 단계; 및
빈도 비교 수단이 염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 단계를 포함하는, 표적 시료에 대한 시료의 교차 오염 정도를 분석하는 방법으로서,
상기 비교하는 단계는, 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 단계;
상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 수득하는 단계; 및
상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 수득된 대립유전자 빈도를 비교하는 단계를 포함하고,
상기 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 미리 정해진 기준값 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고,
상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 미리 정해진 기준값 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 것인 방법.
In a computer-based system, the sequential information obtaining means equipped with a computer is capable of obtaining first sequence information of a nucleic acid fragment from each of a target sample and an additional sample, and second sequence information of a nucleic acid fragment from a mixed sample containing the target sample and the additional sample ;
Calculating allelic frequency from each of the first sequence information and the second sequence information obtained by the calculating means; And
CLAIMS 1. A method for analyzing the degree of cross contamination of a sample with respect to a target sample, comprising comparing the calculated allele frequency with a specific site of the chromosome,
Wherein the comparing step comprises the steps of: selecting, in the obtained first sequence information, a set of mutation prediction positions by combining mutation prediction positions obtained from the sequence information of each of the target sample and the additional sample; Selecting a set of control seats;
Obtaining an allelic frequency of a genotype allele and a background allele from the first sequence information and the second sequence information for the mutation predicted spot set or the control group spot, respectively; And
Comparing the obtained allele frequency for the mutation predicted spot set or the control set set,
Wherein the background allele is determined as a background allele when the allele obtained from the first sequence information has an allele frequency lower than a predetermined reference value,
Wherein the allele of the genotype allele is determined as a genotype allele when the allele obtained from the first sequence information has an allele frequency equal to or higher than a predetermined reference value.
삭제delete 청구항 1에 있어서,
상기 선정하는 단계는, 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고,
상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 단계를 포함하는 것인 방법.
The method according to claim 1,
Wherein the selecting comprises selecting alleles that are both the background allele of the target sample and the genotype allele of the additional sample in the first sequence information as a test group,
Selecting alleles that are background alleles of the target sample and background alleles of the additional sample in the first sequence information as a control group, for the mutation predicting place set and the control group place set.
청구항 3에 있어서,
상기 수득된 대립유전자 빈도를 비교하는 단계는, 제1 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하는 단계를 포함하는 것인 방법.
The method of claim 3,
The step of comparing the allelic frequencies obtained comprises comparing the allele frequency of the test group obtained from the target sample obtained from the target sample among the first sequence information and the allele frequency of the test group obtained from the target sample among the second sequence information ≪ / RTI >
청구항 3에 있어서,
상기 수득된 대립유전자 빈도를 비교하는 단계는, 제1 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 단계를 포함하는 것인 방법.
The method of claim 3,
Comparing the obtained allele frequency comprises comparing the allele frequency of the control group obtained from the target sample among the first sequence information with the allele frequency of the control group obtained from the target sample of the first sequence information and the allele frequency of the control group obtained from the target sample among the second sequence information ≪ / RTI >
청구항 1에 있어서,
상기 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고,
상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 것인 방법.
The method according to claim 1,
Wherein the background allele is determined as a background allele when the allele obtained from the first sequence information has an allele frequency of less than 10%
Wherein the genotype allele is a genotype allele when the allele obtained from the first sequence information has an allele frequency of 10% or more.
청구항 1에 있어서, 상기 변이는 SNP 또는 SNV인 것인 방법.2. The method of claim 1, wherein the variation is a SNP or SNV. 표적 시료 및 추가 시료 각각으로부터 핵산 단편의 제1 서열정보, 및 상기 표적 시료 및 추가 시료가 혼합된 혼합 시료로부터 핵산 단편의 제2 서열정보를 수득하는 서열정보 수득부;
수득된 제1 서열정보 및 제2 서열정보로부터 각각 대립유전자 빈도를 산출하는 대립유전자 빈도 산출부; 및
염색체의 특정 자리에 대하여, 산출된 대립유전자 빈도를 비교하는 연산부를 포함하는,
표적 시료에 대한 시료의 교차 오염 정도를 분석하는 장치로서,
상기 연산부는 상기 수득된 제1 서열정보에서, 상기 표적 시료 및 추가 시료 각각의 서열정보로부터 얻어진 변이 예측 자리를 조합하여 변이 예측 자리 집합으로 선정하고, 상기 변이 예측 자리 집합을 제외한 자리를 대조군 자리 집합으로 선정하는 자리 선정부;
상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 상기 수득된 제1 서열정보 및 제2 서열정보로부터 각각 유전형 대립유전자 및 배경 대립유전자의 대립유전자 빈도를 수득하는 대립유전자 빈도 수득부; 및
상기 변이 예측 자리 집합 또는 대조군 자리 집합에 대하여, 수득된 대립유전자 빈도를 비교하는 연산부를 포함하고,
상기 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 미리 정해진 기준값 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고,
상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 미리 정해진 기준값 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 대립유전자 결정부를 포함하는 것인 장치.
A sequence information obtaining unit for obtaining first sequence information of a nucleic acid fragment from each of the target sample and the additional sample and second sequence information of the nucleic acid fragment from a mixed sample containing the target sample and the additional sample;
An allele frequency calculating unit for calculating an allele frequency from the obtained first sequence information and second sequence information, respectively; And
And a calculation unit for comparing the calculated allele frequency with respect to a specific site of the chromosome,
An apparatus for analyzing the degree of cross contamination of a sample with respect to a target sample,
Wherein the arithmetic unit selects, in the obtained first sequence information, a set of mutation prediction positions by combining mutation prediction positions obtained from the sequence information of each of the target sample and the additional sample, A seat for selecting a seat;
An allelic frequency obtaining unit for obtaining the allele frequency of the genotype allele and the background allele from the first sequence information and the second sequence information obtained for the mutation predicted spot group or the control group spot; And
And an arithmetic unit for comparing the obtained allelic frequency with respect to the mutation prediction set or control set,
Wherein the background allele is determined as a background allele when the allele obtained from the first sequence information has an allele frequency lower than a predetermined reference value,
Wherein the genotype allele comprises an allele determining unit that determines the allele as a genotype allele when the allele obtained from the first sequence information has an allele frequency equal to or higher than a predetermined reference value.
삭제delete 청구항 8에 있어서,
상기 자리 선정부는, 상기 변이 예측 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 유전형 대립유전자인 대립유전자를 테스트 그룹으로 선별하고,
상기 변이 예측 자리 집합 및 상기 대조군 자리 집합에 대하여, 제1 서열정보에서 표적 시료의 배경 대립유전자이면서 동시에 추가 시료의 배경 대립유전자인 대립유전자를 대조군 그룹으로 선별하는 그룹 선별부를 포함하는 것인 장치.
The method of claim 8,
Wherein the position selecting unit selects alleles which are both the background allele of the target sample and the genotype allele of the additional sample in the first sequence information as a test group,
And a group selector for selecting, as a control group, alleles which are background alleles of the target sample and background alleles of the additional sample in the first sequence information, with respect to the mutation predicting place set and the control group place set.
청구항 10에 있어서,
상기 수득된 대립유전자 빈도를 비교하는 연산부는, 제1 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 테스트 그룹의 대립유전자 빈도를 비교하는 연산부를 포함하는 것인 장치.
The method of claim 10,
The arithmetic unit for comparing the obtained allele frequencies includes an allele frequency of the test group obtained from the target sample in the first sequence information and an allele frequency of the test group obtained from the target sample in the second sequence information, / RTI >
청구항 10에 있어서,
상기 수득된 대립유전자 빈도를 비교하는 연산부는, 제1 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도, 및 제2 서열정보 중 표적 시료로부터 수득된 대조군 그룹의 대립유전자 빈도를 비교하는 연산부를 포함하는 것인 장치.
The method of claim 10,
The arithmetic unit for comparing the obtained allelic frequencies includes an allele frequency of the control group obtained from the target sample in the first sequence information and an allele frequency of the control group obtained from the target sample in the second sequence information, / RTI >
청구항 8에 있어서,
상기 대립유전자 결정부는, 배경 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 미만의 대립유전자 빈도를 가지는 경우 이 대립유전자를 배경 대립유전자로 결정하고,
상기 유전형 대립유전자는 제1 서열정보로부터 수득된 대립유전자가 10% 이상의 대립유전자 빈도를 가지는 경우 이 대립유전자를 유전형 대립유전자로 결정하는 것인 장치.
The method of claim 8,
Wherein the allele determining unit determines that the allele of the background allele is a background allele when the allele obtained from the first sequence information has an allele frequency of less than 10%
Wherein the genotype allele is a genotype allele when the allele obtained from the first sequence information has an allele frequency of 10% or more.
청구항 8에 있어서, 상기 변이는 SNP 또는 SNV인 것인 장치.9. The apparatus of claim 8 wherein the variation is SNP or SNV. 1 및 3 내지 7항 중 어느 한 항에 따른 방법을 실행시키기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method according to any one of claims 1 to 3.
KR1020160064067A 2016-05-25 2016-05-25 Method for analyzing cross-contamination of samples and apparatus using the same method KR101882866B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160064067A KR101882866B1 (en) 2016-05-25 2016-05-25 Method for analyzing cross-contamination of samples and apparatus using the same method
PCT/KR2016/009451 WO2017204414A1 (en) 2016-05-25 2016-08-25 Method and apparatus for analyzing degree of cross-contamination of sample

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160064067A KR101882866B1 (en) 2016-05-25 2016-05-25 Method for analyzing cross-contamination of samples and apparatus using the same method

Publications (2)

Publication Number Publication Date
KR20170133079A KR20170133079A (en) 2017-12-05
KR101882866B1 true KR101882866B1 (en) 2018-08-24

Family

ID=60411779

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160064067A KR101882866B1 (en) 2016-05-25 2016-05-25 Method for analyzing cross-contamination of samples and apparatus using the same method

Country Status (2)

Country Link
KR (1) KR101882866B1 (en)
WO (1) WO2017204414A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101913735B1 (en) * 2018-05-03 2018-11-01 주식회사 셀레믹스 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples
KR102192864B1 (en) * 2019-03-29 2020-12-18 연세대학교 산학협력단 Method for verification of ngs sample and device for verification of ngs sample using the same

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050048505A1 (en) 2003-09-03 2005-03-03 Fredrick Joseph P. Methods to detect cross-contamination between samples contacted with a multi-array substrate
US20120046877A1 (en) 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation
US20150178445A1 (en) 2012-08-28 2015-06-25 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
WO2015184246A1 (en) 2014-05-29 2015-12-03 Synta Pharmaceuticals Corp. Targeted therapeutics
WO2016040900A1 (en) 2014-09-14 2016-03-17 Washington University Personalized cancer vaccines and methods therefor
WO2016125132A1 (en) 2015-02-08 2016-08-11 Argaman Technologies Ltd. Antimicrobial material comprising synergistic combinations of metal oxides

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050048505A1 (en) 2003-09-03 2005-03-03 Fredrick Joseph P. Methods to detect cross-contamination between samples contacted with a multi-array substrate
US20120046877A1 (en) 2010-07-06 2012-02-23 Life Technologies Corporation Systems and methods to detect copy number variation
US20150178445A1 (en) 2012-08-28 2015-06-25 The Broad Institute, Inc. Detecting variants in sequencing data and benchmarking
WO2015184246A1 (en) 2014-05-29 2015-12-03 Synta Pharmaceuticals Corp. Targeted therapeutics
WO2016040900A1 (en) 2014-09-14 2016-03-17 Washington University Personalized cancer vaccines and methods therefor
WO2016125132A1 (en) 2015-02-08 2016-08-11 Argaman Technologies Ltd. Antimicrobial material comprising synergistic combinations of metal oxides

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Bioinformatics (2011) 27(18):2601-2602
Genome Biology (2013) 14:R90*
Genome Research (2000) 10: 258-266
International Journal of Cancer (2013) 132(2):308-314
The american Journal of Human Genetics (2012) 91:839-848

Also Published As

Publication number Publication date
KR20170133079A (en) 2017-12-05
WO2017204414A1 (en) 2017-11-30

Similar Documents

Publication Publication Date Title
Rodin et al. The landscape of somatic mutation in cerebral cortex of autistic and neurotypical individuals revealed by ultra-deep whole-genome sequencing
US11031100B2 (en) Size-based sequencing analysis of cell-free tumor DNA for classifying level of cancer
Sathirapongsasuti et al. Exome sequencing-based copy-number variation and loss of heterozygosity detection: ExomeCNV
US11043283B1 (en) Systems and methods for automating RNA expression calls in a cancer prediction pipeline
Peyrégne et al. AuthentiCT: a model of ancient DNA damage to estimate the proportion of present-day DNA contamination
Löwer et al. Confidence-based somatic mutation evaluation and prioritization
CN111566225A (en) Normalization of tumor mutational burden
US20210292836A1 (en) Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications
Lou et al. Batch effects in population genomic studies with low‐coverage whole genome sequencing data: Causes, detection and mitigation
Lange et al. Analysis pipelines for cancer genome sequencing in mice
KR101882866B1 (en) Method for analyzing cross-contamination of samples and apparatus using the same method
KR102347463B1 (en) Method and appartus for detecting false positive variants in nucleic acid sequencing analysis
US20240029890A1 (en) Computational modeling of loss of function based on allelic frequency
KR101882867B1 (en) Method and apparatus for determining the reliability of variant detection markers
Castellana et al. A solid quality-control analysis of AB SOLiD short-read sequencing data
D’Agaro New advances in NGS technologies
KR101977976B1 (en) Method for increasing read data analysis accuracy in amplicon based NGS by using primer remover
CN109390039B (en) Method, device and storage medium for counting DNA copy number information
Gao et al. A systematic evaluation of hybridization-based mouse exome capture system
US20220399079A1 (en) Method and system for combined dna-rna sequencing analysis to enhance variant-calling performance and characterize variant expression status
KR102347464B1 (en) A method and apparatus for determining true positive variation in nucleic acid sequencing analysis
Shaik et al. Tools and Methods in Analysis of Complex Sequences
Weber Integrating Diverse Technologies for Genomic Variant Discovery
Barcelona-Cabeza et al. Integrating WES and RNA-Seq Data For Short Variant Discovery
Acharya et al. Impact of Human Exome Sequencing on Clinical Research

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant