KR101913735B1 - Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples - Google Patents

Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples Download PDF

Info

Publication number
KR101913735B1
KR101913735B1 KR1020180051375A KR20180051375A KR101913735B1 KR 101913735 B1 KR101913735 B1 KR 101913735B1 KR 1020180051375 A KR1020180051375 A KR 1020180051375A KR 20180051375 A KR20180051375 A KR 20180051375A KR 101913735 B1 KR101913735 B1 KR 101913735B1
Authority
KR
South Korea
Prior art keywords
sequencing
oligonucleotide
sequence
sample
dna
Prior art date
Application number
KR1020180051375A
Other languages
Korean (ko)
Inventor
김효기
한효준
정재환
장훈
Original Assignee
주식회사 셀레믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀레믹스 filed Critical 주식회사 셀레믹스
Priority to KR1020180051375A priority Critical patent/KR101913735B1/en
Application granted granted Critical
Publication of KR101913735B1 publication Critical patent/KR101913735B1/en
Priority to PCT/KR2019/002634 priority patent/WO2019212138A1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6848Nucleic acid amplification reactions characterised by the means for preventing contamination or increasing the specificity or sensitivity of an amplification reaction

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

The present invention relates to a recombination vector containing oligonucleotide for searching cross-contamination between next generation sequence samples, and a next generation sequence analysis method capable of searching cross-contamination between the next-generation sequence analysis samples by using the recombination vector. The oligonucleotide has one or more sequences selected from the group consisting of the sequences of SEQ ID NOs: 1 to 21.

Description

차세대 염기서열 분석을 위한 시료 간 교차 오염 탐색용 내부 검정 물질{Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples}An internal control substance for inter-sample cross-contamination search for next-generation sequence sequencing has been proposed for cross-contamination of nextgeneration sequencing samples.

본 발명은 차세대 염기서열 분석 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터, 및 상기 재조합 벡터를 이용하여 차세대 염기서열 분석 시료 간 교차 오염을 탐색할 수 있는, 차세대 염기 서열분석법에 관한 것이다. The present invention relates to a recombinant vector containing an oligonucleotide for cross-contamination detection of a next-generation nucleotide sequence analyzing sample, and a next-generation sequencing method capable of searching for cross-contamination between next-generation nucleotide sequence analysis samples using the recombinant vector.

다양한 생체 정보는 DNA 서열의 유전자로 표현되고, 개체의 완전한 DNA 서열 정보는 생명 현상을 이해하고 질병과 관련된 정보를 얻을 수 있어 매우 중요하다. DNA 서열 정보의 해독, 즉 게놈 시퀀싱(genome sequencing)의 핵심은 개인차 및 민족적 특성을 파악하거나 유전자 이상과 관련된 질환에서 염색체 이상을 포함한 선천성 원인의 규명과 당뇨병, 고혈압과 같은 복합 질병의 유전자 결함을 찾기 위한 것이다. 또한, 시퀀싱 데이터는 유전자 발현, 유전자 다양성 및 그 상호작용 등의 정보들을 분자 진단과 치료 영역에서 폭넓게 활용할 수 있어 매우 중요하다.A variety of biometric information is expressed as genes of the DNA sequence, and the complete DNA sequence information of the individual is very important because it can understand the life phenomenon and obtain information related to the disease. At the core of genome sequencing is the identification of genetic sequencing, identification of individual differences and genetic characteristics, identification of genetic defects including chromosomal abnormalities in diseases associated with gene abnormalities, and genetic defects in complex diseases such as diabetes and hypertension . In addition, sequencing data is very important because it can widely utilize information such as gene expression, genetic diversity, and its interaction in molecular diagnostics and therapy.

게놈 시퀀싱을 위한 방법으로 2007년 이래로 차세대 염기서열 분석법(Next Generation Sequencing; NGS)이 이용되기 시작하였고, NGS의 개발에 따라 전통적인 방법과 비교하여 훨씬 쉽고 저비용으로 분석할 수 있게 되었다. 차세대 염기서열 분석법을 구현하는 차세대 게놈 시퀀서(Next Generation Sequencer)로 대표적인 것으로는 로슈(Roche)/454, 일루미나(Illumina)/Solexa 및 라이프 테크놀로지스(ABI)의 SOLiD 등이 있다. 이러한 차세대 염기서열 분석기기들은 7시간에 8,000만개 이상의 서열 판독이 가능하다. 이러한 기술 발전으로 종래에 막대한 검사 비용으로 인해 연구용으로만 사용되던 차세대 염기서열 분석법을 의료용 임상 검사에서도 활용할 수 있게 되었다.Since 2007, Next Generation Sequencing (NGS) has been used as a method for genome sequencing, and as NGS has been developed, it has become much easier and less costly to analyze than traditional methods. Roche / 454, Illumina / Solexa, and SOLiD of Life Technologies (ABI) are examples of next generation sequencers that implement next-generation sequencing. These next-generation sequencing instruments can read more than 80 million sequences in 7 hours. These advances in technology have made it possible to utilize the next-generation sequencing method, which was previously used only for research purposes, in medical clinical tests due to the huge cost of testing.

그러나 기존의 일루미나 사의 차세대 염기서열 분석법을 이용하는 경우 시료 준비 시, 각 시료별 식별 정보를 포함하는 인덱스 서열을 붙이기 전에 발생할 수 있는 시료 간 교차 오염을 별도로 분리해낼 수 없다는 문제점이 있다.However, when using the existing method of next generation nucleotide sequencing of Illumina, there is a problem in that cross-contamination between samples that can occur before attaching an index sequence including identification information for each sample can not be separated at the time of sample preparation.

이에, 본 발명에서는 최초 시료 준비 시에 각 시료를 식별할 수 있는 바코드 서열을 지닌 내부 검정 물질을 혼합함으로써 인덱스 서열을 붙이기 전 실험자의 오류 및 에어로졸을 통해 발생할 수 있는 교차 오염 여부를 확인하고자 하였다.Accordingly, in the present invention, an attempt was made to confirm whether the cross-contamination occurred through the aerosol and the error of the experimenter before the index sequence was attached by mixing an internal test substance having a bar code sequence that can identify each sample at the time of preparing the initial sample.

일 양상은 차세대 염기서열 분석 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 제공한다.One aspect provides a recombinant vector comprising oligonucleotides for cross-contamination detection of next generation sequencing assays.

다른 양상은 상기 재조합 벡터를 이용하여 차세대 염기서열 분석 시료 간 교차 오염을 탐색할 수 있는 차세대 염기 서열분석법을 제공한다.Another aspect provides a next generation sequencing method capable of detecting cross-contamination between next-generation sequencing assays using the recombinant vectors.

일 양상은 차세대 염기서열 분석 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 제공한다.One aspect provides a recombinant vector comprising oligonucleotides for cross-contamination detection of next generation sequencing assays.

차세대 염기서열 분석법(next generation sequencing: NGS)은 전장 유전체를 무수히 많은 조각을 분해하여 각 조각을 초병렬적으로 읽어낸 뒤 전산 기술을 이용하여 조합함으로써 방대한 유전체 정보를 빠르게 해독하는 방법이다. 차세대 염기서열 분석법에 의해 짧은 시간 내에 분석 대상이 되는 시료에 대해 대량의 염기서열 데이터를 생성할 수 있다.Next generation sequencing (NGS) is a method of quickly deciphering vast quantities of genomic information by disassembling a myriad of fragments, reading each fragment in supra-parallel, and combining it with computational techniques. The next generation sequencing method can generate a large amount of nucleotide sequence data for a sample to be analyzed within a short time.

본 발명에서 초병렬 시퀀싱은 현재 차세대 염기서열 분석법으로 알려진 방법 및 장래 개발될 수 있는 방법을 포함한다. 상기 초병렬 시퀀싱은 합성에 의한 시퀀싱(sequencing by synthesis), 이온 토렌트(Ion-Torrent) 시퀀싱, 파이로시퀀싱(pyrosequencing), 라이게이션에 의한 시퀀싱, 나노 포어 시퀀싱, 단일-분자 실시간 시퀀싱, 폴로니 시퀀싱(polony sequencing), 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(MPSS), DNA 나노볼 시퀀싱(nanoball sequencing) 및 헬리스콥 단일 분자 시퀀싱(Heliscope single molecule sequencing)으로 이루어진 군으로부터 선택되는 것일 수 있다.In the present invention, super parallel sequencing includes a method known as a next generation sequencing method and a method that can be developed in the future. The superparallel sequencing can be performed by sequencing by synthesis, ion torrent sequencing, pyrosequencing, sequencing by ligation, nanopore sequencing, single-molecule real-time sequencing, polynucleotide sequencing, polymorphic sequencing, massively parallel signature sequencing (MPSS), DNA nanoball sequencing, and Heliscope single molecule sequencing.

차세대 염기서열 분석법은 다양한 적용분야(application)에서 이용되며, 예를 들면 어떤 한 개체의 전체 게놈을 분석하는 전장 게놈 시퀀싱(whole genome sequencing), 전체 게놈에 존재하는 유전자의 엑손 부분만을 모아 분석하는 엑솜 시퀀싱(exome sequencing), 전체 유전체 염기서열 중 관심부위(targeted region)만을 분석하는 표적 시퀀싱(targeted sequencing), 발현하는 RNA 전체에 대한 염기서열을 분석하는 전장 전사체 시퀀싱(transcriptome sequencing), DNA 메틸화, 히스톤 변형, 비암호화 RNA 등을 분석하는 에피제놈(epigenome), 미생물 군집(community)을 분석하는 메타제놈(metagenome) 등이 있다. 차세대 염기서열 분석법을 이용하는 분야는 계속 확대되고 있다.Next-generation sequencing is used in a variety of applications including, for example, whole genome sequencing, which analyzes the entire genome of an individual, and exome analysis, Sequencing (exome sequencing), targeted sequencing for analyzing only the targeted region of the entire genome sequence, transcriptome sequencing for analyzing the nucleotide sequence of all the expressed RNAs, DNA methylation, An epigenome for analyzing histone deformation and non-coding RNA, and a metagenome for analyzing a microorganism community. The field of using next-generation sequencing has continued to expand.

본 발명의 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터는 전술된 어떠한 시퀀싱 방법 및 어떠한 분야에서도 이용 가능하다.A recombinant vector comprising an oligonucleotide for NGS inter-species cross-contamination search of the present invention is available in any of the above-described sequencing methods and in any field.

차세대 염기서열 분석법은, 시퀀싱 방법 및 분야에 따라 달라지기는 하지만, 크게 두 단계로 나누어 볼 수 있다. 첫 번째, 분석 대상이 되는 DNA를 차세대 염기서열 분석기기에 의해 시퀀싱이 가능한 형태로 만드는 NGS 라이브러리의 제조단계이고, 두 번째는, 제조된 NGS 라이브러리를 차세대 염기서열 분석기기로 분석하는 단계이다.The next-generation sequencing method can be divided into two stages, depending on the sequencing method and field. The first step is the preparation of an NGS library to make the DNA to be analyzed into a form that can be sequenced by a next-generation sequencing analyzer. The second step is to analyze the prepared NGS library with a next-generation sequencing analyzer.

일반적으로 DNA 라이브러리의 제조 단계는 다음을 포함한다.Generally, the steps of preparing the DNA library include the following.

(1) 분석 대상으로부터 게놈 DNA를 추출하는 시료 준비 단계;(1) a sample preparation step of extracting genomic DNA from an analyte;

(2) 추출된 게놈 DNA를 파편화시키는 단계;(2) fragmenting the extracted genomic DNA;

(3) 말단 수선(end repair) 및 아데노신 접합(dA-Tailing): 파편화된 이중 가닥 DNA를 구성하는 두 개의 단일 가닥 DNA 양쪽 말단 길이를 서로 동일하게 맞추고, 이의 3'말단에 염기 A 하나를 접합한다.(3) End repair and adenosine conjugation (dA-Tailing): Two single-stranded DNAs constituting the fragmented double-stranded DNA are aligned with each other at the same length, and a base A is bonded to the 3'- do.

(4) 어댑터(adapter) 접합: 차세대 염기서열 분석기기에 의한 시퀀싱을 위해 이중 가닥 DNA 파편에 어댑터를 접합한다. 이 어댑터가 각 시료를 표지할 수 있는 인덱스 서열을 포함할 수 있다.(4) Adapter bonding: Adapts the adapter to double-stranded DNA fragments for sequencing by next-generation sequencing instruments. This adapter may contain an index sequence capable of labeling each sample.

(5) 중합효소연쇄반응(polymerase chain reaction; PCR): PCR을 통해 분석 대상 DNA를 증폭한다. 이때 인덱스 염기서열이 삽입된 인덱스 프라이머를 사용하여 PCR을 진행함으로써 분석 대상 DNA에 인덱스 염기서열 도입 및 증폭을 수행할 수도 있다.(5) Polymerase chain reaction (PCR): The DNA to be analyzed is amplified by PCR. At this time, by performing PCR using an index primer in which an index base sequence is inserted, index base sequence introduction and amplification can be performed on the DNA to be analyzed.

상기 과정을 통해 생성된 DNA 분자 풀을 'NGS 라이브러리' 라고 칭한다.The pool of DNA molecules generated through the above process is referred to as an " NGS library ".

상기 NGS 라이브러리의 제조 단계를 보면, (4) 어댑터 접합 단계 또는 (5) PCR 단계에서 각 시료별 식별 정보를 포함하는 인덱스 서열을 붙이기 전에, 발생할 수 있는 시료 간 교차 오염을 별도로 분리해내기 어렵다. 본 발명에서는 상기 (1) 시료 준비 단계에서 각 시료를 식별할 수 있는 바코드 서열을 지닌 내부 검정 물질을 투입함으로써 어댑터 접합 전, 실질적으로는 차세대 염기서열 분석법 전체 단계에서 시료 간 교차 오염 여부를 확인할 수 있다.It is difficult to separate cross-contamination between samples that can occur before attaching the index sequence including identification information for each sample in the (4) adapter splicing step or (5) PCR step in the production step of the NGS library. In the present invention, the internal test substance having a bar code sequence capable of identifying each sample in the above (1) sample preparation step is introduced so that cross-contamination between samples can be confirmed before the adapter bonding and substantially at all stages of the next generation nucleotide sequence analysis have.

본 발명에서, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드 및 이를 포함하는 재조합 벡터는 NGS 시료 간 교차 오염을 탐색함과 동시에 서로 다른 시료를 구별 가능하게 한다. 이러한 특징으로 인하여 상기 올리고뉴클레오티드 및 이를 포함하는 재조합 벡터는 용어 '바코드', 'spike-in' 또는 '내부 검정 물질'과 상호 교환적으로 사용될 수 있다.In the present invention, the NGS cross-contamination oligonucleotide and the recombinant vector containing the NGS sample are used to search for cross-contamination between NGS samples and to distinguish different samples from each other. Due to this feature, the oligonucleotide and the recombinant vector comprising it can be used interchangeably with the term 'barcode', 'spike-in' or 'internal test substance'.

용어 '바코드'란 하나의 NGS 라이브러리로 모아진 각각의 다른 시료들을 구별할 수 있도록 하기 위한 고유의 염기서열 단편을 말한다.The term 'barcode' refers to a unique sequence of nucleotides that can be used to distinguish each different sample collected into one NGS library.

용어 '내부 검정 물질'이란 동일한 검체 용기에 목표로 하지 않는 염기서열을 넣어서 목표로 하는 서열과 동시에 증폭되게 하여, 차세대 염기서열 분석법 전 단계가 제대로 진행되었는지 확인하기 위한 목적으로 사용되는 물질(즉, 상기 목표로 하지 않는 염기서열)을 말한다.The term 'internal test substance' refers to a substance used for the purpose of confirming whether the previous step of the next-generation sequencing method has proceeded by inserting a non-target sequence into the same sample container and amplifying it simultaneously with the target sequence (that is, Quot; non-target base sequence ").

본 발명에서는, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드인 바코드 서열이 상기 (1) 시료 준비 단계에서 벡터에 삽입된 형태로 시료에 투입되고, 또한 종래의 NGS에서 사용되는 인덱스 서열이 상기 (4) 어댑터 접합 단계 또는 (5) PCR 단계에서 어댑터에 포함된 형태로 투입될 수 있다. 이로써, 인덱스 서열을 붙이기 전 발생할 수 있는 교차 오염 여부를 알아낼 수 있다.In the present invention, a barcode sequence which is an oligonucleotide for NGS cross-contamination search is introduced into a sample in the form of (1) a sample inserted into a vector, and the index sequence used in conventional NGS is the Adapter bonding step, or (5) PCR step. This allows you to determine whether cross-contamination can occur before attaching the index sequence.

본 발명에서 '차세대 염기서열 분석(NGS) 시료 간 교차 오염 탐색용 올리고뉴클레오티드'는 바코드 서열로서 작용할 수 있다면 어떠한 서열이든 본 발명의 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드로 이용될 수 있다. 구체적으로, 그러한 올리고뉴클레오티드는 NGS 라이브러리를 구성하는 각 시료를 구분 가능하게 하고, 이를 통해 시료 간 교차 오염도 확인할 수 있게 하는, 임의의 뉴클레오티드 서열로 이루어진, 길이 2 내지 1000개, 3 내지 100개, 4 내지 50개, 5 내지 20개의 올리고뉴클레오티드일 수 있다. 더 구체적으로, 상기 올리고뉴클레오티드는 서열번호 1 내지 21의 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 가질 수 있다.In the present invention, any sequence can be used as an oligonucleotide for cross-contamination detection of the NGS samples of the present invention, as long as it can serve as a bar code sequence, 'Next Generation Sequence Analysis (NGS) Cross-contamination search oligonucleotide'. Specifically, such oligonucleotides may be of length 2 to 1000, 3 to 100, 4, 5, 6, 7, 8, 9, 10, 11, To 50, 5 to 20 oligonucleotides. More specifically, the oligonucleotide may have one or more sequences selected from the group consisting of the sequences of SEQ ID NOS: 1 to 21.

본 발명의 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드는 하나 또는 둘 이상의 조합으로 이용할 수 있으며, 이를 통해 수많은 시료를 구분 가능하게 할 수 있다. 구체적으로, 상기 올리고뉴클레오티드 서열 21개는 2개 이상의 조합으로 21개 이상의, 수많은 시료를 구분 가능하게 할 수 있다. 예를 들어, 시료 1은 서열번호 1 및 서열번호 2의 올리고뉴클레오티드를 바코드로 이용하고, 시료 2는 서열번호 1 및 서열번호 3의 올리고뉴클레오티드로 바코드를 이용하면, 시료 1과 시료 2의 바코드 조합이 다르기 때문에 추후 구분할 수 있다.The oligosaccharides for cross-contamination detection of NGS of the present invention can be used in one or a combination of two or more so that a large number of samples can be distinguished. Specifically, the oligonucleotide sequences 21 can be divided into a plurality of 21 or more samples by combining two or more oligonucleotides. For example, sample 1 uses the oligonucleotides of SEQ ID NO: 1 and SEQ ID NO: 2 as bar codes, sample 2 uses bar codes as oligonucleotides of SEQ ID NO: 1 and SEQ ID NO: 3, and bar code combination of sample 1 and sample 2 It can be distinguished later.

상기 올리고뉴클레오티드가 조합으로 이용되는 경우, 올리고뉴클레오티드 각각이 별개의 벡터에 삽입된 형태로 이용되거나, 둘 이상의 올리고뉴클레오티드가 하나의 벡터에 삽입된 형태로 이용될 수도 있다.When the oligonucleotides are used in combination, each of the oligonucleotides may be used in a form inserted into a separate vector, or two or more oligonucleotides may be inserted into one vector.

상기 올리고뉴클레오티드 또는 이들의 조합은 벡터에 삽입된 형태로 NGS 시료에 투입될 수 있다. 본 발명에서 용어 '벡터(vector)'란 복제 가능하고 유전자 같은 외래 DNA를 수용 세포로 전달할 수 있는 DNA 분자로서 플라스미드(plasmid), 파지(phage), 코스미드(cosmid), 인조 염색체 등이 있다.The oligonucleotides or combinations thereof may be introduced into the NGS sample in the form embedded in a vector. In the present invention, the term 'vector' refers to a DNA molecule capable of replication and transferring a foreign DNA such as a gene to a recipient cell, such as a plasmid, a phage, a cosmid or an artificial chromosome.

본 발명에서는 벡터로, NGS 시료에, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 전달할 수 있는 형태라면 특별히 한정되지 않으며, 당업계에 알려진 임의의 벡터를 이용할 수 있다. 통상 사용되는 벡터의 예로는 천연 상태이거나 재조합된 상태의 플라스미드, 코스미드, 바이러스 및 박테리오파지를 들 수 있다.In the present invention, the vector is not particularly limited as long as it is capable of delivering the oligosaccharide for NGS cross-contamination detection to the NGS sample, and any vector known in the art can be used. Examples of commonly used vectors include plasmids, cosmids, viruses and bacteriophages in their natural or recombinant state.

구체적으로는, 염기서열의 유사성 등으로 인해 분석하고자 하는 개체 (예, 사람)의 데이터 분석을 방해하지 않는 염기서열로 이루어진 벡터, 또는 그 목적에 맞게 변형시킨 벡터를 이용할 수 있다.Specifically, a vector consisting of a nucleotide sequence that does not interfere with the analysis of an individual (for example, a human) to be analyzed due to the similarity of the nucleotide sequence or the like, or a vector modified according to the purpose can be used.

본 발명에서는 예를 들어, 파지 벡터 또는 코스미드 벡터로서 pWE15, M13, λBL3, λBL4, λⅨII, λASHII, λAPII, λt10, λt11, Charon4A, 및 Charon21A 등을 사용할 수 있으며, 플라스미드 벡터로서 pBR계, pUC계, pBluescriptII계, pGEM계, pTZ계, pCL계 및 pET계 등을 사용할 수 있다. 구체적으로는 pUC계 벡터, 더욱 구체적으로는 pUC18 또는 pUC19 벡터를 이용할 수 있다. 또한, pUC18과 서열 상동성이 높고 pUC18 벡터로부터 유래된 벡터를 이용할 수도 있고, pUC19과 서열 상동성이 높고 pUC19 벡터로부터 유래된 벡터를 이용할 수도 있다.In the present invention, for example, pWE15, M13, lambda BL3, lambda BL4, lambda lII, lambda AS11, lambda ApII, lambda tlO, lambda tl l, Charon4A and Charon21A can be used as a phage vector or cosmid vector. , pBluescriptII system, pGEM system, pTZ system, pCL system, pET system and the like can be used. Specifically, a pUC-based vector, more specifically, pUC18 or pUC19 vector can be used. Alternatively, a vector derived from a pUC18 vector having high sequence homology with pUC18 may be used, or a vector derived from a pUC19 vector having high sequence homology with pUC19 may be used.

pUC18 또는 pUC19 벡터를 이용할 경우, 대개의 차세대 염기서열 분석법에 이용하는 사람 게놈 데이터에 영향을 주지 않으며, 고복제 플라스미드(high-copy plasmid)로써 대량 생산이 쉽다는 장점이 있다. 또한, 별도의 전 처리 과정을 거치지 않고, 분석 대상 시료에 혼합한 후 일반적인 차세대 염기서열 분석법을 수행할 수 있다.The use of pUC18 or pUC19 vectors does not affect the human genome data used in most of the next generation sequencing assays and has the advantage of being easy to mass-produce as high-copy plasmids. In addition, it is possible to carry out a general next-generation sequencing analysis method after mixing with a sample to be analyzed without going through a separate pretreatment process.

상기 벡터에 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 삽입하여 재조합 벡터를 제작한다. 용어 '재조합' 이란 DNA나 RNA와 같이 유전자를 이루는 요소가 해체와 재조립 과정에서 원래의 서열과는 다르게 바뀌는 것을 말한다.An oligonucleotide for cross-contamination detection of NGS samples is inserted into the vector to construct a recombinant vector. The term 'recombination' refers to the fact that elements such as DNA or RNA, which constitute genes, are changed from the original sequence during disassembly and reassembly.

상기 올리고뉴클레오티드를 포함하는 재조합 벡터는 둘 이상의 핵산 단편을 연결하는 통상의 방법에 따라 제작될 수 있다. 구체적으로는, 깁슨 어셈블리(Gibson assembly) 방법을 이용하여 제작될 수 있다(도 1). 예를 들면, 상업적으로 이용 가능한 깁슨 어셈블리 키트를 이용할 수 있다. 이 키트를 이용할 경우, 조립할 단편을 서로 겹치는 부분이 있도록 PCR 증폭한 후 이 증폭한 PCR 단편을 깁슨 어셈블리 마스터 믹스(master mix)와 섞고 약 50℃에서 15 내지 240분 동안 반응시킨다. 그러면, 일단 T5 엑소뉴클레아제(exonuclease)의 작용으로 단일 가닥 오버행(overhang)이 만들어지고, 이 오버행끼리 서로 어닐링(annealing)된 후 DNA 폴리머라제(polynerase)가 결실된 염기를 채워 3' 까지 연장하고, DNA 리가제가 Nick을 복구하는 반응이 일어나서, 원하는 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 제작할 수 있다.The recombinant vector containing the oligonucleotide can be prepared according to a conventional method of linking two or more nucleic acid fragments. Specifically, it can be manufactured using the Gibson assembly method (FIG. 1). For example, a commercially available Gibson assembly kit can be used. When using this kit, PCR amplification is performed so that the fragments to be assembled overlap each other, and the amplified PCR fragments are mixed with a Gibson assembly master mix and reacted at about 50 ° C for 15 to 240 minutes. Then, a single-stranded overhang is created by the action of T5 exonuclease, and after annealing each of the overhangs, the DNA polymerase is filled up to the deleted base and extended to 3 ' , A reaction occurs in which the DNA ligase restores Nick, and a recombination vector containing oligonucleotides for the desired cross-contamination detection of NGS samples can be produced.

이렇게 제작된 재조합 벡터는 적절한 숙주에 형질전환되어 대량으로 생산될 수도 있다. 숙주로는, 형질전환 효율이 높고 배양이 용이한 숙주를 이용할 수 있다. 구체적으로 대장균일 수 있고, 예를 들면 형질전환 효율을 높인 수용성(Competent) 세포인 E. coli HB101, JM109, DH5α, CJ236, BMH71-18 mutS, MV1184, TH2 일 수 있다. 형질전환은 당업계에서 통상적으로 사용되는 방법이 사용될 수 있고, 선택한 숙주에 효율적인 형질전환 방법이 이용될 수 있다. 예를 들면, CaCl2 침전법, CaCl2 방법에 DMSO(dimethyl sulfoxide)를 사용함으로써 효율을 높인 Hanahan 방법, 전기천공법(electroporation)법 등이 있다.The recombinant vector thus produced may be transformed into an appropriate host and produced in large quantities. As the host, a host having high transformation efficiency and easy cultivation can be used. Specifically, it may be E. coli, for example E. coli HB101, JM109, DH5 ?, CJ236, BMH71-18 mutS, MV1184, TH2 which are competent cells with enhanced transformation efficiency. Transformation can be performed by a method commonly used in the art, and an efficient transformation method can be used for the selected host. For example, there are the CaCl 2 precipitation method, the Hanahan method which increases the efficiency by using DMSO (dimethyl sulfoxide) in the CaCl 2 method, and the electroporation method.

상기 형질전환된 숙주는, 선택한 숙주에 적합한 배지와 배양 조건에서 배양될 수 있다. 미생물은 통상의 배지에서 생육 가능하며, 예를 들면, 뉴트리엔트 브로스(Nutrient broth) 배지에서 배양할 수 있다. 상기 배지는 특정 미생물을 배양하기 위하여 배양대상 즉 배양체가 되는 미생물이 필요로 하는 영양물질을 포함하는 것으로 특수한 목적을 위한 물질이 추가로 첨가되어 혼합된 것일 수 있다. 배양을 통해 숙주 개체수와 함께 이에 형질전환된 재조합 벡터도 증폭시킬 수 있고, 이렇게 배양된 배양물로부터 원하는 재조합 벡터를 분리할 수 있다.The transformed host can be cultured under culture medium and culture medium suitable for the selected host. The microorganism can be grown in a conventional medium, for example, in a nutrient broth medium. The culture medium may contain nutrients required for culturing, that is, a microorganism to be cultured in order to cultivate a specific microorganism, and may be a mixture in which a substance for a special purpose is further added and mixed. The recombinant vector transformed with the host population as well as the culture can be amplified and the desired recombinant vector can be isolated from the thus cultured culture.

다른 양상은 차세대 염기서열 분석 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 이용하여 시료 간 교차 오염을 탐색할 수 있는 차세대 염기서열 분석법을 제공한다.Another aspect provides a next-generation sequencing method that can detect cross-contamination between samples using a recombinant vector containing oligonucleotides for cross-contamination search.

상기 차세대 염기서열 분석법에서, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드와 이를 포함하는 재조합 벡터는 전술된 바와 같다. 또한, 상기 차세대 염기서열 분석법은 전술된 임의의 시퀀싱 방법을 도입할 수 있고, 어떠한 적용 분야에서도 이용될 수 있다.In the next generation nucleotide sequence analysis, the oligonucleotides for NGS cross-contamination detection and the recombinant vectors containing them are as described above. In addition, the next-generation sequencing method can introduce any of the sequencing methods described above and can be used in any application.

본 발명에서는 전술된 바와 같이 차세대 염기서열 분석법의 첫 번째 단계인 (1) 시료 준비 단계에서, 분석 대상 DNA와, 상기 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 혼합한다(도 3). 즉, 용기 (예, 튜브)에 추출된 분석 대상 DNA를 넣으면서 재조합 벡터를 함께 투입할 수 있다. 여기서, 분석 대상 DNA와 재조합 벡터의 혼합 비율은 1 : 0.1 - 1000, 1 : 0.5 - 500, 1 : 1 - 300, 1 : 1 - 200일 수 있다. 대체로 재조합 벡터가 과량 투입될수록 교차 오염 여부를 판단하기 용이하지만, 지나치게 과량일 경우 분석 노이즈가 생길 수 있다.In the present invention, as described above, in the first step of the next-generation sequencing method (1), the DNA to be analyzed and the recombination vector containing the oligonucleotide for cross-pollination between the NGS samples are mixed ). That is, the recombinant vector can be added together with the DNA to be analyzed inserted into the container (e.g., tube). Here, the mixing ratio of the DNA to be analyzed and the recombinant vector may be 1: 0.1 - 1000, 1: 0.5 - 500, 1: 1 - 300, 1: Generally, it is easy to determine whether cross-contamination occurs when the recombinant vector is added excessively, but analysis noise may occur when the recombination vector is excessively excessive.

이어서, 상기 혼합물은 파편화를 같이 진행하는 방식으로 일반적인 차세대 염기서열 분석을 위한 시료 준비 과정을 거치게 된다(도 3). 대상 NGS마다 읽어지는 DNA 파편의 길이가 상이한 점을 감안하여 DNA 시료의 크기가 큰 경우 필요에 의해 공지된 바에 따라 적절한 크기로 파편화하는 과정을 적용할 수 있다. 상기 DNA 파편화는, 음향 전단(acoustic shearing), 초음파 처리, 또는 유체 역학 전단(hydrodynamic shearing)과 같은 물리적 수단을 사용하여 달성할 수 있다. 또한, 게놈 DNA 단편화를 위해 DNase I 또는 기타 제한효소 또는 비특이성 뉴클레아제 또는 전위효소와 같은 효소적 수단을 사용할 수 있다. Next, the mixture is subjected to sample preparation for general sequencing by sequencing fragmentation (FIG. 3). Considering that the length of the DNA fragments read for each target NGS differs, if the size of the DNA sample is large, it is possible to apply the process of splicing to an appropriate size as required. The DNA fragmentation can be accomplished using physical means such as acoustic shearing, ultrasonic treatment, or hydrodynamic shearing. In addition, enzymatic means such as DNase I or other restriction enzymes or non-specific nucleases or transposase enzymes can be used for genomic DNA fragmentation .

음향 전단 및 초음파 처리는 DNA를 파편화하는데 사용되는 주요한 물리적 방법들이며 상업적으로 사용 가능한 도구들을 이용하여 수행될 수 있다. 예를 들면, Covaris 도구(Woburn, MA)는 DNA를 100 bp - 5 kb 크기 범위의 단편으로 만들 수 있는 음향 기기이다. Bioruptor(Denville, NJ)는 게놈 단편들을 최대 1 kb의 길이로 만들기 위해 염색질 및 DNA를 전단하는데 적합한 초음파 처리 기기이다. Digilab(Marlborough, MA)의 Hydroshear는 DNA의 전단을 위해 유체력(hydrodynamic forces)을 사용한다. 또한, 압축 공기를 사용하여 원자화하기 위해 분무기(Nebulizers; Life Tech, Grand Island, NY)를 사용할 수도 있으며, 이를 통해 DNA를 수 초 내에 100 bp - 3 kb 단편으로 전단할 수 있다.Acoustic shearing and sonication are the major physical methods used to fragment DNA and can be performed using commercially available tools. For example, the Covaris tool (Woburn, Mass.) Is an audio instrument that can make DNA fragments in the size range of 100 bp to 5 kb. Bioruptor (Denville, NJ) is an ultrasonication device suitable for shearing chromatin and DNA to make genome fragments up to 1 kb in length. Hydroshear from Digilab (Marlborough, Mass.) Uses hydrodynamic forces for DNA shear. Nebulizers (Life Tech, Grand Island, NY) can also be used to atomize using compressed air, which allows DNA to be sheared into 100 bp - 3 kb fragments in a matter of seconds.

이렇게 파편화 후 전술된 바와 같이 말단 수선 및 아데노신 접합, 어댑터 접합, PCR 등 종래의 NGS 라이브러리 제조 과정을 거친다. 그리고 시퀀싱 단계에서 본 발명에 따른 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드의 서열을 확인하여, 차세대 염기서열 분석 전체 단계에서 시료 간 교차 오염이 있었는지 여부를 판단할 수 있다.After the fragmentation, the conventional NGS library preparation process such as end repair and adenosine splicing, adapter splicing, and PCR is performed as described above. In the sequencing step, the sequence of the oligonucleotide for cross-pollination search between the NGS samples according to the present invention can be checked to determine whether there is cross-contamination between the samples in the next step of the next-generation nucleotide sequence analysis.

본 발명의 차세대 염기서열 분석법이 타겟 시퀀싱을 목적으로 하는 경우, 시퀀싱 전에 NGS 라이브러리로부터 게놈 DNA 중 분석하고자 하는 영역만을 분리하는 타겟 캡쳐(target capture) 단계를 추가로 포함할 수 있다. 여기서, 상기 NGS 라이브러리는, 시료 준비 단계에서 분석 대상 DNA 및 본 발명의 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 혼합하는 과정을 거쳐 제작된 것이다.When the next generation sequencing method of the present invention is aimed at target sequencing, it may further include a target capture step of separating only genomic DNA regions to be analyzed from the NGS library before sequencing. Here, the NGS library is prepared by mixing a DNA to be analyzed and a recombination vector containing an oligonucleotide for cross-contamination search between NGS samples of the present invention in a sample preparation step.

용어 '타겟 시퀀싱'이란 전체 게놈 DNA가 아닌 게놈의 특정 영역(targeted region)만을 포획하여 분석하는 것으로, 다양한 유전자의 변이를 확인하는 대표적인 방법이다.The term 'target sequencing' is a typical method for identifying variants of various genes by capturing and analyzing only the targeted regions of the genome, rather than the entire genomic DNA.

용어 '타겟 캡쳐'란, 시퀀싱 하기 전 특정 유전자 또는 기타 관심 부위를 DNA 라이브러리로부터 분리 및/또는 그 빈도를 증가시키기 위한 방법으로, 관심 부위는 시퀀싱을 위해 유지하고 나머지 물질을 제거한다. 타겟 캡쳐 방법으로는 In-solution capture, hybridization capture, MIP(Molecular Inversion Probe) capture, multiplexing PCR 등 다양한 방법이 있다.The term " target capture " is a method for isolating and / or increasing the frequency of a particular gene or other region of interest from a DNA library prior to sequencing, keeping the region of interest for sequencing and removing the remaining material. Target capture methods include in-solution capture, hybridization capture, MIP (Molecular Inversion Probe) capture, and multiplexing PCR.

이러한 경우, 타겟 캡쳐 단계에서, 게놈 DNA 중 분석하고자 하는 영역을 포획하는 프로브와 앞서 시료 준비 단계에서 혼합된, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드 영역을 포획하는 프로브를 함께 이용하여, 분석하고자 하는 영역과 올리고뉴클레오티드 영역을 모두 포획한다(도 3). 상기 프로브들의 혼합 비율은 1 : 0.1 - 1000, 1 : 0.5 - 1000, 1 : 1 - 500, 1 : 1 - 200일 수 있다. 여기서, 상기 올리고뉴클레오티드 영역을 포획하는 프로브를 높은 비율로 혼합하는 경우 오염 여부에 대한 판단이 쉽지만 노이즈의 비율 또한 증가하는 단점이 있고 낮은 비율로 혼합하는 경우 이러한 단점을 극복할 수 있고 바코드가 전체 시퀀싱에서 차지하는 비율이 낮아짐으로써 경제적일 수 있다.In this case, in the target capture step, a probe capturing an area to be analyzed in the genomic DNA and a probe capturing an oligonucleotide region for cross-contamination search between NGS samples, which have been mixed in the sample preparation step, Region and an oligonucleotide region (Fig. 3). The mixing ratio of the probes may be 1: 0.1 - 1000, 1: 0.5 - 1000, 1: 1 - 500, 1: 1 - 200. Here, when a probe for capturing the oligonucleotide region is mixed at a high rate, it is easy to judge contamination, but there is a disadvantage that the ratio of noise also increases. When the probe is mixed at a low ratio, such a disadvantage can be overcome and the barcode can be completely sequenced And thus can be economical.

이때 사용하는 프로브는 분석하고자 하는 영역의 일부 서열 (즉, 타겟 영역)과 특이적으로 혼성화할 수 있는 뉴클레오티드 서열을 갖는, 예를 들면 75 내지 200개, 80 내지 200개, 90 내지 200개, 100 내지 200개, 100 내지 180개, 100 내지 160개, 100 내지 140개, 100 내지 120개의 크기의 뉴클레오티드일 수 있다. 프로브가 75개 이하의 크기를 가질 경우 타겟 영역에 대한 캡쳐 정확도가 낮으며, 200개 이상의 크기를 가질 경우 합성비용이 증가하는 단점을 갖는다.The probe used herein may be, for example, 75 to 200 nucleotides, 80 to 200 nucleotides, 90 to 200 nucleotides, 100 nucleotides, or 100 nucleotides, each of which has a nucleotide sequence capable of specifically hybridizing with a part of the region 100 to 180, 100 to 160, 100 to 140, and 100 to 120 nucleotides. If the probe has a size of 75 or less, the capturing accuracy for the target area is low. If the size of the probe is 200 or more, the synthesis cost is increased.

상기 프로브는 다수의 프로브로 이루어진 세트를 의미할 수 있고, 이 프로브 세트는 타일링(tiling) 기법으로 제작될 수 있다. 즉, 세트를 구성하는 임의의 프로브와, 이와 가장 인접한 분석하고자 하는 영역의 뉴클레오티드 서열을 포함하는 다른 프로브는 동일한 서열을 갖도록 제작될 수 있다. 이 경우 세트를 구성하는 프로브 서열의 각각은 분석하고자 하는 영역 서열의 일부를 포함하며, 프로브에 포함되지 않는 분석하고자 하는 영역의 서열은 존재하지 않을 수 있다. 이는 해당 분석하고자 하는 영역의 전체 서열이 세트를 구성하는 프로브들에 의해 커버될 수 있음을 의미하다.The probe may be a set of a plurality of probes, and the probe set may be fabricated by a tiling technique. That is, any probe constituting the set and another probe including the nucleotide sequence of the nearest region to be analyzed may be made to have the same sequence. In this case, each of the probe sequences constituting the set includes a part of the region sequence to be analyzed, and the sequence of the region to be analyzed which is not included in the probe may not exist. This means that the entire sequence of the region to be analyzed can be covered by the probes constituting the set.

상기 타일링 기법으로 제작된 프로브 세트의 경우, 분석하고자 하는 영역의 뉴클레오티드 서열 중 한 개의 뉴클레오티드가 2종 이상, 구체적으로는 3종 이상의 프로브에 의해 커버될 수 있다.In the case of the probe set prepared by the tiling technique, one nucleotide of the nucleotide sequence of the region to be analyzed can be covered by two or more kinds of probes, specifically three or more kinds of probes.

또한, 이 경우, 프로브 세트를 구성하는 임의의 프로브와 이와 가장 인접한 다른 프로브는, 예를 들면 50 내지 150개, 60 내지 140개, 70 내지 120개, 70 내지 110개, 70 내지 100개, 70 내지 90개, 70 내지 80개의 동일한 서열을 가질 수 있다.In this case, the arbitrary probe constituting the probe set and the other probe closest to the probe set may be, for example, 50 to 150, 60 to 140, 70 to 120, 70 to 110, 70 to 100, 70 To 90, and 70 to 80 identical sequences.

상기 프로브는 DNA, RNA, 펩티드 핵산(Peptide Nucleic Acid: PNA), 잠금 핵산(Locked Nucleic Acid: LNA), 지프 핵산(Zip Nucleic Acid: ZNA), 가교 핵산(Bridged Nucleic Acid: BNA) 및 뉴클레오티드 유사체로부터 선택되는 하나 이상일 수 있다. 상기 프로브는 구체적으로 DNA 또는 RNA일 수 있으며, 더욱 구체적으로는 RNA일 수 있다.The probe may be prepared from DNA, RNA, Peptide Nucleic Acid (PNA), Locked Nucleic Acid (LNA), Zip Nucleic Acid (ZNA), Bridged Nucleic Acid (BNA) It can be one or more selected. The probe may specifically be DNA or RNA, more specifically RNA.

상기 프로브는 본 분야에서 올리고뉴클레오티드를 합성할 수 있는 것으로 공지된 임의의 방법, 예를 들면 자동 DNA 합성기 (예, 바이오서치, 어플라이드 바이오시스템TM 등으로 구입할 수 있는 것)를 사용하여 합성될 수 있다. 상기 프로브는 전사됨으로써 분석하고자 하는 영역에 특이적으로 혼성화하는 RNA 폴리뉴클레오티드를 생성하는 것일 수 있다. 상기 전사는 인 비트로 전사일 수 있다.The probes can be synthesized using any method known to be capable of synthesizing oligonucleotides in the art, for example, using an automated DNA synthesizer (such as those available as Biosearch, Applied Biosystems TM, etc.) . The probe may be transcribed to generate an RNA polynucleotide that specifically hybridizes to an area to be analyzed. The transcription may be in-vitro transcription.

상기 프로브는 이의 분리 또는 정제를 위한 모이어티(moiety)를 더 포함할 수 있다. 상기 모이어티는 상기 프로브를 구성하는 뉴클레오티드들 중 하나 이상에 부착된 것일 수 있다. 상기 모이어티는 비오틴, 아비딘, 및 스트렙타비딘으로 이루어진 군으로부터 선택되는 하나 이상을 포함할 수 있다. 또한 상기 모이어티, 예를 들면 비오틴, 아비딘 또는 스트렙타비딘은 자성비드(magnetic bead)를 포함하거나, 또는 상기 모이어티에 특이적으로 결합하는 물질이 자성비드를 포함할 수 있다. 상기 분리 또는 정제는 모이어티에 특이적으로 결합하는 물질 또는 자기장에 의해 이루어질 수 있다.The probe may further comprise a moiety for its isolation or purification. The moiety may be attached to one or more of the nucleotides constituting the probe. The moiety may include one or more selected from the group consisting of biotin, avidin, and streptavidin. Further, the moiety, for example, biotin, avidin or streptavidin, may include a magnetic bead, or a substance that specifically binds to the moiety may include magnetic beads. The separation or purification may be carried out by a substance or a magnetic field that specifically binds to the moiety.

본 발명에서 프로브는 해당 프로브의 on-target ratio 및 uniformity 향상을 위하여 분석하고자 하는 영역의 양 말단에서 시작하는 terminal 프로브를 추가로 디자인하는 것일 수 있다. 상기 프로브가 타겟 영역과 결합하는 위치에 높은 GC ratio를 지니거나 특정 서열이 반복적으로 나타날 때 캡쳐 효율이 낮아질 수 있으므로 이를 보완하기 위하여 프로브 서열을 조정하는 방법(G 또는 C가 4개 이상 연속될 때에 4번째 염기를 A 또는 T로 치환하는 GC fix 과정)을 적용함에 따라 효율적인 캡쳐가 이루어지는 효과를 제공할 수 있다.In the present invention, the probe may be designed to further design a terminal probe starting from both ends of the region to be analyzed in order to improve on-target ratio and uniformity of the probe. Since the capture efficiency may be lowered when the probe has a high GC ratio at a position where the probe binds to the target region or when a specific sequence repeatedly appears, a method of adjusting the probe sequence (when four or more G or C are continuous A GC fix process in which the fourth base is substituted with A or T) is applied to the first and second probes.

상기 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드 영역을 포획하는 프로브는 효율적인 포획을 위해 타일링 기법으로 제작된 것일 수 있다. 본 발명에서 상기 프로브는 예를 들면, 3 x 타일링 기법으로 제작될 수 있다(도 2).The probe that captures the oligonucleotide region for cross-contamination detection between the NGS samples may be made by a tiling technique for efficient capture. In the present invention, the probe can be fabricated, for example, by a 3 x tiling technique (FIG. 2).

그리고, 이렇게 포획된 올리고뉴클레오티드 서열을 시퀀싱 단계에서 확인하여, 시료 준비 과정을 비롯한 NGS 전체 단계에서 시료 간 교차 오염이 있었는지 여부를 판단할 수 있다.The oligonucleotide sequence thus captured can be identified in the sequencing step to determine whether there is cross-contamination between samples at the entire NGS stage, including sample preparation.

차세대 염기서열 분석 시 시료 준비 과정에서 어댑터를 부착하기 전에 발생할 수 있는 시료 간 교차 오염을 탐색할 수 있다.During next-generation sequencing, sample cross-contamination that can occur before attaching the adapter can be detected during sample preparation.

본 발명의 내부 검정 물질은 간단한 형태로, 분석 검체에 영향을 주지 않으면서 시료 간 교차 오염을 확인 가능하게 한다.The internal test substance of the present invention is simple and enables cross-contamination between samples without affecting analytical specimens.

본 발명의 내부 검정 물질은 재조합 벡터 형태로서, 생산 후 복잡한 전 처리 과정 없이도 DNA 파편화 과정을 포함한 NGS 모든 과정을 분석 대상 DNA 시료와 함께 동일하게 처리할 수 있다는 장점이 있다. The internal test material of the present invention is in the form of a recombinant vector, and it is advantageous that all the processes of NGS including the DNA fragmentation process can be treated in the same manner with the DNA sample to be analyzed without a complex pretreatment process after production.

도 1은 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 pUC19 벡터를 제작하는 과정을 나타낸다.
도 2는 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드 영역을 포획할 수 있는 프로브의 제작 과정을 나타낸다.
도 3은 차세대 염기서열 분석시 수행하는 시료 준비 과정에서, NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터의 혼합 및 이의 검출에 필요한 혼성화 포획 프로브를 도입하는 절차를 나타낸다.
Figure 1 shows the process for constructing a pUC19 vector containing oligonucleotides for cross-contamination detection of NGS samples.
FIG. 2 shows a process for producing a probe capable of capturing an oligonucleotide region for NGS cross-contamination detection.
FIG. 3 shows a procedure for introducing a hybridization capture probe necessary for mixing and detection of a recombination vector containing oligonucleotides for NGS cross-contamination search in a sample preparation process performed in the next generation nucleotide sequence analysis.

이하, 본 발명을 하기 실시예에 의해 더욱 구체적으로 설명한다. 그러나, 이들 실시예는 본 발명에 대한 이해를 돕기 위한 것일 뿐, 어떤 의미로든 본 발명의 범위가 이들에 의해 제한되는 것은 아니다.Hereinafter, the present invention will be described in more detail with reference to the following examples. However, these embodiments are provided to aid understanding of the present invention, and the scope of the present invention is not limited thereto in any sense.

실시예 1: 내부 검정 물질의 디자인 및 제작Example 1: Design and manufacture of internal test substances

pUC19 벡터를 기반으로 하여 바코드(barcode)를 포함하는 내부 검정 물질을 디자인하였다. pUC19 벡터를 이용하는 경우 대개의 차세대 염기서열 분석법에 이용하여 사람 게놈 데이터에 영향을 주지 않으며, 고 복제 플라스미드(high-copy plasmid)로써 대량 생산이 쉽다는 장점이 있다. 따라서 별도의 전 처리 과정 없이 분석 대상 시료 gDNA에 플라스미드 형태로 제작된 내부 검정 물질을 혼합한 후 shearing을 같이 진행하는 방식으로 차세대 염기서열 분석을 위한 시료 준비 과정을 수행할 수 있었다.Based on the pUC19 vector, an internal test substance containing a barcode was designed. When pUC19 vector is used, it is used in most of next-generation sequencing methods and does not affect human genome data. It is advantageous in mass production as a high-copy plasmid. Therefore, the sample preparation for the next generation sequencing can be performed by mixing the inner test substance prepared in the plasmid form to the gDNA of the sample to be analyzed without any separate pretreatment, and proceeding with shearing.

pUC19 벡터에 삽입할 바코드 서열로 표 1에 나타낸 바와 같이 길이 10bp인 21종의 올리고뉴클레오티드를 제작하였다. 이어서, 도 1에 나타낸 바와 같이 pUC19 벡터를 제한효소로 처리한 후 깁슨 어셈블리(Gibson assembly) 방법을 이용하여 바코드를 지닌 pUC19 벡터를 제작하였다.As shown in Table 1, 21 kinds of oligonucleotides having a length of 10 bp were prepared as barcode sequences to be inserted into the pUC19 vector. Then, as shown in Fig. 1, the pUC19 vector was treated with a restriction enzyme, and then a pUC19 vector having a bar code was prepared using the Gibson assembly method.

바코드 명Bar code name 염기서열Base sequence 서열번호SEQ ID NO: spike in_1spike in_1 GATTGATGCCGATTGATGCC 1One spike in_2spike in_2 CTGGCGTCGGCTGGCGTCGG 22 spike in_3spike in_3 GACTATGCGAGACTATGCGA 33 spike in_4spike in_4 CGCAGCGTAACGCAGCGTAA 44 spike in_5spike in_5 AGGTCGCGCGAGGTCGCGCG 55 spike in_6spike in_6 GATTGCACAGGATTGCACAG 66 spike in_7spike in_7 AAGATCTCGTAAGATCTCGT 77 spike in_8spike in_8 GGCATTGCTGGGCATTGCTG 88 spike in_9spike in_9 CTGTCTCGTTCTGTCTCGTT 99 spike in_10spike in_10 ATTCTCCACCATTCTCCACC 1010 spike in_11spike in_11 TCCGGTAGTATCCGGTAGTA 1111 spike in_12spike in_12 GAACTGGATGGAACTGGATG 1212 spike in_13spike in_13 ATAGCAGGTGATAGCAGGTG 1313 spike in_14spike in_14 GATCGCTTGGGATCGCTTGG 1414 spike in_15spike in_15 AGCTACTAGTAGCTACTAGT 1515 spike in_16spike in_16 AGTAGTTATTAGTAGTTATT 1616 spike in_17spike in_17 ACTCTTCTGGACTCTTCTGG 1717 spike in_18spike in_18 AATCCGCGTTAATCCGCGTT 1818 spike in_19spike in_19 ATCTGCACATATCTGCACAT 1919 spike in_20spike in_20 AGTATTGAGAAGTATTGAGA 2020 spike in_21spike in_21 AGTCGGCAGTAGTCGGCAGT 2121

21개의 내부 검정 물질은 21개의 시료만 바코드로서 구분 가능하게 하는 것이 아니라 2개 이상의 내부 검정 물질의 조합으로 21개 이상의 시료를 바코드로 구분 가능하게 할 수 있다. 예를 들면 시료 1은 spike in_1과 spike in_2를 바코드로 이용하고 시료 2는 spike in_1과 spike in_3으로 바코드를 이용하면 시료 1과 시료 2의 바코드 조합이 다르기 때문에 추후 구분할 수 있다.Twenty-one internal test substances can not be distinguished as bar codes for only 21 samples, but more than 21 samples can be separated into bar codes by a combination of two or more internal test substances. For example, sample 1 uses spike in_1 and spike in_2 as bar codes, and sample 2 uses bar codes as spike in_1 and spike in_3, so that the combination of sample 1 and sample 2 has different bar codes.

실시예 2: 내부 검정 물질을 활용한 차세대 염기서열 분석법의 디자인Example 2: Design of a next-generation sequencing method using an internal test substance

내부 검정 물질을 차세대 염기서열 분석 대상 시료와 혼합한 이후 일반적인 차세대 염기서열 분석 시료 준비 과정을 실시하였다. 이후 타겟 시퀀싱을 준비하는 과정에서 수행되는 혼성화 포획시 인간 게놈의 타겟 영역을 포획하는 프로브 및 도 2에 나타낸 바와 같이 3 x 타일링 기법으로 제작된 바코드 영역을 포획할 수 있는 프로브를 함께 이용하여 진행하였다. 내부 검정 물질을 포획할 수 있는 3종의 프로브 서열은 다음과 같다.After the internal test substance was mixed with the next-generation sequencing target sample, the next-generation sequence sequencing was performed. Thereafter, a probe for capturing a target region of the human genome and a probe capable of capturing a bar code region produced by the 3 x tiling technique as shown in FIG. 2 were carried out in hybridization capturing performed in preparation for target sequencing . The three probe sequences capable of capturing the internal test substance are as follows.

하기 서열 내에 포함된 N 부분이 바코드에 해당하는 부분으로 (여기서 N은 A, G, C, T 염기 중 하나), 이 부분을 바코드 서열에 따라 조정하면, 바코드 종류와 관계없이 사용할 수 있다.The N portion included in the following sequence corresponds to the bar code (where N is one of A, G, C, and T bases) and can be used regardless of the type of the bar code by adjusting this portion according to the bar code sequence.

5'GGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCT-3' (서열번호 22)5 'GGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCT-3' (SEQ ID NO: 22)

5'CAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCT-3' (서열번호 23)5 'CAAGGCGATTAAGTTGGGTAACGCCAGGGTTTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCT-3' (SEQ ID NO: 23)

5'TTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCTTGGCGTAATCATGGT -3'(서열번호 24)5 'TTTCCCAGTCACGACGTTGTAAAACGACGGCCAGTGAATTNNNNNNNNNNAATTCGAGCTCGGTACCCGGGGATCCTCTAGAGTCGACCTGCAGGCATGCAAGCTTGGCGTAATCATGGT -3' (SEQ ID NO: 24)

최종적인 분석 진행시 포획된 내부 검정 물질의 바코드 서열을 확인하여 시료 준비 과정에서 발생하였을 시료 간 교차 오염 여부를 판단할 수 있게 하였다.During the final analysis, the barcode sequence of the captured internal test substance was identified, and it was possible to judge whether cross contamination occurred between the samples during the sample preparation process.

기존의 차세대 염기서열 분석시 수행하는 시료 준비 과정에서 내부 검정 물질의 혼합 및 검출에 필요한 혼성화 포획 프로브의 도입 절차는 도 3에 나타낸 바와 같다.FIG. 3 shows a procedure for introducing a hybridization capture probe necessary for mixing and detection of internal test substances in the sample preparation process performed in the conventional next-generation sequencing.

실시예 3: 내부 검정 물질을 활용한 실제 교차 오염 탐색 가능성 실험Example 3: Experimental investigation of actual cross-contamination using an internal test substance

3.1: 교차 오염이 없는 상황에서의 실험3.1: Experiments without cross-contamination

상기 실시예에서 제작된 내부 검정 물질을 활용하여 차세대 염기서열 분석 시료 준비 시 발생할 수 있는 시료 간 교차 오염을 탐색할 수 있는지 여부에 대해 실험을 진행하였다. NA12878 시료에 mole 수 기준으로 1:100의 비율로 NA12878과 내부 검정 물질을 혼합하였다. 이 때 표 2에 나타낸 바와 같이 내부 검정 물질을 2가지 이상의 바코드로 삽입하였다.Experiments were conducted to determine whether cross-contamination between samples could be detected during the preparation of next-generation sequencing analysis samples using the internal test materials prepared in the above examples. NA12878 was mixed with NA12878 at a ratio of 1: 100 on a mole number basis. At this time, as shown in Table 2, the internal test substance was inserted into two or more bar codes.

시료 번호Sample number 시료 인덱스Sample Index 내부 검정 물질 바코드Internal test substance bar code 1One 88 10, 1110, 11 22 99 12, 1312, 13 33 1515 6, 76, 7 44 1616 18, 1918, 19

교차 오염이 없는 상황을 가정하고 실험을 진행하였고, 타겟 혼성화 포획은 BRCA kit로 진행하였고, 이 과정에서 내부 검정 물질을 포획할 수 있는 프로브는 BRCA 혼성화 포획 프로브와 1:1의 비율로 혼합하고 혼성화 포획을 진행하였다.The target hybridization capture was proceeded with the BRCA kit. In this process, the probe capable of capturing the internal test substance was mixed with the BRCA hybridization capture probe at a ratio of 1: 1, and hybridization Capture.

최종적인 실험 산물을 이용한 차세대 염기서열 분석 진행시 실험 조건 및 내부 검정 물질의 검출 빈도는 표 3에 나타낸 바와 같다. 각 시료 인덱스별 바코드 검출 빈도에서 시료 1과 시료 3에서 일부 검출되지 말았어야 하는 바코드가 검출되었지만, 검출량이 극히 미미하여 분석 노이즈로 판단할 수 있었다. 그 이외의 시료에서는 당초 혼합한 내부 검정 물질의 바코드만이 정상적으로 검출되었다.Table 3 shows the experimental conditions and the frequency of detection of the internal test substances in the next generation sequencing using the final test product. Bar codes that should not have been detected in sample 1 and sample 3 were detected at the frequency of bar code detection for each sample index, but the detection amount was very small and it was judged to be analytical noise. In the other samples, only the barcode of the originally mixed internal test substance was normally detected.

Figure 112018044026650-pat00001
Figure 112018044026650-pat00001

3.2. 교차 오염이 있는 상황에서의 실험3.2. Experiments in the presence of cross-contamination

상기 실시예 3.1과 동일한 조건 하에서 강제적인 교차 오염을 일으킨 다음 교차 오염 여부를 탐색할 수 있는지 내부 검정 물질의 바코드 혼합 상태를 통해 확인하였다. 시료 1과 시료 2간의, 시료 3과 시료 4간의 강제 교차 오염을 발생시키고 차세대 염기서열 분석을 통해 내부 검정 물질 바코드를 확인하였다.The presence of forced cross-contamination under the same conditions as in Example 3.1 above, and then whether cross-contamination can be detected can be confirmed through the bar code mixed state of the internal test substance. Forced cross-contamination between Sample 3 and Sample 4 between Sample 1 and Sample 2 was confirmed and the internal test substance bar code was confirmed through sequencing analysis of the next generation.

시료 1과 시료 2간의 내부 검정 물질 바코드를 확인한 결과 시료 간 교차 오염을 확인할 수 있었다(표 4). 교차 오염을 인위적으로 발생시키기 않았던 실시예의 결과와 비교하였을 때 오염으로 나타나야 할 바코드의 빈도수가 급격히 늘어난 것을 확인할 수 있으며 비율 또한 증가한 것을 확인할 수 있었다. 이러한 경향은 시료 3과 시료 4 간의 교차 오염 실험에서도 마찬가지로 나타남을 확인하였다(표 4).Cross-contamination between samples was confirmed by examining the internal test substance barcode between sample 1 and sample 2 (Table 4). It can be seen that the frequency of the barcode to be displayed as the contamination increased sharply when compared with the result of the example in which the cross contamination was not generated artificially, and it was confirmed that the ratio also increased. This tendency was confirmed by the cross-contamination test between sample 3 and sample 4 (Table 4).

Figure 112018044026650-pat00002
Figure 112018044026650-pat00002

실시예 4: 내부 검정 물질 활용에 의한 시료 분석 오염 가능성 조사Example 4: Sample analysis by using internal test substance Investigation of contamination possibility

내부 검정 물질이 pUC19 벡터로 구성되어 있는데 차세대 염기서열 분석 대상이 되는 사람 게놈과의 염기서열 유사성으로 인해 잘못 분석될 수 있는지에 대해 탐색하였다. 내부 검정 물질을 차세대 염기서열 분석 진행하고 만들어진 데이터를 사람 레퍼런스 게놈에 alignment 진행하였다. 그 결과 매우 낮은 비율의 내부 검정 물질의 서열이 사람 레퍼런스 게놈에 alignment 되는 것을 확인하였다.The internal test material is composed of the pUC19 vector, and it is searched whether it can be misinterpreted due to the nucleotide sequence similarity with the human genome to be sequenced. Internal sequencing was performed on the internal test material and the resulting data was aligned with the human reference genome. As a result, it was confirmed that a very low proportion of the internal test substance sequence was aligned with the human reference genome.

이는 사람 게놈과 내부 검정 물질의 혼합 비율을 고려하면 실제 데이터에서 사람 게놈의 데이터 분석에 미치는 영향을 무시할 수 있는 수준임을 의미하는 것이다(표 5). 또한 해당 표 5의 결과로부터, Spike-in DNA를 벡터에 실어서 NGS에 적용한 경우에도 사람 게놈 데이터 분석에 영향을 주지 않으면서 샘플의 교차 오염을 검증할 수 있다는 잇점을 확인할 수 있다.This means that considering the mixture ratio of the human genome and the internal test substance, the effect on the data analysis of the human genome in real data is negligible (Table 5). Also, from the results in Table 5, it can be seen that applying the Spike-in DNA to the vector and applying it to the NGS can also verify the cross-contamination of the sample without affecting the human genome data analysis.

Figure 112018044026650-pat00003
Figure 112018044026650-pat00003

in-silico 분석에서는 spike-in 벡터에 사람 게놈에 mapping 되는 서열이 없는 것을 확인하였으며, 실제 NGS 데이터에서는 극히 낮은 비율의 DNA가 사람 게놈에 mapping되는 것을 확인할 수 있었다. 실제로 spike-in을 이용하여 NGS를 수행할 때는 DNA의 혼합 비율에 따라서 spike-in으로부터 유래하는 데이터의 양이 매우 낮아지기 때문에 사람 게놈 데이터에 주는 영향은 미미하다.In the in-silico analysis, it was confirmed that the spike-in vector did not have a sequence mapped to the human genome. In the actual NGS data, it was confirmed that an extremely low ratio of DNA was mapped to the human genome. In fact, when NGS is performed using spike-in, the amount of data derived from spike-in is very low depending on the mixing ratio of DNA, so the effect on human genome data is minimal.

<110> Celemics, Inc. <120> Internal control substance searching for inter-sample cross-contamination of next-generation sequencing samples <130> SDP2018-1006 <160> 24 <170> KoPatentIn 3.0 <210> 1 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 1 gattgatgcc 10 <210> 2 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 2 ctggcgtcgg 10 <210> 3 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 3 gactatgcga 10 <210> 4 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 4 cgcagcgtaa 10 <210> 5 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 5 aggtcgcgcg 10 <210> 6 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 6 gattgcacag 10 <210> 7 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 7 aagatctcgt 10 <210> 8 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 8 ggcattgctg 10 <210> 9 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 9 ctgtctcgtt 10 <210> 10 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 10 attctccacc 10 <210> 11 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 11 tccggtagta 10 <210> 12 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 12 gaactggatg 10 <210> 13 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 13 atagcaggtg 10 <210> 14 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 14 gatcgcttgg 10 <210> 15 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 15 agctactagt 10 <210> 16 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 16 agtagttatt 10 <210> 17 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 17 actcttctgg 10 <210> 18 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 18 aatccgcgtt 10 <210> 19 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 19 atctgcacat 10 <210> 20 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 20 agtattgaga 10 <210> 21 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 21 agtcggcagt 10 <210> 22 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 22 gggtaacgcc agggttttcc cagtcacgac gttgtaaaac gacggccagt gaattnnnnn 60 nnnnnaattc gagctcggta cccggggatc ctctagagtc gacctgcagg catgcaagct 120 120 <210> 23 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 23 caaggcgatt aagttgggta acgccagggt tttcccagtc acgacgttgt aaaacgacgg 60 ccagtgaatt nnnnnnnnnn aattcgagct cggtacccgg ggatcctcta gagtcgacct 120 120 <210> 24 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 24 tttcccagtc acgacgttgt aaaacgacgg ccagtgaatt nnnnnnnnnn aattcgagct 60 cggtacccgg ggatcctcta gagtcgacct gcaggcatgc aagcttggcg taatcatggt 120 120 <110> Celemics, Inc. <120> Internal control substance searching for inter-sample          cross-contamination of next-generation sequencing samples <130> SDP2018-1006 <160> 24 <170> KoPatentin 3.0 <210> 1 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 1 gattgatgcc 10 <210> 2 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 2 ctggcgtcgg 10 <210> 3 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 3 gactatgcga 10 <210> 4 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 4 cgcagcgtaa 10 <210> 5 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 5 aggtcgcgcg 10 <210> 6 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 6 gattgcacag 10 <210> 7 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 7 aagatctcgt 10 <210> 8 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 8 ggcattgctg 10 <210> 9 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 9 ctgtctcgtt 10 <210> 10 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 10 attctccacc 10 <210> 11 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 11 tccggtagta 10 <210> 12 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 12 gaactggatg 10 <210> 13 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 13 atagcaggtg 10 <210> 14 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 14 gatcgcttgg 10 <210> 15 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 15 agctactagt 10 <210> 16 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 16 agtagttatt 10 <210> 17 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 17 actcttctgg 10 <210> 18 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 18 aatccgcgtt 10 <210> 19 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 19 atctgcacat 10 <210> 20 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 20 agtattgaga 10 <210> 21 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> barcode <400> 21 agtcggcagt 10 <210> 22 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 22 gggtaacgcc agggttttcc cagtcacgac gttgtaaaac gacggccagt gaattnnnnn 60 nnnnnaattc gagctcggta cccggggatc ctctagagtc gacctgcagg catgcaagct 120                                                                          120 <210> 23 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 23 caaggcgatt aagttgggta acgccagggt tttcccagtc acgacgttgt aaaacgacgg 60 ccagtgaatt nnnnnnnnnn aattcgagct cggtacccgg ggatcctcta gagtcgacct 120                                                                          120 <210> 24 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> probe for barcode <400> 24 tttcccagtc acgacgttgt aaaacgacgg ccagtgaatt nnnnnnnnnn aattcgagct 60 cggtacccgg ggatcctcta gagtcgacct gcaggcatgc aagcttggcg taatcatggt 120                                                                          120

Claims (11)

차세대 염기서열 분석(next generation sequencing; NGS) 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하되,
상기 올리고뉴클레오티드는 서열번호 1 내지 21의 서열로 이루어진 군으로부터 선택되는 하나 이상의 서열을 갖고, 깁슨 어셈블리(Gibson assembly) 방법을 이용하여 제한효소 처리한 pUC계 벡터에 바코드로 포함되는 것인 재조합 벡터.
Next Generation Sequencing (NGS) Includes oligonucleotides for inter-sample cross-contamination detection,
Wherein the oligonucleotide has one or more sequences selected from the group consisting of the sequences of SEQ ID NOS: 1 to 21 and is contained as a barcode in a pUC-based vector treated with restriction enzyme using the Gibson assembly method.
청구항 1에서, 상기 깁슨 어셈블리(Gibson assembly) 방법은 깁슨 어셈블리 키트를 이용하는 것인 재조합 벡터.The recombinant vector of claim 1, wherein the Gibson assembly method utilizes a Gibson assembly kit. 청구항 1에서, 상기 바코드는, (a) 서열번호 10의 서열을 갖는 올리고뉴클레오티드와 서열번호 11의 서열을 갖는 올리고뉴클레오티드의 조합, (b) 서열번호 12의 서열을 갖는 올리고뉴클레오티드와 서열번호 13의 서열을 갖는 올리고뉴클레오티드의 조합, (c) 서열번호 6의 서열을 갖는 올리고뉴클레오티드와 서열번호 7의 서열을 갖는 올리고뉴클레오티드의 조합, (d) 서열번호 18의 서열을 갖는 올리고뉴클레오티드와 서열번호 19의 서열을 갖는 올리고뉴클레오티드의 조합, 으로 이루어진 군 중에서 선택된 1종인 재조합 벡터.(B) an oligonucleotide having the sequence of SEQ ID NO: 12; and (c) an oligonucleotide having the sequence of SEQ ID NO: 12 and the oligonucleotide having the sequence of SEQ ID NO: (C) a combination of an oligonucleotide having the sequence of SEQ ID NO: 6 and an oligonucleotide having the sequence of SEQ ID NO: 7, (d) a combination of the oligonucleotide having the sequence of SEQ ID NO: 18 and the oligonucleotide having the sequence of SEQ ID NO: A combination of oligonucleotides having a sequence, and a combination of oligonucleotides having a sequence. 청구항 1에서, 상기 pUC계 벡터는 pUC18 또는 pUC19인 재조합 벡터.The recombinant vector according to claim 1, wherein the pUC family vector is pUC18 or pUC19. 청구항 1의 재조합 벡터를 이용하여 차세대 염기서열 분석 시료 간 교차 오염을 탐색할 수 있는 차세대 염기서열 분석방법.Next Generation Sequencing Analysis Method Using the Recombinant Vector of Claim 1 Next Generation Sequence Analysis Method to Search for Cross-contamination between Samples. 청구항 5에서, 시료 준비 단계에서, 각 시료에 분석 대상 DNA 및 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 혼합하고, 시퀀싱 단계에서, 상기 올리고뉴클레오티드 서열을 확인하여 시료 간 교차 오염 여부를 판단하는 것인 차세대 염기서열 분석방법.In claim 5, in the sample preparation step, a recombination vector containing the oligonucleotide for cross-pollination between the DNA to be analyzed and the NGS sample is mixed with each sample, and the oligonucleotide sequence is confirmed in the sequencing step, Wherein the method comprises the steps of: 청구항 6에서, 상기 분석 대상 DNA 및 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터는 1 : 0.1 - 1000의 비율로 혼합하는 것인 차세대 염기서열 분석방법.[Claim 6] The method according to claim 6, wherein the recombinant vector containing the oligonucleotide for cross-contamination between the DNA to be analyzed and the NGS sample is mixed at a ratio of 1: 0.1-1000. 청구항 5에서, 상기 차세대 염기서열 분석법은 타겟 시퀀싱을 위한 것인 차세대 염기서열 분석방법.The method according to claim 5, wherein the next generation sequencing method is for target sequencing. 청구항 8에서, 시료 준비 단계에서, 각 시료에 분석 대상 DNA 및 NGS 시료 간 교차 오염 탐색용 올리고뉴클레오티드를 포함하는 재조합 벡터를 혼합하고, 타겟 캡쳐 단계에서, 게놈 DNA 중 분석하고자 하는 영역을 포획하는 프로브 및 상기 올리고뉴클레오티드 영역을 포획하는 프로브를 이용하여 분석하고자 하는 영역과 올리고뉴클레오티드 영역을 포획하고, 시퀀싱 단계에서 이들의 서열을 확인하여 시료 간 교차 오염 여부를 판단하는 것인 차세대 염기서열 분석방법.In claim 8, in the sample preparation step, a recombination vector containing the oligonucleotide for cross-pollination between the DNA to be analyzed and the NGS sample is mixed with each sample, and in the target capture step, a probe And a method for capturing an oligonucleotide region and an oligonucleotide region to be analyzed using a probe for capturing the oligonucleotide region, and determining the sequence of the oligonucleotide region in the sequencing step to determine whether cross contamination between the samples is present. 청구항 9에서, 상기 게놈 DNA 중 분석하고자 하는 영역을 포획하는 프로브 및 상기 올리고뉴클레오티드 영역을 포획하는 프로브는 1 : 0.1 - 1000의 비율로 혼합하는 것인 차세대 염기서열 분석방법.[Claim 9] The method according to claim 9, wherein the probe capturing the region to be analyzed and the probe capturing the oligonucleotide region among the genomic DNA are mixed at a ratio of 1: 0.1-1000. 청구항 6에서, 상기 시퀀싱은 합성에 의한 시퀀싱(sequencing by synthesis), 이온 토렌트(Ion-Torrent) 시퀀싱, 파이로시퀀싱(pyrosequencing), 라이게이션에 의한 시퀀싱, 나노 포어 시퀀싱, 단일-분자 실시간 시퀀싱, 폴로니 시퀀싱(polony sequencing), 대규모 병렬 시그니처 시퀀싱(parallel signature sequencing)(MPSS), DNA 나노볼 시퀀싱(nanoball sequencing) 및 헬리스콥 단일 분자 시퀀싱(Heliscope single molecule sequencing)으로 이루어진 군으로부터 선택되는 것인 차세대 염기서열 분석방법.6. The method of claim 6, wherein the sequencing is performed by sequencing by synthesis, ion torrent sequencing, pyrosequencing, sequencing by ligation, nanopore sequencing, single- Generation base, which is selected from the group consisting of polony sequencing, massively parallel signature sequencing (MPSS), DNA nanoball sequencing and Heliscope single molecule sequencing, Sequencing method.
KR1020180051375A 2018-05-03 2018-05-03 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples KR101913735B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180051375A KR101913735B1 (en) 2018-05-03 2018-05-03 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples
PCT/KR2019/002634 WO2019212138A1 (en) 2018-05-03 2019-03-07 Internal control substance for discovering cross-contamination between samples for next generation sequencing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180051375A KR101913735B1 (en) 2018-05-03 2018-05-03 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples

Publications (1)

Publication Number Publication Date
KR101913735B1 true KR101913735B1 (en) 2018-11-01

Family

ID=64398344

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180051375A KR101913735B1 (en) 2018-05-03 2018-05-03 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples

Country Status (2)

Country Link
KR (1) KR101913735B1 (en)
WO (1) WO2019212138A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019212138A1 (en) * 2018-05-03 2019-11-07 주식회사 셀레믹스 Internal control substance for discovering cross-contamination between samples for next generation sequencing
WO2020096248A1 (en) * 2018-11-09 2020-05-14 주식회사 셀레믹스 Manufacturing and detection method of probe for detecting mutations in lung cancer tissue cells

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115717163B (en) * 2022-10-27 2023-10-27 迈杰转化医学研究(苏州)有限公司 Molecular coding detection system for monitoring and correcting sequencing pollution and application thereof

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101839088B1 (en) 2014-10-29 2018-03-15 에스케이텔레콤 주식회사 Method for predicting absoulte copy number variation based on single sample

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106574298A (en) * 2014-06-26 2017-04-19 10X基因组学有限公司 Methods and compositions for sample analysis
KR101882866B1 (en) * 2016-05-25 2018-08-24 삼성전자주식회사 Method for analyzing cross-contamination of samples and apparatus using the same method
KR101913735B1 (en) * 2018-05-03 2018-11-01 주식회사 셀레믹스 Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101839088B1 (en) 2014-10-29 2018-03-15 에스케이텔레콤 주식회사 Method for predicting absoulte copy number variation based on single sample

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Applied & Translational Genomics, 10:2-9 (2016)
BioTechniques, 56:134-141(2014)*
BMC Genomics,; 15(1):110 (2014)*
Briefings in Bioinformatics, 12(5):489-497 (2011)
Nucleic Acids Research, 43(20):e135 (2015)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019212138A1 (en) * 2018-05-03 2019-11-07 주식회사 셀레믹스 Internal control substance for discovering cross-contamination between samples for next generation sequencing
WO2020096248A1 (en) * 2018-11-09 2020-05-14 주식회사 셀레믹스 Manufacturing and detection method of probe for detecting mutations in lung cancer tissue cells

Also Published As

Publication number Publication date
WO2019212138A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
Kempfer et al. Methods for mapping 3D chromosome architecture
RU2603082C2 (en) Methods of sequencing of three-dimensional structure of the analyzed genome region
US10400279B2 (en) Method for constructing a sequencing library based on a single-stranded DNA molecule and application thereof
KR101858344B1 (en) Method of next generation sequencing using adapter comprising barcode sequence
JP2001514488A (en) Methods for analyzing quantitative expression of genes
TW201321518A (en) Method of micro-scale nucleic acid library construction and application thereof
US20060281082A1 (en) Genome partitioning
CN111808854B (en) Balanced joint with molecular bar code and method for quickly constructing transcriptome library
EP3885448A1 (en) Analysis of chromatin using a nicking enzyme
KR101913735B1 (en) Internal control substance searching for inter­sample cross­contamination of next­generation sequencing samples
CN112195521A (en) DNA/RNA co-database building method based on transposase, kit and application
JP2020501554A (en) Method for increasing the throughput of single molecule sequencing by linking short DNA fragments
US20220259649A1 (en) Method for target specific rna transcription of dna sequences
US6461814B1 (en) Method of identifying gene transcription patterns
CN115109842A (en) High sensitivity method for accurate parallel quantification of nucleic acids
CN110607352A (en) Method for constructing DNA library and application thereof
CN112662771B (en) Targeting capture probe of tumor fusion gene and application thereof
CA2298140A1 (en) Detection and confirmation of nucleic acid sequences by use of oligonucleotides comprising a subsequence hybridizing exactly to a known terminal sequence and a subsequence hybridizing to an unidentified sequence
AU2017217868B2 (en) Method for target specific RNA transcription of DNA sequence
WO2020259303A1 (en) Method for rapid construction of rna 3&#39;-end gene expression library
US20210155972A1 (en) Targeted rare allele crispr enrichment
WO2008015975A1 (en) Method for amplification of dna fragment
EP3283646B1 (en) Method for analysing nuclease hypersensitive sites.
WO2024033411A1 (en) Methods for determining the location of a target sequence and uses
WO2023137292A1 (en) Methods and compositions for transcriptome analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant