KR20220141246A - 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 - Google Patents

간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 Download PDF

Info

Publication number
KR20220141246A
KR20220141246A KR1020220044362A KR20220044362A KR20220141246A KR 20220141246 A KR20220141246 A KR 20220141246A KR 1020220044362 A KR1020220044362 A KR 1020220044362A KR 20220044362 A KR20220044362 A KR 20220044362A KR 20220141246 A KR20220141246 A KR 20220141246A
Authority
KR
South Korea
Prior art keywords
nucleic acid
sequence
dna
nucleotide sequence
acid molecule
Prior art date
Application number
KR1020220044362A
Other languages
English (en)
Inventor
류태훈
김옥주
정유신
이상협
Original Assignee
주식회사 셀레믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 셀레믹스 filed Critical 주식회사 셀레믹스
Publication of KR20220141246A publication Critical patent/KR20220141246A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1082Preparation or screening gene libraries by chromosomal integration of polynucleotide sequences, HR-, site-specific-recombination, transposons, viral vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 명세서에 개시된 기술은 두 가지 효소만을 사용하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것으로서, 핵산 분자를 제공하는 단계; 전이효소(transposase)와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머(primer)로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.

Description

간소화된 차세대 염기서열 분석 라이브러리 전처리 방법{SIMPLIFIED NEXT GENERATION SEQUENCING LIBRARY PREPPARATION METHOD}
본 명세서에 개시된 기술은 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것으로서, 별도의 DNA 전처리 과정이 필요하지 않고 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있는 효과를 최대화시킬 수 있는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법에 관한 것이다.
생어 염기서열 분석(Sanger sequencing) 기술은 약 40년간 미지의 염기서열을 분석하는 표준 기술로 생물학과 생명공학 분야에서 널리 사용되고 있다. 하지만 2005년 이후 다양한 차세대 염기서열 분석(Next-generation sequencing, 이하 NGS)기술의 등장으로 단위 길이 당 염기서열 분석 단가가 낮아지면서 NGS가 기존의 생어 염기서열 분석 시장을 대체하고 있는 추세이다. 시장의 대체는 분석 대상의 길이가 길고 분석 대상의 복잡도(diversity 혹은 complexity)가 높은 시장에서부터 시작되었으나, 최근 NGS 기술의 발전에 기인하여 분석 대상의 길이가 짧거나 분석 대상의 복잡도가 낮은 시장에서도 NGS를 도입하는 비율이 높아지고 있다.
하지만 분석 대상의 길이가 약 20kbp 이하이고 복잡도가 낮은(예를 들면, 단일 세포로부터 유래한 클론성 물질인) 경우, NGS의 비용의 구조적 한계로 인해 여전히 생어 염기서열 분석이 활용되는 경우가 대부분이다. NGS 비용은 크게 분석 시약(키트) 비용과 라이브러리(library) 전처리(prep, preparation의 약어) 비용으로 구성되는데 이 중 분석 시약 비용은 분석 기술의 발전에 기인하여 시간이 지남에 따라 기하급수적으로 감소하고 있으나 라이브러리 전처리 비용은 최근 몇 년간 유사한 수준으로 유지되고 있다. 라이브러리 전처리는 NGS 기술을 이용하여 염기서열을 분석하기 위해서 임의의 핵산을 최소 한쪽 말단이 NGS 이용에 적합한 어댑터(adapter)가 부착된 dsDNA 혹은 ssDNA 형태로 변화시키는 것을 의미한다. 이 과정에서 다양한 효소들이 사용되면서 전처리 시약 비용을 높이고 여러 실험 과정을 거치면서 필요로 하는 시간과 노동력이 부가적인 비용이 발생하는데, NGS 자체의 기술 발전에 비해 전처리 기술의 발전이 매우 더뎌 NGS 시약 비용이 0에 수렴하더라도 전처리 비용으로 인해 일정 수준 이하로 분석 비용을 낮추기 어려운 것이 현재의 상황이다. 이러한 가격 구조는 분석 대상의 길이가 짧아질수록 더욱 극명해지며 분석 대상의 길이가 20kbp 이하인 경우 라이브러리 전처리 비용이 생어 염기서열 분석 비용보다 크거나 유사하기에 NGS가 생어 시장을 대체하는데 어려움을 겪고 있다.
일반적인 라이브러리 전처리는 핵산 분자를 NGS 가독 길이(read length)에 맞춰 파편화(fragmentation)하는 과정을 필요로 한다. 파편화된 핵산의 말단은 end-repair와 A-tailing을 거쳐 라이게이션(ligation)에 적합한 형태로 변경되며, 이후 어댑터가 라이게이션으로 붙여지게 된다. 이후 라이게이션 반응이 일어난 분자들만 선택적으로 골라내는 과정이 포함되기도 하는데, 일반적으로는 라이게이션 반응이 일어난 분자들의 비율을 증가시키기 위해 PCR(polymerase chain reaction, 중합효소 연쇄 반응)을 수행한다. 이처럼 라이브러리 전처리는 다양한 효소와 실험 과정을 요구하므로 특정 효소나 실험 관련 비용을 대폭 줄이더라도 전체 비용 측면에서는 그 효과성이 크지 않다. 따라서 라이브러리 전처리 비용을 절감하기 위해선 라이브러리 전처리 방법을 혁신적으로 변화시킬 새로운 개념의 기술의 개발과 도입이 필수적이다.
본 발명의 일 측면에 의하면, 핵산 분자를 제공하는 단계; 전이효소(transposase)와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머(primer)로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
본 발명의 다른 측면에 의하면, 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀; 상기 단 한 종류의 염기서열을 포함하되, 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및 DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트가 제공된다.
본 발명은 핵산의 염기서열을 분석하기 위한 NGS 라이브러리 제작(전처리) 방법에 관한 것이다. 핵산의 염기서열을 확인하는 작업은 전통적으로 생어 염기서열 분석 방법에 의해 수행되어 왔다. 최근 NGS가 생물학과 생명공학 관련 학계 및 산업계 전반에 사용되고 있으나, 염기서열 분석 시약 단가의 지속적 하락에도 불구하고 라이브러리 전처리 비용 절감에 어려움을 겪으면서 분석 대상의 길이가 약 20kbp 이하인 핵산에 대해서는 NGS가 적용되는 사례를 찾아보기 어렵다. 본 발명에서 제시된 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법은 라이브러리 제작에 사용되는 효소의 종류를 줄임으로써 해당 단계에서 발생하는 비용을 최소화함과 동시에 시간과 노동력을 절감할 수 있는 효과를 지닌다. 즉 다양한 효소가 사용되고 여러 단계를 거치는 라이브러리 전처리 과정을, 예를 들어 두 가지 효소만을 사용하는 라이브러리 전처리 과정으로 혁신할 수 있다.
이와 더불어 사용하는 트랜스포좀의 종류를 줄임으로써 시약 (생산) 비용을 보다 절감할 수 있으며, 샘플별로 서로 다른 바코드를 부착하는 단계에서 파편화된 핵산 분자의 말단 종류를 고려하지 않고 실험자가 원하는 바코드 혹은 바코드의 조합을 선택하여 부착하는 것이 가능해진다. 상기 제시된 방법을 통해 약 20kbp 이하 길이의 핵산에 대해서도 생어 염기서열 분석을 NGS로 대체함으로써 염기서열 분석을 위해 소모되던 비용을 크게 절감함과 동시에 분석에 소요되는 시간을 크게 단축 가능하다. 따라서 본 발명에서 제시된 방법은 분석 대상 핵산의 길이 및 종류에 관계없이 NGS를 사용하는 것이 가능하게 함으로써, 생물학과 생명공학 분야의 일반적인 연구자들도 NGS를 사용하는 환경을 조성하는데 크게 기여할 수 있을 것으로 기대된다.
도 1은 본 명세서에 개시된 기술의 일 구현예에 따른 NGS 라이브러리 전처리 방법을 나타낸 공정흐름도이다.
도 2는 트랜스포좀을 사용한 후 샘플 핵산 형태의 모식도이다.
도 3은 헤어핀 구조에 의한 프라이밍(priming) 효율 저하를 나타낸 것이다.
도 4는 프라이밍 효율을 증가할 수 있는 방법의 예시이다.
도 5는 N sequence의 개수에 따른 PCR 증폭 효율과 NGS 리드(read)의 균일도를 나타낸다.
도 6은 아가로즈(agarose) 1% 젤(gel)을 사용하여 총 24개 샘플에 대해 전기영동을 수행한 결과이다.
도 7은 상기 대상 핵산 분자 총 24개의 차세대 염기서열 분석 라이브러리를 아가로즈(agarose) 1% 젤(gel)을 사용하여 전기영동을 수행한 결과이다.
도 8은 총 24개의 차세대 염기서열 분석 라이브러리를 하나 혹은 두 개로 모아(pooling) 동일한 조건으로 전기영동을 수행 후 크기 선별(size selection)을 위한 겔 추출(gel extraction)을 수행한 결과이다.
도 9는 라이브러리 제작이 완료되고 NGS를 수행하기 직전의 용액 내 라이브러리 분자들의 길이와 농도를 Agilent사 Tapestation 장비로 측정한 결과이다.
일반적으로 NGS 라이브러리 전처리는 1) 핵산 분자를 NGS 가독 길이에 맞춰 파편화하는 단계, 2) 파편화된 핵산 분자의 말단을 말단 수선(end-repair)을 통해 평활 말단(blunt end)로 만드는 단계, 3) A-tailing을 통해 3' 말단에 A를 추가하는 단계, 4) 어댑터를 라이게이션 반응으로 붙이는 단계, 5) 라이게이션 반응이 일어난 분자들의 비율을 증가시키기 위해 PCR을 수행하는 단계로 이루어진다.
반면 본 명세서에 개시할 기술의 일 측면에 의하면, 핵산 분자를 제공하는 단계; 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계; 상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 DNA로 구성된 파편화된 핵산 분자를 생성하는 단계; 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
상기 '부유화'는 표적이 되는 분자와 아닌 분자가 섞여 있는 용액에서 표적이 되는 분자의 비율을 늘리는 개념으로서, 표적의 증폭(amplification) 및 양성 선별(positive selection)을 포함한다..
도 1은 본 명세서에 개시된 기술의 일 구현예에 따른 NGS 라이브러리 전처리 방법을 나타낸 공정흐름도이다.
상기 핵산 분자는 단일 가닥(single strand) 혹은 이중 가닥(double strand)으로 이루어질 수 있다. 특히 상기 핵산 분자는 전이효소와의 반응이 가장 높다는 면에서 이중 가닥(double strand) 핵산 분자인 경우가 이후 단계에서의 화학 반응이 가장 효율적일 수 있다. 또한, 최소 한 가닥 이상에 1) 백본(backbone)이 절단된 닉(nick)이나 2) 수 nt 정도가 제거된 갭(gap)이 존재하는 경우에도 반응이 일어날 수 있으나, 이러한 nick이나 gap이 없는 경우에 이후 단계에서의 화학 반응이 가장 효율적이다. 그러므로 gap이나 nick이 없는 이중 가닥 핵산 분자를 준비하는 것이 바람직하다.
상기 이중 가닥 핵산 분자의 이중 가닥 중 한 가닥은 DNA인 경우가 권장된다. 대부분의 전이효소 응용 사례는 DNA:DNA duplex에 대해 보고되었으나, 최근 DNA:RNA heteroduplex에 대해서도 전이효소를 활용 가능함을 보인 사례가 있다. 이는 DNA:DNA duplex, DNA:RNA heteroduplex 뿐만 아니라 PNA, LNA, TNA, XNA 등 합성 핵산 유사체(synthetic nucleic acid analogues)에도 전이효소가 동작할 수 있는 가능성이 있음을 의미한다. 뿐만 아니라 DNA, RNA, 합성 핵산 유사체 중 어떠한 두 가닥의 조합에도 전이효소가 동작할 수 있는 가능성이 있음을 의미하기도 한다. 하지만, 전이효소가 동작한 이후 갭(gap)이 발생하고 이 gap을 메우는 과정에서 DNA 중합효소가 사용되기 때문에, 바람직하게는 한쪽 가닥은 DNA인 형태로 핵산 분자를 제공하는 것이 라이브러리 전처리에 적합하다.
일반적인 NGS 전처리의 용도(10 ng ~ 1 ug)와 굉장히 적은 양의 샘플을 위한 NGS 전처리 용도(1 pg ~ 10 ng)를 위해 상기 핵산의 양은 dsDNA를 기준으로 0.001 ng ~ 1 ug 범위 내에서 조절될 수 있다.
상기 핵산은 1) 배양액 내 세포 안, 2) 배양액 내, 3) 중합효소(polymerase), 리가제(ligase), 제한효소(restriction enzyme) 등의 생화학 반응액 내, 4) 겔 다이(gel dye), 에틸렌디아민테트라아세트산(ethylenediaminetetraacetic acid, EDTA), 폴리에틸렌 글리콜(polyethylene glycol, PEG), tris-EDTA (TE) 버퍼, 에탄올 등의 화학 반응액 내, 5) 비드(bead), 아가로즈 겔(agarose gel), 미세구조체(microstructure) 등이 섞여 있는 혼합물 내, 또는 6) 세포가 섞여 있는 혼합물 내 등에 존재하는 상태일 수 있다.
상기 전이효소(transposase)는 핵산을 절단하고 외부 DNA를 부착하는 효소로서, 전처리하고자 하는 핵산 분자를 절단하고 원하는 혹은 임의의 염기서열의 외부 DNA를 부착하여 NGS 전처리에 적합한 형태로 제작하는 역할을 한다. 이때 상기 전이효소(transposase)는 Class I transposase 혹은 Class II transposase일 수 있으며, 바람직하게는 Class I transposase에 포함될 수 있다. 상기 Class I transposase에는 Tn5, Tn7, Tn10이 포함될 수 있다.
상기 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀이 생성되는데, 상기 트랜스포좀은 전처리하고자 하는 핵산 분자를 자르고 원하는 염기서열의 외부 DNA를 추가하는 역할을 한다. 이때 전이효소에 단 한 종류의 염기서열을 갖는 외부 DNA가 결합됨으로써 한 종류의 염기서열을 표적하여 증폭 혹은 증폭과 동시에 원하는 염기서열을 추가할 수 있다.
상기 단 한 종류의 염기서열을 갖는 외부 DNA는 이중 가닥 DNA인 경우가 반응성의 향상을 위해 권장된다. 이때 반응성의 향상을 위해 상기 이중 가닥의 외부 DNA 중 한 가닥의 DNA는 3' 말단에 인산기가 결합된 것이 바람직하다.
상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열(외부 DNA의 염기서열)과 유사한 서열을 포함하며 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함할 수 있다. 그 결과 추가된 서로 다른 서열은 표적으로 사용되어 훗단의 실험 과정을 더 용이하게 하거나 NGS 전처리하는 샘플의 바코딩 혹은 분자 수준의 바코딩으로 사용될 수 있는 장점이 있다. 이때 상기 유사한 서열의 유사도는 상기 단 한 종류의 염기서열 기준 80% 이상, 바람직하게는 94% 이상일 수 있다. 상기 범위에서 프라이머는 주형에 효율적으로 결합(binding)할 수 있으며 효율성 차이로 인한 증폭 편향(amplification bias)를 최소화할 수 있다.
상기 서로 다른 서열의 프라이머는 상기 유사한 서열을 포함하고 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함하면서 3' 방향에 1nt 이상의 염기를 추가적으로 포함할 수 있다. 이때 상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 것일 수 있다. 주형 핵산 분자는 5'과 3'의 말단이 단 한 종류의 동일한 염기서열로 구성되어 hairpin 구조를 형성하고 있고 이로 인해 일반적인 프라이머는 주형과의 결합이 어려우나, 3'에 1nt 이상이 추가된 프라이머는 결합 가능한 염기수가 보다 많기에 hairpin 구조와의 경쟁에서 보다 우세하고 증폭 효율을 증가시킬 수 있다는 장점이 있다. 바람직하게는 상기 유사한 서열의 3' 방향에 2nt 이상의 염기를 추가적으로 포함할 수 있다. 이때 상기 추가된 2nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기일 수 있다. 2nt 이상이 추가되는 경우 1nt가 추가되는 경우 보다 증폭 효율이 보다 증가하여 적은 사이클(cycle) 수로도 증폭 결과물을 확인 가능하다.
상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함할 수 있다. 상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기일 수 있다.
일 구현예에 있어서, 상기 전이효소를 비활성화시키는 단계를 더 포함할 수 있다. 상기 비활성화에 의해 이후에 추가될 수 있는 증폭 단계를 포함한 다양한 효소 반응들의 반응성을 증가시킬 수 있다.
상기 전이효소를 비활성화시키는 단계는 계면활성제(detergent), 프로테아제(protease)를 통해 수행될 수 있다. 상기 계면활성제는 도데실황산나트륨(SDS)과 같은 음이온계 계면활성제(anionic detergent)일 수 있다.
상기 전이효소를 비활성화시키는 단계 이후 분석의 질을 높이기 위해 화학적, 생화학적 방법으로 불순물을 제거하는 방법, 특수한 중합효소를 이용해 갭 필링(gap filling), 말단수선(end-repair), 라이게이션(ligation), 가닥 변위(strand displacement)를 하는 단계 등을 추가할 수 있다.
일 구현예에 있어서, 상기 전이효소(transposase)를 비활성화시키는 단계 이후 증폭을 수행하는 단계를 추가할 수 있다.
상기 증폭을 수행하는 단계에서 사용되는 방법은 한 개 또는 이상의 증폭 방법일 수 있으며, 해당 증폭에 사용되는 방법은 중합효소 연쇄반응(PCR), 가닥 변위 증폭반응(srand-displacement amplification reaction), 회전환 증폭반응(rolling circle amplification reaction), 전사매개 증폭반응(transcription-mediated amplification reaction) 또는 루프매개 증폭반응(loop-mediated amplification reaction) 등이 있다. 바람직하게는 비활성화 이후에 수행해야 하는 정제 과정을 생략하여 전체 반응을 간소화가능하며 비활성화의 효율이 다소 낮더라도 전이효소를 추가적으로 비활성화 시킬 수 있다는 측면에서 상기 증폭 방법은 PCR일 수 있다. 이때 상기 PCR에 사용되는 중합효소는 5' to 3' 핵산 외부 가수분해효소 활성(5' to 3' exonuclease activity), 가닥 변위 이동(strand displacement) 기능 또는 프루프 리드(proof read) 기능을 가질 수 있다.
일 구현예에 있어서, 상기 NGS 차세대 염기서열 분석 라이브러리를 병렬적 염기서열 분석 방법으로 분석할 수 있다. 상기 병렬적 염기서열 분석 방법은 sequencing by synthesis, sequencing by ligation, nanopore 등을 이용한 것일 수 있다. 이때 NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 단계를 포함할 수 있다. 전이효소 처리된 핵산 분자의 NGS 로데이터는 대상 분자가 무작위로 파편화 되어있는 형태이기에 그 자체로만은 원래 핵산 분자의 염기서열을 파악하기가 어려운 경우가 대부분이다. 또한 일반적으로 서열을 알지 못하는 분자를 분석하는 경우가 대부분이어서 레퍼런스(reference) 기반의 분석 역시 불가능한 경우가 많다. 따라서 NGS 로데이터들 사이의 유사한 서열을 매개로 유사도 높은 서열들을 소프트웨어적으로 이어서 전체 서열을 추정할 수 있는 드 노보 어셈블리 기법을 적용하는 것이 바람직하다.
상기 병렬적 염기서열 분석 방법의 결과인 염기서열 정보들을 서로 이어 붙여 원래의 염기서열을 계산하는 단계 이전에 NGS 로데이터(raw data)를 가공하는 단계를 더 포함할 수 있다. NGS 로데이터를 가공하는 단계는 품질 점수(quality score)에 따른 필터링(filtering), 부산물(side product)로 의심되는 서열(sequence)의 제거, 중복(duplicate) 제거, 오류 정정(error correction) 방법과 기계학습(machine learning)을 이용한 최적의 조건 설정하는 단계가 포함될 수 있다.
본 발명에서 제시된 DNA 바코딩 및 분석 방법은 별도의 DNA 전처리 과정이 필요하지 않은 방법으로서, 트랜스포좀(transposome)을 이용해 바코드 DNA를 부착하여 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있는 효과를 최대화시킬 수 있다. 이는 분석의 질을 높이는 화학적, 생화학적 단계를 추가하거나 분석된 NGS 로데이터를 가공하는 단계를 추가함으로써 가능하다. 또한, 트랜스포좀(transposome)이 활성화될 수 있는 용액과 기혼합한 상태로 사용할 수 있어 추가적인 시간과 노동력을 효과적으로 단축시킬 수 있다.
또한 본 발명의 다른 측면에 의하면, 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀; 상기 단 한 종류의 염기서열을 포함하되 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및 DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트가 제공된다.
일 구현예에 따르면, 상기 키트는 NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 소프트웨어를 더 포함할 수 있다.
상기 키트는 각 단계 반응물을 다음 단계 시약과 혼합하였을 때 해당 단계의 버퍼 조성이 최적의 조건을 이루도록 함으로써, 공정의 연속성 및 효율성을 증대할 수 있으며, 다음과 같은 장점을 가질 수 있다. 일반적으로 효소의 반응 효율을 최적화하기 위해서는 여러 성분을 일정한 비율로 배합한 버퍼를 사용해야 한다. 그리고 이러한 성분 배합의 비율이 최적값으로부터 일정 수준 이상의 차이를 갖게 되면 원하는 반응이 일어나지 않게 된다. 다양한 효소들은 각각 최적의 버퍼 조성을 가지고 있고 이는 일반적으로 서로 다르기에, 다양한 효소 반응을 연속적으로 수행하기 위해선 일반적으로 효소 반응 사이에 정제 과정을 추가해야하며 이는 공정의 효율성을 저해하는 가장 큰 요인이다. 만약 N번째 단계 효소 반응의 결과물을 N+1번째 단계 효소 반응 시약에 더했을 때 버퍼의 조성이 최적의 조건이 되도록 N+1번째 효소 반응의 버퍼를 구성 및 준비해둘 수 있다면, 효소 반응 사이에 존재하는 정제 과정을 생략하여 공정의 연속성 및 효율성을 높일 수 있다.
이하 본 발명의 다양한 구현예들에 대하여 보다 상세히 설명하고자 한다.
본 발명의 일 구현예에 따르면 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법이 제공된다.
먼저 핵산 양의 조절에 필요한 용액으로는 물, TE buffer를 포함할 수 있다. 특별한 목적을 제외하고는 핵산 양의 조절은 물 혹은 바코딩에 최적화된 용액을 사용하는 것이 유리하다.
상기 핵산의 양은 dsDNA를 기준으로 0.001 ng 내지 1 ug, 바람직하게는 0.01 ng 내지 100 ng, 더욱 바람직하게는 0.1 ng 내지 10ng의 농도를 가질 수 있다. 핵산 양의 조절은 사용하는 기결합되어 있는 전이효소(transposase)와 외부 DNA 복합체가 바코딩할 수 있는 양의 범위가 제한되어 있기 때문인데, 복합체의 양을 추가 혹은 감소시켜 최적의 조건을 별도로 구할 수 있다.
상기 분석하고자 하는 핵산이 들어있는 용액은 1) 세포를 배양할 수 있는 용액(DMEM, RPMI, IMDM 등)과 박테리아를 배양할 수 있는 용액(LB, SOC, SB 등), 2) 생화학 반응이 일어나는 용액(PCR, ligase, restriction enzyme, TOPO, gibson assembly, DNase, RNase 등), 3) 화학물질이 들어있는 용액(EtOH, EDTA, agarose gel dye, PEG, TE 등), 4) 미세 구조물이 섞여 있는 용액(bead, agarose gel, microstructure 등), 5) 살아 있는 세포 및 박테리아가 들어있는 용액 등 일반적인 생물학적인 실험에 사용되는 용액 등을 포함할 수 있다.
상기 생화학 반응이 일어나는 용액 중 PCR이 진행된 용액의 경우 일반적인 PCR에 필요한 dNTP, 각종 염기, EDTA, 프라이머(primer), 중합효소(polymerase) 뿐만 아니라 PCR이 효율적으로 일어날 수 있게 도와주는 인핸서(enhancer) (PEG, helper 등), PCR 후 gel에 로딩하기 쉽게 도와주는 용액(sucrose 와 dye 등), 각종 유사한 증폭 방법인 RCA(rolling circular amplification), MDA(multiple displacement amplification), PCA(polymerase cycling assembly)에서 사용된 효소(enzyme)과 세부요소들을 포함할 수 있다.
다양한 종류의 샘플에 전처리 없이 샘플의 파편화 및 어댑터를 부착하는 방법으로 all-in-one-mix 버퍼를 이용할 수 있다. 해당 버퍼는 다양한 종류의 샘플에 존재하는 용액이 첨가되더라도 뒷단의 트랜스포좀(transposome)을 이용한 샘플의 파편화 및 어댑터 부착 반응을 유지시킬 수 있는 완충제 역할을 하는 버퍼 조성을 포함한다. 뒷단의 파편화 및 어댑터 부착 반응을 가능케 하는 해당 완충 버퍼 조성의 역할은 크게 1) pH 조절과 2) 파편화 및 어댑터 부착 반응을 방해하는 인자들의 제거로 구분 지을 수 있다. pH를 조절할 수 있는 버퍼(buffer)를 구성할 수 있는 버퍼의 조성으로 citric acid, acetic acid, KH2PO4, CHES, borate, Na2HPO4, TAPS ([Tris(hydroxymethyl)methylamino]propanesulfonic acid), Bicine (2-(Bis(2-hydroxyethyl)amino)acetic acid), Tris (Tris(hydroxymethyl)aminomethane) or, (2-Amino-2-(hydroxymethyl)propane-1,3-diol), Tricine (3-[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), TAPSO (3-[N-Tris(hydroxymethyl)methylamino]-2-hydroxypropanesulfonic acid), HEPES (4-(2-hydroxyethyl)-1-piperazineethanesulfonic acid), TES (2-[[1,3-dihydroxy-2-(hydroxymethyl)propan-2-yl]amino]ethanesulfonic acid), MOPS (3-(N-morpholino)propanesulfonic acid), PIPES (Piperazine-N,N'-bis(2-ethanesulfonic acid)), Cacodylate (Dimethylarsenic acid), MES (2-(N-morpholino)ethanesulfonic acid) 등이 있으며, 해당 조성 중 한가지 혹은 그 이상의 조합으로 구성이 가능하다. 핵산 샘플과 파편화 및 어댑터 부착반응에 유리한 pH 범위인 pH 7.5~9 사이에 들어올 수 있도록 해야하며, 최적의 결과가 나올 수 있도록 pH 8.5의 all-in-on-mix 버퍼를 구성하는 것이 유리하다.
샘플 종류 및 샘플을 구성하는 용액의 종류에 상관없이 샘플의 파편화 및 어댑터 부착반응이 진행되는 한 종류의 all-in-one-mix 버퍼의 구성이 가장 바람직하나, 예외적으로 샘플을 구성하는 용액이 해당반응을 방해하는 경우 조성을 달리하거나 첨가물을 추가하거나 감소시켜 샘플 종류에 따른 맞춤형 all-in-one-mix 버퍼를 구성할 수 있다.
예를 들어 세포 배양 용액이 첨가된 샘플의 경우, 용액 내 존재하는 과량의 protease가 트랜스포존(transposon)을 degradation시킬 수 있다. 이 때 all-in-one-mix 버퍼에 적정량의 단백질 분해효소 저해인자(protease inhibitor)를 첨가함으로써 세포 배양 용액 내 샘플의 전처리 과정없이 샘플의 파편화 및 어댑터 부착반응을 최적화시킬 수 있다. 또 다른 예시로 세포 내부에 존재하는 지놈을 분석하고자 하는 경우, 세포의 핵 안의 핵산의 한 종류인 DNA와 트랜스포좀(transposome)이 만나서 반응을 하기 위해서는 세포막을 통과하는 트랜스포좀의 반응 효율이 증가하여야 한다. 이 경우 all-in-one-mix 버퍼에 세포막을 통과하는데 도움을 줄 수 있는 계면활성제제(detergent) 혹은 프로테아제(protease) 등을 첨가할 수 있다. 혹은 세포를 구성하는 막을 용해시키기 위한 시약(reagent)을 all-in-one-mix 버퍼에 추가하여 transposome과 세포 내부의 핵산의 한 종류인 DNA의 파편화 및 어댑터 부착반응의 효율을 증가시킬 수 있다.
생물체에 자연적으로 존재하는 트랜스포존(transposon)은 유전체 내에서 DNA 위치를 다른 곳으로 이동시킬 수 있는 일명 점핑 유전자(jumping gene)으로 불린다. 트랜스포존은 작용기작에 따라 크게 두 가지로 분류된다. 잘라내기-붙여넣기 작용 기작으로 알려진 Class I으로 분류되는 transposon은 타겟하는 핵산의 한 종류인 DNA의 양 말 단의 3'와 5' 부분을 모두 잘라낸 후 외부 DNA를 삽입하며, 복사-붙여넣기 작용 기작으로 알려진 Class ll는 5' 부분은 잘라내지 않고 3' 부분만 끊어내어 외부 DNA를 매달고 있다가 복제 과정을 통해 삽입한다.
본 발명에서 사용하는 트랜스포존(transposon)은 Class I에 해당되며 Class I분류에 속하는 transposon으로는 Tn3, Tn5, Tn7, Tn10 등이 있다. 아래 표 1에 본 발명에서 사용한 트랜스포존의 Genebank accession no.를 나타내었다.
TYPE Genebank accession no.
Tn5_WT QED79438.1
Tn5_mut ADY68344.1
Tn5_plas HQ908071.1
Tn10 QSX26046.1
Tn7_TnsA QKN75220.1
Tn7_TnsB QKN75219.1
Tn7_TnsC QKN75218.1
Tn10 AAG48301.1
일반적으로 이들의 작용기작은 같은 분류에 속하기에 어느 것을 사용하여도 무방하나 무작위적으로 핵산의 한 종류인 타겟 DNA를 파편화하며 DNA 바코드를 부착하도록 엔지니어링되어 있는 트랜스포존을 사용하는 것이 적합하다. [Reznikoff WS et al, Transposon Tn5, Annu Rev Genet 2008, 42:269-286]
샘플 핵산에 전이효소와 외부 DNA, 혹은 그 복합체를 추가하여 DNA 바코드를 화학적으로 연결한다. 일반적으로 전이효소와 외부 DNA, 혹은 그 복합체를 형성하는 방법은 전이효소 인식 부위(Mosaic End, ME)를 이용하여 이루어지는데 19bp 길이의 전이효소 인식 부위 염기서열로 이루어진 올리고뉴클레오티드와 그 상보적인 올리고뉴클레오티드를 어닐링(annealing)한 뒤 어닐링된 dsDNA를 전이효소에 조립(assemble)시켜 복합체인 트랜스포좀(transposome)을 형성할 수 있다. 트랜스포좀이 샘플 핵산에 바인딩하면 샘플 핵산과 5' transferred strand이 연결되면서 트랜스포좀이 붙어 있고, 3' non transferred strand에는 9bp gap이 만들어진 채로 파편화 및 어댑터 부착 반응이 진행된다. 상기 5' transferred strand는 샘플 핵산과 백본(backbone)이 연결된 가닥(strand)을 의미하며 3' non transferred strand는 nick이나 gap 등으로 인해 샘플 핵산과 연결되지 않은 채 5' transferred strand에 수소결합으로 붙어 있는 가닥을 의미한다. 샘플 핵산은 외부 DNA와 트랜스포좀과 만나기 전까지 double-stranded DNA 형태를 유지하여야 한다. 복합체의 외부 DNA가 샘플 핵산에 랜덤하게 혹은 시퀀스 특이적으로 삽입되며 5'-말단과 3'-말단에 외부 DNA가 태그되어 파편화된 핵산 분자들이 형성된다. 상기 외부 DNA가 삽입에 의해 파편화된 핵산 분자들은 5'-말단과 3'-말단에 한 종류 혹은 두 종류 이상의 외부 DNA가 삽입되어 태그될 수 있다. 상기 외부 DNA는 한 가지 또는 두 가지 이상의 프라이머(primer)를 이용해 증폭할 수 있는 범용 서열(universal sequence)을 포함한다. 상기 universal sequence를 이용하는 경우 해당 영역을 타겟하는 primer를 이용하여 5'-말단과 3'-말단에 태그된 파편화된 샘플들을 증폭을 하는 데 용이하다. 또한 다양한 NGS 장비 호환이 가능한 primer 디자인을 적용할 수 있으며 이런 경우 NGS 라이브러리 준비 단계를 단순화시킬 수 있는 장점을 갖는다.
외부 DNA는 파편화된 샘플 핵산을 동정할 수 있는 바코드 서열(barcode sequence)을 한 개 혹은 2 이상을 가질 수 있다. 해당 바코드 서열의 경우 서로 다른 서열 및 서로 다른 길이를 가질 수 있다. 서로 다른 길이와 다른 서열을 갖는 바코드 서열의 조합이 많은 수의 샘플을 처리하기 위한 다중분석 측면에서는 가장 유리할 수 있다.
하지만 여러 개의 바코드를 트랜스포좀 형성 단계부터 사용하는 경우 많은 수의 올리고뉴클레오타이드를 필요로 한다는 단점이 존재한다. 이는 올리고뉴클레오타이드 합성, 트랜스포좀 형성, 트랜스포좀과 샘플 DNA의 결합 등 여러 단계에서 비용 증가의 원인이 될 수 있다. 따라서 바람직하게는 별도의 바코드나 어댑터 서열 없이 단 한가지 ME 서열만을 사용하고 한 종류의 트랜스포좀만을 사용하는 것이 병렬처리를 위해서는 가장 효과적일 수 있다.
샘플 핵산과 바인딩한 전이효소(transposase)는 별도의 추가적인 화학반응이 일어나기 전까지 핵산과 전이효소가 연결된 복합체(complex)형태를 유지한다. 전이효소가 바인딩되어 있는 복합체 상태에서는 추후 PCR 증폭과정을 수행하기 위해 프라이머가 바인딩할 수 없음으로 단백질 변성(protein denature)을 유도할 수 있는 세정제(detergent) 화학 시료를 추가하거나 단백질을 분해하는 효소인 프로테아제(protease)를 이용하여 전이효소를 핵산으로부터 분리할 수 있다.
세포벽을 분쇄하는 화학적 용도로 사용되는 세정제(detergent)는 친수성 머리(hydrophilic head)의 전하(charge) 여부에 따라 이온성(ionic)과 비이온성 세정제(non-ionic detergent)로 나뉜다. 보다 자세하게는 음전하(negative charge)를 띠는 것은 음이온(anionic), 양전하(positive charge)를 띠는 것은 양이온(cationic), 그리고 두 가지 모두를 가지는 것은 양쪽성 이온(zwitterionic)으로 구분된다. 전하(charge)에 따라서 세포벽을 분쇄하는 정도가 다른데 일반적으로 비이온성 세정제(non-ionic detergent)는 마일드(mild)하기 때문에 세포벽을 분쇄하여 단백질을 추출하고자 하는 목적에 주로 사용되고 그렇지 않은 경우에는 세포벽을 강력히 파괴하는 음이온 세정제(anionic detergent)가 흔히 사용된다. 대표적인 음이온 세정제(anionic detergent)로는 Sodium dodecyl sulphate (SDS)가 있다. [Mohammed Shehadul Islam et al, A review on macroscale and microscale cell lysis method, micromachines 2017, 8, 83]
트랜스포좀의 반응은 중단시키면 이후 각 샘플별로 인식표를 붙여주는 단계를 필요로 한다. 일반적으로 인식표는 DNA 바코드를 의미하며 이는 인덱스(index) 등의 명칭으로 불리기도 한다. 바코드를 붙이는 과정은 중합효소를 이용하여 진행되며 대표적으로 PCR을 예로 들 수 있으나, MDA 등의 다른 방법도 사용 가능하다.
상기 과정이 시작되기 이전의 핵산의 염기서열 구조는 도 2와 같다. 도 2는 트랜스포좀을 사용한 후 샘플 핵산 형태의 모식도이다.
일반적으로 ME 서열(ME sequence)에 어닐링(annealing)하는 프라이머를 이용해 PCR방식으로 증폭하게 된다. 하지만, Tn5로 파편화된 유전물질은 양쪽의 ME 서열(ME seqeunce)과 역상보적인 상태(reverse complement된 상태)의 ME sequence끼리 헤어핀(hairpin)을 이루고 있어 일반적인 프라이머는 이 헤어핀 구조보다 우세하게 프라이밍(priming)할 수 없고, 이에 PCR 증폭 효율이 매우 낮다. 도 3은 헤어핀 구조에 의한 프라이밍 효율 저하를 나타낸 것이다. 본 발명에서는 NGS 어댑터 서열(adapter sequence)을 부착하는 primer를 변형시켜 해당 hairpin 구조보다 우세하게 프라이밍함으로써 PCR 증폭 효율을 극적으로 향상시켰다.
NGS 어댑터 서열(adapter sequence)을 부착하는 프라이머의 ME sequence 다음 3'에 N sequence를 추가하였다. 이 추가적인 N sequence는 랜덤(random)한 불활성 서열(inert sequence)에 바인딩(binding)하여 프라이머가 템플릿(template)의 ME sequence 외에 추가적으로 더 바인딩할 수 있는 영역을 발생시킨다. 이는 헤어핀 구조보다 더 높은 결합력(binding force)을 프라이머와 템플릿 사이에 발생시켜 프라이머가 헤어핀 구조를 파훼하고 템플릿에 프라이밍되어 신장(elongation)을 진행할 수 있다. 도 4는 프라이밍(priming) 효율을 증가할 수 있는 방법의 예시이다. 도 4를 참조하면, 프라이머에 0보다 많은 N 서열을 추가하여 프라이머의 프라이밍 효율을 증가시킬 수 있음을 나타낸다. N sequence는 인서트(insert)의 랜덤 서열(random sequence)에 바인딩(binding)되는 것을 목적으로 하여 0개보다 더 많아야 PCR 효율 증가효과를 확인할 수 있다. 단, N sequence의 수가 증가하면 염기서열 종류의 경우의 수가 증가하며 특정 염기서열을 갖는 프라이머의 양이 4의 N제곱만큼 감소하기 때문에 사용 목적에 맞춰 N의 개수를 선택하는 것이 바람직하다.
다음의 실험을 통해 N sequence의 추가가 PCR 증폭 효율을 극적으로 높일 수 있음을 확인하였다. N sequence의 개수가 0, 1, 2개인 primer를 각각 이용해 Tn5로 동일하게 파편화된 템플릿 핵산을 9가지의 서로 다른 index로 PCR 하였다. 사이클은 총 30회였고 변성 온도(denaturation temperature) - 95℃, 어닐링 온도(annealing temperature) - 60℃, 신장 온도(elongation temperature) - 72℃이다.
도 5는 N sequence의 개수에 따른 PCR 증폭 효율과 NGS 리드(read)의 균일도를 나타낸다. 도 5를 참조하면, N sequence의 개수를 증가시킴에 따라 PCR 증폭 효율이 증가하는 것을 확인할 수 있다. 또한, 같은 N sequence 개수인 PCR 증폭물을 동량 풀링(pooling)하여 NGS를 수행하면, 인덱스(index) 간 증폭 효율 차이도 감소하는 것을 확인할 수 있다. NGS 분석 결과를 활용하는 대부분의 분야에는 최소한의 read를 충족해야 분석에 사용할 수 있는데 index 간 증폭 효율 차이가 클수록 가장 적은 증폭 효율을 보이는 index의 최소한의 리드를 충족하기 위해 시퀀싱(sequencing)을 불필요하게 추가적으로 수행해야 하는 경우가 발생한다. 또는, 개별 샘플별로 농도 측정을 수행한 후 증폭 효율에 맞춰 pooling하는 방법이 있는데, 이 방법 역시 추가적인 노동력이 발생하기 때문에 비효율적이다. 본 발명의 방법을 사용해 NGS adapter sequence를 부착하면 불필요한 sequencing 혹은 샘플 별 농도 측정을 수행을 줄일 수 있다.
핵산 샘플들은 개별적으로 파편화 및 어댑터가 부착이 되어야 하며, 뒷 단의 실험인 PCR 단계도 개별적으로 증폭이 진행하는 가장 일반적인 방법이다. 그러나 핵산 샘플들을 개별 단위로 파편화 및 어댑터 부착을 필수적으로 진행해야 하는 것에 반해 뒷 단의 실험인 PCR 단계는 많은 수의 파편화 및 어댑터가 부착된 샘플들을 풀링하여 동시에 PCR 단계를 이용하여 증폭할 수 있다. 트랜스포좀을 이용하여 파편화 및 어댑터가 부착된 샘플들을 풀링하여, PCR 증폭 단계를 거칠 수 있지만 각 파편들 혹은 샘플들을 개별적으로 증폭하는 것이 PCR 단계에서의 증폭 바이어스(bias) 발생 방지 및 키메라 서열(chimera sequence) 생성 억제 측면에서 유리하다. 그러나 트랜스포좀을 이용한 파편화 및 어댑터 부착 반응을 진행해야 하는 핵산 샘플들의 수가 증가하거나 개별 핵산의 샘플의 길이가 길어지는 경우, 각 샘플을 개별 반응을 하는 것이 비용과 노동력 및 시간 측면에서 비효율적이다. 다양한 파편화된 샘플들을 증폭하는 PCR 과정에서 PCR 증폭 bias 및 chimera sequence 생성 억제를 하기 위해서 방법으로 개별 파편화된 샘플들이 독립적인 공간에서 PCR 반응을 진행하는 방법을 적용할 수 있다. 개별 파편화된 샘플들을 독립적인 공간에서 증폭시키기 위해 각 샘플들을 미세 공간으로 분리하여 개별 반응을 진행시키는 방법이 있으며, 예로는 미세구조물을 이용하는 방식 또는 에멀젼(emulsion)을 이용한 방식 등이 있다. 해당 미세 공간에서의 개별 반응의 공간은 작게는 적절하게는 서브 나노리터(sub nanoliter) 수준이며 작게는 서브 피코리터(sub picoliter)에서 크기는 서브 마이크로리터(sub microliter)까지 가능하다. PCR 단계에서 다양한 종류의 중합효소(plymerase)가 사용될 수 있으며 Taq DNA polymerase, Pfu DNA polymerase, isothermal DNA polymerase 등 특정 계열의 polymerase에 국한되지 않고 다양한 계열의 polymerase 사용이 가능하다. PCR 단계에서 PCR 단계에서의 PCR 프로토콜은 단일 스테이지, 멀티 스테이지 등으로 구분될 수 있다. 일반적인 PCR 프로토콜의 경우, 변성(denaturing), 어닐링(annealing), 연장(extension)의 세 스텝으로 구성된 하나의 스테이지를 이용하여 해당 싸이클을 반복하여 증폭한다. 해당 일반적인 PCR 프로토콜에서 하나의 스테이지를 이용하는 이유는 사용되는 프라이머가 온전하게 모든 영역이 타겟 DNA에 바인딩할 수 있는 온도를 기반으로 하여 annealing 온도(Ta)를 설정하기 때문이다. 반면 바코드 서열이 추가된 primer를 사용하는 경우, 증폭을 위한 초기 싸이클에서 바코드 서열을 포함한 primer의 모든 영역이 타깃 DNA에 바인딩 하는 것이 아닌 바코드 서열을 제외한 primer의 일부 영역만 바인딩 하기에 primer 바인딩을 위한 Ta가 다르게 된다. 고로 바코드 서열이 추가된 primer를 사용하여 파편화 및 어댑터가 부착된 샘플들을 증폭하는 경우, 하나의 Ta 값을 갖는 단일 스테이지가 아닌 여러 Ta 값을 갖는 멀티 스테이지의 PCR 프로토콜을 이용하여 증폭하는 것이 높은 PCR 증폭 효율을 얻는데 바람직하다.
상기 DNA 바코드가 연결된 핵산 분자의 염기서열은 병렬적 염기서열 분석 방법으로 분석한다. 병렬적 염기서열 분석의 예는 Illumina 사의 HiSeq, MiSeq, Life Techonology 사의 Ion Torrent, Roche 사의 454 등으로, sequencing by synthesis, sequencing by ligation, nanopore sequencing 등이 전반적으로 사용 가능하다.
병렬적 염기서열 분석 방법으로 데이터 처리된 파편화된 핵산 분자들은 다시 DNA 바코드로 분류를 하고 특정 소프트웨어를 사용하여 파편화되기 전 본래의 염기서열 구조로 복구될 수 있다. 이와 같이 시퀀싱한 리드들이 중첩되는 서열로 새롭게 어셈블리를 진행하는 것을 de novo assembly로 불리며 이를 위해 상용화된 소프트웨어를 사용할 수도 있으며 여러 컴퓨터 언어를 이용하여 다양한 조건을 변화시키며 분석할 수도 있다.
트랜스포좀의 외부 DNA는 transposase 전위 효소 인식 부위(Mosaic End, Me)를 이용하며 19bp 길이의 전위 효소 인식 부위 염기서열, universal sequence, DNA barcode sequence가 포함된 올리고뉴클레오티드와 전위 효소 인식 부위 염기서열만으로 구성된 올리고뉴클레오티드를 어닐링시킨 이중가닥 DNA 형태로 구성되어 있다. 트랜스포좀은 샘플 DNA에 바인딩하여 5' transferred strand에 붙어 있고, 3' non transferred strand에는 9bp gap이 만들어진 채로 파편화 및 어댑터 부착 반응이 진행된다. 이 때 만들어지는 파편화 및 어댑터가 부착된 샘플은 양쪽 5'-끝단에 범용 서열(universal sequence)를 오버행(overhang) 구조로 가지며 양쪽 가닥(strand)에 9bp gap을 형성한다. 양 끝에 달린 universal sequence를 이용하여 PCR 증폭을 하기 위해선 양쪽 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아주는 과정을 필요로 한다. 해당 과정은 Taq 계열의 DNA polymerase, Pfu 계열의 polymerase, phi29 DNA polymerase 등 다양한 종류의 polymerase의 5'-3' 핵산 외부 가수분해효소 활성(5'-3' exonuclease activity) 혹은 가닥 변위 이동(strand-displacement) 기능을 이용하여 non transferred strand의 ME 시퀀스를 제거 혹은 밀어내며 양 쪽 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아줄 수 있다. 또는 리가제(ligase)와 올리고(oligo)를 이용하여 9bp gap과 5'-끝단의 overhang 구조에 상보적인 시퀀스를 달아주는 사전 작업을 진행할 수 있다. 해당 사전 작업을 진행하지 않거나 사전 작업의 효율이 낮은 경우 PCR 단계에서 PCR 효율의 감소 및 키메라(chimera) 물질이 생성된다는 단점을 갖는다. 이를 해결할 수 있는 방법으로 strand-displacement activity를 갖는 DNA polymerase, 5'-3' exonuclease activity를 갖는 DNA polymerase, DNA ligase, 핵산 분해 효소(nuclease) 등을 사용할 수 있다.
상기 NGS 로데이터를 가공하는 단계는 NGS 로데이터 중 앞 부분에서 transposase 전위 효소 인식 부위를 인식하는 단계, 뒷 부분에서 transposase 전위 효소 인식 부위를 인식하는 단계, 샘플 핵산의 파편화 및 어댑터 부착반응에 사용한 외부 DNA 바코드를 인식하는 단계, 상기 인식한 외부 DNA 염기서열들을 제거하는 단계를 포함할 수 있다. 이 후 외부 DNA 바코드를 이용해 같은 샘플 핵산에서 나온 파편화된 핵산의 염기서열 정보를 수집하는 단계, 수집된 여러 개의 파편화된 핵산의 염기서열 정보를 연결하여 기존 샘플 핵산의 염기서열 정보를 복원하는 단계를 포함할 수 있다.
상기 염기서열 정보를 수집하는 단계에서 염기서열 분석 점수(quality score)를 기준으로 높은 점수의 NGS 로데이터만 사용하거나, homopolymer 혹은 반복적인 pattern을 갖는 DNA 염기서열 등과 같이 복원 과정에 방해가 될 수 있는 NGS 로데이터를 제거하거나, 적절한 양의 NGS 로데이터를 랜덤 혹은 특정 규칙으로 선별하는 과정을 포함하는 것이 바람직하다. 상기 높은 점수의 NGS 로데이터를 선택하는 분석 점수의 기준, 상기 호모폴리머(homopolymer)와 반복적인 패턴(pattern)을 갖는 NGS 로데이터를 제거하는 정도, 상기 선별하는 NGS 로데이터의 양은 샘플 핵산이 들어있는 용액에 따라 조절될 수 있다. 또한, 복원된 핵산의 전체 염기서열 혹은 각 올리고뉴클레이타이드에 복원된 정도를 수치화 하는 단계, 상기 수치화 된 값을 이용해 샘플 핵산과 가장 유사한 염기서열을 선택하는 단계를 포함할 수 있다.
상기 NGS 로데이터로부터 핵산의 염기서열 정보를 가공하는 단계에 사용되는 모든 수치들은 기계학습(machine learning)을 이용해 샘플별로 최적화시킬 수 있으며, 이는 샘플 핵산이 들어있는 용액, 샘플 핵산의 길이, 샘플 핵산의 상태(linear DNA, circular DNA 등), 샘플 핵산의 양에 따라 최적화시키는 것이 바람직하다.
상술한 방법에 따르면, 트랜스포좀(transposome)을 이용해 바코드 DNA를 부착하여 대량의 샘플을 병렬적으로 처리하여 시간과 노동력 및 비용을 절약할 수 있다.
실시예
본 발명의 방법에 따라 간소화된 NGS 라이브러리의 제조
(1) 핵산 분자 제공 및 품질 검증
본 발명자들은 NGS 라이브러리 제조가 가능한지 검증을 하기 위한 실험에 앞서 염기서열 분석 대상이 되는 핵산 분자의 존재 여부를 확인하고자 하였다. 도 6은 아가로즈(agarose) 1% 젤(gel)을 사용하여 총 24개 샘플에 대해 전기영동을 수행한 결과이다. 도 6을 참조하면, 전기영동 결과로부터 24개의 샘플 모두 1kbp 이상의 길이를 가지며 일정량 이상 존재하는 것을 확인할 수 있다.
(2) 파편화된 핵산 분자의 생성
상기 핵산 분자와 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하였다. 상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하였다.
도 7은 상기 대상 핵산 분자 총 24개의 차세대 염기서열 분석 라이브러리를 아가로즈(agarose) 1% 젤(gel)을 사용하여 전기영동을 수행한 결과이다. 도 7을 참조하면, 최초 핵산 분자의 길이와 관계없이 모두 유사한 형태의 라이브러리가 제작되었으며 NGS 로데이터 상에 품질 문제나 데이터 양 편차 문제를 야기할 수 있는 증폭 편향(bias) 등의 문제가 발생하지 않았음을 확인할 수 있다.
도 8은 총 24개의 차세대 염기서열 분석 라이브러리를 하나 혹은 두 개로 모아(pooling) 동일한 조건으로 전기영동을 수행 후 크기 선별(size selection)을 위한 겔 추출(gel extraction)을 수행한 결과이다. 크기 선별은 약 350~600bp의 길이에 대해 수행하였으며, 선택한 길이는 NGS 라이브러리의 제작 목적에 따라 달라질 수 있다. 각각의 차세대 염기서열 분석 라이브러리의 형태가 모두 유사하므로 이를 하나 혹은 두 개의 반응 용기에 모아 다루는 것이 가능하며, 라이브러리의 형태에 차이가 있는 경우(예를 들어 증폭 편향이나 길이 편향이 발생한 경우) 각각의 라이브러리를 모두 별도로 처리해주어야하기 때문에 이후의 정제 과정이 번거로워진다. 반면 제안된 방법을 사용하는 경우 겔 추출(gel extraction), 비드 정제(bead purification) 등의 정제 과정을 하나 혹은 두 개의 반응으로 간소하게 수행할 수 있다는 장점이 있다.
도 9는 라이브러리 제작이 완료되고 NGS를 수행하기 직전의 용액 내 라이브러리 분자들의 길이와 농도를 Agilent사 Tapestation 장비로 측정한 결과이다. 도 9의 결과로부터, 원하는 길이의 라이브러리 분자들만이 성공적으로 정제되었음을 확인할 수 있다.

Claims (20)

  1. 핵산 분자를 제공하는 단계;
    전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA를 결합하여 트랜스포좀을 생성하는 단계;
    상기 핵산 분자와 상기 트랜스포좀을 혼합하여 양 말단이 상기 한 종류의 염기서열로 구성된 파편화된 핵산 분자를 생성하는 단계; 및
    상기 파편화된 핵산 분자를 서로 다른 서열의 프라이머로 부유화(enrichment)하여 차세대 염기서열 분석 라이브러리를 생성하는 단계를 포함하는 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법.
  2. 제1 항에 있어서,
    상기 핵산 분자는 이중 가닥 핵산 분자인 방법.
  3. 제2 항에 있어서,
    상기 이중 가닥 핵산의 이중 가닥 중 한 가닥은 DNA인 방법.
  4. 제1 항에 있어서,
    상기 단 한 종류의 염기서열을 갖는 외부 DNA는 이중 가닥 DNA인 방법.
  5. 제4 항에 있어서,
    상기 이중 가닥 DNA 중 한 가닥의 DNA는 3' 말단에 인산기가 결합된 방법.
  6. 제1 항에 있어서,
    상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 그 서열의 5' 방향에 최소 1nt 이상의 서로 다른 서열을 포함하는 방법.
  7. 제6 항에 있어서,
    상기 유사한 서열의 유사도는 상기 단 한 종류의 염기서열 기준 80% 이상인 방법.
  8. 제7 항에 있어서,
    상기 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함하는 방법.
  9. 제8 항에 있어서,
    상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  10. 제7 항에 있어서,
    상기 유사한 서열의 3' 방향에 2nt 이상의 염기를 추가적으로 포함하는 방법.
  11. 제10 항에 있어서,
    상기 추가된 2nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  12. 제1 항에 있어서,
    상기 서로 다른 서열의 프라이머는 상기 단 한 종류의 염기서열과 유사한 서열을 포함하며 유사한 서열의 3' 방향에 1nt 이상의 염기를 추가적으로 포함하는 방법.
  13. 제12 항에 있어서,
    상기 추가된 1nt 이상의 염기는 A, G, T, C, U, I, 염기 유사체(base analogues) 중 최소 두 개 이상이 혼합된 염기인 방법.
  14. 제1 항에 있어서,
    상기 전이효소를 비활성화시키는 단계를 더 포함하는 방법.
  15. 제1 항에 있어서,
    상기 단 한 종류의 염기서열을 갖는 외부 DNA는 단 한 가지 ME 서열만을 포함하는 것인 방법.
  16. 제1 항에 있어서,
    상기 파편화된 핵산 분자를 생성하는 단계에서 무작위적으로 상기 핵산 분자를 파편화하며 DNA 바코드를 부착하도록 엔지니어링되어 있는 트랜스포존을 사용하는 것인 방법.
  17. 제1 항 내지 제16 항 중 어느 한 항에 따른 방법으로 얻어진 상기 차세대 염기서열 분석 라이브러리를 젤 전기영동 또는 비드를 사용하여 정제하는 단계가 더 추가되는 것인 방법.
  18. 제1 항 내지 제16 항 중 어느 한 항에 따른 방법으로 얻어진 상기 차세대 염기서열 분석 라이브러리를 병렬적 염기서열 분석 방법으로 분석하되, NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 단계를 포함하는 병렬적 염기서열 분석 방법.
  19. 전이효소와 단 한 종류의 염기서열을 갖는 외부 DNA가 결합된 단 한 종류의 트랜스포좀;
    상기 단 한 종류의 염기서열을 포함하되 그 5' 방향에는 서로 다른 염기서열을 갖는 서로 다른 두 종류의 프라이머; 및
    DNA 중합효소로 구성된 간소화된 차세대 염기서열 분석 라이브러리 전처리 키트.
  20. 제19 항에 있어서,
    NGS 로데이터(raw data)를 드 노보 어셈블리(de novo assembly)하여 상기 핵산 분자의 염기서열을 결정하는 소프트웨어를 더 포함하는 키트.
KR1020220044362A 2021-04-09 2022-04-11 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법 KR20220141246A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210046397 2021-04-09
KR1020210046397 2021-04-09

Publications (1)

Publication Number Publication Date
KR20220141246A true KR20220141246A (ko) 2022-10-19

Family

ID=83546538

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220044362A KR20220141246A (ko) 2021-04-09 2022-04-11 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법

Country Status (2)

Country Link
KR (1) KR20220141246A (ko)
WO (1) WO2022216133A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016195382A1 (ko) * 2015-06-01 2016-12-08 연세대학교 산학협력단 바코드 서열을 포함하는 어댑터를 이용한 차세대 염기서열 분석 방법
KR20170133270A (ko) * 2016-05-25 2017-12-05 주식회사 셀레믹스 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도
FI4060041T3 (fi) * 2017-09-25 2024-03-26 Fred Hutchinson Cancer Center Korkeatehoinen kohdennettu genomin laajuinen in situ -profilointi
BR112021006038A2 (pt) * 2019-01-11 2021-10-26 Illumina Cambridge Limited Complexos de stranspossomas ligados à superfície do complexo

Also Published As

Publication number Publication date
WO2022216133A1 (ko) 2022-10-13

Similar Documents

Publication Publication Date Title
EP3066114B1 (en) Plurality of transposase adapters for dna manipulations
Karrer et al. In situ isolation of mRNA from individual plant cells: creation of cell-specific cDNA libraries.
EP2807292B1 (en) Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation
US11339431B2 (en) Methods and compositions for enrichment of target polynucleotides
JP7292258B2 (ja) 縦列反復配列を有するドナーdna修復鋳型を使用する部位特異的なdna改変
US20210180050A1 (en) Methods and Compositions for Enrichment of Target Polynucleotides
US11401543B2 (en) Methods and compositions for improving removal of ribosomal RNA from biological samples
US20230056763A1 (en) Methods of targeted sequencing
KR20210043634A (ko) 라이브러리 인리치먼트를 개선하기 위한 조성물 및 방법
EP3350326B1 (en) Compositions and methods for polynucleotide assembly
KR20220141246A (ko) 간소화된 차세대 염기서열 분석 라이브러리 전처리 방법
AU2019359771A1 (en) Barcoding of nucleic acids
US20230287396A1 (en) Methods and compositions of nucleic acid enrichment
CN110573627A (zh) 用于产生目标核酸分子的方法和组合物
US20230044684A1 (en) Rapid precipitation-driven kilobase size selection of hmw dna
WO2022256228A1 (en) Method for producing a population of symmetrically barcoded transposomes
US20210163922A1 (en) Assembly and error reduction of synthetic genes from oligonucleotides
CA3220708A1 (en) Oligo-modified nucleotide analogues for nucleic acid preparation
WO2021156295A1 (en) Methods for amplification of genomic dna and preparation of sequencing libraries