KR20210148122A - 차세대 시퀀싱을 위한 조성물 및 방법 - Google Patents

차세대 시퀀싱을 위한 조성물 및 방법 Download PDF

Info

Publication number
KR20210148122A
KR20210148122A KR1020217030220A KR20217030220A KR20210148122A KR 20210148122 A KR20210148122 A KR 20210148122A KR 1020217030220 A KR1020217030220 A KR 1020217030220A KR 20217030220 A KR20217030220 A KR 20217030220A KR 20210148122 A KR20210148122 A KR 20210148122A
Authority
KR
South Korea
Prior art keywords
polynucleotide
region
cases
adapter
nucleic acid
Prior art date
Application number
KR1020217030220A
Other languages
English (en)
Inventor
리챠드 간트
시유안 첸
Original Assignee
트위스트 바이오사이언스 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 트위스트 바이오사이언스 코포레이션 filed Critical 트위스트 바이오사이언스 코포레이션
Publication of KR20210148122A publication Critical patent/KR20210148122A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1086Preparation or screening of expression libraries, e.g. reporter assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B70/00Tags or labels specially adapted for combinatorial chemistry or libraries, e.g. fluorescent tags or bar codes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/15Nucleic acids forming more than 2 strands, e.g. TFOs
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/32Chemical structure of the sugar
    • C12N2310/323Chemical structure of the sugar modified ring structure
    • C12N2310/3231Chemical structure of the sugar modified ring structure having an additional ring, e.g. LNA, ENA
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/191Modifications characterised by incorporating an adaptor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2527/00Reactions demanding special reaction conditions
    • C12Q2527/107Temperature of melting, i.e. Tm
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Plant Pathology (AREA)
  • General Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

범용 폴리뉴클레오티드 어댑터를 사용하는 차세대 시퀀싱을 위한 조성물 및 방법이 본원에 제공된다. 잠금 핵산 또는 가교 핵산을 사용하는 범용 어댑터가 추가로 제공된다. 범용 어댑터의 연장을 위한 감소된 길이의 바코딩된 프라이머가 추가로 제공된다. 범용 어댑터 차단제가 본원에 추가로 제공된다.

Description

차세대 시퀀싱을 위한 조성물 및 방법
상호 참조
본 출원은 2019년 2월 25일에 출원된 미국 특허 가출원 제62/810,321호, 2019년 10월 14일에 출원된 미국 특허 가출원 제62/914,904호, 및 2019년 10월 25일에 출원된 미국 특허 가출원 제62/926,336호의 이익을 주장하며, 이들 모두는 그 전체가 참고로 포함된다.
배경
충실도가 높고 비용이 낮은 고효율 화학 유전자 합성은 생명공학 및 의약, 및 기초 생물 의학 연구에서 중심적인 역할을 한다. 데노보(de novo) 유전자 합성은 기초 생물학 연구 및 생명공학 응용을 위한 강력한 도구이다. 비교적 짧은 단편을 소규모로 합성하기 위한 다양한 방법이 알려져 있지만, 이러한 기술은 종종 확장성, 자동화, 속도, 정확도, 및 비용으로 어려움을 겪는다.
참고에 의한 포함
본 명세서에 언급된 모든 간행물, 특허, 및 특허 출원은 각각의 개별 간행물, 특허 또는 특허 출원이 참고로 포함되는 것으로 구체적이고 개별적으로 표시된 것과 동일한 정도로 본원에 참고로 포함된다.
간략한 요약
차세대 시퀀싱을 위한 조성물 및 방법이 본원에 제공된다.
제1 말단 어댑터 영역, 제1 비-상보성 영역, 및 제1 요크(yoke) 영역을 포함하는 제1 가닥; 제2 말단 어댑터 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥을 포함하는 폴리뉴클레오티드로서, 제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않으며, 제1 요크 영역 또는 제2 요크 영역은 적어도 하나의 핵염기 유사체를 포함하는 것인 폴리뉴클레오티드가 본원에서 제공된다. 핵염기 유사체가 제1 요크 영역을 제2 요크 영역과 결합시키는 Tm을 증가시키는 폴리뉴클레오티드가 본원에 추가로 제공된다. 핵염기 유사체가 잠금 핵산(LNA: locked nucleic acid) 또는 가교 핵산(BNA: bridged nucleic acid)인 폴리뉴클레오티드가 본원에 추가로 제공된다. 상보적인 제1 요크 영역 및 제2 요크 영역이 15개 미만의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 상보적인 제1 요크 영역 및 제2 요크 영역이 10개 미만의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 상보적인 제1 요크 영역 및 제2 요크 영역이 6개 미만의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 어댑터가 바코드 또는 인덱스 서열을 포함하지 않는 폴리뉴클레오티드가 본원에 추가로 제공된다.
이중체(duplex) 샘플 핵산; 이중체 샘플 핵산의 5' 말단에 결찰된 제1 폴리뉴클레오티드; 이중체 샘플 핵산의 3' 말단에 결찰된 제2 폴리뉴클레오티드를 포함하는 폴리뉴클레오티드로서, 제1 폴리뉴클레오티드 또는 제2 폴리뉴클레오티드는 제1 말단 어댑터 영역, 제1 비-상보성 영역, 및 제1 요크 영역을 포함하는 제1 가닥; 및 제2 말단 어댑터 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥을 포함하며, 제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않으며, 제1 요크 영역 또는 제2 요크 영역은 적어도 하나의 핵염기 유사체를 포함하는 것인 폴리뉴클레오티드가 본원에서 제공된다. 이중체 샘플 핵산이 DNA인 폴리뉴클레오티드가 본원에 추가로 제공된다. 이중체 샘플 핵산이 게놈 DNA인 폴리뉴클레오티드가 본원에 추가로 제공된다. 게놈 DNA가 인간 기원인 폴리뉴클레오티드가 본원에 추가로 제공된다. 제1 폴리뉴클레오티드 또는 제2 폴리뉴클레오티드가 적어도 하나의 바코드를 포함하는 폴리뉴클레오티드가 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 8개의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 12개의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 16개의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 적어도 하나의 바코드가 8-12개의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 제1 폴리뉴클레오티드가 제1 바코드 및 제2 바코드를 포함하고, 제2 폴리뉴클레오티드가 제3 바코드 및 제4 바코드를 포함하는 폴리뉴클레오티드가 본원에 추가로 제공된다. 제1 바코드와 제3 바코드가 동일한 서열을 갖고, 제2 바코드와 제4 바코드가 동일한 서열을 갖는 폴리뉴클레오티드를 본원에 추가로 제공한다. 폴리뉴클레오티드 내의 각 바코드가 고유한 서열을 포함하는 폴리뉴클레오티드가 본원에 추가로 제공한다.
샘플 핵산을 표지하는 방법으로서, (1) 적어도 하나의 폴리뉴클레오티드를 적어도 하나의 샘플 핵산에 결찰하여 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 폴리뉴클레오티드는 제1 프라이머 결합 영역, 제1 비-상보성 영역, 및 제1 요크 영역을 포함하는 제1 가닥; 및 제2 프라이머 결합 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥을 포함하며; 제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않은 것인 단계; (2) 적어도 하나의 어댑터-결찰된 샘플 핵산을 제1 프라이머 및 폴리머라제와 접촉시키는 단계로서, 제1 프라이머는 제3 프라이머 결합 부위; 제4 프라이머 결합 부위; 및 적어도 하나의 바코드를 포함하며; 제3 프라이머 결합 부위는 적어도 하나의 폴리뉴클레오티드 어댑터의 길이 미만에 상보적이고, 제3 프라이머 결합 부위는 제1 프라이머 결합 영역에 상보적인 것인 단계; 및 (3) 폴리뉴클레오티드를 연장하여 적어도 하나의 증폭된 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 증폭된 어댑터-결찰된 샘플 핵산은 적어도 하나의 바코드를 포함하는 것인 단계를 포함하는 방법이 본원에 제공된다. 프라이머가 30개 미만의 염기 길이인 방법이 본원에 추가로 제공된다. 프라이머가 20개 미만의 염기 길이인 방법이 본원에 추가로 제공된다. 폴리뉴클레오티드가 바코드를 포함하지 않는 방법이 본원에 추가로 제공된다. 프라이머가 하나의 바코드를 포함하는 방법이 추가로 제공된다. 적어도 하나의 바코드가 인덱스 서열을 포함하는 방법이 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 8개의 염기 길이인 방법이 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 12개의 염기 길이인 방법이 본원에 추가로 제공된다. 적어도 하나의 바코드가 적어도 16개의 염기 길이인 방법이 본원에 추가로 제공된다. 적어도 하나의 바코드가 8-12개의 염기 길이인 폴리뉴클레오티드가 본원에 추가로 제공된다. 인덱스 서열이 동일한 공급원으로부터의 샘플 핵산의 라이브러리 간에 공통인 방법이 본원에 추가로 제공된다. 적어도 하나의 바코드가 고유 분자 식별자(UMI: unique molecular identifier)를 포함하는 방법이 본원에 추가로 제공된다. 2개의 폴리뉴클레오티드가 샘플 핵산에 결찰되는 방법이 본원에 추가로 제공된다. 제1 폴리뉴클레오티드가 샘플 핵산의 5' 말단에 결찰되고, 제2 폴리뉴클레오티드가 샘플 핵산의 3' 말단에 결찰되는 방법이 본원에 추가로 제공된다. 방법은 (4) 적어도 하나의 어댑터-결찰된 샘플 핵산을 제2 프라이머 및 폴리머라제와 접촉시키는 단계로서, 제2 프라이머는 제5 프라이머 결합 부위; 제6 프라이머 결합 부위; 및 적어도 하나의 바코드를 포함하며; 제6 프라이머 결합 부위는 적어도 하나의 폴리뉴클레오티드의 길이 미만에 상보적이고, 제3 프라이머 결합 부위는 제2 프라이머 결합 영역에 상보적인 것인 단계; 및 (5) 폴리뉴클레오티드를 연장하여 적어도 하나의 증폭된 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 증폭된 어댑터-결찰된 샘플 핵산은 적어도 하나의 바코드를 포함하는 것인 단계를 추가로 포함하는 방법이 본원에 추가로 제공된다. 어댑터-결찰된 샘플 핵산을 시퀀싱하는 단계를 추가로 포함하는 방법이 본원에 추가로 제공된다.
적어도 3개의 폴리뉴클레오티드 차단제를 포함하는 조성물로서, 적어도 3개의 폴리뉴클레오티드 차단제는 어댑터-결찰된 샘플 핵산의 하나 이상의 영역에 결합하도록 구성되며, 어댑터-결찰된 샘플 핵산은 제1 비-상보성 영역, 제1 인덱스 영역, 제2 비-상보성 영역, 및 제1 요크 영역; 및 제3 비-상보성 영역, 제2 인덱스 영역, 제4 비-상보성 영역, 및 제2 요크 영역; 및 제1 요크 영역 및 제2 요크 영역에 인접하게 위치한 게놈 삽입물을 포함하며, 제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않으며, 적어도 하나의 폴리뉴클레오티드 차단제는 제1 요크 영역 또는 제2 요크 영역에 상보적이지 않고, 폴리뉴클레오티드 차단제와 어댑터-결찰된 샘플 핵산 사이의 결합을 증가시키도록 구성된 적어도 하나의 뉴클레오티드 유사체를 포함하는 것인 조성물이 본원에 제공된다. 적어도 2개의 폴리뉴클레오티드 차단제가 제1 요크 영역 또는 제2 요크 영역에 상보적이지 않고, 각각이 폴리뉴클레오티드 차단제와 어댑터-결찰된 샘플 핵산 사이의 결합을 증가시키도록 구성된 적어도 하나의 변형된 핵염기를 포함하는 조성물이 본원에 추가로 제공된다. 적어도 하나의 인덱스 영역이 바코드 또는 고유 분자 식별자를 포함하는 조성물이 본원에 추가로 제공된다. 적어도 하나의 인덱스 영역이 5-15개의 염기 길이인 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제 중 적어도 하나가 적어도 하나의 보편적인 염기를 포함하는 조성물이 본원에 추가로 제공된다. 적어도 하나의 보편적인 염기가 5-니트로인돌 또는 2-데옥시이노신인 조성물이 본원에 추가로 제공된다. 적어도 하나의 보편적인 염기가 적어도 하나의 인덱스 서열과 중첩되도록 구성된 조성물이 본원에 추가로 제공된다. 적어도 2개의 보편적인 염기가 적어도 2개의 인덱스 서열과 중첩되도록 구성된 조성물이 추가로 제공된다. 폴리뉴클레오티드 차단제 중 적어도 2개가 적어도 하나의 보편적인 염기를 포함하고, 적어도 하나의 보편적인 염기 각각은 적어도 하나의 인덱스 서열과 중첩되는 조성물이 본원에 추가로 제공된다. 중첩이 2-10개의 염기 길이인 조성물이 본원에 추가로 제공된다. 조성물이 4개 이하의 폴리뉴클레오티드 차단제를 포함하는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 하나 이상의 잠금 핵산(LNA) 또는 하나 이상의 가교 핵산(BNA)을 포함하는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 적어도 5개의 뉴클레오티드 유사체를 포함하는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 적어도 10개의 뉴클레오티드 유사체를 포함하는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 적어도 78℃의 Tm을 갖는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 적어도 80℃의 Tm을 갖는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 적어도 82℃의 Tm을 갖는 조성물이 본원에 추가로 제공된다. 폴리뉴클레오티드 차단제가 80-90℃의 Tm을 갖는 조성물이 본원에 추가로 제공된다.
핵산 혼성화 방법으로서, 복수의 게놈 삽입물을 포함하는 어댑터-결찰된 샘플 핵산 라이브러리를 제공하는 단계; 어댑터-결찰된 샘플 핵산 라이브러리를 본원에 제공된 조성물의 존재하에 적어도 5000개의 폴리뉴클레오티드 프로브를 포함하는 프로브 라이브러리와 접촉시키는 단계; 및 프로브 중 적어도 일부를 게놈 삽입물에 혼성화하는 단계를 포함하는 방법이 본원에 제공된다. 샘플 핵산 라이브러리는 적어도 100만 개의 고유 게놈 삽입물을 포함하는 제54항의 방법. 게놈 삽입물의 적어도 일부가 인간 DNA를 포함하는 방법이 본원에 추가로 제공된다. 방법은 농축된 샘플 핵산 라이브러리를 생성하는 단계를 추가로 포함하는 방법이 본원에 추가로 제공된다. 방법은 농축된 샘플 핵산 라이브러리를 시퀀싱하는 단계를 추가로 포함하는 방법이 본원에 추가로 제공된다. 샘플 핵산 라이브러리가 차세대 시퀀싱을 위해 구성된 어댑터를 포함하는 방법이 본원에 추가로 제공된다.
[도 1a]는 범용 또는 "스터비(stubby)" 어댑터를 도시한다.
[도 1b]는 샘플 핵산의 말단에 결찰된 2개의 범용 어댑터를 도시한다.
[도 1c]는 범용 어댑터를 연장하는 데 사용하기 위한 바코딩된 프라이머를 도시한다.
[도 1d]는 샘플 폴리뉴클레오티드의 말단에 결찰된 2개의 범용 어댑터(연장/바코드 추가 후)를 도시한다.
[도 1e]는 바코딩된 어댑터-결찰된 샘플 폴리뉴클레오티드를 생성하기 위해 범용 어댑터에 결합하는 바코딩된 프라이머를 도시한다.
[도 1f]는 바코딩된 어댑터-결찰된 샘플 폴리뉴클레오티드를 생성하기 위해 범용 어댑터에 결합하는 바코딩된 프라이머를 도시한다.
[도 2]는 바코딩된 어댑터를 결찰하고 시퀀싱 전에 프로브 라이브러리로 샘플 폴리뉴클레오티드를 농축하기 위한 개략도를 도시한다.
[도 3]은 범용 어댑터를 결찰하고, 어댑터에 바코드를 추가하고, 시퀀싱 전에 프로브 라이브러리로 샘플 폴리뉴클레오티드를 농축하기 위한 개략도를 도시한다.
[도 4a]는 표준 바코딩된 Y 어댑터 또는 범용 어댑터에 대한 어댑터-결찰된 샘플 폴리뉴클레오티드의 농도를 도시한다.
[도 4b]는 전체 게놈 시퀀싱 동안 표준 바코드 Y 어댑터 또는 범용 어댑터에 대한 AT 드롭아웃(dropout) 비율을 도시한다.
[도 5]는 다양한 샘플 인덱스 수에 대해 식별된 리드 수를 도시하며, 여기서 샘플 인덱스는 범용 어댑터에 추가하였다.
[도 6a]는 바코드가 있는 종래의 Y 어댑터, 범용 어댑터(PCR에 의해 바코드가 추가됨), UMI가 있는 종래의 Y 어댑터, 및 UMI가 있는 범용 어댑터를 사용하여 생성된 라이브러리에 대한 HS 라이브러리 크기를 나타낸다.
[도 6b]는 바코드가 있는 종래의 Y 어댑터, 범용 어댑터(PCR에 의해 바코드가 추가됨), UMI가 있는 종래의 Y 어댑터, 및 UMI가 있는 범용 어댑터를 사용하여 생성된 라이브러리에 대한 30X 리드 깊이에서의 표적 염기 퍼센트를 도시한다.
[도 7]은 프로브에 의한 샘플 폴리뉴클레오티드의 포획 및 농축을 도시한다.
[도 8]은 클러스터 증폭으로부터 폴리뉴클레오티드 라이브러리의 생성을 위한 개략도를 도시한다.
[도 9a]는 표적화 및 농축을 위한 한 쌍의 폴리뉴클레오티드를 도시한다. 폴리뉴클레오티드는 상보적 표적 결합(삽입) 서열뿐만 아니라 프라이머 결합 부위를 포함한다.
[도 9b]는 표적화 및 농축을 위한 한 쌍의 폴리뉴클레오티드를 도시한다. 폴리뉴클레오티드는 상보적 표적 서열 결합(삽입) 서열, 프라이머 결합 부위, 및 비-표적 서열을 포함한다.
[도 10a]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 짧고, 폴리뉴클레오티드 결합 영역(또는 삽입 서열)은 표적 서열에 대해 오프셋되어 있고, 또한 인접한 서열의 일부에 결합한다.
[도 10b]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열 길이는 폴리뉴클레오티드 결합 영역보다 작거나 같고, 폴리뉴클레오티드 결합 영역은 표적 서열을 중심으로 하고, 또한 인접한 서열의 일부에 결합한다.
[도 10c]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 약간 더 길며, 폴리뉴클레오티드 결합 영역은 양쪽에 완충 영역을 가지며 표적 서열의 중앙에 위치한다.
[도 10d]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 길고, 두 폴리뉴클레오티드의 결합 영역은 표적 서열에 걸쳐서 중첩된다.
[도 10e]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 길고, 두 폴리뉴클레오티드의 결합 영역은 표적 서열에 걸쳐서 중첩된다.
[도 10f]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 길고, 두 폴리뉴클레오티드의 결합 영역은 표적 서열에 걸쳐서 중첩되지 않아 간격(405)을 남긴다.
[도 10g]는 더 큰 폴리뉴클레오티드의 표적 서열에 대한 폴리뉴클레오티드 결합 배열을 도시한다. 표적 서열은 폴리뉴클레오티드 결합 영역보다 길고, 3개의 폴리뉴클레오티드의 결합 영역이 표적 서열에 걸쳐서 중첩된다.
[도 11]은 본원에 개시된 바와 같은 유전자 합성을 위한 예시적인 공정 작업 흐름을 보여주는 단계의 도식을 제시한다.
[도 12]는 컴퓨터 시스템을 도시한다.
[도 13]은 컴퓨터 시스템의 아키텍처를 예시하는 블록도이다.
[도 14]는 복수의 컴퓨터 시스템, 복수의 휴대폰 및 개인 정보 단말기, 및 네트워크 결합 스토리지(NAS: Network Attached Storage)를 통합하도록 구성된 네트워크를 나타내는 도식이다.
[도 15]는 공유 가상 주소 메모리 공간을 사용하는 멀티프로세서 컴퓨터 시스템의 블록도이다.
[도 16]은 256개의 클러스터를 갖는 플레이트의 이미지이고, 각각의 클러스터는 121개의 좌위를 갖고 그로부터 폴리뉴클레오티드가 연장된다.
[도 17a]는 240개의 클러스터로부터 29,040개의 고유한 폴리뉴클레오티드의 합성으로부터 플레이트에 걸친 폴리뉴클레오티드 표시의 플롯(측정된 흡광도로서 폴리뉴클레오티드 빈도 대 존재비)이며, 각각의 클러스터는 121개의 폴리뉴클레오티드를 갖는다.
[도 17b]는 각각의 개별 클러스터에 걸쳐 폴리뉴클레오티드 빈도 대 존재비 흡광도(측정된 흡광도로서)의 측정 플롯이며, 대조군 클러스터는 상자로 식별된다.
[도 18]은 4개의 개별 클러스터에 걸친 폴리뉴클레오티드 빈도 대 존재비(측정된 흡광도로서)의 측정 플롯이다.
[도 19a]는 240개의 클러스터로부터 29,040개의 고유한 폴리뉴클레오티드의 합성으로부터 플레이트에 걸친 빈도 대 오류율의 플롯이며, 각각의 클러스터는 121개의 폴리뉴클레오티드를 갖는다.
[도 19b]는 각각의 개별 클러스터 걸친 폴리뉴클레오티드 오류율 대 빈도의 측정의 플롯이며, 대조군 클러스터는 상자로 식별된다.
[도 20]은 4개의 클러스터에 걸친 폴리뉴클레오티드 빈도 대 오류율의 측정의 플롯이다.
[도 21]은 폴리뉴클레오티드 수 대 폴리뉴클레오티드당 백분율의 척도로서의 GC 함량의 플롯이다.
[도 22]는 샘플 단편화, 말단 복구, A-테일링, 범용 어댑터 결찰, 및 PCR 증폭을 통한 어댑터에 바코드 추가를 위한 시퀀싱 라이브러리를 생성하기 위한 개략도를 도시한다. 추가 단계에는 선택적으로 농축, 추가 증폭 라운드 및/또는 시퀀싱(미제시)이 포함된다.
[도 23]은 10 사이클의 PCR에 의해 증폭된 표준 전장 Y 어댑터 및 8 사이클의 PCR에 의해 증폭된 범용 어댑터에 대한 결찰 생성물의 농도(ng/uL)의 플롯이다. 범용 어댑터는 더 적은 PCR 사이클로 더 높은 수율의 결찰 생성물을 제공한다.
[도 24]는 결찰 생성물의 농도(형광에 의해 측정됨) 대 결찰 생성물 크기(bp)의 플롯을 나타낸다. 두 그래프에서 화살표는 게놈 폴리뉴클레오티드 삽입물을 포함하지 않는 어댑터 이량체에 해당하는 피크를 나타낸다. 범용 어댑터(오른쪽 그래프)는 표준 전장 Y 어댑터(왼쪽 그래프)보다 적은 어댑터 이량체를 생성한다.
[도 25a]는 10 bp 이중 인덱스 서열 또는 8 bp 이중 인덱스 서열을 포함하는 범용 프라이머(96-플렉스)를 사용한 최종 증폭에 대한 카운트 대 조정되지 않은 상대적 시퀀싱 성능의 플롯이다. 상대적 시퀀싱 성능은 각 설계에 대한 완전한 인덱스 리드의 총 수를 정규화하여 계산하였다. 10 bp 이중 인덱스 프라이머는 더 조밀한 상대적 성능과 더 균일한 시퀀싱 표시를 나타냈다.
[도 25b]는 10 bp 이중 인덱스 서열 또는 8 bp 이중 인덱스 서열을 포함하는 범용 프라이머(96-플렉스)를 사용한 최종 증폭에 대한 카운트 대 평균 중심의 상대적 시퀀싱 성능의 플롯이다. 상대적 시퀀싱 성능은 각 설계에 대한 완전한 인덱스 리드의 총 수를 정규화하고 최고 성능에 대해 정규화하여 계산하였다. 각 집단의 결과 분포는 직접 비교를 위해 계산된 평균을 중심으로 하였다. 10 bp 이중 인덱스 프라이머는 더 조밀한 상대적 성능과 더 균일한 시퀀싱 표시를 나타냈다.
[도 26]은 10 bp 이중 인덱스 서열 또는 8 bp 이중 인덱스 서열을 포함하는 범용 프라이머(96-플렉스)를 사용한 최종 증폭에 대한 상대적 바코드 성능 대 각 바코드 서열의 플롯이다.
[도 27a]는 범용 어댑터로부터 생성되고 단일 풀로서 시퀀싱된 1,152개의 UDI 프라이머 쌍의 초기 스크리닝 세트의 플롯이다.
[도 27b]는 범용 어댑터로부터 생성되고 단일 풀로서 시퀀싱된 384개의 UDI 프라이머 쌍 세트의 플롯이다.
[도 27c]는 범용 어댑터로부터 생성되고 독립적으로 시퀀싱된 96개의 UDI 프라이머 쌍의 개별 풀의 플롯이다.
[도 27d]는 범용 어댑터로부터 생성되고 독립적으로 시퀀싱된 96개의 UDI 프라이머 쌍의 개별 풀의 플롯이다.
[도 27e]는 범용 어댑터로부터 생성되고 독립적으로 시퀀싱된 96개의 UDI 프라이머 쌍의 개별 풀의 플롯이다.
[도 27f]는 범용 어댑터로부터 생성되고 독립적으로 시퀀싱된 96개의 UDI 프라이머 쌍의 개별 풀의 플롯이다.
[도 28a]는 균일한 커버리지(상부 패널) 및 불균일한 커버리지(하부 패널)의 플롯을 도시한다.
[도 28b]는 다양한 대조구 패널(대조구 A1, 대조구 A2, 및 대조구 D) 및 라이브러리 4A의 폴드 80 염기 패널티(fold 80 base penalty)의 그래프이다.
[도 28c]는 표적-적중(on-target) 비율, 표적-근접(near-target) 비율, 및 비-표적(off-target) 비율에 대한 개략도를 도시한다.
[도 28d]는 다양한 대조구 패널(대조구 A1, 대조구 A2, 및 대조구 D) 및 라이브러리 4A의 표적-적중 비율의 그래프이다.
[도 28e-28f]는 다양한 대조구 패널(대조구 A1, 대조구 A2, 및 대조구 D) 및 라이브러리 4A의 복제율의 그래프를 도시한다. [도 28e]는 HS_library_size를 도시하고, [도 28f]는 중복으로 표시된 리드에 있었기 때문에 필터링된 정렬된 염기의 분율의 백분율을 도시한다.
[도 29]는 다양한 대조구 패널(대조구 A1, 대조구 A2, 및 대조구 D) 및 라이브러리 4A의 커버리지 깊이의 그래프이다.
[도 30a]는 맞춤형 패널에 콘텐츠를 추가하거나 강화하는 제1 개략도이다.
[도 30b]는 맞춤형 패널에 콘텐츠를 추가하거나 강화하는 제2 개략도이다.
[도 30c]는 보충 프로브가 있는 패널과 없는 패널을 비교한 균일성(폴드-80)의 그래프이다.
[도 30d]는 보충 프로브가 있는 패널과 없는 패널을 비교한 복제율의 그래프이다.
[도 30e]는 보충 프로브가 있는 패널과 없는 패널을 비교한 적중 비율에 대한 퍼센트 그래프이다.
[도 30f]는 보충 프로브가 있는 패널과 없는 패널, 및 대조구 농축 키트를 비교한 표적 커버리지 퍼센트의 그래프이다.
[도 30g]는 보충 프로브가 있는 패널과 없는 패널, 및 대조구 농축 키트를 비교한 폴드-80 염기 패널티의 그래프이다.
[도 30h]는 패널의 조정 가능한 표적 커버리지의 그래프를 도시한다.
[도 31a]는 RefSeq 설계의 개략도이다.
[도 31b-31c]는 엑솜 패널 단독 또는 RefSeq 패널이 추가된 커버리지에서의 표적 염기 퍼센트로서 커버리지 깊이의 그래프를 도시한다. [도 31b]는 1차 실험을 도시하고, [도 31c]는 2차 실험을 도시한다.
[도 31d-31h]는 단일플렉스 및 8-플렉스 실험 모두에서 표준 엑솜 패널 대 RefSeq 패널과 조합된 엑솜 패널에 대한 다양한 농축/포획 시퀀싱 메트릭의 그래프를 도시한다. [도 31d]는 단독 또는 RefSeq 패널이 추가된 엑솜 패널에 대한 비-표적 퍼센트로서 특이성의 그래프를 보여준다. [도 31e]는 단독 또는 RefSeq 패널이 추가된 엑솜 패널에 대한 균일성의 그래프를 보여준다. [도 31f]는 단독 또는 RefSeq 패널이 추가된 엑솜 패널에 대한 라이브러리 크기의 그래프를 보여준다. [도 31g]는 단독 또는 RefSeq 패널이 추가된 엑솜 패널에 대한 복제율의 그래프를 보여준다. [도 31h]는 단독 또는 RefSeq 패널이 추가된 엑솜 패널에 대한 커버리지 비율의 그래프를 보여준다.
[도 32a]는 30x 커버리지를 달성하는 각각의 맞춤형 패널에서의 리드 백분율의 그래프이다.
[도 32b]는 각각의 맞춤형 패널에 대한 >30X의 표적 염기의 분율의 그래프이다.
[도 32c]는 각각의 맞춤형 패널의 균일성(폴드-80)의 그래프이다.
[도 33a]는 고속 농축 작업 흐름의 개략도이다.
[도 33b]는 고속 혼성화 및 세척 작업 흐름 및 혼성화 및 세척 작업 흐름을 사용하여 커버리지에서의 표적 염기 퍼센트로서의 성능을 도시한다.
[도 34a]는 나노볼 시퀀싱을 사용한 표적에 대한 염기의 백분율 그래프이다.
[도 34b]는 나노볼 시퀀싱을 사용한 균일성의 그래프이다.
[도 34c]는 나노볼 시퀀싱을 사용한 복제율의 그래프이다.
[도 34d]는 30X 커버리지 이상에서의 표적 염기의 그래프이다.
[도 35a-35e]는 폴리머라제 사슬 증폭 후 차세대 시퀀싱 라이브러리의 단일 분자를 방향에 대해 표지된 '상부' 및 '하부' 가닥의 5' 및 3' 말단을 갖는 두꺼운 막대로서 도시한다. [도 35a-35e]의 범례는 [도 35a]에 도시되어 있다. 다양한 화학적 변형 및/또는 설계 특징이 있는 차단제는 방향에 대해 5' 및 3' 말단이 표지되고 이들이 결합하도록 설계된 어댑터 영역에 가장 가깝게 배치된 더 얇은 차단제로서 도시된다. [도 35a]는 단일 분자('J' 및 'L')로 인덱스 내부의 모든 어댑터 영역에 결합하는 차단제 세트('D', 'J', 'L' 및 'E')에 대한 결합 구성을 도시한다. [도 35b]는 다중 차단제로 인덱스 내부 어댑터 영역에 결합하는 차단제 세트('D', 'M', 'N', 'Q', 및 'E')에 대한 결합 구성을 도시한다. 어댑터의 Y 줄기 어닐링 부분은 단일 차단 구성원 'N'으로 결합됨에 주의한다. [도 35c]는 다중 차단제로 인덱스 내부 어댑터 영역에 결합하는 차단제 세트('D', 'M', 'P', 'Q', 및 'E')에 대한 대안적인 결합 구성을 도시한다. 어댑터의 Y 줄기 어닐링 부분은 단일 차단제 구성원 'P'로 결합됨에 주의한다. [도 35d]는 다중 차단제로 인덱스 내부 어댑터 영역에 결합하는 차단제 세트('R', 'N', 및 'S')에 대한 결합 구성을 도시한다. 이 경우 인덱스 외부의 어댑터 서열, 어댑터 인덱스, 인덱스 내부의 결합은 각 끝에 있는 단일 고유 분자와 상호작용한다. 어댑터의 Y 줄기 어닐링 부분은 단일 차단 구성원 'N'으로 결합됨에 주의한다. 이러한 결합 구성으로 단일 어댑터 인덱스 길이만 처리할 수 있음에 주의한다. [도 35e]는 다중 차단제로 인덱스 내부 어댑터 영역에 결합하는 차단제 세트에 대한 대안적인 결합 구성을 도시한다. 이 경우 인덱스 외부의 어댑터 서열, 어댑터 인덱스 및 인덱스 내부의 결합은 각 끝에 있는 단일 고유 분자와 상호작용한다. 어댑터의 Y 줄기 어닐링 부분은 단일 차단 구성원 'P'로 결합됨에 주의한다. 이러한 결합 구성으로 단일 어댑터 인덱스 길이만 처리할 수 있음에 주의한다.
[도 36a-36d]는 폴리머라제 사슬 증폭 후 차세대 시퀀싱 라이브러리의 단일 분자를 방향에 대해 표지된 '상부' 및 '하부' 가닥의 5' 및 3' 말단을 갖는 두꺼운 막대로서 도시한다. [도 36a-36d]의 범례는 [도 36a]에 도시되어 있다. 다양한 화학적 변형 및/또는 설계 특징이 있는 차단제는 방향에 대해 5' 및 3' 말단이 표지되고 이들이 결합하도록 설계된 어댑터 영역에 가장 가깝게 배치된 더 얇은 차단제로서 도시된다. [도 36a]는 원하는 구성으로 결합하는 모든 차단제를 도시한다. 이는 표적 농축 작업 흐름의 최적 성능을 제공하는 원하는 집단이다. [도 36b]는 원하는 구성으로 결합하는 외부 차단제를 도시한다. 이는 원하지 않는 집단이다. 내부 차단제는 원하지 않는 다른 분자에 어댑터 서열을 포함하는 다른 분자를 동원할 수 있는 결합되지 않은 영역과 원하지 않는 구성으로 결합한다. [도 36c]는 용액에서 서로 결합하는 차단제를 도시한다. 이는 원하지 않는 집단이다. 차단제는 서로 결합되며 지정된 어댑터 영역에 결합할 수 없다. [도 36d]는 용액에 차단제가 없음을 도시한다. 이는 표적 농축 작업 흐름의 성능에 최소한의 영향을 미치는 중립적인 집단이다.
[도 37a-37g]는 폴리머라제 사슬 증폭 후 차세대 시퀀싱 라이브러리의 단일 분자를 방향에 대해 표지된 '상부' 및 '하부' 가닥의 5' 및 3' 말단을 갖는 두꺼운 막대로서 도시한다. [도 37a-37g]의 범례는 [도 37a]에 도시되어 있다. 다양한 화학적 변형 및/또는 설계 특징이 있는 차단제는 방향에 대해 5' 및 3' 말단이 표지되고 이들이 결합하도록 설계된 어댑터 영역에 가장 가깝게 배치된 더 얇은 차단제로서 도시된다. [도 37a]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되지 않고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되지 않는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37b]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되지 않는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37c]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되지 않고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37d]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37e]는 (2) 차단제가 양쪽 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37f]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스(존재하는 경우)를 덮도록 연장되고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스(존재하는 경우)를 덮도록 연장되는 (1) 단일 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다. [도 37g]는 (2) 모든 차단제가 단일 가닥에 결합하고, (3) 인덱스 외부 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되고, (4) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 어댑터 인덱스를 덮도록 연장되고, (5) 인덱스 내부 어댑터 영역에 결합하도록 설계된 차단제가 고유 분자 식별 인덱스(또는 정의되거나 정의되지 않을 수 있는 다른 폴리뉴클레오티드 서열)를 덮도록 연장되는 (1) 이중 인덱스 어댑터용으로 설계된 차단제 세트를 도시한다.
[도 38]은 오프-베이트(off-bait) 퍼센트의 함수로서 인덱스 염기의 다양한 개수를 덮는 차단제 세트의 성능 그래프를 도시한다.
[도 39a-39c]는 방향에 대해 표지된 '상부' 및 '하부' 가닥의 5' 및 3' 말단을 갖는 두꺼운 막대로서 도시된, 폴리머라제 사슬 증폭 후 차세대 시퀀싱 라이브러리의 단일 분자의 한 가닥을 도시한다. [도 39a-39c]의 범례는 [도 39a]에 도시되어 있다. 다양한 화학적 변형 및/또는 설계 특징이 있는 차단제는 방향에 대해 5' 및 3' 말단이 표지되고 이들이 결합하도록 설계된 어댑터 영역에 가장 가깝게 배치된 더 얇은 차단제로서 도시된다. 여기에서 양쪽으로부터 3개의 어댑터 인덱스 염기를 덮도록 설계된 2개의 차단제에 대한 서로 다른 결합 모드가 어댑터에 대한 서로 다른 결합 모드로 표시된다. [도 39a]는 총 인덱스 염기 6개가 돌출부로 덮이고, 총 인덱스 염기 0개가 노출된 결과 총 인덱스 염기 0%가 노출된 6bp 어댑터 인덱스 길이를 도시한다. [도 39b]는 총 인덱스 염기 6개가 돌출부로 덮이고, 총 인덱스 염기 2개가 노출된 결과 총 인덱스 염기 25%가 노출된 8bp 어댑터 인덱스 길이를 도시한다.
[도 39c]는 총 인덱스 염기 6개가 돌출부로 덮이고, 총 인덱스 염기 4개가 노출된 결과 총 인덱스 염기 40%가 노출된 10bp 어댑터 인덱스 길이를 도시한다.
[도 40a-40l]은 방향에 대해 표지된 '상부' 및 '하부' 가닥의 5' 및 3' 말단을 갖는 두꺼운 막대로서 도시된, 폴리머라제 사슬 증폭 후 차세대 시퀀싱 라이브러리의 단일 분자의 한 가닥을 도시한다. [도 40a-도 40l]의 범례는 [도 40a]에 도시되어 있다. 다양한 화학적 변형 및/또는 설계 특징이 있는 차단제는 방향에 대해 5' 및 3' 말단이 표지되고 이들이 결합하도록 설계된 어댑터 영역에 가장 가깝게 배치된 더 얇은 차단제로서 도시된다. [도 40a]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되지 않고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40b]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 양쪽 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40c]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 단일 인덱스 시스템용 차단제를 도시한다. [도 40d]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되고 (4) 어댑터 인덱스를 덮도록 연장되고 (5) 고유 분자 식별 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40e]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40f]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 위해 변형되고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 양쪽 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40g]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 감소시키도록 변형되고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 단일 인덱스 시스템용 차단제를 도시한다. [도 40h]는 (3) 어댑터의 Y 줄기 어닐링 부분에 대한 결합을 감소시키도록 변형되고 (4) 어댑터 인덱스를 덮도록 연장되고 (5) 고유 분자 식별 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40i]는 (3) 어댑터의 Y 줄기 어닐링 부분에 결합하는 단일 구성원이 있고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40j]는 (3) 어댑터의 Y 줄기 어닐링 부분에 결합하는 단일 구성원이 있고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 양쪽 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다. [도 40k]는 (3) 어댑터의 Y 줄기 어닐링 부분에 결합하는 단일 구성원이 있고 (4) 어댑터 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 단일 인덱스 시스템용 차단제를 도시한다. [도 40l]은 (3) 어댑터의 Y 줄기 어닐링 부분에 결합하는 단일 구성원이 있고 (4) 어댑터 인덱스를 덮도록 연장되고 (5) 고유 분자 식별 인덱스를 덮도록 연장되는 (2) 단일 가닥에 결합하도록 설계된 (1) 이중 인덱스 시스템용 차단제를 도시한다.
[도 41]은 비-메틸화 샘플(상단) 및 메틸화된 샘플(하단)에 대한 작업 흐름을 도시한다.
[도 42a-42d]는 3가지 상이한 크기의 표준 메틸화 패널에 대한 시퀀싱 메트릭의 그래프를 도시한다. [도 42a]는 30X 커버리지에서의 염기 백분율의 그래프를 도시한다. [도 42b]는 폴드-80 염기 패널티의 그래프를 도시한다. [도 42c]는 오프-베이트 퍼센트의 그래프를 도시한다. [도 42d]는 복제율의 그래프를 도시한다.
[도 43a-43d]는 높은, 중간 또는 낮은 엄격도를 갖는 최적화된 1Mb 메틸화 패널에 대한 시퀀싱 메트릭의 그래프를 도시한다. [도 43a]는 30X 커버리지에서의 염기 백분율의 그래프를 도시한다. [도 43b]는 폴드-80 염기 패널티의 그래프를 도시한다. [도 43c]는 오프-베이트 퍼센트의 그래프를 도시한다. [도 43d]는 복제율의 그래프를 도시한다.
[도 44a-44d]는 0, 25, 50, 75, 및 100%의 최종 비율의 메틸화로 혼합된 저메틸화 및 과메틸화 세포주로부터 생성된 gDNA 라이브러리로부터 표적을 포획하는 데 사용되는 중간 엄격도의 최적화된 1Mb 메틸화 패널에 대한 시퀀싱 메트릭의 그래프를 도시한다. [도 44a]는 30X 커버리지에서의 염기의 백분율 그래프를 도시한다. [도 44b]는 폴드-80 염기 패널티의 그래프를 도시한다. [도 44c]는 오프-베이트 퍼센트의 그래프를 도시한다. [도 44d]는 복제율의 그래프를 도시한다.
[도 45a-45b]는 특정 암(예를 들어, 유방암)에서 메틸화 상태를 변화시키는 것으로 알려진 임상적으로 관련된 사이클린 D2 좌에서 표적 및 개별 CpG 부위를 따라 상이한 DNA 메틸화 수준의 검출을 도시한다. [도 45a]는 4,268 kb 내지 4,276 kb의 게놈 좌에서 메틸화를 도시한다. [도 45b]는 4,275.2 kb 내지 4,276.4 kb의 게놈 좌에서 메틸화를 도시한다.
[도 46a-46d]는 중아황산염 또는 효소적 전환 방법을 사용하여 표적을 포획하는 데 사용되는 중간 엄격도의 최적화된 1Mb 메틸화 패널에 대한 시퀀싱 메트릭의 그래프를 도시한다. [도 46a]는 30X 커버리지에서의 염기의 백분율 그래프를 도시한다. [도 46b]는 폴드-80 염기 패널티의 그래프를 도시한다. [도 46c]는 오프-베이트 퍼센트의 그래프를 도시한다. [도 46d]는 복제율의 그래프를 도시한다.
[도 47]은 비-CpG 부위에서 전환된 시토신의 분율이 중아황산염 및 효소적 전환 방법 모두에 대해 >99.5%인 것으로 측정된 전환율의 상자 그래프를 도시한다.
폴리뉴클레오티드 어댑터 및 혼성화 차단제를 포함하는 차세대 시퀀싱을 위한 조성물 및 방법이 본원에 기재된다. 종래의 어댑터는 종종 샘플 인덱스/기점, 또는 고유 분자 식별자와 관련된 정보를 포함하는 바코드 영역을 포함한다. 이러한 바코드는 샘플 핵산에 직접 결찰된다. 그러나 일부 경우에는 바코딩된 어댑터를 생산할 때 고순도와 상당한 합성 간접비에 대한 요건이 차세대 시퀀싱 적용에서 성능을 제한한다. 또는, 바코드가 없는 절두된 "범용"(또는 스터비) 어댑터를 샘플 핵산에 결찰하고 바코드 라이브러리를 시퀀싱 전 나중 단계에서 추가한다. 일부 경우에, 이러한 범용 어댑터는 생산 비용이 저렴하고 종래의 바코딩된 어댑터보다 높은 결찰 효율을 제공한다. 일부 경우에, 더 높은 결찰 효율은 증폭을 위한 더 적은 PCR 사이클을 허용하여 더 낮은 PCR 유도 증폭 오류를 제공한다. 일부 경우에, 범용 어댑터에 추가되는 바코드 라이브러리는 더 많은 수의 바코드, 또는 일반적인 바코딩된 어댑터보다 긴 바코드를 포함한다. 또한, 범용 어댑터는 다양한 시퀀싱 플랫폼과 호환된다. 핵염기 유사체를 포함하는 범용 어댑터가 본원에 추가로 제공된다. 프라이머의 범용 어댑터 결합 영역의 길이가 범용 어댑터의 길이보다 짧은 바코딩된 프라이머가 본원에 추가로 제공된다. 농축 효율 메트릭을 증가시키기 위해 원치 않는 어댑터-어댑터 상호작용을 방지하는 혼성화 차단제가 본원에 기재된다. 다양한 어댑터-결합 배열을 갖는 혼성화 차단제가 본원에 추가로 기재된다. 게놈 DNA에 대한 메틸화 변형을 확인하는 방법이 본원에 추가로 기재된다.
정의
본 개시내용 전반에 걸쳐, 수치적 특징은 범위 형식으로 제시된다. 범위 형식의 기재는 단지 편의와 간결함을 위한 것이며 임의의 실시 양태의 범위에 대한 융통성 없는 제한으로 해석되어서는 안 된다는 것을 이해해야 한다. 따라서, 범위에 대한 기재는 문맥에서 명백하게 달리 지시하지 않는 한 가능한 모든 하위 범위 및 해당 범위 내의 개별 수치를 하한 단위의 10분의 1까지 구체적으로 개시한 것으로 간주되어야 한다. 예를 들어, 1 내지 6과 같은 범위의 기재는 1 내지 3, 1 내지 4, 1 내지 5, 2 내지 4, 2 내지 6, 3 내지 6 등과 같은 부분 범위뿐만 아니라 해당 범위 내의 개별 값, 예를 들어, 1.1, 2, 2.3, 5, 및 5.9를 구체적으로 개시한 것으로 간주되어야 한다. 이것은 범위의 폭에 관계없이 적용된다. 이들 개재 범위의 상한 및 하한은 독립적으로 더 작은 범위에 포함될 수 있고, 또한, 언급된 범위에서 임의의 구체적으로 배제된 제한에 따라 본 발명 내에 포함된다. 언급된 범위가 제한 중 하나 또는 둘 모두를 포함하는 경우, 문맥에서 명백하게 달리 지시하지 않는 한 포함된 제한 중 하나 또는 둘 모두를 제외한 범위도 본 발명에 포함된다.
본원에 사용된 용어는 단지 구체적인 실시 양태를 설명하기 위한 것이며 어떠한 실시 양태도 제한하려는 의도가 아니다. 본원에 사용되는 바와 같이, 단수 형태 "a", "an" 및 "the"는 문맥이 달리 명백하게 나타내지 않는 한 복수 형태도 포함하는 것으로 의도된다. 본 명세서에서 사용될 때 "포함하다" 및/또는 "포함하는"이라는 용어는 명시된 특징, 정수, 단계, 작업, 요소, 및/또는 구성요소의 존재를 지정하지만, 하나 이상의 다른 특징, 정수, 단계, 작업, 요소, 구성요소 및/또는 이들의 군의 존재 또는 추가를 배제하지 않는다는 것을 또한 이해할 것이다. 본원에 사용되는 바와 같이, "및/또는"이라는 용어는 하나 이상의 관련된 나열 항목의 모든 조합을 포함한다.
구체적으로 언급되거나 문맥상 명백하지 않는 한, 본원에 사용된 바와 같이, 수 또는 수의 범위와 관련하여 용어 "약"은 언급된 수 및 그 수의 +/- 10%, 또는 범위에 대해 나열된 값에 대해 나열된 하한보다 10% 낮고, 나열된 상한보다 10% 높은 것을 의미하는 것으로 이해된다.
본원에 사용되는 바와 같이, 용어 "미리 선택된 서열", "미리 정의된 서열" 또는 "미리 결정된 서열"은 상호교환적으로 사용된다. 이 용어는 중합체의 합성 또는 어셈블리 전에 중합체의 서열을 알고 선택함을 의미한다. 특히, 본 발명의 다양한 측면은 주로 핵산 분자의 제조와 관련하여 본원에 기재하며, 올리고뉴클레오티드 또는 폴리뉴클레오티드의 서열은 핵산 분자의 합성 또는 어셈블리 전에 알고 선택한다.
핵산이라는 용어는 이중 또는 삼중 가닥 핵산, 뿐만 아니라 단일 가닥 분자를 포함한다. 이중 또는 삼중 가닥 핵산에서, 핵산 가닥은 같은 확장성을 가질 필요는 없다(즉, 이중 가닥 핵산이 두 가닥의 전체 길이를 따라 이중 가닥일 필요는 없음). 핵산 서열을 제공할 때 달리 언급되지 않는 한 5'에서 3' 방향으로 나열한다. 본원에 기재된 방법은 단리된 핵산의 생성을 제공한다. 본원에 기재된 방법은 추가로 단리 및 정제된 핵산의 생성을 제공한다. 폴리뉴클레오티드의 길이를 제공하는 경우 염기의 개수로 기술하며 nt(뉴클레오티드), bp(염기), kb(킬로염기), Mb(메가염기) 또는 Gb(기가염기)와 같이 약어로 표시한다.
합성(즉, 데노보 합성 또는 화학적 합성) 폴리뉴클레오티드의 생산을 위한 방법 및 조성물이 본원에 제공된다. 올리고핵산, 올리고뉴클레오티드, 올리고, 및 폴리뉴클레오티드라는 용어는 전체에 걸쳐 동의어로 정의된다. 본원에 기재된 합성 폴리뉴클레오티드의 라이브러리는 하나 이상의 유전자 또는 유전자 단편을 집합적으로 코딩하는 복수의 폴리뉴클레오티드를 포함할 수 있다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 코딩 또는 비-코딩 서열을 포함한다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 복수의 cDNA 서열을 코딩한다. cDNA 서열이 기반으로 하는 참조 유전자 서열은 인트론을 포함할 수 있는 반면, cDNA 서열은 인트론을 제외한다. 본원에 기재된 폴리뉴클레오티드는 유기체로부터의 유전자 또는 유전자 단편을 코딩할 수 있다. 예시적인 유기체는 원핵생물(예를 들어, 박테리아) 및 진핵생물(예를 들어, 마우스, 토끼, 인간 및 비인간 영장류)을 제한 없이 포함한다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 하나 이상의 폴리뉴클레오티드를 포함하고, 하나 이상의 폴리뉴클레오티드 각각은 다중 엑손에 대한 서열을 코딩한다. 본원에 기재된 라이브러리 내의 각각의 폴리뉴클레오티드는 상이한 서열, 즉, 동일하지 않은 서열을 코딩할 수 있다. 일부 경우에, 본원에 기재된 라이브러리 내의 각각의 폴리뉴클레오티드는 라이브러리 내의 또 다른 폴리뉴클레오티드의 서열에 상보적인 적어도 하나의 부분을 포함한다. 본원에 기재된 폴리뉴클레오티드 서열은 달리 언급되지 않는 한 DNA 또는 RNA를 포함할 수 있다. 본원에 기재된 폴리뉴클레오티드 라이브러리는 적어도 10, 20, 50, 100, 200, 500, 1,000, 2,000, 5,000, 10,000, 20,000, 30,000, 50,000, 100,000, 200,000, 500,000, 1,000,000개, 또는 1,000,000개 초과의 폴리뉴클레오티드를 포함할 수 있다. 본원에 기재된 폴리뉴클레오티드 라이브러리는 10, 20, 50, 100, 200, 500, 1,000, 2,000, 5,000, 10,000, 20,000, 30,000, 50,000, 100,000, 200,000, 500,000개 이하, 또는 1,000,000개 이하의 폴리뉴클레오티드를 가질 수 있다. 본원에 기재된 폴리뉴클레오티드 라이브러리는 10 내지 500, 20 내지 1000, 50 내지 2000, 100 내지 5000, 500 내지 10,000, 1,000 내지 5,000, 10,000 내지 50,000, 100,000 내지 500,000, 또는 50,000 내지 1,000,000개의 폴리뉴클레오티드를 포함할 수 있다. 본원에 기재된 폴리뉴클레오티드 라이브러리는 약 370,000; 400,000; 500,000개 이상의 상이한 폴리뉴클레오티드를 포함할 수 있다.
범용 어댑터
[도 1a]에 도시된 바와 같이. 일부 경우에, 본원에 개시된 범용 어댑터는 제1 가닥(101a) 및 제2 가닥(101b)을 포함하는 범용 폴리뉴클레오티드 어댑터(100)를 포함할 수 있다. 일부 경우에, 제1 가닥(101a)은 제1 프라이머 결합 영역(102a), 제1 비-상보성 영역(103a), 및 제1 요크 영역(104a)를 포함한다. 일부 경우에, 제2 가닥(101b)은 제2 프라이머 결합 영역(102b), 제2 비-상보성 영역(103b), 및 제2 요크 영역(104b)을 포함한다. 일부 경우에, 프라이머(예를 들어, 102a/102b) 결합 영역은 폴리뉴클레오티드 어댑터(100)의 PCR 증폭을 허용한다. 일부 경우에, 프라이머(예를 들어, 102a/102b) 결합 영역은 폴리뉴클레오티드 어댑터(100)의 PCR 증폭 및 폴리뉴클레오티드 어댑터에 하나 이상의 바코드의 동시 추가를 허용한다. 일부 경우에, 제1 요크 영역(104a)은 제2 요크 영역(104b)에 상보적이다. 일부 경우에, 제1 비-상보성 영역(103a)은 제2 비-상보성 영역(103b)에 상보적이지 않다. 일부 경우에, 범용 어댑터(100)는 Y형 또는 포크형 어댑터이다. 일부 경우에, 하나 이상의 요크 영역은 제1 요크 영역과 제2 요크 영역 사이의 Tm을 높이는 핵염기 유사체를 포함한다. 본원에 기재된 바와 같은 프라이머 결합 영역은 폴리뉴클레오티드의 말단 어댑터 영역의 형태일 수 있다. 일부 경우에, 범용 어댑터는 하나의 인덱스 서열을 포함한다. 일부 경우에, 범용 어댑터는 하나의 고유 분자 식별자를 포함한다.
범용 (폴리뉴클레오티드) 어댑터(100)는 전형적인 바코딩된 어댑터(예를 들어, 전장 "Y 어댑터")에 비해 단축될 수 있다. 예를 들어, 범용 어댑터 가닥(101a 또는 101b)는 20-45개의 염기 길이이다. 일부 경우에, 범용 어댑터 가닥은 25-40개의 염기 길이이다. 일부 경우에, 범용 어댑터 가닥은 30-35개의 염기 길이이다. 일부 경우에, 범용 어댑터 가닥은 50개 이하의 염기 길이, 45개 이하의 염기 길이, 40개 이하의 염기 길이, 35개 이하의 염기 길이, 30개 이하의 염기 길이, 또는 25개 이하의 염기 길이이다. 일부 경우에, 범용 어댑터 가닥은 약 25, 27, 30, 32, 34, 36, 38, 40, 42, 44, 46, 48, 50, 52, 54, 56, 58, 또는 약 60개의 염기 길이이다. 일부 경우에, 범용 어댑터 가닥은 약 60개의 염기쌍 길이이다. 일부 경우에, 범용 어댑터 가닥은 약 58개의 염기쌍 길이이다. 일부 경우에, 범용 어댑터 가닥은 약 52개의 염기쌍 길이이다. 일부 경우에, 범용 어댑터 가닥은 약 33개의 염기쌍 길이이다.
범용 어댑터는 샘플 폴리뉴클레오티드와의 결찰을 용이하게 하도록 변형될 수 있다. 예를 들어, 5' 말단은 인산화된다. 일부 경우에, 범용 어댑터는 포스포로티오에이트 연결과 같은 하나 이상의 비천연 핵염기 연결을 포함한다. 예를 들어, 범용 어댑터는 3' 말단 염기와 3' 말단 염기에 인접한 염기 사이에 포스포로티오에이트를 포함한다. 일부 경우에, 샘플 폴리뉴클레오티드는 인간, 박테리아, 식물, 동물, 진균, 또는 바이러스 기원의 DNA 또는 RNA와 같은 다양한 공급원으로부터의 핵산을 포함한다. [도 1b]에 도시된 바와 같이, 어댑터-결찰된 샘플 폴리뉴클레오티드(110)는 일부 경우에 샘플 폴리뉴클레오티드(예를 들어, 샘플 핵산)(105a/105b)를 포함하고 어댑터(100)는 샘플 폴리뉴클레오티드(105a/105b)의 5' 및 3' 말단 모두에 결찰된다. 이중체 샘플 폴리뉴클레오티드는 제1 가닥(정방향)(105a)과 제2 가닥(역방향)(105b)을 모두 포함한다.
범용 어댑터는 많은 상이한 핵염기(DNA, RNA 등), 핵염기 유사체, 또는 비-핵염기 링커 또는 스페이서를 포함할 수 있다. 예를 들어, 어댑터는 어댑터의 두 가닥 사이의 혼성화(Tm)를 향상시키는 하나 이상의 핵염기 유사체 또는 기타 기를 포함한다. 일부 경우에, 핵염기 유사체는 어댑터의 요크 영역에 존재한다. 핵염기 유사체 및 기타 기에는 잠금 핵산(LNA), 이환 핵산(BNA), C5-변형 피리미딘 염기, 2'-O-메틸 치환 RNA, 펩티드 핵산(PNA: peptide nucleic acid), 글리콜 핵산(GNA), 트레오스 핵산(TNA), 제노핵산(XNA) 모르폴리노 백본 변형 염기, MGB(minor grove binder), 스페르민, G-클램프, 또는 안트라퀴논(Uaq) 캡이 포함되지만 이에 제한되지는 않는다. 일부 경우에, 어댑터는 표 1에서 선택된 하나 이상의 핵염기 유사체를 포함한다.
[표 1]
Figure pct00001
범용 어댑터는 원하는 혼성화 Tm에 따라 다수의 핵염기 유사체(예컨대 LNA 또는 BNA)를 포함할 수 있다. 예를 들어, 어댑터는 1 내지 20개의 핵염기 유사체를 포함한다. 일부 경우에, 어댑터는 1 내지 8개의 핵염기 유사체를 포함한다. 일부 경우에, 어댑터는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 또는 적어도 12개의 핵염기 유사체를 포함한다. 일부 경우에, 어댑터는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 또는 약 16개의 핵염기 유사체를 포함한다. 일부 경우에, 핵염기 유사체 수는 어댑터에 있는 총 염기의 백분율로서 표시된다. 예를 들어, 어댑터는 적어도 1%, 2%, 5%, 10%, 12%, 18%, 24%, 30%, 또는 30% 초과의 핵염기 유사체를 포함한다. 일부 경우에, 본원에 기재된 어댑터(예를 들어, 범용 어댑터)는 메틸화된 시토신과 같은 메틸화된 핵염기를 포함한다.
바코딩된 프라이머
폴리뉴클레오티드 프라이머는 [도 1c]에 도시된 바와 같이 바코드(또는 인덱스)와 같은 정의된 서열을 포함할 수 있다. 바코드는 예를 들어 PCR 및 바코딩된 프라이머(113a 또는 113b)를 사용하여 범용 어댑터에 부착되어 바코드 어댑터-결찰된 샘플 폴리뉴클레오티드(도 1d, 108)를 생성할 수 있다. [도 1c 및 1d]에 도시된 범용 프라이머 결합 부위(107a 또는 107b)와 같은 프라이머 결합 부위는 바코드 프라이머 라이브러리의 모든 구성원, 또는 구성원의 하위 집단의 동시 증폭을 용이하게 한다. 일부 경우에, 프라이머 결합 부위(107a 또는 107b)는 차세대 시퀀싱 동안 플로우셀(flowcell) 또는 기타 고체 지지체에 결합하는 영역을 포함한다. 일부 경우에, 바코딩된 프라이머는 P5(5'-AATGATACGGCGACCACCGA-3') 또는 P7 (5'-CAAGCAGAAGACGGCATACGAGAT-3') 서열을 포함한다. 일부 경우에, 프라이머 결합 부위(112a 또는 112b)는 범용 어댑터 서열(102a 또는 102b)에 결합하고, 바코딩된 어댑터의 증폭 및 생성을 용이하게 하도록 구성된다. 일부 경우에, 바코딩된 프라이머는 60개 이하의 염기 길이이다. 일부 경우에, 바코딩된 프라이머는 55개 이하의 염기 길이이다. 일부 경우에, 바코딩된 프라이머는 50-60개의 염기 길이이다. 일부 경우에, 바코딩된 프라이머는 약 60개의 염기 길이이다. 일부 경우에, 본원에 기재된 바코드는 메틸화된 시토신과 같은 메틸화된 핵염기를 포함한다.
바코딩된 프라이머는 [도 1c 및 1d]에 도시된 바와 같이 하나 이상의 바코드(106a 또는 106b)를 포함한다. 일부 경우에, 바코드는 PCR 반응을 통해 범용 어댑터에 추가된다. 바코드는 식별할 바코드와 관련된 폴리뉴클레오티드의 일부 기능이 식별될 수 있게 하는 핵산 서열이다. 일부 경우에, 바코드는 인덱스 서열을 포함한다. 일부 경우에, 인덱스 서열은 샘플, 또는 시퀀싱할 핵산의 고유한 공급원의 식별을 허용한다. 시퀀싱 후, 바코드(또는 바코드 영역)는 코딩 영역 또는 샘플 공급원과 관련된 특성을 식별하기 위한 지표를 제공한다. 바코드는 충분한 식별 정도를 허용하는 적절한 길이, 예를 들어, 적어도 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35 ,36 ,37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55개 이상의 염기 길이로 설계될 수 있다. 다중 바코드, 예컨대 약 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 바코드가 선택적으로 비-바코드 서열에 의해 분리되어, 동일한 분자에 사용될 수 있다. 일부 경우에, 복수의 바코드 내 각 바코드는 복수의 적어도 3개의 염기 위치, 예컨대 적어도 약 3, 4, 5, 6, 7, 8, 9, 10개 이상의 위치에서 복수의 바코드 내 다른 모든 바코드와 상이하다. 바코드를 사용하면 시퀀싱(멀티플렉스)과 같은 하류 적용을 위한 다중 라이브러리의 풀링 및 동시 처리가 가능하다. 일부 경우에, 적어도 4, 8, 16, 32, 48, 64, 128개, 512개 초과의 바코딩된 라이브러리가 사용된다. 바코딩된 프라이머 또는 어댑터는 고유 분자 식별자(UMI)를 포함할 수 있다. 일부 경우에, 이러한 UMI는 샘플 내 모든 핵산에 고유하게 태깅된다. 일부 경우에, 샘플 내 핵산의 적어도 60%, 70%, 80%, 90%, 95%, 또는 95% 초과의 핵산이 UMI로 태깅된다. 일부 경우에, 샘플 내 핵산의 적어도 85%, 90%, 95%, 97%, 또는 적어도 99%가 고유 바코드, 또는 UMI로 태깅된다. 바코딩된 프라이머는 일부 경우에 인덱스 서열 및 하나 이상의 UMI를 포함한다. UMI는 편향을 유발할 수 있는 하류 샘플 처리(예를 들어, PCR 또는 농축 단계) 전에 초기 샘플 농도 또는 화학량론의 내부 측정을 허용한다. 일부 경우에, UMI는 하나 이상의 바코드 서열을 포함한다. 일부 경우에, 어댑터-결찰된 샘플 폴리뉴클레오티드의 각 가닥(정방향 대 역방향)은 하나 이상의 고유한 바코드를 보유한다. 이러한 바코드는 샘플 폴리뉴클레오티드의 각 가닥에 고유하게 태깅하는 데 선택적으로 사용된다. 일부 경우에, 바코딩된 프라이머는 인덱스 바코드 및 UMI 바코드를 포함한다. 일부 경우에, 적어도 2개의 바코딩된 프라이머로 증폭 후, 생성된 앰플리콘은 2개의 인덱스 서열 및 2개의 UMI를 포함한다. 일부 경우에, 적어도 2개의 바코딩된 프라이머로 증폭 후, 생성된 앰플리콘은 2개의 인덱스 바코드 및 1개의 UMI 바코드를 포함한다. 일부 경우에, 범용 어댑터-샘플 폴리뉴클레오티드 이중체의 각 가닥은 UMI 또는 인덱스 바코드와 같은 고유한 바코드로 태깅된다.
라이브러리 내 바코딩된 프라이머는 [도 1e 및 1f]에 도시된 바와 같이 범용 어댑터의 프라이머 결합 영역(102a/102b)에 상보적인 영역(112a/112b)를 포함한다. 예를 들어, 범용 어댑터 결합 영역(112a)은 범용 어댑터의 프라이머 영역(102a)에 상보적이고, 범용 어댑터 결합 영역(112b)은 범용 어댑터의 프라이머 영역(102b)에 상보적이다. 이러한 배열은 PCR 동안 범용 어댑터의 연장을 용이하게 하고 바코딩된 프라이머를 부착한다([도 1e 및 1f]에 도시된 바와 같음). 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 40-65℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 42-63℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 50-60℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 53-62℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 54-58℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 40-57℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 40-50℃이다. 일부 경우에, 프라이머와 프라이머 결합 영역 사이의 Tm은 약 40, 45, 47, 50, 52, 53, 55, 57, 59, 61, 또는 62℃이다.
혼성화 차단제
차단제는 임의의 수의 상이한 핵염기(DNA, RNA 등), 핵염기 유사체(비-표준), 또는 비-핵염기 링커 또는 스페이서를 함유할 수 있다. 일부 경우에, 차단제는 범용 차단제를 포함한다. 이러한 차단제는 일부 경우에 "세트"로 기재될 수 있으며, 여기서 세트는 일부 경우에 적어도 하나의 어댑터에 존재하는 하나 이상의 바코드와 무관하게 어댑터-어댑터 상호작용을 차단하는 범용 차단제를 포함한다. 예를 들어, 차단제는 차단제와 어댑터 사이의 혼성화(Tm)를 향상시키는 하나 이상의 핵염기 유사체 또는 기타 기를 포함한다. 일부 경우에, 차단제는 차단제와 어댑터 사이의 혼성화(Tm)를 감소시키는 하나 이상의 핵염기(예를 들어, "범용" 염기)를 포함한다. 일부 경우에, 본원에 기재된 차단제는 차단제와 어댑터 사이의 혼성화(Tm)를 증가시키는 하나 이상의 핵염기 및 차단제와 어댑터 사이의 혼성화(Tm)를 감소시키는 하나 이상의 핵염기 둘 다를 포함한다.
표적 서열(예를 들어, 어댑터)에 대한 결합을 향상시키는 하나 이상의 영역, 및 표적 서열(예를 들어, 어댑터)에 대한 결합을 감소시키는 하나 이상의 영역을 포함하는 혼성화 차단제가 본원에 기재된다. 일부 경우에, 각 영역이 표적 농축 적용 중에 주어진 원하는 수준의 오프-베이트 활성에 대해 조정된다. 일부 경우에, 각각의 영역은 표적 서열에 대한 분자의 전체 친화도를 증가 또는 감소시키기 위해 단일 유형의 화학적 변형/모이어티 또는 다중 유형으로 변경될 수 있다. 일부 경우에, 차단제 세트의 모든 개별 구성원의 용융 온도는 (예를 들어, LNA 및/또는 BNA와 같은 모이어티의 추가로) 특정 온도 이상으로 유지된다. 일부 경우에, 주어진 차단제 세트는 인덱스 길이와 인덱스 서열과 상관없이, 그리고 혼성화에 존재하는 어댑터 인덱스 수와 무관하게 오프-베이트 성능을 향상시킬 것이다.
차단제는 어댑터와 같은 표적 시퀀싱에 대한 친화도를 증가 및/또는 감소시키는 모이어티를 포함할 수 있다. 일부 경우에, 그러한 특정 영역은 특정 표적 서열에 대한 친화도를 피하거나 증가시키기 위해 특정 용융 온도로 열역학적으로 조정될 수 있다. 이러한 변형 조합은 일부 경우에 특이적이고 고유한 어댑터 서열에 대한 차단제 분자의 친화도를 증가시키고 반복된 어댑터 서열(예를 들어, 어댑터의 Y 줄기 어닐링 부분)에 대한 차단제 분자의 친화도를 감소시키는 것을 돕도록 설계되었다. 일부 경우에, 차단제는 어댑터의 Y 줄기 영역에 대한 차단제의 결합을 감소시키는 모이어티를 포함한다. 일부 경우에, 차단제는 어댑터의 Y 줄기 영역에 대한 차단제의 결합을 감소시키는 모이어티, 및 어댑터의 비-Y 줄기 영역에 대한 차단제의 결합을 증가시키는 모이어티를 포함한다.
차단제(예를 들어, 범용 차단제) 및 어댑터는 혼성화 동안 다수의 상이한 집단을 형성할 수 있다. 일부 경우에, 차단제의 Y 줄기 어닐링 영역에서 친화도를 감소시키는 DNA 변형의 개수가 증가할 때, 집단 'A' & 'D'가 우세하고 원하는(A, 도 36a) 또는 최소 효과(D, 도 36d)를 보인다. 일부 경우에, 차단제의 Y 줄기 어닐링 영역에서 친화도를 감소시키는 DNA 변형의 개수가 감소함에 따라, 집단 'B' & 'C'가 우세하고 다른 어댑터에 대한 데이지-체인 또는 어닐링이 발생할 수 있거나('B', 도 36b) 차단제가 적절하게 기능을 할 수 없는 격리 차단제(C, 도 36c)가 발생할 수 있는 바람직하지 않은 효과를 보인다.
단일 또는 이중 인덱스 어댑터 설계 모두에 대한 인덱스는 어댑터 인덱스 염기를 덮도록 특별히 설계된 DNA 변형으로 연장된 범용 차단제에 의해 부분적으로 또는 완전히 덮일 수 있다. 일부 경우에, 이러한 변형은 보편적인 염기와 같은 인덱스에 대한 어닐링을 감소시키는 모이어티를 포함한다. 일부 경우에, 이중 인덱스 어댑터의 인덱스는 하나 이상의 차단제에 의해 부분적으로 덮인다(또는 중첩된다). 일부 경우에, 이중 인덱스 어댑터의 인덱스는 하나 이상의 차단제에 의해 완전히 덮인다. 일부 경우에, 단일 인덱스 어댑터의 인덱스는 하나 이상의 차단제에 의해 부분적으로 덮인다. 일부 경우에, 단일 인덱스 어댑터의 인덱스는 하나 이상의 차단제에 의해 완전히 덮인다. 일부 경우에, 차단제는 인덱스 서열과 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개 또는 20개 초과의 염기만큼 중첩된다. 일부 경우에, 차단제는 인덱스 서열과 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개 이하, 또는 25개 이하의 염기만큼 중첩된다. 일부 경우에, 차단제는 인덱스 서열과 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개 또는 약 30개의 염기만큼 중첩된다. 일부 경우에, 차단제는 인덱스 서열과 1-5, 1-3, 2-5, 2-8, 2-10, 3-6, 3-10, 4-10, 4-15, 1-4 또는 5-7개의 염기만큼 중첩된다. 일부 경우에, 인덱스 서열과 중첩되는 차단제의 영역은 적어도 하나의 2-데옥시이노신 또는 5-니트로인돌 핵염기를 포함한다.
1 또는 2개의 차단제는 어댑터에 존재하는 인덱스 서열과 중첩될 수 있다. 일부 경우에, 조합된 1 또는 2개의 차단제는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개, 또는 20개 초과의 염기의 인덱스 서열과 중첩된다. 일부 경우에, 조합된 1 또는 2개의 차단제는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개 이하 또는 20개 이하의 염기의 인덱스 서열과 중첩된다. 일부 경우에, 조합된 1 또는 2개의 차단제는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20개 또는 약 20개의 염기의 인덱스 서열과 중첩된다. 일부 경우에, 조합된 1 또는 2개의 차단제는 1-5, 1-3, 2-5, 2-8, 2-10, 3-6, 3-10, 4-10, 4-15, 1-4 또는 5-7개의 염기의 인덱스 서열만큼 중첩된다. 일부 경우에, 인덱스 서열과 중첩되는 차단제의 영역은 적어도 하나의 2-데옥시이노신 또는 5-니트로인돌 핵염기를 포함한다.
제1 배열에서, 어댑터 인덱스 돌출부의 길이는 변경될 수 있다. 한쪽으로부터 설계될 때, 어댑터 인덱스 돌출부는 인덱스의 양쪽으로부터 어댑터 인덱스 염기 0에서 n까지 덮도록 변경될 수 있다(도 37b-37f). 이로써 단일(도 37f) 및 이중 인덱스 어댑터 시스템(도 37b 및 37c) 모두에 대해 이러한 어댑터 차단제를 설계할 수 있다.
제2 배열에서, 어댑터 인덱스 염기는 양쪽으로부터 덮인다(도 37d 및 37e). 어댑터 인덱스 염기가 양쪽으로부터 덮일 때, 각 차단제의 덮는 영역의 길이는 인덱스 염기의 총 수의 상당 부분을 여전히 덮으면서 한 쌍의 차단제가 일정 범위의 어댑터 인덱스 길이와 상호 작용할 수 있도록 선택될 수 있다. 예로서, 어댑터 인덱스를 덮는 3bp 돌출부를 갖도록 설계된 2개의 차단제를 사용한다. 6bp, 8bp, 또는 10bp 어댑터 인덱스 길이의 맥락에서, 이들 차단제는 혼성화 동안 각각 0bp, 2bp, 또는 4bp를 노출된 상태로 둘 것이다(도 39a-39c).
제3 배열에서, 변형된 핵염기는 인덱스 어댑터 염기를 덮도록 선택된다. 현재 상업적으로 이용 가능한 이러한 변형의 예는 축퇴 염기(즉, A, T, C, G의 혼합 염기), 2'-데옥시이노신, 및 5-니트로인돌을 포함한다.
제4 배열에서, 어댑터 인덱스 돌출부를 갖는 차단제는 차세대 시퀀싱 라이브러리의 센스(즉, '상부') 또는 안티센스(즉, '하부') 가닥에 결합한다.
제5 배열에서, 차단제는 정의된 길이 및 구성의 표준 어댑터 인덱스 염기에 추가하여 다른 폴리뉴클레오티드 서열(예를 들어, 정의된 어댑터 서열을 도입하기 위한 결찰 또는 다른 방법을 용이하게 하기 위해 이전 생화학적 단계에서 추가된 폴리-A 꼬리 또는 시퀀싱 후 생물정보학 할당을 위한 고유 분자 식별자 등)을 덮도록 추가로 연장된다(도 37g). 이러한 유형의 서열은 어댑터의 여러 위치에 배치될 수 있으며 이 경우 가장 널리 사용되는 경우(즉, 게놈 삽입물 옆에 있는 고유한 분자 인덱스)가 제시된다. 고유 분자 식별자에 대한 다른 위치(예를 들어, 어댑터 인덱스 염기 옆)도 유사한 접근법으로 처리될 수 있다.
제6 배열에서, 이전 배열 모두는 지정된 조건하에서 표적 농축 동안 오프-베이트 성능에 대한 표적 성능 메트릭을 충족시키기 위해 다양한 조합으로 이용된다. 일부 경우에, 차단제는 [도 35a]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 35b]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 35c]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 35d]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 35e]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37a]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37b]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37c]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37d]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37e]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37f]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 37g]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 39a]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 39b]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 39c]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40a]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40b]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40c]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40d]에 나타낸 배열을 포함한다. [도 40e]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40f]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40g]에 나타낸 배열을 포함한다. [도 40h]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40i]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40j]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40k]에 나타낸 배열을 포함한다. 일부 경우에, 차단제는 [도 40l]에 나타낸 배열을 포함한다.
차단제는 핵염기 유사체와 같은 모이어티를 포함할 수 있다. 핵염기 유사체 및 기타 기에는 잠금 핵산(LNA), 이환 핵산(BNA), C5-변형 피리미딘 염기, 2'-O-메틸 치환 RNA, 펩티드 핵산(PNA), 글리콜 핵산(GNA), 트레오스 핵산(TNA), 이노신, 2'-데옥시이노신, 3-니트로피롤, 5-니트로인돌, 제노핵산(XNA) 모르폴리노 백본 변형 염기, MGB(minor grove binder), 스페르민, G-클램프, 또는 안트라퀴논(Uaq) 캡이 포함되지만 이에 제한되지는 않는다. 일부 경우에, 핵염기 유사체는 보편적인 염기를 포함하며, 여기서 핵염기는 동족 핵염기에 결합하기 위해 더 낮은 Tm을 갖는다. 일부 경우에, 보편적인 염기는 5-니트로인돌 또는 2'-데옥시이노신을 포함한다. 일부 경우에, 차단제는 2개의 폴리뉴클레오티드 사슬을 연결하는 스페이서 요소를 포함한다. 일부 경우에, 차단제는 표 1로부터 선택된 하나 이상의 핵염기 유사체를 포함한다. 일부 경우에, 이러한 핵염기 유사체는 차단제의 Tm을 조절하기 위해 추가된다. 차단제는 원하는 혼성화 Tm에 따라 임의의 수의 핵염기 유사체(예를 들어, LNA 또는 BNA)를 포함할 수 있다. 예를 들어, 차단제는 20 내지 40개의 핵염기 유사체를 포함한다. 일부 경우에, 차단제는 8 내지 16개의 핵염기 유사체를 포함한다. 일부 경우에, 차단제는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12개, 또는 적어도 12개의 핵염기 유사체를 포함한다. 일부 경우에, 차단제는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개, 또는 약 16개의 핵염기 유사체를 포함한다. 일부 경우에, 핵염기 유사체 수는 차단제의 총 염기의 백분율로 표시된다. 예를 들어, 차단제는 적어도 1%, 2%, 5%, 10%, 12%, 18%, 24%, 30%, 또는 30% 초과의 핵염기 유사체를 포함한다. 일부 경우에, 핵염기 유사체를 포함하는 차단제는 각 핵염기 유사체에 대해 Tm을 약 2℃ 내지 약 8℃ 범위로 올린다. 일부 경우에, Tm은 각 핵염기 유사체에 대해 적어도 또는 약 1℃, 2℃, 3℃, 4℃, 5℃, 6℃, 7℃, 8℃, 9℃, 10℃, 12℃, 14℃, 또는 16℃만큼 올린다. 일부 경우에, 이러한 차단제는 어댑터의 상부 또는 "센스" 가닥에 결합하도록 구성된다. 일부 경우에, 차단제는 어댑터의 하부 또는 "안티센스" 가닥에 결합하도록 구성된다. 일부 경우에, 차단제 세트는 어댑터의 상부 및 하부 가닥 모두에 결합하도록 구성된 서열을 포함한다. 일부 경우에, 추가 차단제는 어댑터 서열의 상보체, 역방향, 정방향, 또는 역 상보체로 구성된다. 일부 경우에, 상부 또는 하부(또는 둘 다) 가닥을 표적화하는(그에 결합하는) 차단제 세트를 설계 및 테스트한 후 상부 차단제를 하부 차단제로 또는 하부 차단제를 상부 차단제로 교체하는 것과 같은 최적화가 뒤따른다. 일부 경우에, 차단제는 어댑터의 인덱스 또는 바코드 염기와 완전히 또는 부분적으로 중첩되도록 구성된다. 일부 경우에, 차단제 세트는 어댑터 인덱스 서열과 중첩되는 적어도 하나의 차단제를 포함한다. 일부 경우에, 차단제 세트는 어댑터 인덱스 서열과 중첩되는 적어도 하나의 차단제, 및 어댑터 서열과 중첩되지 않는 적어도 하나의 차단제를 포함한다. 일부 경우에, 차단제 세트는 요크 영역 서열과 중첩되지 않는 적어도 하나의 차단제를 포함한다. 일부 경우에, 차단제 세트는 요크 영역 서열과 중첩되지 않는 적어도 하나의 차단제 및 요크 영역 서열과 중첩되는 적어도 하나의 차단제를 포함한다. 일부 경우에, 차단제 세트는 2, 3, 4, 5, 6, 7, 8, 9, 10개, 또는 10개 초과의 차단제를 포함한다.
차단제는 어댑터의 크기 또는 혼성화 Tm에 따라 임의의 길이일 수 있다. 예를 들어, 차단제는 20 내지 50개의 염기 길이이다. 일부 경우에, 차단제는 25 내지 45개의 염기, 30 내지 40개의 염기, 20 내지 40개의 염기, 또는 30 내지 50개의 염기 길이이다. 일부 경우에, 차단제는 25 내지 35개의 염기 길이이다. 일부 경우에, 차단제는 적어도 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 적어도 35개의 염기 길이이다. 일부 경우에, 차단제는 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개 이하, 또는 35개 이하의 염기 길이이다. 일부 경우에, 차단제는 약 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 약 35개의 염기 길이이다. 일부 경우에, 차단제는 약 50개의 염기 길이이다. 일부 경우에, 어댑터-태깅된 게놈 라이브러리 단편을 표적화하는 차단제 세트는 하나 초과의 길이의 차단제를 포함한다. 일부 경우에, 2개의 차단제가 링커와 함께 테더링된다. 다양한 링커가 당 업계에 잘 알려져 있고, 일부 경우에 알킬기, 폴리에테르기, 아민기, 아미드기, 또는 기타 화학기를 포함한다. 일부 경우에, 링커는 포스페이트, 티오포스페이트, 아미드, 또는 기타 백본과 같은 백본을 통해 함께 연결(또는 차단제 폴리뉴클레오티드에 부착)되는 개별 링커 단위를 포함한다. 예시적인 배열에서, 링커는 각각 어댑터 서열의 5' 말단을 표적화하는 제1 차단제와 어댑터 서열의 3' 말단을 표적화하는 제2 차단제 사이의 인덱스 영역에 걸쳐 있다. 일부 경우에, 하류 증폭을 방지하기 위해 차단제의 5' 또는 3' 말단에 캡핑 기가 추가된다. 캡핑 기는 폴리에테르, 다가 알코올, 알칸, 또는 증폭을 방지하는 기타 비혼성화 기를 다양하게 포함한다. 일부 경우에, 이러한 기는 포스페이트, 티오포스페이트, 아미드, 또는 기타 백본을 통해 연결된다. 일부 경우에, 하나 이상의 차단제가 사용된다. 일부 경우에, 적어도 4개의 동일하지 않은 차단제가 사용된다. 일부 경우에, 제1 차단제는 어댑터 서열의 제1의 3' 말단에 걸쳐 있고, 제2 차단제는 어댑터 서열의 제1의 5' 말단에 걸쳐 있으며, 제3 차단제는 어댑터 서열의 제2의 3' 말단에 걸쳐 있으며, 제4 차단제는 어댑터 서열의 제2의 5' 말단에 걸쳐 있다. 일부 경우에, 제1 차단제는 적어도 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 적어도 35개의 염기 길이이다. 일부 경우에, 제2 차단제는 적어도 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 적어도 35개의 염기 길이이다. 일부 경우에, 제3 차단제는 적어도 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 적어도 35개의 염기 길이이다. 일부 경우에, 제4 차단제는 적어도 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34개, 또는 적어도 35개의 염기 길이이다. 일부 경우에, 제1 차단제, 제2 차단제, 제3 차단제, 또는 제4 차단제는 핵염기 유사체를 포함한다. 일부 경우에, 핵염기 유사체는 LNA이다.
차단제의 설계는 어댑터 서열에 대한 원하는 혼성화 Tm에 의해 영향받을 수 있다. 일부 경우에, 비-표준 핵산(예를 들어, 잠금 핵산, 가교 핵산, 또는 기타 비-표준 핵산 또는 유사체)을 차단제에 삽입하여 차단제의 Tm을 높이거나 낮춘다. 일부 경우에, 차단제의 Tm은 비-표준 아미노산을 포함하는 폴리뉴클레오티드에 대한 Tm을 계산하는 데 특이적인 도구를 사용하여 계산된다. 일부 경우에, Tm은 Exiqon™ 온라인 예측 도구를 사용하여 계산된다. 일부 경우에, 본원에 기재된 차단제 Tm은 인-실리코(in-silico)로 계산된다. 일부 경우에, 차단제 Tm은 인-실리코로 계산되고 실험의 시험관 내 조건과 상관관계가 있다. 이론에 얽매이지 않고, 실험적으로 결정된 Tm은 염 농도, 온도, 첨가제의 존재, 또는 기타 요인과 같은 실험 매개변수에 의해 추가로 영향받을 수 있다. 일부 경우에, 본원에 기재된 Tm은 차단제 성능을 설계하거나 최적화하기 위해 사용되는 인-실리코로 결정된 Tm이다. 일부 경우에, Tm 값은 용융 곡선 분석 실험으로부터 예측, 추정, 또는 결정된다. 일부 경우에, 차단제는 70℃ 내지 99℃의 Tm을 갖는다. 일부 경우에, 차단제는 75℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 적어도 85℃의 Tm을 갖는다. 일부 경우에, 차단제는 적어도 70, 72, 75, 77, 80, 82, 85, 88, 90, 또는 적어도 92℃의 Tm을 갖는다. 일부 경우에, 차단제는 약 70, 72, 75, 77, 80, 82, 85, 88, 90, 92, 또는 약 95℃의 Tm을 갖는다. 일부 경우에, 차단제는 78℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 79℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 80℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 81℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 82℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 83℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제는 84℃ 내지 90℃의 Tm을 갖는다. 일부 경우에, 차단제 세트는 78℃ 내지 90℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 80℃ 내지 90℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 80℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 81℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 82℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 83℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 84℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 세트는 적어도 86℃의 평균 Tm을 갖는다. 일부 경우에, 차단제 Tm은 고속 혼성화 완충제 및/또는 혼성화 향상제의 사용과 같은 본원에 기재된 다른 구성요소의 결과로서 변화된다.
어댑터 표적에 대한 차단제의 몰비는 혼성화 동안 오프-베이트(및 후속적으로 비-표적) 비율에 영향을 미칠 수 있다. 차단제가 표적 어댑터에 결합할 때 더 효율적일수록 차단제가 덜 필요하다. 일부 경우에, 본원에 기재된 차단제는 20:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드의 시퀀싱 결과를 달성한다. 일부 경우에, 10:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다. 일부 경우에, 5:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다. 일부 경우에, 2:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다. 일부 경우에, 1.5:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다. 일부 경우에, 1.2:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다. 일부 경우에, 1.05:1(차단제:표적) 미만의 몰비로 20% 이하의 비-표적 리드가 달성된다.
범용 차단제는 다양한 크기의 패널 라이브러리와 함께 사용될 수 있다. 일부 실시 양태에서, 패널 라이브러리는 적어도 또는 약 0.01, 0.02, 0.03, 0.04, 0.05, 0.06, 0.07, 0.08, 0.09, 1.0, 2.0, 4.0, 8.0, 10.0, 12.0, 14.0, 16.0, 18.0, 20.0, 22.0, 24.0, 26.0, 28.0, 30.0, 40.0, 50.0, 60.0, 또는 60.0 초과의 메가염기(Mb)를 포함한다.
본원에 기재된 바와 같은 차단제는 표적-적중 성능을 개선할 수 있다. 일부 실시 양태에서, 표적-적중 성능은 적어도 또는 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 95% 초과하여 개선된다. 일부 실시 양태에서, 표적-적중 성능은 다양한 인덱스 설계에 대해 적어도 또는 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 95% 초과하여 개선된다. 일부 실시 양태에서, 표적-적중 성능은 다양한 패널 크기에 대해 적어도 또는 약 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 또는 95% 초과하여 개선된다.
시퀀싱 방법
시퀀싱의 효율성 및 정확성을 개선하는 방법이 본원에 기재된다. 이러한 방법은 핵염기 유사체를 포함하는 범용 어댑터의 사용, 및 샘플 핵산에 대한 결찰 후 바코딩된 어댑터의 생성을 포함한다. 일부 경우에, 샘플을 단편화하고, 단편 말단을 복구하고, 하나 이상의 아데닌을 단편 이중체의 한 가닥에 추가하고, 범용 어댑터를 결찰하고, 단편 라이브러리를 바코딩된 프라이머로 증폭하여 바코딩된 핵산 라이브러리를 생성한다(도 22). 일부 경우에, 추가 단계에는 농축/포획, 추가 PCR 증폭, 및/또는 핵산 라이브러리의 시퀀싱이 포함된다.
예시적인 시퀀싱 작업 흐름(도 2)의 첫 번째 단계에서, 샘플 핵산을 포함하는 샘플(208)을 기계적 또는 효소적 전단에 의해 단편화하여 단편(209) 라이브러리를 형성한다. 인덱싱된 어댑터(215)를 단편화된 샘플 핵산에 결찰하여 어댑터-결찰된 샘플 핵산 라이브러리(210)를 형성한다. 그 후 이 라이브러리를 선택적으로 증폭한다. 그 후 라이브러리(210)를 샘플 핵산(211)에 혼성화하는 표적 결합 폴리뉴클레오티드(217)와 선택적으로 혼성화하고, 샘플 핵산(217)과 어댑터(215) 사이의 혼성화를 방지하는 차단 폴리뉴클레오티드(216)와 혼성화한다. 샘플 핵산-표적 결합 폴리뉴클레오티드 혼성화 쌍의 포획(212/218), 및 표적 결합 폴리뉴클레오티드(217)의 제거로 샘플 핵산(213)을 단리/농축할 수 있으며, 이를 그 후 선택적으로 증폭하고 시퀀싱한다(214).
예시적인 시퀀싱 작업 흐름(도 3)의 첫 번째 단계에서, 샘플 핵산을 포함하는 샘플(208)을 기계적 또는 효소적 전단에 의해 단편화하여 단편(209) 라이브러리를 형성한다. 범용 어댑터(215)를 단편화된 샘플 핵산에 결찰하여 어댑터-결찰된 샘플 핵산 라이브러리(210)를 형성한다. 그 후 이 라이브러리를 바코딩된 프라이머 라이브러리(222)(단순화를 위해 하나의 프라이머만 표시함)로 증폭하여 바코딩된 어댑터-샘플 폴리뉴클레오티드 라이브러리(223)를 생성한다. 그 후 라이브러리(223)를 프로브 폴리뉴클레오티드(217)와 어댑터(220) 사이의 혼성화를 방지하는 차단 폴리뉴클레오티드(216)와 함께 샘플 핵산(211)에 혼성화하는 표적 결합 폴리뉴클레오티드(217)와 선택적으로 혼성화하고, 샘플 핵산(217)과 어댑터(215) 사이의 혼성화를 방지하는 차단 폴리뉴클레오티드(216)와 혼성화한다. 샘플 폴리뉴클레오티드-표적 결합 폴리뉴클레오티드 혼성화 쌍의 포획(212/218), 및 표적 결합 폴리뉴클레오티드(217)의 제거로 샘플 핵산(213)을 단리/농축할 수 있으며, 이를 그 후 선택적으로 증폭하고 시퀀싱한다(214). 범용 어댑터와 바코딩된 프라이머의 다양한 조합을 사용할 수 있다. 일부 경우에, 바코딩된 프라이머는 적어도 하나의 바코드를 포함한다. 일부 경우에, 어댑터나 바코드, 또는 둘 다를 사용하여 다양한 유형의 바코드를 샘플 핵산에 추가한다. 예를 들어, 범용 어댑터는 인덱스 바코드를 포함하고, 결찰 후 추가 인덱스 바코드를 포함하는 바코딩된 프라이머로 증폭된다. 일부 경우에, 범용 어댑터는 고유 분자 식별자 바코드를 포함하고, 결찰 후 인덱스 바코드를 포함하는 바코딩된 프라이머로 증폭된다.
바코딩된 프라이머는 PCR을 이용하여 범용 어댑터-결찰된 샘플 폴리뉴클레오티드를 증폭하여 시퀀싱을 위한 폴리핵산 라이브러리를 생성하는 데 사용될 수 있다. 이러한 라이브러리는 일부 경우에 증폭 후 바코드를 포함한다. 일부 경우에, 바코딩된 프라이머를 사용한 증폭은 표준 Y 어댑터-결찰된 샘플 폴리뉴클레오티드 라이브러리의 증폭에 비해 더 높은 증폭 수율을 초래한다. 일부 경우에, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 또는 12회의 PCR 사이클을 사용하여 범용 어댑터-결찰된 샘플 폴리뉴클레오티드 라이브러리를 증폭한다. 일부 경우에, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11회 이하, 또는 12회 이하의 PCR 사이클을 사용하여 범용 어댑터-결찰된 샘플 폴리뉴클레오티드 라이브러리를 증폭한다. 일부 경우에, 2-12, 3-10, 4-9, 5-8, 6-10, 또는 8-12회의 PCR 사이클을 사용하여 범용 어댑터-결찰된 샘플 폴리뉴클레오티드 라이브러리를 증폭하여, 앰플리콘 산물을 생성한다. 일부 경우에, 이러한 라이브러리는 PCR 기반 오류가 더 적다. 이론에 얽매이지 않고, 증폭 동안 PCR 사이클 감소는 결과 앰플리콘 산물에서 더 적은 오류로 이어진다. 증폭 후, 이러한 바코딩된 앰플리콘 라이브러리는 일부 경우에 농축시키거나 포획, 추가 증폭 반응, 및/또는 시퀀싱을 거친다. 일부 경우에, 본원에 기재된 범용 어댑터를 사용하여 생성된 앰플리콘 산물은 표준 전장 Y 어댑터의 증폭으로 생성된 앰플리콘 산물보다 약 30%, 15%, 10%, 7%, 5%, 3%, 2%, 1.5%, 1%, 0.5%, 0.1%, 또는 0.05% 더 적은 오류를 포함한다.
게놈 단편에 결찰된 어댑터에 대한 포획 프로브의 비-표적 결합, 또는 어댑터-어댑터 혼성화를 방지하기 위해 범용 차단제가 사용되는 방법이 본원에 기재된다. 비-표적 혼성화를 방지하기 위해 사용되는 어댑터 차단제는 어댑터의 일부 또는 전체를 표적화할 수 있다. 일부 경우에, 고유 인덱스 서열을 포함하는 어댑터의 일부에 상보적인 특정 차단제가 사용된다. 어댑터-태깅된 게놈 라이브러리가 많은 수의 상이한 인덱스를 포함하는 경우, 인덱스 서열을 표적으로 하지 않거나 이에 강하게 혼성화하지 않는 차단제를 설계하는 것이 유리할 수 있다. 예를 들어, "범용" 차단제는 인덱스 서열을 포함하지 않는(인덱스 독립적인) 어댑터의 일부를 표적화하고, 이는 사용되는 상이한 인덱스 서열 수에 관계없이 최소 개수의 차단제가 사용되도록 한다. 일부 경우에, 8개 이하의 범용 차단제가 사용된다. 일부 경우에, 4개의 범용 차단제가 사용된다. 일부 경우에, 3개의 범용 차단제가 사용된다. 일부 경우에, 2개의 범용 차단제가 사용된다. 일부 경우에, 1개의 범용 차단제가 사용된다. 예시적인 배열에서, 4개의 범용 차단제가 적어도 4, 8, 16, 32, 64, 96, 또는 적어도 128개의 상이한 인덱스 서열을 포함하는 어댑터와 함께 사용된다. 일부 경우에, 상이한 인덱스 서열은 적어도 또는 약 4, 6, 8, 10, 12, 14, 16, 18, 20개, 또는 20개 초과의 염기쌍(bp)을 포함한다. 일부 경우에, 범용 차단제는 바코드 서열에 결합하지 않도록 구성된다. 일부 경우에, 범용 차단제는 바코드 서열에 부분적으로 결합한다. 일부 경우에, 바코드 서열에 부분적으로 결합하는 범용 차단제는 어댑터에 대한 결합의 Tm을 높이는 것과 같은 뉴클레오티드 유사체(예를 들어, LNA 또는 BNA)를 추가로 포함한다.
메틸화 시퀀싱 및 포획
메틸화 시퀀싱은 메틸화 시토신을 온전하게 남기면서 결국 탈아미노화에 이르는 일련의 이벤트를 통해 비-메틸화 시토신을 우라실로 전환하는 효소적 또는 화학적 방법을 포함한다(도 41). 증폭 동안, 우라실은 상보적 가닥의 아데닌과 쌍을 이루어 비-메틸화 시토신의 원래 위치에 티민을 포함시킨다. [도 41]에서, 각각 상이한 위치에 비-메틸화 시토신을 갖는 동일한 서열이 존재한다. 최종 산물은 비대칭이고 전환 후 2개의 상이한 이중 가닥 DNA 분자를 생성한다(윗줄, 도 41); 메틸화된 DNA에 대한 동일한 과정은 추가의 서열 세트로 이어진다(아랫줄, 도 41).
표적 농축은 사전 포획 또는 사후 포획 전환에 의해 진행될 수 있다. 사후 포획 전환은 왼쪽의 원래 샘플 DNA를 표적화하는 반면, 사전 포획은 오른쪽의 전환된 4 가닥의 서열을 표적화한다(도 41). 사후 포획 전환은 프로브 설계에 대한 문제가 적지만, PCR 증폭은 메틸화 패턴을 보존하지 않고 포획 전에 수행될 수 없기 때문에 종종 많은 양의 시작 DNA 물질이 필요하다. 따라서, 사전 포획 변환은 종종 무세포 DNA와 같이 입력량이 적고 민감한 응용 분야에서 선택하는 방법이다.
본원에 기재된 방법은 시토신의 우라실로의 전환을 용이하게 하기 위해 효소 또는 중아황산염으로 라이브러리의 처리를 포함할 수 있다. 일부 경우에, 본원에 기재된 어댑터(예를 들어, 범용 어댑터)는 메틸화된 시토신과 같은 메틸화된 핵염기를 포함한다.
증폭 반응을 위한 작은 폴리뉴클레오티드 집단의 데노보 합성
표면, 예를 들어 플레이트로부터 폴리뉴클레오티드의 합성 방법이 본원에 기재된다. 일부 경우에, 폴리뉴클레오티드는 폴리뉴클레오티드 연장을 위한 좌위의 클러스터에서 합성되고, 방출된 다음, 계속하여 증폭 반응, 예를 들어 PCR을 거친다. 클러스터로부터 폴리뉴클레오티드 합성의 예시적인 작업 흐름은 [도 8]에 도시되어 있다. 실리콘 플레이트(801)는 다중 클러스터(803)를 포함한다. 각 클러스터 내에는 다중 좌위(821)가 있다. 폴리뉴클레오티드는 클러스터(803)로부터 플레이트(801) 상에서 데노보 합성된다(807). 폴리뉴클레오티드를 절단하고(811) 플레이트로부터 제거하여(813) 방출된 폴리뉴클레오티드의 집단을 형성한다(815). 그 다음, 방출된 폴리뉴클레오티드 집단(815)을 증폭하여(817) 증폭된 폴리뉴클레오티드의 라이브러리를 형성한다(819).
클러스터 상에서 합성된 폴리뉴클레오티드의 증폭이 이렇게 클러스터링된 배열 없이 구조의 전체 표면에 걸친 폴리뉴클레오티드의 증폭과 비교하여 폴리뉴클레오티드 표시에 대해 향상된 제어를 제공하는 방법이 본원에 제공된다. 일부 경우에, 폴리뉴클레오티드 연장을 위한 좌위의 클러스터링된 배열을 갖는 표면으로부터 합성된 폴리뉴클레오티드의 증폭으로 대규모 폴리뉴클레오티드 집단의 반복 합성으로 인한 표시에 미치는 부정적인 영향을 극복하는 것이 가능해진다. 대규모 폴리뉴클레오티드 집단의 반복 합성으로 인한 표시에 대한 예시적인 부정적인 영향에는 고/저 GC 함량으로 인한 증폭 편향, 반복 서열, 후행 아데닌, 이차 구조, 표적 서열 결합 친화도, 또는 폴리뉴클레오티드 서열의 변형된 뉴클레오티드가 제한 없이 포함된다.
클러스터링된 배열 없이 전체 플레이트에 걸친 폴리뉴클레오티드의 증폭과 대조적으로 클러스터 증폭은 평균 주위에 더 조밀한 분포를 초래할 수 있다. 예를 들어, 100,000개 리드가 무작위로 샘플링된 경우, 서열당 평균 8개 리드는 평균으로부터 약 1.5X의 분포를 갖는 라이브러리를 생성한다. 일부 경우에, 단일 클러스터 증폭은 평균으로부터 최대 약 1.5X, 1.6X, 1.7X, 1.8X, 1.9X, 또는 2.0X를 생성한다. 일부 경우에, 단일 클러스터 증폭은 평균으로부터 적어도 약 1.0X, 1.2X, 1.3X, 1.5X 1.6X, 1.7X, 1.8X, 1.9X, 또는 2.0X를 생성한다.
플레이트에 걸친 증폭과 비교할 때 본원에 기재된 클러스터 증폭 방법은 동등한 서열 표시를 위해 더 적은 시퀀싱을 필요로 하는 폴리뉴클레오티드 라이브러리를 생성할 수 있다. 일부 경우에, 적어도 10%, 적어도 20%, 적어도 30%, 적어도 40%, 적어도 50%, 적어도 60%, 적어도 70%, 적어도 80%, 적어도 90%, 또는 적어도 95% 미만의 시퀀싱이 필요하다. 일부 경우에, 최대 10%, 최대 20%, 최대 30%, 최대 40%, 최대 50%, 최대 60%, 최대 70%, 최대 80%, 최대 90%, 또는 최대 95% 미만의 시퀀싱이 필요하다. 때로는 플레이트에 걸친 증폭에 비해 클러스터 증폭 후 30% 미만의 시퀀싱이 필요하다. 일부 경우에, 폴리뉴클레오티드의 시퀀싱은 차세대 시퀀싱과 같은 고처리량 시퀀싱에 의해 확인된다. 시퀀싱 라이브러리의 시퀀싱은 단일 분자 실시간(SMRT: single-molecule real-time) 시퀀싱, 폴로니 시퀀싱, 결찰에 의한 시퀀싱, 가역적 종결자 시퀀싱, 양성자 검출 시퀀싱, 이온 반도체 시퀀싱, 나노포어 시퀀싱, 전자 시퀀싱, 파이로시퀀싱, Maxam-Gilbert 시퀀싱, 사슬 종결(예를 들어, Sanger) 시퀀싱, +S 시퀀싱, 또는 합성에 의한 시퀀싱을 포함하지만 이에 제한되지 않는 적절한 시퀀싱 기술로 수행될 수 있다. 단일 뉴클레오티드 또는 폴리뉴클레오티드가 식별되는 배수 또는 "리드"는 시퀀싱 깊이 또는 리드 깊이로서 정의된다. 일부 경우에, 리드 깊이는 폴드 커버리지, 예를 들어 55배(또는 55X) 커버리지로 지칭되며, 선택적으로 염기의 백분율을 기재한다.
일부 경우에, 플레이트에 걸친 증폭과 비교하여 클러스터링된 배열로부터의 증폭은 드롭아웃 또는 증폭 산물의 시퀀싱 후에 검출되지 않는 서열을 감소시킨다. 드롭아웃은 AT 및/또는 GC가 될 수 있다. 일부 경우에, 드롭아웃 수는 폴리뉴클레오티드 집단의 최대 약 1%, 2%, 3%, 4% 또는 5%이다. 일부 경우에, 드롭아웃 수가 0이다.
본원에 기재된 바와 같은 클러스터는 폴리뉴클레오티드 합성을 위한 별개의 비중첩 좌위의 집합을 포함한다. 클러스터는 약 50-1000, 75-900, 100-800, 125-700, 150-600, 200-500, 또는 300-400개의 좌위를 포함할 수 있다. 일부 경우에, 각 클러스터에 121개의 좌위가 포함된다. 일부 경우에, 각 클러스터는 약 50-500, 50-200, 100-150 좌위를 포함한다. 일부 경우에, 각 클러스터는 적어도 약 50, 100, 150, 200, 500, 1000개 이상의 좌위를 포함한다. 일부 경우에, 단일 플레이트는 100, 500, 10000, 20000, 30000, 50000, 100000, 500000, 700000, 1000000개 이상의 좌위를 포함한다. 좌위는 스팟, 웰, 마이크로웰, 채널, 또는 포스트가 될 수 있다. 일부 경우에, 각 클러스터는 동일한 서열을 갖는 폴리뉴클레오티드의 연장을 지원하는 개별 피처의 적어도 1X, 2X, 3X, 4X, 5X, 6X, 7X, 8X, 9X, 10X 이상의 중복성을 갖는다.
제어된 화학량론의 서열 함량을 갖는 폴리뉴클레오티드 라이브러리의 생성
일부 경우에, 지정된 분포로 원하는 폴리뉴클레오티드 서열을 갖는 폴리뉴클레오티드 라이브러리가 합성된다. 일부 경우에, 원하는 특정 서열의 농축을 위해 폴리뉴클레오티드 라이브러리를 조정하여 개선된 하류 적용 결과를 개선한다.
하나 이상의 특정 서열은 하류 적용에서의 평가를 기반으로 선택될 수 있다. 일부 경우에, 평가는 증폭, 농축, 또는 검출을 위한 표적 서열에 대한 결합 친화도, 안정성, 용융 온도, 생물학적 활성, 더 큰 단편으로 어셈블리하는 능력, 또는 폴리뉴클레오티드의 다른 특성이다. 일부 경우에, 평가는 경험적이거나 이전 실험 및/또는 컴퓨터 알고리즘으로부터 예측된다. 예시적인 적용은 평균 리드 깊이 미만인 게놈 표적의 영역에 상응하는 프로브 라이브러리 내의 증가하는 서열을 포함한다.
폴리뉴클레오티드 라이브러리에서 선택된 서열은 서열의 적어도 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 95% 초과일 수 있다. 일부 경우에, 폴리뉴클레오티드 라이브러리에서 선택된 서열은 서열의 최대 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 최대 100%이다. 일부 경우에, 선택된 서열은 서열의 약 5-95%, 10-90%, 30-80%, 40-75%, 또는 50-70%의 범위이다.
폴리뉴클레오티드 라이브러리는 각각의 선택된 서열의 빈도에 대해 조정될 수 있다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 더 많은 수의 선택된 서열을 선호한다. 예를 들어, 선택된 서열의 증가된 폴리뉴클레오티드 빈도가 약 40% 내지 약 90% 범위인 라이브러리가 설계된다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 적은 수의 선택된 서열을 포함한다. 예를 들어, 선택된 서열의 증가된 폴리뉴클레오티드 빈도가 약 10% 내지 약 60% 범위인 라이브러리가 설계된다. 라이브러리는 선택된 서열의 더 높거나 더 낮은 빈도를 선호하도록 설계할 수 있다. 일부 경우에, 라이브러리는 균일한 서열 표시를 선호한다. 예를 들어, 폴리뉴클레오티드 빈도는 선택된 서열 빈도와 관련하여 약 10% 내지 약 90% 범위에서 균일하다. 일부 경우에, 라이브러리는 서열의 약 10% 내지 약 95%의 선택된 서열 빈도를 갖는 폴리뉴클레오티드를 포함한다.
일부 경우에, 상이한 선택된 서열 빈도 함량을 갖는 2개 이상의 폴리뉴클레오티드 라이브러리를 조합함으로써 지정된 선택된 서열 빈도를 갖는 폴리뉴클레오티드 라이브러리를 생성한다. 일부 경우에, 적어도 2, 3, 4, 5, 6, 7, 10개, 또는 10개 초과의 폴리뉴클레오티드 라이브러리를 조합하여 지정된 선택된 서열 빈도를 갖는 폴리뉴클레오티드 집단을 생성한다. 일부 경우에, 2, 3, 4, 5, 6, 7, 또는 10개 이하의 폴리뉴클레오티드 라이브러리를 조합하여 지정된 선택된 서열 빈도를 갖는 동일하지 않은 폴리뉴클레오티드 집단을 생성한다.
일부 경우에, 선택된 서열 빈도는 클러스터당 더 적거나 더 많은 폴리뉴클레오티드를 합성함으로써 조정된다. 예를 들어, 적어도 25, 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000개, 또는 1000개 초과의 동일하지 않은 폴리뉴클레오티드가 단일 클러스터 상에서 합성된다. 일부 경우에, 약 50, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000개 이하의 동일하지 않은 폴리뉴클레오티드가 단일 클러스터 상에서 합성된다. 일부 경우에, 50 내지 500개의 동일하지 않은 폴리뉴클레오티드가 단일 클러스터 상에서 합성된다. 일부 경우에, 100 내지 200개의 동일하지 않은 폴리뉴클레오티드가 단일 클러스터 상에서 합성된다. 일부 경우에, 약 100, 약 120, 약 125, 약 130, 약 150, 약 175, 또는 약 200개의 동일하지 않은 폴리뉴클레오티드가 단일 클러스터 상에서 합성된다.
일부 경우에, 선택된 서열 빈도는 다양한 길이의 동일하지 않은 폴리뉴클레오티드를 합성함으로써 조정된다. 예를 들어, 합성된 각각의 동일하지 않은 폴리뉴클레오티드의 길이는 적어도 또는 대략 적어도 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 150, 200, 300, 400, 500개, 2000개 이상의 뉴클레오티드일 수 있다. 합성된 동일하지 않은 폴리뉴클레오티드의 길이는 최대 또는 대략 최대 2000, 500, 400, 300, 200, 150, 100, 50, 45, 35, 30, 25, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10개 이하의 뉴클레오티드일 수 있다. 합성된 각각의 동일하지 않은 폴리뉴클레오티드의 길이는 10-2000, 10-500, 9-400, 11-300, 12-200, 13-150, 14-100, 15-50, 16-45, 17-40, 18-35, 및 19-25에 해당할 수 있다.
폴리뉴클레오티드 프로브 구조
폴리뉴클레오티드 프로브 라이브러리는 더 큰 집단의 샘플 폴리뉴클레오티드에서 특정 표적 서열을 농축하는 데 사용될 수 있다. 일부 경우에, 폴리뉴클레오티드 프로브는 각각 하나 이상의 표적 서열에 상보적인 표적 결합 서열, 하나 이상의 비-표적 결합 서열, 및 하나 이상의 프라이머 결합 부위, 예컨대 범용 프라이머 결합 부위를 포함한다. 일부 경우에, 상보적이거나 적어도 부분적으로 상보적인 표적 결합 서열은 표적 서열에 결합(혼성화)한다. 범용 프라이머 결합 부위와 같은 프라이머 결합 부위는 프로브 라이브러리의 모든 구성원, 또는 구성원의 하위 집단의 동시 증폭을 용이하게 한다. 일부 경우에, 프로브 또는 어댑터는 바코드 또는 인덱스 서열을 추가로 포함한다. 바코드는 바코드와 관련된 폴리뉴클레오티드의 일부 특징이 식별되도록 하는 핵산 서열이다. 시퀀싱 후, 바코드 영역은 코딩 영역 또는 샘플 공급원과 관련된 특성을 식별하기 위한 지표를 제공한다. 바코드는 식별 정도가 충분하도록 적절한 길이, 예를 들어, 적어도 약 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55개 이상의 염기 길이로 설계될 수 있다. 다중 바코드, 예컨대 약 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 바코드가 선택적으로 비-바코드 서열에 의해 분리되어, 동일한 분자에 사용될 수 있다. 일부 경우에, 복수의 바코드 내 각 바코드는 복수의 적어도 3개의 염기 위치, 예컨대 적어도 약 3, 4, 5, 6, 7, 8, 9, 10개 이상의 위치에서 복수의 바코드 내 다른 모든 바코드와 상이하다. 바코드를 사용하면 시퀀싱(멀티플렉스)과 같은 하류 적용을 위한 다중 라이브러리의 풀링 및 동시 처리가 가능하다. 일부 경우에, 적어도 4, 8, 16, 32, 48, 64, 128, 512, 1024, 2000, 5000, 또는 5000개 초과의 바코딩된 라이브러리가 사용된다. 일부 경우에, 폴리뉴클레오티드는 관심의 표적 서열의 후속 포획을 위한 프로브를 형성하기 위해 소분자, 펩티드, 항원, 금속, 또는 단백질과 같은 하나 이상의 분자(또는 친화성) 태그에 결찰된다. 일부 경우에, 폴리뉴클레오티드의 일부만이 분자 태그에 결찰된다. 일부 경우에, 혼성화할 수 있는 상보적 표적 결합 서열을 보유하는 2개의 프로브는 이중 가닥 프로브 쌍을 형성한다. 폴리뉴클레오티드 프로브 또는 어댑터는 고유 분자 식별자(UMI)를 포함할 수 있다. UMI는 편향을 유발할 수 있는 하류 샘플 처리(예를 들어, PCR 또는 농축 단계) 전에 초기 샘플 농도 또는 화학량론의 내부 측정을 허용한다. 일부 경우에, UMI는 하나 이상의 바코드 서열을 포함한다.
본원에 기재된 프로브는 게놈 내 서열인 표적 서열에 상보적일 수 있다. 본원에 기재된 프로브는 게놈 내 엑솜 서열인 표적 서열에 상보적일 수 있다. 본원에 기재된 프로브는 게놈 내 인트론 서열인 표적 서열에 상보적일 수 있다. 일부 경우에, 프로브는 (샘플 핵산의) 표적 서열에 상보적인 표적 결합 서열, 및 표적에 상보적이지 않은 적어도 하나의 비-표적 결합 서열을 포함한다. 일부 경우에, 프로브의 표적 결합 서열은 약 120개의 뉴클레오티드 길이, 또는 적어도 10, 15, 20, 25, 50, 75, 100, 110, 120, 125, 140, 150, 160, 175, 200, 300, 400, 500개, 또는 500개 초과의 뉴클레오티드 길이이다. 표적 결합 서열은 일부 경우에 10, 15, 20, 25, 50, 75, 100, 125, 150, 175, 200개 이하, 또는 500개 이하의 뉴클레오티드 길이이다. 프로브의 표적 결합 서열은 일부 경우에 약 120개의 뉴클레오티드 길이, 또는 약 10, 15, 20, 25, 40, 50, 60, 70, 80, 85, 87, 90, 95, 97, 100, 105, 110, 115, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 135, 140, 145, 150, 155, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 175, 180, 190, 200, 210, 220, 230, 240, 250, 300, 400개, 또는 약 500개의 뉴클레오티드 길이이다. 표적 결합 서열은 일부 경우에 약 20 내지 약 400개의 뉴클레오티드 길이, 또는 약 30 내지 약 175, 약 40 내지 약 160, 약 50 내지 약 150, 약 75 내지 약 130, 약 90 내지 약 120, 또는 약 100 내지 약 140개의 뉴클레오티드 길이이다. 프로브의 비-표적 결합 서열(들)은 일부 경우에 적어도 약 20개의 뉴클레오티드 길이, 또는 적어도 약 1, 5, 10, 15, 17, 20, 23, 25, 50, 75, 100, 110, 120, 125, 140, 150, 160, 175개, 또는 약 175개 초과의 뉴클레오티드 길이이다. 비-표적 결합 서열은 종종 약 5, 10, 15, 20, 25, 50, 75, 100, 125, 150, 175개 이하, 또는 약 200개 이하의 뉴클레오티드 길이이다. 프로브의 비-표적 결합 서열은 종종 길이가 약 20개의 뉴클레오티드 길이, 또는 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 25, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150개, 또는 약 200개의 뉴클레오티드 길이이다. 비-표적 결합 서열은 일부 경우에 약 1 내지 약 250개의 뉴클레오티드 길이, 또는 약 20 내지 약 200, 약 10 내지 약 100, 약 10 내지 약 50, 약 30 내지 약 100, 약 5 내지 약 40, 또는 15 내지 약 35개의 뉴클레오티드 길이이다. 비-표적 결합 서열은 종종 표적 서열에 상보적이지 않은 서열을 포함하고/하거나, 프라이머에 결합하는 데 사용되지 않는 서열을 포함한다. 일부 경우에, 비-표적 결합 서열은 단일 뉴클레오티드, 예를 들어 폴리아데닌 또는 폴리티미딘의 반복을 포함한다. 프로브는 종종 비-표적 결합 서열을 포함하지 않거나 적어도 하나의 비-표적 결합 서열을 포함한다. 일부 경우에, 프로브는 1 또는 2개의 비-표적 결합 서열을 포함한다. 비-표적 결합 서열은 프로브에서 하나 이상의 표적 결합 서열에 인접할 수 있다. 예를 들어, 비-표적 결합 서열은 프로브의 5' 또는 3' 말단에 위치한다. 일부 경우에, 비-표적 결합 서열은 분자 태그 또는 스페이서에 부착된다.
일부 경우에, 비-표적 결합 서열(들)은 프라이머 결합 부위일 수 있다. 프라이머 결합 부위는 종종 각각 적어도 약 20개의 뉴클레오티드 길이, 또는 적어도 약 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38, 또는 적어도 약 40개의 뉴클레오티드 길이이다. 각각의 프라이머 결합 부위는 일부 경우에 약 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34, 36, 38개 이하, 또는 약 40개 이하의 뉴클레오티드 길이이다. 각각의 프라이머 결합 부위는 일부 경우에 약 10 내지 약 50개의 뉴클레오티드 길이, 또는 약 15 내지 약 40, 약 20 내지 약 30, 약 10 내지 약 40, 약 10 내지 약 30, 약 30 내지 약 50, 또는 약 20 내지 약 60개의 뉴클레오티드 길이이다. 일부 경우에, 폴리뉴클레오티드 프로브는 적어도 2개의 프라이머 결합 부위를 포함한다. 일부 경우에, 프라이머 결합 부위는 범용 프라이머 결합 부위일 수 있으며, 여기서 모든 프로브는 이들 부위에서 동일한 프라이머 결합 서열을 포함한다. 일부 경우에, 특정 서열 및 이의 역 상보체(예를 들어, 게놈 DNA의 영역)를 표적화하는 한 쌍의 폴리뉴클레오티드 프로브는 [도 9a]에서 (900)으로 표시되며, 제1 표적 결합 서열(901), 제2 표적 결합 서열(902), 제1 비-표적 결합 서열(903), 및 제2 비-표적 결합 서열(904)을 포함한다. 예를 들어, 폴리뉴클레오티드 프로브 쌍은 특정 서열(예를 들어, 게놈 DNA의 영역)에 상보적이다.
일부 경우에, 제1 표적 결합 서열(901)은 제2 표적 결합 서열(902)의 역 상보체이다. 일부 경우에, 두 표적 결합 서열은 모두 증폭 전에 화학적으로 합성된다. 대안적인 배열에서, 특정 서열 및 그의 역 상보체(예를 들어, 게놈 DNA의 영역)를 표적화하는 한 쌍의 폴리뉴클레오티드 프로브는 [도 9b]에서 (905)로 표시되며, 제1 표적 결합 서열(901), 제2 표적 결합 서열(902), 제1 비-표적 결합 서열(903), 제2 비-표적 결합 서열(904), 제3 비-표적 결합 서열(906), 및 제4 비-표적 결합 서열(907)을 포함한다. 일부 경우에, 제1 표적 결합 서열(901)은 제2 표적 결합 서열(902)의 역 상보체이다. 일부 경우에, 하나 이상의 비-표적 결합 서열은 폴리아데닌 또는 폴리티미딘을 포함한다.
일부 경우에, 쌍 내의 두 프로브는 모두 적어도 하나의 분자 태그로 표지된다. 일부 경우에, PCR을 사용하여 증폭 동안 프로브에 분자 태그(분자 태그를 포함하는 프라이머를 통해)를 도입한다. 일부 경우에, 분자 태그는 하나 이상의 비오틴, 폴레이트, 폴리히스티딘, FLAG 태그, 글루타티온, 또는 세부 사항과 일치하는 다른 분자 태그를 포함한다. 일부 경우에, 프로브는 5' 말단에 표지된다. 일부 경우에, 프로브는 3' 말단에 표지된다. 일부 경우에, 5' 및 3' 말단 모두 분자 태그로 표시된다. 일부 경우에, 쌍 내의 제1 프로브의 5' 말단은 적어도 하나의 분자 태그로 표지되고, 쌍 내의 제2 프로브의 3' 말단은 적어도 하나의 분자 태그로 표지된다. 일부 경우에, 하나 이상의 분자 태그와 프로브 핵산 사이에 스페이서가 존재한다. 일부 경우에, 스페이서는 알킬, 폴리올, 또는 폴리아미노 사슬, 펩티드, 또는 폴리뉴클레오티드를 포함할 수 있다. 일부 경우에, 프로브-표적 핵산 복합체를 포획하는 데 사용되는 고체 지지체는 비드 또는 표면이다. 일부 경우에, 고체 지지체는 유리, 플라스틱, 또는 분자 태그에 결합할 포획 모이어티를 포함할 수 있는 기타 물질을 포함한다. 일부 경우에, 비드는 자기 비드이다. 예를 들어, 비오틴으로 표지된 프로브는 스트렙타비딘을 포함하는 자기 비드로 포획된다. 프로브는 표적 서열에 대한 프로브의 결합을 허용하기 위해 핵산 라이브러리와 접촉된다. 일부 경우에, 표적 핵산에 부착된 하나 이상의 어댑터 서열에 대한 프로브의 결합을 방지하기 위해 차단 폴리핵산이 추가된다. 일부 경우에, 폴리핵산 차단은 하나 이상의 핵산 유사체를 포함한다. 일부 경우에, 차단 폴리핵산은 하나 이상의 위치에서 티민이 우라실로 치환된다.
본원에 기재된 프로브는 하나 이상의 표적 핵산 서열에 결합하는 상보적 표적 결합 서열을 포함할 수 있다. 일부 경우에, 표적 서열은 임의의 DNA 또는 RNA 핵산 서열이다. 일부 경우에, 표적 서열은 프로브 삽입물보다 길 수 있다. 일부 경우에, 표적 서열은 프로브 삽입물보다 짧을 수 있다. 일부 경우에, 표적 서열은 프로브 삽입물과 동일한 길이일 수 있다. 예를 들어, 표적 서열의 길이는 적어도 또는 대략 적어도 2, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 5,000, 12,000, 20,000개 이상의 뉴클레오티드일 수 있다. 표적 서열의 길이는 최대 또는 대략 최대 20,000, 12,000, 5,000, 2,000, 1,000, 500, 400, 300, 200, 150, 100, 50, 45, 35, 30, 25, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 2개 이하의 뉴클레오티드일 수 있다. 표적 서열의 길이는 2-20,000, 3-12,000, 5-5,5000, 10-2,000, 10-1,000, 10-500, 9-400, 11-300, 12-200, 13-150, 14-100, 15-50, 16-45, 17-40, 18-35, 및 19-25에 해당할 수 있다. 프로브 서열은 특정 유전자, 질환, 조절 경로 또는 세부 사항과 일치하는 기타 생물학적 기능과 관련된 서열을 표적화할 수 있다.
일부 경우에, 단일 프로브 삽입물(1003)은 더 큰 폴리핵산(1000) 내의 하나 이상의 표적 서열(1002)에 상보적이다(도 10a-10g). 예시적인 표적 서열은 엑손이다. 일부 경우에, 하나 이상의 프로브는 단일 표적 서열을 표적화한다(도 10a-10g). 일부 경우에, 단일 프로브는 하나 초과의 표적 서열을 표적화할 수 있다. 일부 경우에, 프로브의 표적 결합 서열은 표적 서열(1002) 및 인접 서열(1001) 둘 다를 표적화한다(도 10a 및 10b). 일부 경우에, 제1 프로브는 표적 서열의 제1 영역 및 제2 영역을 표적화하고, 제2 프로브는 표적 서열의 제2 영역 및 제3 영역을 표적화한다(도 10d 및 도 10e). 일부 경우에, 복수의 프로브는 단일 표적 서열을 표적화하고, 여기서 복수의 프로브의 표적 결합 서열은 표적 서열의 영역에 대한 상보성과 관련하여 중첩되는 하나 이상의 서열을 함유한다(도 10g). 일부 경우에, 프로브 삽입물은 표적 서열의 영역에 대한 상보성과 관련하여 중첩되지 않는다. 일부 경우에, 적어도 2, 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 150, 200, 300, 400, 500, 1000, 2000, 5,000, 12,000, 20,000개, 또는 20,000개 초과의 프로브가 단일 표적 서열을 표적화한다. 일부 경우에, 단일 표적 서열에 대한 4개 이하의 프로브가 중첩되거나, 단일 표적 서열을 표적화하는 3개 이하의 프로브가 중첩되거나 프로브가 중첩되지 않는다. 일부 경우에, 하나 이상의 프로브는 표적 서열 내의 모든 염기를 표적화하지 않고 하나 이상의 갭을 남긴다(도 10c 및 도 10f). 일부 경우에, 갭은 표적 서열(1005)의 중간 부근에 있다(도 10f). 일부 경우에, 갭(1004)은 표적 서열의 5' 또는 3' 말단에 있다(도 10c). 일부 경우에, 갭은 6개의 뉴클레오티드 길이다. 일부 경우에, 갭은 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40개 이하, 또는 50개 이하의 뉴클레오티드 길이이다. 일부 경우에, 갭은 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40개, 또는 적어도 50개의 뉴클레오티드 길이이다. 일부 경우에, 갭 길이는 1-50, 1-40, 1-30, 1-20, 1-10, 2-30, 2-20, 2-10, 3-50, 3-25, 3-10, 또는 3-8개의 뉴클레오티드 길이 내에 해당한다. 일부 경우에, 서열을 표적화하는 프로브 세트는 상보적 서열에 혼성화될 때 세트 내의 프로브 사이에 중첩 영역을 포함하지 않는다. 일부 경우에, 서열을 표적화하는 프로브 세트는 상보적 서열에 혼성화될 때 세트 내의 프로브 사이에 갭을 전혀 갖지 않는다. 프로브는 표적 서열에 대한 균일한 결합을 최대화하도록 설계될 수 있다. 일부 경우에, 프로브는 높거나 낮은 GC 함량의 표적 결합 서열, 2차 구조, 반복적/회문 서열, 또는 표적에 대한 프로브 결합을 방해할 수 있는 기타 서열 특징을 최소화하도록 설계된다. 일부 경우에, 단일 프로브는 복수의 표적 서열을 표적화할 수 있다.
본원에 기재된 프로브 라이브러리는 적어도 10, 20, 50, 100, 200, 500, 1,000, 2,000, 5,000, 10,000, 20,000, 50,000, 100,000, 200,000, 500,000, 1,000,000개 또는 1,000,000개 초과의 프로브를 포함할 수 있다. 프로브 라이브러리는 10, 20, 50, 100, 200, 500, 1,000, 2,000, 5,000, 10,000, 20,000, 50,000, 100,000, 200,000, 500,000개 이하, 또는 1,000,000개 이하의 프로브를 가질 수 있다. 프로브 라이브러리는 10 내지 500, 20 내지 1000, 50 내지 2000, 100 내지 5000, 500 내지 10,000, 1,000 내지 5,000, 10,000 내지 50,000, 100,000 내지 500,000, 또는 50,000 내지 1,000,000개의 프로브를 포함할 수 있다. 프로브 라이브러리는 약 370,000; 400,000; 500,000개 이상의 상이한 프로브를 포함할 수 있다.
차세대 시퀀싱 적용
폴리뉴클레오티드 라이브러리의 하류 적용은 차세대 시퀀싱을 포함할 수 있다. 예를 들어, 제어된 화학량론 폴리뉴클레오티드 프로브 라이브러리로 표적 서열을 농축하면 더 효율적인 시퀀싱이 된다. 표적을 포획하고 이에 혼성화하기 위한 폴리뉴클레오티드 라이브러리의 성능은 효율성, 정확도, 및 정밀도를 설명하는 여러 가지 상이한 메트릭에 의해 정의될 수 있다. 예를 들어, Picard 메트릭은 HS 라이브러리 크기(리드 쌍으로부터 계산된 표적 영역에 해당하는 라이브러리 내의 고유 분자 수), 평균 표적 커버리지(특정 커버리지 수준에 도달하는 염기의 백분율), 커버리지 깊이(주어진 뉴클레오티드를 포함하는 리드 수), 농축 배수(표적에 고유하게 맵핑되는 서열 리드/총 샘플에 맵핑되는 리드 곱하기 총 샘플 길이/표적 길이), 오프-베이트 퍼센트 염기(프로브/베이트에 해당하지 않는 염기의 퍼센트), 비-표적 퍼센트(관심 염기에 해당하지 않는 염기의 퍼센트), 표적에서 사용 가능한 염기, AT 또는 GC 드롭아웃 비율, 폴드 80 염기 패널티(비-제로 표적의 80%를 평균 커버리지 수준으로 올리기 위해 필요한 오버 커버리지 배수), 퍼센트 제로 커버리지 표적, PF 리드(품질 필터를 통과한 리드 수), 선택된 염기 퍼센트(온-베이트 염기와 베이트 근처 염기의 합을 정렬된 총 염기로 나눔), 복제율, 또는 세부 사항과 일치하는 기타 변수와 같은 변수를 포함한다.
리드 깊이(시퀀싱 깊이, 또는 샘플링)는 서열에 대해 시퀀싱된 핵산 단편("리드")을 얻은 총 배수를 나타낸다. 이론적 리드 깊이는 리드가 이상적인 게놈 전체에 완벽하게 분포되어 있다고 가정할 때 동일한 뉴클레오티드가 판독되는 예측 배수로서 정의된다. 리드 깊이는 % 커버리지(또는 커버리지 폭)의 함수로서 표현된다. 예를 들어, 완벽하게 분포된 100만개의 염기 게놈의 1000만개의 리드는 이론적으로 서열의 100%의 10X 리드 깊이가 된다. 실제로, 표적 서열의 백분율에 대해 원하는 리드 깊이를 얻으려면 더 많은 수의 리드(더 높은 이론적 리드 깊이, 또는 오버샘플링)가 필요할 수 있다. 제어된 화학량론 프로브 라이브러리로 표적 서열을 농축하면 표적 서열의 원하는 %에 대해 허용 가능한 리드 수를 가진 결과를 얻기 위해 더 적은 수의 총 리드가 필요할 것이기 때문에 하류 시퀀싱의 효율성이 증가한다. 예를 들어, 일부 경우에 표적 서열의 55x 이론적 리드 깊이는 서열의 적어도 90%의 적어도 30x 커버리지를 초래한다. 일부 경우에, 표적 서열의 55x 이하의 이론적 리드 깊이는 서열의 적어도 80%의 적어도 30x 리드 깊이를 초래한다. 일부 경우에, 표적 서열의 55x 이하의 이론적 리드 깊이는 서열의 적어도 95%의 적어도 30x 리드 깊이를 초래한다. 일부 경우에, 표적 서열의 55x 이하의 이론적 리드 깊이는 서열의 적어도 98%의 적어도 10x 리드 깊이를 초래한다. 일부 경우에, 표적 서열의 55x 이론적 리드 깊이는 서열의 적어도 98%의 적어도 20x 리드 깊이를 초래한다. 일부 경우에, 표적 서열의 55x 이론적 리드 깊이는 서열의 적어도 98%의 적어도 5x 리드 깊이를 초래한다. 표적과 혼성화하는 동안 프로브의 농도를 증가시키면 리드 깊이가 증가할 수 있다. 일부 경우에, 프로브의 농도는 적어도 1.5x, 2.0x, 2.5x, 3x, 3.5x, 4x, 5x, 또는 5x 초과로 증가된다. 일부 경우에, 프로브 농도를 증가하면 리드 깊이가 적어도 1000% 증가하거나, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%, 200%, 300%, 500%, 750%, 1000%, 또는 1000% 초과하여 증가한다. 일부 경우에, 프로브 농도를 x3 증가하면 리드 깊이가 1000% 증가한다.
표적-적중 비율은 원하는 표적 서열과 일치하는 시퀀싱 리드의 백분율을 나타낸다. 일부 경우에, 제어된 화학량론 폴리뉴클레오티드 프로브 라이브러리는 적어도 30%, 또는 적어도 35%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 또는 적어도 90%의 표적-적중 비율을 초래한다. 표적 핵산과 접촉하는 동안 폴리뉴클레오티드 프로브의 농도를 증가시키면 표적-적중 비율이 증가한다. 일부 경우에, 프로브의 농도는 적어도 1.5x, 2.0x, 2.5x, 3x, 3.5x, 4x, 5x, 또는 5x 초과로 증가된다. 일부 경우에, 프로브 농도를 증가시키면 표적-적중 결합이 적어도 20% 증가되거나, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100%, 200%, 300%, 또는 적어도 500% 증가된다. 일부 경우에, 프로브 농도를 3x 증가시키면 표적-적중 비율이 20% 증가된다.
커버리지 균일성은 일부 경우에 표적 서열 동일성의 함수로서 리드 깊이로서 계산된다. 커버리지 균일성이 높을수록 원하는 리드 깊이를 얻는 데 필요한 시퀀싱 리드 수가 줄어든다. 예를 들어, 표적 서열의 특성, 예를 들어 높거나 낮은 GC 또는 AT 함량, 반복 서열, 후행 아데닌, 2차 구조, 표적 서열 결합 친화도(증폭, 농축 또는 검출용), 안정성, 용융 온도, 생물학적 활성, 더 큰 단편으로 어셈블리하는 능력, 변형된 뉴클레오티드 또는 뉴클레오티드 유사체를 포함하는 서열, 또는 폴리뉴클레오티드의 임의의 다른 특성은 리드 깊이에 영향을 미칠 수 있다. 제어된 화학량론 폴리뉴클레오티드 프로브 라이브러리로 표적 서열을 농축하면 시퀀싱 후 커버리지 균일성이 높아진다. 일부 경우에, 서열의 95%는 평균 라이브러리 리드 깊이의 1x 이내, 또는 평균 라이브러리 리드 깊이의 약 0.05, 0.1, 0.2, 0.5, 0.7, 1, 1.2, 1.5, 1.7, 또는 약 2배 이내인 리드 깊이를 갖는다. 일부 경우에, 서열의 80%, 85%, 90%, 95%, 97%, 또는 99%가 평균의 1x 이내인 리드 깊이를 갖는다.
폴리뉴클레오티드 프로브 라이브러리를 이용한 표적 핵산의 농축
본원에 기재된 프로브 라이브러리는 다양한 하류 적용을 위해, 샘플 폴리뉴클레오티드 집단에 존재하는 표적 폴리뉴클레오티드를 농축하는 데 사용될 수 있다. 일부 경우에, 하나 이상의 공급원으로부터 샘플을 수득하고, 샘플 폴리뉴클레오티드 집단을 단리한다. 샘플은 (비제한적 예로서) 타액, 혈액, 조직, 피부와 같은 생물학적 공급원, 또는 완전한 합성 공급원으로부터 수득한다. 샘플로부터 수득한 복수의 폴리뉴클레오티드를 단편화하고, 말단 복구하고, 아데닐화하여 이중 가닥 샘플 핵산 단편을 형성한다. 일부 경우에, 말단 복구는 적절한 완충액에서 T4 DNA 폴리머라제, 클레노우 효소, 및 T4 폴리뉴클레오티드 키나아제와 같은 하나 이상의 효소로 처리하여 수행한다. 일부 경우에,3'에서 5'로의 엑소 마이너스 클레노우 단편 및 dATP를 이용하여 어댑터에 대한 결찰을 용이하게 하는 뉴클레오티드 돌출부를 추가한다.
어댑터(예컨대, 범용 어댑터)는 T4 리가아제와 같은 리가아제로 샘플 폴리뉴클레오티드 단편의 양쪽 말단에 결찰되어 어댑터-태깅된 폴리뉴클레오티드 가닥의 라이브러리를 생성할 수 있으며, 어댑터-태깅된 폴리뉴클레오티드 라이브러리는 범용 프라이머와 같은 프라이머로 증폭된다. 일부 경우에, 어댑터는 하나 이상의 프라이머 결합 부위, 하나 이상의 이식 영역, 및 하나 이상의 인덱스(또는 바코드) 영역을 포함하는 Y형 어댑터이다. 일부 경우에, 어댑터의 각 가닥에 하나 이상의 인덱스 영역이 존재한다. 일부 경우에, 이식 영역은 플로우셀 표면에 상보적이며, 샘플 라이브러리의 차세대 시퀀싱을 용이하게 한다. 일부 경우에, Y형 어댑터는 부분적으로 상보적인 서열을 포함한다. 일부 경우에, Y형 어댑터는 이중 가닥 어댑터-태깅된 폴리뉴클레오티드 가닥의 돌출된 아데닌에 혼성화하는 단일 티미딘 돌출부를 포함한다. Y형 어댑터는 절단에 내성이 있는 변형된 핵산을 포함할 수 있다. 예를 들어, 포스포로티오에이트 백본은 돌출된 티미딘을 어댑터의 3' 말단에 부착하는 데 사용된다. 범용 프라이머를 사용하는 경우, 라이브러리를 증폭하여 어댑터에 바코딩된 프라이머를 추가한다. 일부 경우에, 농축 작업 흐름은 [도 7]에 도시되어 있다. 이중 가닥 어댑터-태깅된 폴리뉴클레오티드 가닥(701)의 라이브러리(700)를 폴리뉴클레오티드 프로브(702)와 접촉시켜 하이브리드 쌍(704)을 형성한다. 이러한 쌍을 혼성화되지 않은 단편으로부터 분리하고(705) 프로브로부터 단리하여(706) 농축된 라이브러리(707)를 생성한다.
그런 다음, 이중 가닥 샘플 핵산 단편의 라이브러리를 어댑터 차단제의 존재하에 변성시킨다. 어댑터 차단제는 어댑터-태깅된 폴리뉴클레오티드 가닥에 존재하는 어댑터 서열(표적 서열 대신)에 대한 프로브의 비-표적 혼성화를 최소화하고/거나, 어댑터의 분자간 혼성화(즉, "데이지 체인")를 방지한다. 변성은 일부 경우에 96℃에서, 또는 약 85, 87, 90, 92, 95, 97, 98 또는 약 99℃에서 수행한다. 폴리뉴클레오티드 표적화 라이브러리(프로브 라이브러리)는 혼성화 용액에서 일부 경우에 96℃에서, 약 85, 87, 90, 92, 95, 97, 98 또는 99℃에서 변성시킨다. 변성된 어댑터-태깅된 폴리뉴클레오티드 라이브러리 및 혼성화 용액은 프로브가 그들의 상보적 표적 서열과 혼성화할 수 있도록 적당한 시간 동안 적당한 온도에서 인큐베이션한다. 일부 경우에, 적합한 혼성화 온도는 약 45 내지 80℃, 또는 적어도 45, 50, 55, 60, 65, 70, 75, 80, 85, 또는 90℃이다. 일부 경우에, 혼성화 온도는 70℃이다. 일부 경우에, 적합한 혼성화 시간은 16시간, 또는 적어도 4, 6, 8, 10, 12, 14, 16, 18, 20, 22시간, 또는 22시간 초과, 또는 약 12 내지 20시간이다. 그 다음, 결합 완충액을 혼성화된 어댑터-태깅된 폴리뉴클레오티드 프로브에 첨가하고, 포획 모이어티를 포함하는 고체 지지체를 사용하여 혼성화된 어댑터-태깅된 폴리뉴클레오티드 프로브를 선택적으로 결합시킨다. 고체 지지체를 완충액으로 세척하여 결합되지 않은 폴리뉴클레오티드를 제거한 후, 용리 완충액을 첨가하여 고체 지지체로부터 농축된 태깅된 폴리뉴클레오티드 단편을 방출한다. 일부 경우에, 고체 지지체는 2회, 또는 1, 2, 3, 4, 5, 또는 6회 세척한다. 어댑터-태깅된 폴리뉴클레오티드 단편의 농축 라이브러리를 증폭하고 농축 라이브러리를 시퀀싱한다.
복수의 핵산(즉, 게놈 서열)을 샘플로부터 수득하고, 단편화하고, 선택적으로 말단 복구하고, 아데닐화할 수 있다. 어댑터를 폴리뉴클레오티드 단편의 양쪽 말단에 결찰하여 어댑터-태깅된 폴리뉴클레오티드 가닥의 라이브러리를 생성하고, 어댑터-태깅된 폴리뉴클레오티드 라이브러리를 증폭한다. 그런 다음 어댑터-태깅된 폴리뉴클레오티드 라이브러리를 어댑터 차단제의 존재하에서 고온, 바람직하게는 96℃에서 변성시킨다. 폴리뉴클레오티드 표적화 라이브러리(프로브 라이브러리)는 고온, 바람직하게는 약 90 내지 99℃에서 혼성화 용액에서 변성시키고, 약 45 내지 80℃에서 혼성화 용액에서 약 10 내지 24시간 동안 변성된 태깅된 폴리뉴클레오티드 라이브러리와 합한다. 그 다음, 결합 완충액을 혼성화된 태깅된 폴리뉴클레오티드 프로브에 첨가하고, 포획 모이어티를 포함하는 고체 지지체를 사용하여 혼성화된 어댑터-태깅된 폴리뉴클레오티드 프로브에 선택적으로 결합시킨다. 고체 지지체를 완충액으로 1회 이상, 바람직하게는 약 2회 내지 5회 세척하여 결합되지 않은 폴리뉴클레오티드를 제거한 후, 용리 완충액을 첨가하여 고체 지지체로부터 농축된 어댑터-태깅된 폴리뉴클레오티드 단편을 방출시킨다. 어댑터-태깅된 폴리뉴클레오티드 단편의 농축된 라이브러리를 증폭한 다음 라이브러리를 시퀀싱한다. 인큐베이션 시간, 온도, 반응 부피/농도, 세척 횟수, 또는 세부 사항과 일치하는 기타 변수와 같은 대안적인 변수도 방법에 사용된다.
임의의 경우에, 시퀀싱에 의해 올리고뉴클레오티드의 검출 또는 정량 분석을 수행할 수 있다. 당 업계에 공지된 임의의 적합한 방법, 예를 들어, 본원에 기재된 시퀀싱 방법 포함하여 합성에 의한 Illumina 시퀀싱, PacBio 나노포어 시퀀싱, 또는 BGI/MGI 나노볼 시퀀싱에 의해 모든 올리고뉴클레오티드의 전체 시퀀싱을 통해 서브유닛 또는 전체 합성된 올리고뉴클레오티드를 검출할 수 있다.
시퀀싱은 당 업계에 잘 알려진 고전적인 Sanger 시퀀싱 방법을 통해 수행할 수 있다. 시퀀싱은 또한 고처리량 시스템을 사용하여 수행할 수 있으며, 이들의 일부는 성장하는 가닥으로의 혼입 시 또는 혼입 직후 시퀀싱된 뉴클레오티드의 검출, 즉 적색 시간 또는 실질적으로 실시간으로 서열의 검출을 허용한다. 일부 경우에, 고처리량 시퀀싱은 시간당 적어도 1,000, 적어도 5,000, 적어도 10,000, 적어도 20,000, 적어도 30,000, 적어도 40,000, 적어도 50,000, 적어도 100,000 또는 적어도 500,000개의 서열 리드를 생성한다. 각 리드는 리드당 적어도 50, 적어도 60, 적어도 70, 적어도 80, 적어도 90, 적어도 100, 적어도 120 또는 적어도 150개의 염기이다.
일부 경우에, 고처리량 시퀀싱은 Illumina's Genome Analyzer IIX, MiSeq personal sequencer, 또는 HiSeq 시스템, 예컨대 HiSeq 2500, HiSeq 1500, HiSeq 2000, HiSeq 1000, iSeq 100, Mini Seq, MiSeq, NextSeq 550, NextSeq 2000, NextSeq 550, 또는 NovaSeq 6000을 사용하는 것들에 의해 이용 가능한 기술의 사용을 포함한다. 이러한 기기는 합성 화학에 의한 가역적 종결자 기반 시퀀싱을 사용한다. 이러한 기기는 13-44시간 내에 6000 Gb 이상의 리드를 생성할 수 있다. 더 작은 시스템은 3, 2, 1일 이내의 시간 내의 실행에 사용할 수 있다. 시퀀싱 결과를 얻는 데 걸리는 시간을 최소화하기 위해 짧은 합성 사이클을 사용할 수 있다.
일부 경우에, 고처리량 시퀀싱은 ABI Solid System에 의해 이용 가능한 기술의 사용을 포함한다. 이 유전자 분석 플랫폼은 비드에 연결된 클론으로 증폭된 DNA 단편의 대규모 병렬 시퀀싱을 가능하게 한다. 시퀀싱 방법론은 염료 표지된 올리고뉴클레오티드를 사용한 순차적 결찰을 기반으로 한다.
차세대 시퀀싱은 이온 반도체 시퀀싱(예를 들어, Life Technologies(Ion Torrent)의 기술 사용)을 포함할 수 있다. 이온 반도체 시퀀싱은 뉴클레오티드가 DNA 가닥에 혼입될 때 이온이 방출될 수 있다는 사실을 이용할 수 있다. 이온 반도체 시퀀싱을 수행하기 위해, 미세 가공된 웰의 고밀도 어레이를 형성할 수 있다. 각 웰은 단일 DNA 주형을 보유할 수 있다. 웰 아래에는 이온 감지 층이 있을 수 있고, 이온 감지 층 아래에는 이온 센서가 있을 수 있다. DNA에 뉴클레오티드가 추가되면 H+가 방출될 수 있으며, 이는 pH의 변화로서 측정될 수 있다. H+ 이온은 전압으로 변환되어 반도체 센서에 의해 기록될 수 있다. 어레이 칩은 하나의 뉴클레오티드가 차례로 순차적으로 채워질 수 있다. 스캔, 조명, 또는 카메라가 필요하지 않을 수 있다. 일부 경우에, IONPROTON™ 시퀀서를 사용하여 핵산을 시퀀싱한다. 일부 경우에, IONPGM™ 시퀀서가 사용된다. Ion Torrent Personal Genome Machine(PGM)은 2시간 동안 1000만 리드를 수행할 수 있다.
일부 경우에, 고처리량 시퀀싱은 합성에 의한 단일 분자 시퀀싱(SMSS: Single Molecule Sequencing by Synthesis) 방법과 같은 Helicos BioSciences Corporation(미국 매사추세츠주 케임브리지 소재)에 의해 이용 가능한 기술의 사용을 포함한다. SMSS는 최대 24시간 내에 전체 인간 게놈의 시퀀싱을 허용한다는 점에서 고유하다. 마지막으로, SMSS는 MW 기술과 마찬가지로 혼성화 전에 사전 증폭 단계가 필요하지 않기 때문에 강력하다. 실제로, SMSS는 증폭이 전혀 필요하지 않다. SMSS는 미국 공개 출원 제2006002471 I호; 제20060024678호; 제20060012793호; 제20060012784호; 및 제20050100932호에 부분적으로 기재되어 있다.
일부 경우에, 고처리량 시퀀싱은 기기 내의 CCD 카메라에 의해 기록되는 시퀀싱 반응에 의해 생성된 화학발광 신호를 전송하는 광섬유 플레이트를 포함하는 Pico Titer Plate 장치와 같은 454 Lifesciences, Inc.(미국 코네티컷주 브랜포드 소재)에서 이용 가능한 기술의 사용을 포함한다. 이렇게 광섬유를 사용하면 4.5시간 내에 최소 2천만 개의 염기쌍을 검출할 수 있다.
비드 증폭 후 광섬유 검출을 사용하는 방법은 문헌[Marguiles, M., et al. "Genome sequencing in microfabricated high-density picolitre reactors" Nature, doi: 10.1038/nature03959]; 및 미국 공개 출원 제20020012930호; 제20030058629호; 제20030100102호; 제20030148344호; 제20040248161호; 제20050079510호, 제20050124022호; 및 제20060078909호에 기재되어 있다.
일부 경우에, 고처리량 시퀀싱은 클론 단일 분자 어레이(Solexa, Inc.) 또는 가역적 종결자 화학을 이용하는 합성에 의한 시퀀싱(SBS: sequencing-by-synthesis)을 사용하여 수행한다. 이러한 기술은 미국 특허 제6,969,488호; 제6,897,023호; 제6,833,246호; 제6,787,308호; 및 미국 공개 출원 제20040106130호; 제20030064398호; 제20030022207호; 및 문헌[Constans, A., The Scientist 2003, 17(13):36]에 부분적으로 기재되어 있다. 올리고뉴클레오티드의 고처리량 시퀀싱은 Pacific Biosciences, Complete Genomics, Genia Technologies, Halcyon Molecular, Oxford Nanopore Technologies 등에 의해 상업화된 것과 같은 당 업계에 공지된 임의의 적합한 시퀀싱 방법을 사용하여 달성할 수 있다. 다른 고처리량 시퀀싱 시스템은 문헌[Venter, J., et al. Science 16 February 2001; Adams, M. et al, Science 24 March 2000; 및 M. J, Levene, et al. Science 299:682-686, January 2003]; 및 미국 공개 출원 제20030044781호 및 제2006/0078937호에 개시된 것들을 포함한다. 전반적으로 이러한 시스템은 올리고뉴클레오티드 분자에서 측정되는 중합 반응을 통한 염기의 일시적 추가에 의해 복수의 염기를 갖는 표적 올리고뉴클레오티드 분자를 시퀀싱하는 단계를 포함한다. 즉 시퀀싱되어야 하는 주형 올리고뉴클레오티드 분자에 대한 핵산 중합 효소의 활성이 실시간으로 추적된다. 그런 다음, 염기 추가 순서의 각 단계에서 핵산 중합 효소의 촉매 활성에 의해 표적 올리고뉴클레오티드의 성장하는 상보적 가닥에 어떤 염기가 혼입되는지 확인함으로써 서열을 추론할 수 있다. 표적 올리고뉴클레오티드 분자 복합체 상의 폴리머라제는 표적 올리고뉴클레오티드 분자를 따라 이동하고 활성 부위에서 올리고뉴클레오티드 프라이머를 연장하기에 적합한 위치에 제공된다. 복수의 표지된 유형의 뉴클레오티드 유사체가 활성 부위에 근접하게 제공되며, 각각의 구별 가능한 유형의 뉴클레오티드 유사체는 표적 올리고뉴클레오티드 서열 내의 상이한 뉴클레오티드에 상보적이다. 성장하는 올리고뉴클레오티드 가닥은 활성 부위에서 올리고뉴클레오티드 가닥에 뉴클레오티드 유사체를 추가하기 위해 폴리머라제를 사용함으로써 연장되며, 여기서 추가되는 뉴클레오티드 유사체는 활성 부위에서 표적 올리고뉴클레오티드의 뉴클레오티드에 상보적이다. 중합 단계의 결과로서 올리고뉴클레오티드 프라이머에 추가된 뉴클레오티드 유사체가 식별된다. 표지된 뉴클레오티드 유사체를 제공하는 단계, 성장하는 올리고뉴클레오티드 가닥을 중합하는 단계, 및 추가된 뉴클레오티드 유사체를 식별하는 단계를 반복하여 올리고뉴클레오티드 가닥을 추가로 연장시키고 표적 올리고뉴클레오티드의 서열을 결정한다.
차세대 시퀀싱 기술은 Pacific Biosciences의 실시간(SMRT™) 기술을 포함할 수 있다. SMRT에서 4개의 DNA 염기 각각은 4개의 상이한 형광 염료 중 하나에 부착될 수 있다. 이러한 염료는 포스포 연결될 수 있다. 단일 DNA 폴리머라제는 제로 모드 도파관(ZMW: zero-mode waveguide)의 바닥에서 주형 단일 가닥 DNA의 단일 분자로 고정될 수 있다. ZMW는 ZMW 외부에서 (마이크로초 안에) 빠르게 확산할 수 있는 형광 뉴클레오티드의 배경에 대해 DNA 폴리머라제에 의한 단일 뉴클레오티드의 혼입을 관찰할 수 있게 하는 구속 구조일 수 있다. 뉴클레오티드를 성장하는 가닥에 혼입하는 데 수 밀리초가 걸릴 수 있다. 이 시간 동안 형광 표지는 여기되어 형광 신호를 생성할 수 있으며, 형광 태그는 절단될 수 있다. ZMW는 아래에서 조명될 수 있다. 여기 빔으로부터 감쇠된 빛은 각 ZMW의 하위 20-30 nm를 투과할 수 있다. 검출 한계가 20 제프토 리터(10" 리터)인 현미경을 만들 수 있다. 작은 검출 부피로 배경 소음 감소를 1000배 개선할 수 있다. 염료의 상응하는 형광의 검출은 어떤 염기가 혼입되었는지를 나타낼 수 있다. 이 과정은 반복될 수 있다.
일부 경우에, 차세대 시퀀싱은 나노포어 시퀀싱이다(예를 들어, Soni G V and Meller A. (2007) Clin Chem 53: 1996-2001 참조). 나노포어는 직경이 대략 1 나노미터 정도의 작은 구멍일 수 있다. 전도성 유체에 나노포어를 담그고 이를 가로질러 전위를 적용하면 나노포어를 통한 이온 전도로 인해 약간의 전류가 발생할 수 있다. 흐르는 전류량은 나노포어의 크기에 민감할 수 있다. DNA 분자가 나노포어를 통과할 때, DNA 분자 상의 각 뉴클레오티드는 나노포어를 상이한 정도로 막을 수 있다. 따라서, DNA 분자가 나노포어를 통과할 때 나노포어를 통과하는 전류의 변화는 DNA 서열의 리드를 나타낼 수 있다. 나노포어 시퀀싱 기술은 Oxford Nanopore Technologies, 예를 들어 GridION 시스템에서 제공할 수 있다. 단일 나노포어가 마이크로웰의 상단을 가로질러 고분자 막에 삽입될 수 있다. 각 마이크로웰에는 개별 감지를 위한 전극이 있을 수 있다. 마이크로웰은 칩당 100,000개 이상의 마이크로웰(예를 들어, 200,000, 300,000, 400,000, 500,000, 600,000, 700,000, 800,000, 900,000, 또는 1,000,000개 초과)을 갖는 어레이 칩으로 제작될 수 있다. 기기(또는 노드)를 사용하여 칩을 분석할 수 있다. 데이터를 실시간으로 분석할 수 있다. 한 번에 하나 이상의 기기를 작동할 수 있다. 나노포어는 단백질 나노포어, 예를 들어 7량체 단백질 포어인 단백질 알파-헤모리신일 수 있다. 나노포어는 만들어진 고체 상태 나노포어, 예컨대 예를 들어 합성 막(예를 들어, SiNx, 또는 SiO2)에 형성된 나노미터 크기의 구멍일 수 있다. 나노포어는 하이브리드 포어(예를 들어, 단백질 포어의 고체 상태 막으로의 통합)일 수 있다. 나노포어는 통합된 센서(예를 들어, 터널링 전극 검출기, 용량성 검출기, 또는 그래핀 기반 나노-갭 또는 에지 상태 검출기)를 갖는 나노포어일 수 있다(예를 들어, Garaj et al. (2010) Nature vol. 67, doi: 10.1038/nature09379) 참조). 나노포어는 특정 유형의 분자(예를 들어, DNA, RNA, 또는 단백질)를 분석하기 위해 작용기화될 수 있다. 나노포어 시퀀싱은 DNA가 포어를 이동할 때 실시간으로 시퀀싱하면서 온전한 DNA 중합체가 단백질 나노포어를 통해 통과될 수 있는 "가닥 시퀀싱"을 포함할 수 있다. 효소는 이중 가닥 DNA의 가닥을 분리하고 나노포어를 통해 가닥을 공급할 수 있다. DNA는 한쪽 끝에 헤어핀이 있을 수 있으며, 시스템은 두 가닥을 모두 판독할 수 있다. 일부 경우에, 나노포어 시퀀싱은 개별 뉴클레오티드가 진행성 엑소뉴클레아제에 의해 DNA 가닥으로부터 절단될 수 있고 뉴클레오티드가 단백질 나노포어를 통해 통과될 수 있는 "엑소뉴클레아제 시퀀싱"이다. 뉴클레오티드는 포어 내의 분자(예를 들어, 시클로덱스트란)에 일시적으로 결합할 수 있다. 전류의 특징적인 중단을 사용하여 염기를 식별할 수 있다.
GENIA의 나노포어 시퀀싱 기술을 사용할 수 있다. 조작된 단백질 포어는 지질 이중층 막에 박혀있을 수 있다. "능동 제어" 기술을 사용하여 효율적인 나노포어-막 어셈블리 및 채널을 통한 DNA 이동 제어를 가능하게 할 수 있다. 일부 경우에, 나노포어 시퀀싱 기술은 NABsys에서 제공된다. 게놈 DNA는 평균 길이가 약 100 kb인 가닥으로 단편화할 수 있다. 100 kb 단편은 단일 가닥으로 만든 다음 6-mer 프로브와 혼성화할 수 있다. 프로브가 있는 게놈 단편은 전류 대 시간 추적을 생성할 수 있는 나노포어를 통해 구동될 수 있다. 전류 추적은 각 게놈 단편 상에 프로브의 위치를 제공할 수 있다. 게놈 단편을 정렬하여 게놈에 대한 프로브 맵을 생성할 수 있다. 이 공정은 프로브 라이브러리에 대해 병렬로 수행할 수 있다. 각 프로브에 대한 게놈 길이의 프로브 맵을 생성할 수 있다. 오류는 "혼성화에 의한 이동 창 시퀀싱(mwSBH: moving window Sequencing By Hybridization)"라는 공정으로 수정할 수 있다. 일부 경우에, 나노포어 시퀀싱 기술은 IBM/Roche에서 제공된다. 전자빔을 사용하여 마이크로칩에 나노포어 크기의 구멍을 만들 수 있다. 전기장을 사용하여 나노포어를 통해 DNA를 당기거나 가닥으로 만들 수 있다. 나노포어 내의 DNA 트랜지스터 장치는 나노미터 크기의 금속과 유전체 층을 교대로 포함할 수 있다. DNA 백본의 이산 전하는 DNA 나노포어 내부의 전기장에 의해 갇힐 수 있다. 게이트 전압을 껐다가 켜면 DNA 서열을 판독할 수 있다.
차세대 시퀀싱은 DNA 나노볼 시퀀싱을 포함할 수 있다(예를 들어, Complete Genomics에 의해 수행된 바와 같음; 예를 들어, Drmanac et al. (2010) Science 327: 78-81 참조). DNA를 단리하고, 단편화하고, 크기 선택할 수 있다. 예를 들어, DNA를 약 500 bp의 평균 길이로 (예를 들어, 초음파 처리에 의해) 단편화할 수 있다. 단편 말단에 어댑터(Adl)를 부착할 수 있다. 어댑터를 사용하여 시퀀싱 반응을 위한 앵커에 혼성화할 수 있다. 각 말단에 어댑터가 결합된 DNA를 PCR 증폭할 수 있다. 상보적인 단일 가닥 말단이 서로 결합하여 원형 DNA를 형성할 수 있도록 어댑터 서열을 변형시킬 수 있다. DNA를 메틸화하여 후속 단계에서 사용되는 IIS형 제한 효소에 의한 절단으로부터 보호할 수 있다. 어댑터(예를 들어, 오른쪽 어댑터)는 제한 인식 부위를 가질 수 있으며, 제한 인식 부위는 비-메틸화 상태로 남아 있을 수 있다. 어댑터의 비-메틸화된 제한 인식 부위는 제한 효소(예를 들어, Acul)에 의해 인식될 수 있으며, DNA는 오른쪽 어댑터의 오른쪽에 Acul 13 bp에 의해 절단되어 선형의 이중 가닥 DNA를 형성할 수 있다. 두 번째 라운드의 오른쪽 및 왼쪽 어댑터(Ad2)를 선형 DNA의 양쪽 말단에 결찰할 수 있으며, 두 어댑터가 모두 결합된 모든 DNA를 (예를 들어, PCR에 의해) PCR 증폭할 수 있다. Ad2 서열을 변형시켜 이들이 서로 결합하여 원형 DNA를 형성하도록 할 수 있다. DNA를 메틸화할 수 있지만, 제한 효소 인식 부위는 왼쪽 Adl 어댑터 상에 비-메틸화 상태로 남아 있을 수 있다. 제한 효소(예를 들어, Acul)를 적용할 수 있으며, DNA는 Adl의 왼쪽 13 bp가 절단되어 선형 DNA 단편을 형성할 수 있다. 세 번째 라운드의 오른쪽 및 왼쪽 어댑터(Ad3)를 선형 DNA의 오른쪽 및 왼쪽 측면에 결찰할 수 있으며, 생성된 단편을 PCR 증폭할 수 있다. 어댑터가 서로 결합하여 원형 DNA를 형성할 수 있도록 이들을 변형시킬 수 있다. III형 제한 효소(예를 들어, EcoP15)를 추가할 수 있다. EcoP15는 Ad3의 왼쪽에 26 bp, Ad2의 오른쪽에 26bp의 DNA를 절단할 수 있다. 이 절단은 큰 세그먼트의 DNA를 제거하고 DNA를 다시 한 번 선형화할 수 있다. 네 번째 라운드의 오른쪽 및 왼쪽 어댑터(Ad4)를 DNA에 결찰할 수 있고, DNA를 (예를 들어, PCR에 의해) 증폭할 수 있고, 어댑터가 서로 결합하여 완전한 원형 DNA 주형을 형성하도록 이들을 변형시킬 수 있다.
롤링 서클 복제(예를 들어, Phi 29 DNA 폴리머라제 사용)를 이용하여 DNA의 작은 단편을 증폭할 수 있다. 4개의 어댑터 서열은 혼성화할 수 있는 회문 서열을 포함할 수 있고 단일 가닥은 그 자체로 접혀 평균 직경이 약 200-300 나노미터일 수 있는 DNA 나노볼(DNB™)을 형성할 수 있다. DNA 나노볼은 마이크로어레이(시퀀싱 플로우셀)에 (예를 들어, 흡착에 의해) 부착될 수 있다. 플로우셀은 이산화규소, 티타늄 및 헥사메틸디실라잔(HMDS) 및 포토레지스트 재료로 코팅된 실리콘 웨이퍼일 수 있다. 시퀀싱은 형광 프로브를 DNA에 결찰하여 연쇄되지 않는unchained) 시퀀싱으로 수행할 수 있다. 조사된 위치의 형광 색상은 고해상도 카메라로 시각화할 수 있다. 어댑터 서열 사이의 뉴클레오티드 서열의 동일성을 결정할 수 있다.
어댑터 결찰 전에 폴리뉴클레오티드 집단을 농축할 수 있다. 한 예에서, 복수의 폴리뉴클레오티드를 샘플로부터 수득하고, 단편화하고, 선택적으로 말단 복구하고, 고온, 바람직하게는 90-99℃에서 변성시킨다. 폴리뉴클레오티드 표적화 라이브러리(프로브 라이브러리)는 고온, 바람직하게는 약 90 내지 99℃에서 혼성화 용액에서 변성시키고, 약 45 내지 80℃, 혼성화 용액에서 약 10 내지 24시간 동안 변성된 태깅된 폴리뉴클레오티드 라이브러리와 합한다. 그 다음, 결합 완충액을 혼성화된 태깅된 폴리뉴클레오티드 프로브에 첨가하고, 포획 모이어티를 포함하는 고체 지지체를 사용하여 혼성화된 어댑터-태깅된 폴리뉴클레오티드 프로브에 선택적으로 결합시킨다. 고체 지지체를 완충액으로 1회 이상, 바람직하게는 약 2회 내지 5회 세척하여 결합되지 않은 폴리뉴클레오티드를 제거한 후, 용리 완충액을 첨가하여 고체 지지체로부터 농축된 어댑터-태깅된 폴리뉴클레오티드 단편을 방출시킨다. 그런 다음 농축된 폴리뉴클레오티드 단편을 폴리아데닐화하고 어댑터를 폴리뉴클레오티드 단편의 양쪽 말단에 결찰하여 어댑터-태깅된 폴리뉴클레오티드 가닥의 라이브러리를 생성하고, 어댑터-태깅된 폴리뉴클레오티드 라이브러리를 증폭한다. 그런 다음 어댑터-태깅된 폴리뉴클레오티드 라이브러리를 시퀀싱한다.
폴리뉴클레오티드 표적화 라이브러리는 또한 원하지 않는 단편에 혼성화함으로써 복수의 폴리뉴클레오티드로부터 원하지 않는 서열을 필터링하는 데 사용할 수 있다. 예를 들어, 복수의 폴리뉴클레오티드를 샘플로부터 수득하고, 단편화하고, 선택적으로 말단-복구하고, 아데닐화한다. 어댑터를 폴리뉴클레오티드 단편의 양쪽 말단에 결찰하여 어댑터-태깅된 폴리뉴클레오티드 가닥의 라이브러리를 생성하고, 어댑터-태깅된 폴리뉴클레오티드 라이브러리를 증폭한다. 대안적으로, 아데닐화 및 어댑터 결찰 단계를 샘플 폴리뉴클레오티드의 농축 후에 대신 수행한다. 그런 다음 어댑터-태깅된 폴리뉴클레오티드 라이브러리는 어댑터 차단제의 존재하에 고온, 바람직하게는 90-99℃에서 변성시킨다. 바람직하지 않은 비-표적 서열을 제거하도록 설계된 폴리뉴클레오티드 필터링 라이브러리(프로브 라이브러리)는 고온, 바람직하게는 약 90 내지 99℃에서 혼성화 용액에서 변성시키고, 약 45 내지 80℃, 혼성화 용액에서 약 10 내지 24시간 동안 변성된 태깅된 폴리뉴클레오티드 라이브러리와 합한다. 그 다음, 결합 완충액을 혼성화된 태깅된 폴리뉴클레오티드 프로브에 첨가하고, 포획 모이어티를 포함하는 고체 지지체를 사용하여 혼성화된 어댑터-태깅된 폴리뉴클레오티드 프로브에 선택적으로 결합시킨다. 고체 지지체를 완충액으로 1회 이상, 바람직하게는 약 1회 내지 5회 세척하여 결합되지 않은 어댑터-태깅된 폴리뉴클레오티드 단편을 용리시킨다. 결합되지 않은 어댑터-태그된 폴리뉴클레오티드 단편의 농축된 라이브러리를 증폭한 후 증폭된 라이브러리를 시퀀싱한다.
고 병렬식 데노보 핵산 합성
혁신적인 합성 플랫폼을 생성하기 위해 실리콘 상의 나노 웰 내에서 폴리펩티드 합성에서 유전자 어셈블리에 이르기까지 엔드-투-엔드 공정의 소형화, 병렬화, 및 수직 통합을 활용하는 플랫폼 접근법이 본원에 기재된다. 본원에 기재된 장치는 96웰 플레이트와 동일한 풋프린트를 가지며 단일의 고도로 병렬화된 실행으로 최대 약 1,000,000개의 폴리뉴클레오티드를 생산하여 종래의 합성 방법에 비해 처리량을 100 내지 1,000배 증가시킬 수 있는 실리콘 합성 플랫폼을 제공한다. 일부 경우에, 본원에 기재된 단일 실리콘 플레이트는 약 6,100개의 동일하지 않은 폴리뉴클레오티드의 합성을 제공한다. 일부 경우에, 클러스터 내에 각각의 동일하지 않은 폴리뉴클레오티드가 위치한다. 클러스터는 50 내지 500개의 동일하지 않은 폴리뉴클레오티드를 포함할 수 있다.
본원에 기재된 방법은 각각이 적어도 하나의 미리 결정된 참조 핵산 서열의 미리 결정된 변이체를 코딩하는 폴리뉴클레오티드의 라이브러리의 합성을 제공한다. 일부 경우에, 미리 결정된 참조 서열은 단백질을 코딩하는 핵산 서열이고, 변이체 라이브러리는 합성된 핵산에 의해 코딩되는 후속 단백질에서 단일 잔기의 복수의 상이한 변이체가 표준 번역 과정에 의해 생성되도록 적어도 하나의 코돈을 코딩하는 서열을 포함한다. 핵산 서열에서 합성된 특정 변경은 뉴클레오티드 변화를 중첩되거나 무딘 말단 폴리뉴클레오티드 프라이머에 혼입함으로써 도입될 수 있다. 대안적으로, 폴리뉴클레오티드 집단은 긴 핵산(예를 들어, 유전자) 및 이의 변이체를 집합적으로 코딩할 수 있다. 이러한 배열에서, 폴리뉴클레오티드 집단은 혼성화될 수 있고 표준 분자 생물학 기술이 적용되어 긴 핵산(예를 들어, 유전자) 및 이의 변이체를 형성할 수 있다. 긴 핵산(예를 들어, 유전자) 및 이의 변이체가 세포에서 발현될 때, 변이체 단백질 라이브러리가 생성된다. 유사하게, RNA 서열(예를 들어, miRNA, shRNA, 및 mRNA) 또는 DNA 서열(예를 들어, 인핸서, 프로모터, UTR, 및 종결자 영역)을 코딩하는 변이체 라이브러리의 합성 방법이 본원에 제공된다. 또한, 본원에 기재된 방법을 사용하여 합성된 라이브러리에서 선택된 변이체에 대한 하류 적용이 본원에 제공된다. 하류 적용에는 생물학적으로 관련된 기능, 예를 들어, 생화학적 친화성, 효소 활성, 세포 활성에서의 변화, 및 질환 상태의 치료 또는 예방이 향상된 변이체 핵산 또는 단백질 서열의 식별이 포함된다.
기재(substrate)
복수의 클러스터를 포함하는 기재로서, 각각의 클러스터는 폴리뉴클레오티드의 부착 및 합성을 지원하는 복수의 좌위를 포함하는 것인 기재가 본원에서 제공된다. 본원에 사용되는 바와 같이, 용어 "좌위"는 표면으로부터 연장하는 미리 결정된 단일 서열을 코딩하는 폴리뉴클레오티드에 대한 지지체를 제공하는 구조상의 별개의 영역을 지칭한다. 일부 경우에, 좌위는 2차원 표면, 예를 들어 실질적으로 평면인 표면상에 있다. 일부 경우에, 좌위는 표면, 예를 들어 웰, 마이크로 웰, 채널, 또는 포스트 상의 별개의 상승 또는 하강 부위를 지칭한다. 일부 경우에, 좌위의 표면은 폴리뉴클레오티드 합성을 위한 적어도 하나의 뉴클레오티드, 또는 바람직하게는 폴리뉴클레오티드 집단의 합성을 위한 동일한 뉴클레오티드의 집단에 부착하도록 능동적으로 작용기화되는 물질을 포함한다. 일부 경우에, 폴리뉴클레오티드는 동일한 핵산 서열을 코딩하는 폴리뉴클레오티드 집단을 의미한다. 일부 경우에, 장치의 표면은 기재의 하나 또는 복수의 표면을 포함한다.
공통 지지체 상의 주소지정 가능한 위치에 미리 결정된 상이한 서열을 갖는 복수의 폴리뉴클레오티드의 합성을 지원하는 표면을 포함할 수 있는 구조가 본원에서 제공된다. 일부 경우에, 장치는 2,000; 5,000; 10,000; 20,000; 30,000; 50,000; 75,000; 100,000; 200,000; 300,000; 400,000; 500,000; 600,000; 700,000; 800,000; 900,000; 1,000,000; 1,200,000; 1,400,000; 1,600,000; 1,800,000; 2,000,000; 2,500,000; 3,000,000; 3,500,000; 4,000,000; 4,500,000; 5,000,000; 10,000,000개 이상 초과의 동일하지 않은 폴리뉴클레오티드 합성을 위한 지지체를 제공한다. 일부 경우에, 장치는 별개의 서열을 코딩하는 2,000; 5,000; 10,000; 20,000; 30,000; 50,000; 75,000; 100,000; 200,000; 300,000; 400,000; 500,000; 600,000; 700,000; 800,000; 900,000; 1,000,000; 1,200,000; 1,400,000; 1,600,000; 1,800,000; 2,000,000; 2,500,000; 3,000,000; 3,500,000; 4,000,000; 4,500,000; 5,000,000; 10,000,000개 이상 초과의 폴리뉴클레오티드의 합성을 위한 지지체를 제공한다. 일부 경우에, 폴리뉴클레오티드의 적어도 일부는 동일한 서열을 갖거나 동일한 서열로 합성되도록 구성된다.
폴리뉴클레오티드 약 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 125, 150, 175, 200, 225, 250, 275, 300, 325, 350, 375, 400, 425, 450, 475, 500, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 또는 2000개의 염기 길이의 제조 및 성장을 위한 방법 및 장치가 본원에서 제공된다. 일부 경우에, 형성된 폴리뉴클레오티드의 길이는 약 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 125, 150, 175, 200, 또는 225개의 염기 길이이다. 폴리뉴클레오티드는 적어도 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개의 염기 길이일 수 있다. 폴리뉴클레오티드는 10 내지 225개의 염기 길이, 12 내지 100개의 염기 길이, 20 내지 150개의 염기 길이, 20 내지 130개의 염기 길이, 또는 30 내지 100개의 염기 길이일 수 있다.
일부 경우에, 폴리뉴클레오티드는 기재의 별개의 좌위에서 합성되며, 여기서 각 좌위는 폴리뉴클레오티드 집단의 합성을 지원한다. 일부 경우에, 각각의 좌위는 또 다른 좌위에서 성장한 폴리뉴클레오티드 집단과 상이한 서열을 갖는 폴리뉴클레오티드 집단의 합성을 지원한다. 일부 경우에, 장치의 좌위는 복수의 클러스터 내에 위치한다. 일부 경우에, 장치는 적어도 10, 500, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 11000, 12000, 13000, 14000, 15000, 20000, 30000, 40000, 50000개 이상의 클러스터를 포함한다. 일부 경우에, 장치는 2,000; 5,000; 10,000; 100,000; 200,000; 300,000; 400,000; 500,000; 600,000; 700,000; 800,000; 900,000; 1,000,000; 1,100,000; 1,200,000; 1,300,000; 1,400,000; 1,500,000; 1,600,000; 1,700,000; 1,800,000; 1,900,000; 2,000,000; 300,000; 400,000; 500,000; 600,000; 700,000; 800,000; 900,000; 1,000,000; 1,200,000; 1,400,000; 1,600,000; 1,800,000; 2,000,000; 2,500,000; 3,000,000; 3,500,000; 4,000,000; 4,500,000; 5,000,000; 또는 10,000,000개 이상 초과의 별개의 좌위를 포함한다. 일부 경우에, 장치는 약 10,000개의 별개의 좌위를 포함한다. 단일 클러스터 내의 좌위의 양은 상이한 경우에 다르다. 일부 경우에, 각 클러스터는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 120, 130, 150, 200, 300, 400, 500, 1000개 이상의 좌위를 포함한다. 일부 경우에, 각 클러스터는 약 50-500개의 좌위를 포함한다. 일부 경우에, 각 클러스터는 약 100-200개의 좌위를 포함한다. 일부 경우에, 각 클러스터는 약 100-150개의 좌위를 포함한다. 일부 경우에, 각 클러스터는 약 109, 121, 130 또는 137개의 좌위를 포함한다. 일부 경우에, 각 클러스터는 약 19, 20, 61, 64개 이상의 좌위를 포함한다.
장치에서 합성된 별개의 폴리뉴클레오티드 수는 기재에서 이용 가능한 별개의 좌위 수에 따라 달라질 수 있다. 일부 경우에, 장치의 클러스터 내의 좌위의 밀도는 적어도 또는 대략 mm2당 1개의 좌위, mm2당 10개의 좌위, mm2당 25개의 좌위, mm2당 50개의 좌위, mm2당 65개의 좌위, mm2당 75개의 좌위, mm2당 100개의 좌위, mm2당 130개의 좌위, mm2당 150개의 좌위, mm2당 175개의 좌위, mm2당 200개의 좌위, mm2당 300개의 좌위, mm2당 400개의 좌위, mm2당 500개의 좌위, mm2당 1,000개 좌위 이상이다. 일부 경우에, 장치는 mm2 내지 약 500 mm2당 약 10개의 좌위, mm2 내지 약 400 mm2당 약 25개의 좌위, mm2 내지 약 500 mm2당 약 50개의 좌위, mm2 내지 약 500 mm2당 약 100개의 좌위, mm2 내지 약 500 mm2당 약 150개의 좌위, mm2 내지 약 250 mm2당 약 10개의 좌위, mm2 내지 약 250 mm2당 약 50개의 좌위, mm2 내지 약 200 mm2당 약 10개의 좌위, 또는 mm2 내지 약 200 mm2당 약 50개의 좌위이다. 일부 경우에, 클러스터 내의 2개의 인접한 좌위의 중심으로부터의 거리는 약 10 um 내지 약 500 um, 약 10 um 내지 약 200 um, 또는 약 10 um 내지 약 100 um이다. 일부 경우에, 인접한 좌위의 두 중심으로부터의 거리는 약 10 um, 20 um, 30 um, 40 um, 50 um, 60 um, 70 um, 80 um, 90 um 또는 100 um 초과이다. 일부 경우에, 2개의 인접한 좌위의 중심으로부터 거리는 약 200 um, 150 um, 100 um, 80 um, 70 um, 60 um, 50 um, 40 um, 30 um, 20 um 또는 10 um 미만이다. 일부 경우에, 각 좌위는 약 0.5 um, 1 um, 2 um, 3 um, 4 um, 5 um, 6 um, 7 um, 8 um, 9 um, 10 um, 20 um, 30 um, 40 um, 50 um, 60 um, 70 um, 80 um, 90 um 또는 100 um의 폭을 갖는다. 일부 경우에, 각 좌위는 약 0.5 um 내지 100um, 약 0.5 um 내지 50 um, 약 10 um 내지 75 um, 또는 약 0.5 um 내지 50 um의 폭을 갖는다.
일부 경우에, 장치 내의 클러스터 밀도는 적어도 대략 100 mm2당 약 1개의 클러스터, 10 mm2당 약 1개의 클러스터, 5 mm2당 1개의 클러스터, 4 mm2당 1개의 클러스터, 3 mm2당 1개의 클러스터, 2 mm2당 1개의 클러스터, 1 mm2당 1개의 클러스터, 1 mm2당 2개의 클러스터, 1 mm2당 3개의 클러스터, 1 mm22 4개의 클러스터, 1 mm2당 5개의 클러스터, 1 mm2당 10개의 클러스터, 1 mm2당 50개의 클러스터 이상이다. 일부 경우에, 장치는 약 10 mm2 1개의 클러스터 내지 약 1 mm2당 10개의 클러스터를 포함한다. 일부 경우에, 2개의 인접한 클러스터의 중심으로부터 거리는 약 50 um, 100 um, 200 um, 500 um, 1000 um, 또는 2000 um 또는 5000 um 미만이다. 일부 경우에, 2개의 인접한 클러스터의 중심으로부터의 거리는 약 50um 내지 약 100um, 약 50um 내지 약 200um, 약 50um 내지 약 300um, 약 50um 내지 약 500um, 및 약 100 um 내지 약 2000 um이다. 일부 경우에, 2개의 인접한 클러스터의 중심으로부터의 거리는 약 0.05 mm 내지 약 50 mm, 약 0.05 mm 내지 약 10 mm, 약 0.05 mm 내지 약 5 mm, 약 0.05 mm 내지 약 4 mm, 약 0.05 mm 내지 약 3 mm, 약 0.05 mm 내지 약 2 mm, 약 0.1 mm 내지 10 mm, 약 0.2 mm 내지 10 mm, 약 0.3 mm 내지 약 10 mm, 약 0.4 mm 내지 약 10 mm, 약 0.5 mm 내지 10 mm, 약 0.5 mm 내지 약 5 mm, 또는 약 0.5 mm 내지 약 2 mm이다. 일부 경우에, 각 클러스터는 약 0.5 내지 2 mm, 약 0.5 내지 1 mm, 또는 약 1 내지 2 mm의 한 치수를 따라 직경 또는 폭을 갖는다. 일부 경우에, 각 클러스터는 약 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9 또는 2 mm의 한 치수를 따라 직경 또는 폭을 갖는다. 일부 경우에, 각 클러스터는 약 0.5, 0.6, 0.7, 0.8, 0.9, 1, 1.1, 1.15, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9 또는 2 mm의 한 치수를 따라 내부 직경 또는 폭을 갖는다.
장치는 대략 표준 96 웰 플레이트의 크기, 예를 들어 약 100 내지 200 mm x 약 50 내지 150 mm일 수 있다. 일부 경우에, 장치는 약 1000 mm, 500 mm, 450 mm, 400 mm, 300 mm, 250nm, 200 mm, 150 mm, 100 mm 또는 50 mm 이하의 직경을 갖는다. 일부 경우에, 장치의 직경은 약 25 mm 내지 1000 mm, 약 25 mm 내지 약 800 mm, 약 25 mm 내지 약 600 mm, 약 25 mm 내지 약 500 mm, 약 25 mm 내지 약 400 mm, 약 25 mm 내지 약 300 mm, 또는 약 25 mm 내지 약 200이다. 장치 크기의 비제한적인 예는 약 300 mm, 200 mm, 150 mm, 130 mm, 100 mm, 76 mm, 51 mm 및 25 mm를 포함한다. 일부 경우에, 장치는 적어도 약 100 mm2; 200 mm2; 500 mm2; 1,000 mm2; 2,000 mm2; 5,000 mm2; 10,000 mm2; 12,000 mm2; 15,000 mm2; 20,000 mm2; 30,000 mm2; 40,000 mm2; 50,000 mm2 이상의 평면 표면적을 갖는다. 일부 경우에, 장치의 두께는 약 50 mm 내지 약 2000 mm, 약 50 mm 내지 약 1000 mm, 약 100 mm 내지 약 1000 mm, 약 200 mm 내지 약 1000 mm, 또는 약 250 mm 내지 약 1000 mm이다. 장치 두께의 비제한적인 예는 275 mm, 375 mm, 525 mm, 625 mm, 675 mm, 725 mm, 775 mm 및 925 mm를 포함한다. 일부 경우에, 장치의 두께는 직경에 따라 다르며 기재의 구성에 따라 다르다. 예를 들어, 실리콘 이외의 재료를 포함하는 장치는 동일한 직경의 실리콘 장치와 두께가 다르다. 장치 두께는 사용된 재료의 기계적 강도에 따라 결정될 수 있으며 장치는 취급 중 균열 없이 자체 무게를 지탱할 수 있을 만큼 충분히 두꺼워야 한다. 일부 경우에, 구조는 본원에 기재된 복수의 장치를 포함한다.
표면 재료
표면을 포함하는 장치로서, 표면은 미리 결정된 위치에서 폴리뉴클레오티드 합성을 지원하도록 변형되어 낮은 오류율, 낮은 드롭아웃 비율, 높은 수율 및 높은 올리고 표시를 제공하는 것인 장치를 본원에 제공한다. 일부 경우에, 본원에 제공된 폴리뉴클레오티드 합성을 위한 장치의 표면은 데노보 폴리뉴클레오티드 합성 반응을 지원하도록 변형될 수 있는 다양한 재료로 제작된다. 일부 경우에, 장치는 충분히 전도성이 있으며, 예를 들어 장치의 전체 또는 일부에 걸쳐 균일한 전기장을 형성할 수 있다. 본원에 기재된 장치는 가요성 재료를 포함할 수 있다. 예시적인 가요성 재료는 개질된 나일론, 비-개질된 나일론, 니트로셀룰로오스 및 폴리프로필렌을 제한 없이 포함한다. 본원에 기재된 장치는 강성 재료를 포함할 수 있다. 예시적인 강성 재료는 유리, 용융 실리카, 실리콘, 이산화규소, 질화규소, 플라스틱(예를 들어, 폴리테트라플루오로에틸렌, 폴리프로필렌, 폴리스티렌, 폴리카보네이트, 및 이들의 혼합), 및 금속(예를 들어, 금, 백금))을 제한 없이 포함한다. 본원에 개시된 장치는 실리콘, 폴리스티렌, 아가로스, 덱스트란, 셀룰로오스 중합체, 폴리아크릴아미드, 폴리디메틸실록산(PDMS), 유리, 또는 이들의 조합을 포함하는 재료로 제조될 수 있다. 일부 경우에, 본원에 개시된 장치는 본원에 열거된 재료의 혼합물 또는 당 업계에 공지된 임의의 다른 적합한 재료로 제조될 수 있다.
본원에 기재된 예시적인 재료에 대한 인장 강도의 목록은 다음과 같이 제공된다: 나일론(70 MPa), 니트로셀룰로오스(1.5 MPa), 폴리프로필렌(40 MPa), 실리콘(268 MPa), 폴리스티렌(40 MPa), 아가로스( 1-10 MPa), 폴리아크릴아미드(1-10 MPa), 폴리디메틸실록산(PDMS)(3.9-10.8 MPa). 본원에 기재된 고체 지지체는 1 내지 300, 1 내지 40, 1 내지 10, 1 내지 5, 또는 3 내지 11 MPa의 인장 강도를 가질 수 있다. 본원에 기재된 고체 지지체는 약 1, 1.5, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 20, 25, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 270MPa 이상의 인장 강도를 가질 수 있다. 일부 경우에, 본원에 기재된 장치는 테이프 또는 가요성 시트와 같은 연속 루프 또는 릴에 저장될 수 있는 가요성 재료 형태인, 폴리뉴클레오티드 합성을 위한 고체 지지체를 포함한다.
영률은 하중하에서 탄성(회복 가능한) 변형에 대한 재료의 저항을 측정한다. 본원에 기재된 예시적인 재료의 강성에 대한 영률의 목록은 다음과 같이 제공된다: 나일론(3 GPa), 니트로셀룰로오스(1.5 GPa), 폴리프로필렌(2 GPa), 실리콘(150 GPa), 폴리스티렌(3 GPa), 아가로스(1 -10 GPa), 폴리아크릴아미드(1-10 GPa), 폴리디메틸실록산(PDMS)(1-10 GPa). 본원에 기재된 고체 지지체는 1 내지 500, 1 내지 40, 1 내지 10, 1 내지 5, 또는 3 내지 11 GPa의 영률을 가질 수 있다. 본원에 기재된 고체 지지체는 약 1, 1.5, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 20, 25, 40, 50, 60, 70, 80, 90, 100, 150, 200, 250, 400, 500 GPa 이상의 영률을 가질 수 있다. 유연성과 강성의 관계는 반비례하므로 가용성 재료는 영률이 낮고 하중하에 모양이 크게 변한다.
일부 경우에, 본원에 개시된 장치는 이산화규소 기부와 산화규소의 표면층을 포함한다. 대안적으로, 장치는 산화규소의 기부를 가질 수 있다. 본원에 제공된 장치의 표면은 텍스처링되어 폴리뉴클레오티드 합성을 위한 전체 표면적이 증가될 수 있다. 본 명세서에 개시된 장치는 적어도 5%, 10%, 25%, 50%, 80%, 90%, 95%, 또는 99% 실리콘을 포함할 수 있다. 본원에 개시된 장치는 SOI(silicon on insulator) 웨이퍼로부터 제조될 수 있다.
표면 아키텍쳐
돌출 및/또는 함몰된 피처를 포함하는 장치가 본원에 제공된다. 이러한 피처를 갖는 한 가지 이점은 폴리뉴클레오티드 합성을 지원하는 표면적의 증가이다. 일부 경우에, 돌출 및/또는 함몰된 피처를 갖는 장치를 3차원 기재라고 한다. 일부 경우에, 3차원 장치는 하나 이상의 채널을 포함한다. 일부 경우에, 하나 이상의 좌위는 채널을 포함한다. 일부 경우에, 채널을 폴리뉴클레오티드 합성기와 같은 침착 장치를 통해 시약 침착에 접근할 수 있다. 일부 경우에, 시약 및/또는 유체가 하나 이상의 채널에서 유체 연통하는 더 큰 웰에 모인다. 예를 들어, 장치는 클러스터가 있는 복수의 좌위에 해당하는 복수의 채널을 포함하고, 복수의 채널은 클러스터의 하나의 웰과 유체 연통한다. 일부 방법에서, 폴리뉴클레오티드의 라이브러리는 클러스터의 복수의 좌위에서 합성된다.
일부 경우에, 구조는 표면에서 폴리뉴클레오티드 합성을 위한 제어된 흐름 및 물질 전달 경로를 허용하도록 구성된다. 일부 경우에, 장치의 구성은 폴리뉴클레오티드 합성 동안 물질 전달 경로, 화학적 노출 시간, 및/또는 세척 효능의 제어되고 균일한 분포를 허용한다. 일부 경우에, 장치의 구성은 예를 들어 성장하는 폴리뉴클레오티드에 의해 배제된 부피가 성장하는 폴리뉴클레오티드에 이용 가능하거나 적합한 초기에 이용 가능 부피의 50, 45, 40, 35, 30, 25, 20, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1% 이하를 초과하여 차지하지 않도록 성장하는 폴리뉴클레오티드를 위한 충분한 부피를 제공함으로써, 스윕(sweep) 효율을 증가시킨다. 일부 경우에, 3차원 구조를 통해 유체의 흐름을 관리하여 화학 물질 노출의 신속한 교환을 허용한다.
1 fM, 5 fM, 10 fM, 25 fM, 50 fM, 75 fM, 100 fM, 200 fM, 300 fM, 400 fM, 500 fM, 600 fM, 700 fM, 800 fM, 900 fM, 1 pM, 5 pM, 10 pM, 25 pM, 50 pM, 75 pM, 100 pM, 200 pM, 300 pM, 400 pM, 500 pM, 600 pM, 700 pM, 800 pM, 900 pM 이상의 DNA 양을 합성하는 방법이 본원에 제공된다. 일부 경우에, 폴리뉴클레오티드 라이브러리는 유전자의 약 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 95%, 또는 100%의 길이에 걸쳐 있을 수 있다. 유전자는 최대 약 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 85%, 90%, 95% 또는 100%로 다양할 수 있다.
동일하지 않은 폴리뉴클레오티드는 집합적으로 유전자의 적어도 1%, 2%, 3%, 4%, 5%, 10%, 15%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 85%, 90%, 95%, 또는 100%에 대한 서열을 코딩할 수 있다. 일부 경우에, 폴리뉴클레오티드는 유전자의 50%, 60%, 70%, 80%, 85%, 90%, 95% 이상의 서열을 코딩할 수 있다. 일부 경우에, 폴리뉴클레오티드는 유전자의 80%, 85%, 90%, 95% 이상의 서열을 코딩할 수 있다.
일부 경우에, 분리는 물리적 구조에 의해 달성된다. 일부 경우에, 분리는 폴리뉴클레오티드 합성을 위한 능동 및 수동 영역을 생성하는 표면의 차등적 작용기화에 의해 달성된다. 차등적 작용기화는 또한 장치 표면에 걸쳐 소수성을 교대로 만듬으로써 침착된 시약의 비드화 또는 습윤화를 유발하는 물 접촉 각 효과를 생성하여 달성된다. 더 큰 구조를 사용하면 인접한 스팟의 시약에 의한 스플래싱 및 별개의 폴리뉴클레오티드 합성 위치의 교차 오염을 줄일 수 있다. 일부 경우에, 폴리뉴클레오티드 합성기와 같은 장치를 사용하여 시약을 별개의 폴리뉴클레오티드 합성 위치에 침착시킨다. 3차원 피처를 갖는 기재는 오류율이 낮은(예를 들어, 1:500, 1:1000, 1:1500, 1:2,000; 1:3,000; 1:5,000; 또는 1:10,000 미만) 다수의 폴리뉴클레오티드(예를 들어, 약 10,000개 초과)의 합성을 허용하는 방식으로 구성된다. 일부 경우에, 장치는 mm2당 약 1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 300, 400 또는 500개 또는 그보다 큰 밀도를 갖는 피처를 포함한다.
장치의 웰은 기재의 다른 웰과 같거나 다른 폭, 높이, 및/또는 부피를 가질 수 있다. 장치의 채널은 기재의 다른 채널과 같거나 다른 폭, 높이, 및/또는 부피를 가질 수 있다. 일부 경우에, 클러스터의 폭은 약 0.05 mm 내지 약 50 mm, 약 0.05 mm 내지 약 10 mm, 약 0.05 mm 내지 약 5 mm, 약 0.05 mm 내지 약 4 mm, 약 0.05 mm 내지 약 3 mm, 약 0.05 mm 내지 약 2 mm, 약 0.05 mm 내지 약 1 mm, 약 0.05 mm 내지 약 0.5 mm, 약 0.05 mm 내지 약 0.1 mm, 약 0.1 mm 내지 10 mm, 약 0.2 mm 내지 10 mm, 약 0.3 mm 내지 10 mm, 약 0.4 mm 내지 약 10 mm, 약 0.5 mm 내지 10 mm, 약 0.5 mm 내지 약 5 mm, 또는 약 0.5 mm 내지 약 2 mm이다. 일부 경우에, 클러스터를 포함하는 웰의 폭은 약 0.05 mm 내지 약 50 mm, 약 0.05 mm 내지 약 10 mm, 약 0.05 mm 내지 약 5 mm, 약 0.05 mm 내지 약 4 mm, 약 0.05 mm 내지 약 3 mm, 약 0.05 mm 내지 약 2 mm, 약 0.05 mm 내지 약 1 mm, 약 0.05 mm 내지 약 0.5 mm, 약 0.05 mm 내지 약 0.1 mm, 약 0.1 mm 내지 10 mm, 약 0.2 mm 내지 10 mm, 약 0.3 mm 내지 약 10 mm, 약 0.4 mm 내지 약 10 mm, 약 0.5 mm 내지 10 mm, 약 0.5 mm 내지 약 5 mm, 또는 약 0.5 mm 내지 약 2 mm이다. 일부 경우에, 클러스터의 폭은 5 mm, 4 mm, 3 mm, 2 mm, 1 mm, 0.5 mm, 0.1 mm, 0.09 mm, 0.08 mm, 0.07 mm, 0.06 mm 또는 0.05 mm 미만 또는 약 5 mm, 4 mm, 3 mm, 2 mm, 1 mm, 0.5 mm, 0.1 mm, 0.09 mm, 0.08 mm, 0.07 mm, 0.06 mm 또는 0.05 mm이다. 일부 경우에, 클러스터의 폭은 약 1.0 내지 1.3 mm이다. 일부 경우에, 클러스터의 폭은 약 1.150 mm이다. 일부 경우에, 웰의 폭은 5 mm, 4 mm, 3 mm, 2 mm, 1 mm, 0.5 mm, 0.1 mm, 0.09 mm, 0.08 mm, 0.07 mm, 0.06 mm 또는 0.05 mm 미만 또는 약 5 mm, 4 mm, 3 mm, 2 mm, 1 mm, 0.5 mm, 0.1 mm, 0.09 mm, 0.08 mm, 0.07 mm, 0.06 mm 또는 0.05 mm이다. 일부 경우에, 웰의 폭은 약 1.0 내지 1.3 mm이다. 일부 경우에, 웰의 폭은 약 1.150 mm이다. 일부 경우에, 클러스터의 폭은 약 0.08 mm이다. 일부 경우에는, 웰의 폭은 약 0.08 mm이다. 클러스터의 폭은 2차원 또는 3차원 기재 내의 클러스터를 지칭할 수 있다.
일부 경우에, 웰의 높이는 약 20 um 내지 약 1000 um, 약 50 um 내지 약 1000 um, 약 100 um 내지 약 1000 um, 약 200 um 내지 약 1000 um, 약 300 um 내지 약 1000 um, 약 400 um 내지 약 1000 um, 또는 약 500 um 내지 약 1000 um이다. 일부 경우에, 웰의 높이는 약 1000 um 미만, 약 900 um 미만, 약 800 um 미만, 약 700 um 미만, 또는 약 600 um 미만이다.
일부 경우에, 장치는 클러스터 내의 복수의 좌위에 해당하는 복수의 채널을 포함하며, 여기서 채널의 높이 또는 깊이는 약 5 um 내지 약 500 um, 약 5 um 내지 약 400 um, 약 5 um 내지 약 300 um, 약 5 um 내지 약 200 um, 약 5 um 내지 약 100 um, 약 5 um 내지 약 50 um, 또는 약 10 um 내지 약 50 um이다. 일부 경우에, 채널의 높이는 100 um 미만, 80 um 미만, 60 um 미만, 40 um 미만 또는 20 um 미만이다.
일부 경우에, 채널, 좌위(예를 들어, 실질적으로 평면인 기재에서) 또는 채널과 좌위 모두(예를 들어, 좌위가 채널에 해당하는 3차원 장치에서)의 직경은 약 1 um 내지 약 1000 um, 약 1 um 내지 약 500 um, 약 1 um 내지 약 200 um, 약 1 um 내지 약 100 um, 약 5 um 내지 약 100 um, 또는 약 10 um 내지 약 100 um, 예를 들어, 약 90 um, 80 um, 70 um, 60 um, 50 um, 40 um, 30 um, 20 um 또는 10 um이다. 일부 경우에, 채널, 좌위, 또는 채널과 좌위 모두의 직경은 약 100 um, 90 um, 80 um, 70 um, 60 um, 50 um, 40 um, 30 um, 20 um 또는 10 um 미만이다. 일부 경우에, 2개의 인접한 채널, 좌위, 또는 채널과 좌위의 중심으로부터의 거리는 약 1 um 내지 약 500 um, 약 1 um 내지 약 200 um, 약 1 um 내지 약 100 um, 약 5 um 내지 약 200 um, 약 5 um 내지 약 100 um, 약 5 um 내지 약 50 um, 또는 약 5 um 내지 약 30 um, 예를 들어, 약 20 um이다.
표면 개질
다양한 경우에, 가감 공정에 의한 표면의 화학적 및/또는 물리적 변경을 위해 표면 개질을 사용하여 장치 표면 또는 장치 표면의 선택된 부위 또는 영역의 하나 이상의 화학적 및/또는 물리적 특성을 변경한다. 예를 들어, 표면 개질에는 (1) 표면의 습윤 특성 변경, (2) 표면 작용기화, 즉, 표면 작용기 제공, 변형 또는 대체, (3) 표면 탈작용기화, 즉 표면 작용기 제거 (4) 그렇지 않으면 예를 들어 에칭을 통해, 표면의 화학 조성 변경, (5) 표면 거칠기 증가 또는 감소, (6) 표면에 코팅 제공, 예를 들어 표면의 습윤 특성과 상이한 습윤 특성을 나타내는 코팅 제공, 및/또는 (7) 표면에 미립자 침착이 제한 없이 포함된다.
일부 경우에, 표면 상단에 화학 층을 추가하면(접착 촉진제로 지칭됨) 기재 표면에서 좌위의 구조화된 패터닝이 용이해진다. 접착 촉진의 적용을 위한 예시적인 표면은 유리, 실리콘, 이산화규소 및 질화규소를 제한 없이 포함한다. 일부 경우에, 접착 촉진제는 표면 에너지가 높은 화학 물질이다. 일부 경우에, 제2 화학 층을 기재판의 표면에 침착시킨다. 일부 경우에, 제2 화학층은 낮은 표면 에너지를 갖는다. 일부 경우에, 표면에 코팅된 화학 층의 표면 에너지는 표면에 액적의 위치 지정을 지원한다. 선택된 패터닝 배열에 따라, 좌위의 근접성 및/또는 좌위에서 유체 접촉 영역은 변경 가능하다.
일부 경우에, 예를 들어 폴리뉴클레오티드 합성을 위해, 핵산 또는 기타 모이어티가 침착된 장치 표면, 또는 분해된 좌위는 매끄럽거나 실질적으로 평면(예를 들어, 2차원적)이거나 돌출 또는 함몰된 피처(예를 들어, 3차원적 피처)와 같이 불규칙성을 갖는다. 일부 경우에, 장치 표면은 하나 이상의 상이한 화합물 층으로 개질된다. 이러한 관심의 개질 층은 금속, 금속 산화물, 중합체, 유기 소분자 등과 같은 무기 및 유기 층을 제한 없이 포함한다. 비제한적인 중합체 층에는 펩티드, 단백질, 핵산 또는 이들의 모방체(예를 들어, 펩티드 핵산 등), 다당류, 인지질, 폴리우레탄, 폴리에스테르, 폴리카보네이트, 폴리우레아, 폴리아미드, 폴리에틸렌아민, 폴리아릴렌 설피드, 폴리실록산, 폴리이미드, 폴리아세테이트, 및 본원에 기재되거나 달리 당 업계에 공지된 임의의 다른 적합한 화합물이 포함한다. 일부 경우에, 중합체는 이종 중합체이다. 일부 경우에, 중합체는 동종중합체이다. 일부 경우에, 중합체는 작용성 모이어티를 포함하거나 접합된다.
일부 경우에, 장치의 분해된 좌위는 표면 에너지를 증가 및/또는 감소시키는 하나 이상의 모이어티로 작용기화된다. 일부 경우에, 모이어티가 화학적으로 불활성이다. 일부 경우에, 모이어티는 원하는 화학 반응, 예를 들어 폴리뉴클레오티드 합성 반응에서 하나 이상의 공정을 지원하도록 구성된다. 표면의 표면 에너지 또는 소수성은 표면에 부착되는 뉴클레오티드의 친화도를 결정하는 요소이다. 일부 경우에, 장치 작용기화를 위한 방법은 (a) 이산화규소를 포함하는 표면을 갖는 장치를 제공하는 단계; 및 (b) 본원에 기재되거나 달리 당 업계에 공지된 적합한 실란화제, 예를 들어 유기작용성 알콕시실란 분자를 사용하여 표면을 실란화하는 단계를 포함한다.
일부 경우에, 유기 작용성 알콕시실란 분자는 디메틸클로로-옥토데실-실란, 메틸디클로로-옥토데실-실란, 트리클로로-옥토데실-실란, 트리메틸-옥토데실-실란, 트리에틸-옥토데실-실란, 또는 이들의 임의의 조합을 포함한다. 일부 경우에, 장치 표면은 폴리에틸렌/폴리프로필렌으로 작용기화된(감마 조사 또는 크롬산 산화, 및 히드록시알킬 표면으로의 환원에 의해 작용기화된) 것, 고도로 가교된 폴리스티렌-디비닐벤젠(클로로메틸화에 의해 유도체화되고 벤질아민 작용성 표면으로 아민화됨), 나일론(말단 아미노헥실기는 직접적으로 반응성임), 또는 환원된 폴리테트라플루오로에틸렌으로 에칭된 것을 포함한다. 다른 방법 및 작용기화제는 미국 특허 제5474796호에 기재되어 있으며, 이는 그 전체가 본원에 참고로 포함된다.
일부 경우에, 장치 표면은 전형적으로 장치 표면에 존재하는 반응성 친수성 모이어티를 통해, 장치 표면에 실란을 커플링하기에 효과적인 반응 조건하에서 실란 혼합물을 함유하는 유도체화 조성물과의 접촉에 의해 작용기화된다. 실란화는 일반적으로 유기 작용성 알콕시실란 분자와의 자가 어셈블리를 통해 표면을 덮는다.
다양한 실록산 작용기화 시약은 예를 들어 표면 에너지를 낮추거나 증가시키기 위해 당 업계에 현재 알려진 바와 같이 추가로 사용될 수 있다. 유기 작용성 알콕시실란은 유기 작용성에 따라 분류될 수 있다.
뉴클레오시드에 커플링할 수 있는 작용제의 패터닝을 포함할 수 있는 장치가 본원에 제공된다. 일부 경우에, 장치는 능동 작용제로 코팅될 수 있다. 일부 경우에, 장치는 수동 작용제로 코팅될 수 있다. 본원에 기재된 코팅 물질에 포함시키기 위한 예시적인 능동 작용제는 N-(3-트리에톡시실릴프로필)-4-히드록시부티르아미드(HAPS), 11-아세톡시운데실트리에톡시실란, n-데실트리에톡시실란, (3-아미노프로필)트리메톡시실란, (3-아미노프로필) 트리에톡시실란, 3-글리시독시프로필트리메톡시실란(GOPS), 3-요오도-프로필트리메톡시실란, 부틸-알데히드-트리메톡시실란, 이량체 2차 아미노알킬 실록산, (3-아미노프로필)-디에톡시-메틸실란, (3-아미노프로필)-디메틸-에톡시실란, 및 (3-아미노프로필)-트리메톡시실란, (3-글리시독시프로필)-디메틸-에톡시실란, 글리시독시-트리메톡시실란, (3-메르캅토프로필)-트리메톡시실란, 3-4 에폭시시클로헥실-에틸트리메톡시실란, 및 (3-메르캅토프로필)-메틸-디메톡시실란, 알릴 트리클로로클로로실란, 7-옥트-1-에닐 트리클로로클로로실란, 또는 비스(3-트리메톡시실릴프로필) 아민을 제한 없이 포함한다.
본원에 기재된 코팅 물질에 포함시키기 위한 예시적인 수동 작용제는 퍼플루오로옥틸트리클로로실란; 트리데카플루오로-1,1,2,2-테트라히드로옥틸)트리클로로실란; 1H, 1H, 2H, 2H-플루오로옥틸트리에톡시실란(FOS); 트리클로로(1H, 1H, 2H, 2H-퍼플루오로옥틸)실란; tert-부틸-[5-플루오로-4-(4,4,5,5-테트라메틸-1,3,2-디옥사보롤란-2-일)인돌-1-일]-디메틸-실란; CYTOP™, Fluorinert™, 퍼플루오로옥틸트리클로로실란(PFOTCS); 퍼플루오로옥틸디메틸클로로실란(PFODCS); 퍼플루오로데실트리에톡시실란(PFDTES); 펜타플루오로페닐-디메틸프로필클로로-실란(PFPTES); 퍼플루오로옥틸트리에톡시실란; 퍼플루오로옥틸트리메톡시실란; 옥틸클로로실란; 디메틸클로로-옥토데실-실란; 메틸디클로로-옥토데실-실란; 트리클로로-옥토데실-실란; 트리메틸-옥토데실-실란; 트리에틸-옥토데실-실란; 또는 옥타데실트리클로로실란을 제한 없이 포함한다.
일부 경우에, 작용기화제는 옥타데실트리클로로실란과 같은 탄화수소 실란을 포함한다. 일부 경우에, 작용기화제는 11-아세톡시운데실트리에톡시실란, n-데실트리에톡시실란, (3-아미노프로필)트리메톡시실란, (3-아미노프로필)트리에톡시실란, 글리시딜옥시프로필/트리메톡시실란 및 N-(3-트리에톡시실릴프로필)-4-히드록시부티르아미드를 포함한다.
폴리뉴클레오티드 합성
폴리뉴클레오티드 합성을 위한 본 개시 내용의 방법은 포스포라미다이트 화학을 포함하는 공정을 포함할 수 있다. 일부 경우에, 폴리뉴클레오티드 합성은 염기를 포스포라미다이트와 커플링하는 단계를 포함한다. 폴리뉴클레오티드 합성은 커플링 조건하에 포스포라미다이트의 침착에 의해 염기를 커플링하는 단계를 포함할 수 있으며, 여기서 동일한 염기는 선택적으로 1회 초과, 즉 이중 커플링으로 포스포라미다이트로 침착된다. 폴리뉴클레오티드 합성은 미반응 부위의 캡핑을 포함할 수 있다. 일부 경우에, 캡핑은 선택적이다. 폴리뉴클레오티드 합성은 또한 산화 또는 산화 단계 또는 산화 단계들을 포함할 수 있다. 폴리뉴클레오티드 합성은 탈차단, 탈트리틸화, 및 황화를 포함할 수 있다. 일부 경우에, 폴리뉴클레오티드 합성은 산화 또는 황화를 포함한다. 일부 경우에, 폴리뉴클레오티드 합성 반응 중에 하나 또는 각 단계 사이에서 장치는 예를 들어 테트라졸 또는 아세토니트릴을 사용하여 세척된다. 포스포라미다이트 합성 방법에서 임의의 한 단계에 대한 시간은 약 2분, 1분, 50초, 40초, 30초, 20초 및 10초 미만일 수 있다.
포스포라미다이트 방법을 사용한 폴리뉴클레오티드 합성은 포스파이트 트리에스터 연결의 형성을 위해 성장하는 폴리뉴클레오티드 사슬에 포스포라미다이트 빌딩 블록(예를 들어, 뉴클레오시드 포스포라미다이트)의 후속적 첨가를 포함할 수 있다. 포스포라미다이트 폴리뉴클레오티드 합성은 3'에서 5' 방향으로 진행된다. 포스포라미다이트 폴리뉴클레오티드 합성은 합성 사이클마다 성장하는 핵산 사슬에 하나의 뉴클레오티드를 제어하여 추가할 수 있다. 일부 경우에, 각 합성 사이클은 커플링 단계를 포함한다. 포스포라미다이트 커플링은 활성화된 뉴클레오시드 포스포라미다이트와 예를 들어 링커를 통해 기재에 결합된 뉴클레오시드 사이의 포스파이트 트리에스테르 결합의 형성을 포함한다. 일부 경우에, 뉴클레오시드 포스포라미다이트가 활성화된 장치에 제공된다. 일부 경우에, 뉴클레오시드 포스포라미다이트는 활성화제와 함께 장치에 제공된다. 일부 경우에, 뉴클레오시드 포스포라미다이트는 기재-결합된 뉴클레오시드에 비해 1.5, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 50, 60, 70, 80, 90, 100배 이상 초과량으로 장치에 제공된다. 일부 경우에, 뉴클레오시드 포스포라미다이트의 첨가는 무수 환경, 예를 들어 무수 아세토니트릴에서 수행된다. 뉴클레오시드 포스포라미다이트를 첨가한 후, 장치는 선택적으로 세척된다. 일부 경우에, 커플링 단계는 선택적으로 기재에 뉴클레오시드 포스포라미다이트 첨가 사이의 세척 단계와 함께 1회 이상 추가 횟수로 반복된다. 일부 경우에, 본원에 사용된 폴리뉴클레오티드 합성 방법은 1, 2, 3회 이상의 순차적 커플링 단계를 포함한다. 커플링 전에, 많은 경우에, 장치에 결합된 뉴클레오시드는 보호기를 제거하여 탈보호되며, 여기서 보호기는 중합을 방지하는 기능을 한다. 일반적인 보호 기는 4,4'-디메톡시트리틸(DMT)이다.
커플링 후, 포스포라미다이트 폴리뉴클레오티드 합성 방법은 선택적으로 캡핑 단계를 포함한다. 캡핑 단계에서, 성장하는 폴리뉴클레오티드를 캡핑제로 처리한다. 캡핑 단계는 커플링 후 반응되지 않은 기재-결합된 5'-OH 기를 추가 사슬 연장으로부터 차단하여 내부 염기 결실이 있는 폴리뉴클레오티드의 형성을 방지하는 데 유용하다. 또한, 1H-테트라졸로 활성화된 포스포라미다이트는 구아노신의 O6 위치와 약간 반응할 수 있다. 이론에 얽매이지 않고, I2/물로 산화될 때, 아마도 O6-N7 이동을 통한 이 부산물은 탈퓨린화를 거칠 수 있다. 아퓨린 부위는 폴리뉴클레오티드의 최종 탈보호 과정에서 결국 절단되어 전체 길이 산물의 수율을 감소시킬 수 있다. O6 변형은 I2/물로 산화되기 전에 캡핑 시약으로 처리하여 제거할 수 있다. 일부 경우에, 폴리뉴클레오티드 합성 동안 캡핑 단계를 포함하면 캡핑 없는 합성과 비교하여 오류율이 감소한다. 예로서, 캡핑 단계는 기재-결합된 폴리뉴클레오티드를 아세트산 무수물과 1-메틸이미다졸의 혼합물로 처리하는 단계를 포함한다. 캡핑 단계 후에, 장치는 선택적으로 세척된다.
일부 경우에, 뉴클레오시드 포스포라미다이트의 첨가 후, 그리고 선택적으로 캡핑 및 하나 이상의 세척 단계 후에, 장치에 결합된 성장 핵산은 산화된다. 산화 단계는 포스파이트 트리에스테르가 자연 발생 포스페이트 디에스테르 뉴클레오시드 간 연결의 보호된 전구체인 4배위 포스페이트 트리에스테르로 산화되는 것을 포함한다. 일부 경우에, 성장하는 폴리뉴클레오티드의 산화는 선택적으로 약염기(예를 들어, 피리딘, 루티딘, 콜리딘)의 존재하에 요오드 및 물로 처리함으로써 달성된다. 산화는 예를 들어, tert-부틸 히드로퍼옥시드 또는 (1S)-(+)-(10-캄포설포닐)-옥사지리딘(CSO)을 사용하여 무수 조건하에서 수행될 수 있다. 일부 방법에서, 캡핑 단계는 산화 후에 수행된다. 지속될 수 있는 산화로부터의 잔류하는 물이 후속 커플링을 억제할 수 있기 때문에 두 번째 캡핑 단계는 장치 건조를 허용한다. 산화 후, 장치 및 성장하는 폴리뉴클레오티드는 선택적으로 세척된다. 일부 경우에, 산화 단계는 폴리뉴클레오티드 포스포로티오에이트를 수득하기 위한 황화 단계로 대체되며, 여기서 임의의 캡핑 단계는 황화 후에 수행될 수 있다. 3-(디메틸아미노메틸리덴)아미노)-3H-1,2,4-디티아졸-3-티온, DDTT, Beaucage 시약으로도 알려진 3H-1,2-벤조디티올-3-온 1,1-디옥시드, 및 N,N,N'N'-테트라에틸티우람 디설파이드(TETD)를 포함한 많은 시약이 효율적으로 황을 전달할 수 있다.
뉴클레오시드 혼입의 후속 사이클이 커플링을 통해 발생하도록 하기 위해, 장치에 결합된 성장 폴리뉴클레오티드의 보호된 5' 말단을 제거하여 1차 히드록실 기가 다음 뉴클레오시드 포스포라미다이트와 반응성이 되도록 한다. 일부 경우에, 보호기는 DMT이고 디클로로메탄에서 트리클로로아세트산으로 탈차단이 발생한다. 연장된 시간 동안 또는 권장되는 산 용액보다 더 강한 용액으로 탈트리틸화를 수행하면 고체 지지체 결합된 폴리뉴클레오티드의 탈퓨린화가 증가하여 원하는 전장 산물의 수율이 감소할 수 있다. 본원에 기재된 개시 내용의 방법 및 조성물은 원하지 않은 탈퓨린화 반응을 제한하는 제어된 탈차단 조건을 제공한다. 일부 경우에, 장치에 결합된 폴리뉴클레오티드는 탈차단 후에 세척된다. 일부 경우에, 탈차단 후의 효율적인 세척은 오류율이 낮은 폴리뉴클레오티드 합성에 기여한다.
폴리뉴클레오티드의 합성 방법은 일반적으로 반복되는 순서의 다음 단계들을 포함한다: 활성화된 표면, 링커 또는 이전에 탈보호된 단량체와 연결하기 위해 능동적으로 작용기화된 표면(예를 들어, 좌위)에 보호된 단량체의 적용; 후속적으로 적용된 보호된 단량체와 반응성이도록 하기 위해 적용된 단량체의 탈보호; 및 연결을 위한 또 다른 보호된 단량체의 적용. 하나 이상의 중간 단계에는 산화 또는 황화가 포함된다. 일부 경우에, 하나 이상의 세척 단계가 하나 또는 모든 단계를 선행하거나 뒤따른다.
포스포라미다이트 기반 폴리뉴클레오티드 합성 방법은 일련의 화학적 단계를 포함한다. 일부 경우에, 합성 방법의 하나 이상의 단계는 시약 순환을 포함하며, 여기서 방법의 하나 이상의 단계는 단계에 유용한 시약을 장치에 적용하는 것을 포함한다. 예를 들어, 시약은 일련의 액체 침착 및 진공 건조 단계로 순환된다. 웰, 마이크로웰, 채널 등과 같은 3차원 피처를 포함하는 기재의 경우, 시약은 선택적으로 웰 및/또는 채널을 통해 장치의 하나 이상의 영역을 통과한다.
본원에 기재된 방법 및 시스템은 폴리뉴클레오티드 합성을 위한 폴리뉴클레오티드 합성 장치에 관한 것이다. 합성은 병렬로 일어날 수 있다. 예를 들어, 적어도 또는 대략 적어도 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 30, 35, 40, 45, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 650, 700, 750, 800, 850, 900, 1000, 10000, 50000, 75000, 100000개 이상의 폴리뉴클레오티드가 병렬로 합성될 수 있다. 병렬로 합성될 수 있는 총 폴리뉴클레오티드 수는 2-100000, 3-50000, 4-10000, 5-1000, 6-900, 7-850, 8-800, 9-750, 10-700, 11-650, 12-600, 13-550, 14-500, 15-450, 16-400, 17-350, 18-300, 19-250, 20-200, 21-150, 22-100, 23-50, 24-45, 25-40, 30-35개일 수 있다. 당업자는 병렬로 합성되는 폴리뉴클레오티드의 총 수가 이들 임의의 값에 의해 경계를 이루는 임의의 범위, 예를 들어 25-100개 내에 속할 수 있음을 이해한다. 병렬로 합성되는 폴리뉴클레오티드의 총 수는 범위의 종점으로서 역할을 하는 임의의 값에 의해 정의된 임의의 범위 내에 속할 수 있다. 장치 내에서 합성되는 폴리뉴클레오티드의 총 몰 질량 또는 각각의 폴리뉴클레오티드의 몰 질량은 적어도 또는 적어도 약 10, 20, 30, 40, 50, 100, 250, 500, 750, 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 25000, 50000, 75000, 100000 피코몰 이상일 수 있다. 장치 내의 각각의 폴리뉴클레오티드의 길이 또는 폴리뉴클레오티드의 평균 길이는 적어도 또는 대략 적어도 10, 15, 20, 25, 30, 35, 40, 45, 50, 100, 150, 200, 300, 400, 500개 이상의 뉴클레오티드일 수 있다. 장치 내의 각각의 폴리뉴클레오티드의 길이 또는 폴리뉴클레오티드의 평균 길이는 최대 또는 대략 최대 500, 400, 300, 200, 150, 100, 50, 45, 35, 30, 25, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10개 이하의 뉴클레오티드일 수 있다. 장치 내의 각각의 폴리뉴클레오티드의 길이 또는 폴리뉴클레오티드의 평균 길이는 10-500, 9-400, 11-300, 12-200, 13-150, 14-100, 15-50, 16-45, 17-40, 18-35, 19-25개에 속할 수 있다. 당업자는 장치 내의 각각의 폴리뉴클레오티드의 길이 또는 폴리뉴클레오티드의 평균 길이가 이들 임의의 값에 의해 경계를 이루는 임의의 범위, 예를 들어 100-300개 내에 속할 수 있음을 이해한다. 장치 내의 각각의 폴리뉴클레오티드의 길이 또는 폴리뉴클레오티드의 평균 길이는 범위의 종점으로서 역할을 하는 임의의 값에 의해 정의된 임의의 범위 내에 속할 수 있다.
본원에 제공된 표면에서 폴리뉴클레오티드 합성을 위한 방법은 빠른 속도로 합성을 가능하게 한다. 예로서, 시간당 적어도 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 55, 60, 70, 80, 90, 100, 125, 150, 175, 200개 이상의 뉴클레오티드가 합성된다. 뉴클레오티드에는 아데닌, 구아닌, 티민, 시토신, 우리딘 빌딩 블록, 또는 이들의 유사체/변형된 형태가 포함된다. 일부 경우에, 폴리뉴클레오티드의 라이브러리는 기재에서 병렬로 합성된다. 예를 들어, 약 또는 적어도 약 100; 1,000; 10,000; 30,000; 75,000; 100,000; 1,000,000; 2,000,000; 3,000,000; 4,000,000; 또는 5,000,000개의 분해된 좌위를 포함하는 장치는 적어도 동일한 수의 별개의 폴리뉴클레오티드의 합성을 지원할 수 있으며, 여기서 별개의 서열을 코딩하는 폴리뉴클레오티드는 분해된 좌위에서 합성된다. 일부 경우에, 폴리뉴클레오티드의 라이브러리는 약 3개월, 2개월, 1개월, 3주, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2일, 24시간 이하 이내에 본원에 기재된 낮은 오류율로 장치에서 합성된다. 일부 경우에, 본원에 기재된 기재 및 방법을 사용하여 낮은 오류율로 합성된 폴리뉴클레오티드 라이브러리로부터 어셈블리된 더 큰 핵산은 약 3개월, 2개월, 1개월, 3주, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2일, 24시간 이하 이내에 제조된다.
일부 경우에, 본원에 기재된 방법은 복수의 코돈 부위에서 상이한 변이 폴리뉴클레오티드를 포함하는 폴리뉴클레오티드 라이브러리의 생성을 제공한다. 일부 경우에, 폴리뉴클레오티드는 1개 부위, 2개 부위, 3개 부위, 4개 부위, 5개 부위, 6개 부위, 7개 부위, 8개 부위, 9개 부위, 10개 부위, 11개 부위, 12개 부위, 13개 부위, 14개 부위, 15개 부위, 16개 부위, 17개 부위 18개 부위, 19개 부위, 20개 부위, 30개 부위, 40개 부위, 50개 부위 이상의 변이 코돈 부위를 가질 수 있다.
일부 경우에, 변이 코돈 부위의 하나 이상의 부위는 인접할 수 있다. 일부 경우에, 변이 코돈 부위의 하나 이상의 부위는 인접하지 않을 수 있고 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상의 코돈에 의해 분리될 수 있다.
일부 경우에, 폴리뉴클레오티드는 다중 부위의 변이 코돈 부위를 포함할 수 있으며, 여기서 모든 변이 코돈 부위는 서로 인접하여 변이 코돈 부위 스트레치를 형성한다. 일부 경우에, 폴리뉴클레오티드는 다중 부위의 변이 코돈 부위를 포함할 수 있으며, 여기서 변이 코돈 부위는 서로 인접하지 않는다. 일부 경우에, 폴리뉴클레오티드는 다중 부위의 변이 코돈 부위를 포함할 수 있고, 여기서 일부 변이 코돈 부위는 서로 인접하여 변이 코돈 부위의 스트레치를 형성하고, 일부 변이 코돈 부위는 서로 인접하지 않는다.
도면을 참조하면, [도 11]은 더 짧은 폴리뉴클레오티드로부터 핵산(예를 들어, 유전자)의 합성을 위한 예시적인 공정 작업 흐름을 예시한다. 작업 흐름은 일반적으로 (1) 단일 가닥 폴리뉴클레오티드 라이브러리의 데노보 합성, (2) 폴리뉴클레오티드를 결합하여 더 큰 단편을 형성하는 단계, (3) 오류 수정, (4) 품질 관리, 및 (5) 배송 단계로 나뉜다. 데노보 합성에 앞서, 의도된 핵산 서열 또는 핵산 서열 군이 미리 선택된다. 예를 들어, 유전자 군은 생성을 위해 미리 선택된다.
생성을 위한 큰 폴리뉴클레오티드가 선택되면, 데노보 합성을 위해 폴리뉴클레오티드의 미리 결정된 라이브러리가 설계된다. 고밀도 폴리뉴클레오티드 어레이를 생성하기 위한 다양한 적합한 방법이 알려져 있다. 작업 흐름 예에서, 장치 표면 층(1101)이 제공된다. 이 예에서, 표면 화학은 폴리뉴클레오티드 합성 공정을 개선하기 위해 변경된다. 낮은 표면 에너지 영역은 액체를 밀어내기 위해 생성되고 높은 표면 에너지 영역은 액체를 끌어당기기 위해 생성된다. 표면 자체는 평면 표면의 형태이거나 표면적을 증가시키는 돌출부 또는 마이크로웰과 같은 형태의 변화를 포함할 수 있다. 작업 흐름 예에서, 선택된 고 표면 에너지 분자는 그 전체가 본원에 참고로 포함되는 국제 특허 출원 공개 WO/2015/021080에 개시된 바와 같이 DNA 화학을 지원하는 이중 기능을 제공한다.
폴리뉴클레오티드 어레이의 인시츄 제조는 고체 지지체 상에 생성되고 단일 뉴클레오티드 연장 공정을 사용하여 다중 올리고머를 병렬로 연장시킨다. 폴리뉴클레오티드 합성기와 같은 재료 침착 장치는 여러 폴리뉴클레오티드가 병렬로 한 번에 하나의 잔기를 연장시켜 미리 결정된 핵산 서열을 갖는 올리고머(1102)를 생성하도록 단계적 방식으로 시약을 방출하도록 설계된다. 일부 경우에, 폴리뉴클레오티드는 이 단계에서 표면에서 절단된다. 절단은 예를 들어 암모니아 또는 메틸아민을 이용한 기체 절단을 포함한다.
생성된 폴리뉴클레오티드 라이브러리를 반응 챔버에 배치한다. 이 예시적인 작업 흐름에서, 반응 챔버("나노반응기"라고도 함)는 PCR 시약을 포함하고 폴리뉴클레오티드 라이브러리(1103) 위에 함몰된 실리콘 코팅된 웰이다. 폴리뉴클레오티드의 밀봉(1104) 전 또는 후에, 시약을 첨가하여 폴리뉴클레오티드를 기재로부터 방출한다. 예시적인 작업 흐름에서, 폴리뉴클레오티드는 나노반응기(1105)의 밀봉 후에 방출된다. 일단 방출되면, 단일 가닥 폴리뉴클레오티드의 단편은 DNA의 전체 긴 범위 서열에 걸쳐지도록 혼성화된다. 부분적 혼성화(1105)는 합성된 각각의 폴리뉴클레오티드가 집단 내의 적어도 하나의 다른 폴리뉴클레오티드와 중첩되는 작은 부분을 갖도록 설계되기 때문에 가능하다.
혼성화 후, PCR 반응이 시작된다. 폴리머라제 사이클 동안, 폴리뉴클레오티드는 상보적인 단편에 어닐링되고 폴리머라제에 의해 갭이 채워진다. 각 사이클은 서로를 찾는 폴리뉴클레오티드에 따라 다양한 단편의 길이를 무작위로 늘린다. 단편 간의 상보성은 완전한 큰 범위의 이중 가닥 DNA(1106)을 형성할 수 있다.
PCR이 완료된 후, 나노반응기는 장치(1107)에서 분리되고 PCR을 위한 프라이머를 갖는 장치(1108)와의 상호작용을 위해 위치된다. 밀봉 후, 나노반응기는 PCR(1109)을 거치고 더 큰 핵산이 증폭된다. PCR(1110) 후, 나노챔버를 열고(1111), 오류 수정 시약을 첨가하고(1112), 챔버를 밀봉하고(1113), 이중 가닥 PCR 증폭 산물(1114)로부터 불일치 염기쌍 및/또는 상보성이 불량한 가닥을 제거하기 위해 오류 수정 반응이 일어난다. 나노반응기를 열고 분리시킨다(1115). 오류 수정된 산물은 다음으로 PCR 및 분자 바코딩과 같은 추가 처리 단계를 거친 다음 배송(1123)을 위해 포장(1122)된다.
일부 경우에, 품질 관리 조치가 취해진다. 오류 수정 후, 품질 관리 단계는 예를 들어 오류 수정된 산물(1116)의 증폭을 위한 시퀀싱 프라이머를 갖는 웨이퍼와의 상호작용, 오류 수정된 증폭 산물(1117)을 포함하는 챔버에 웨이퍼를 밀봉하는 단계, 및 추가 라운드의 증폭(1118)을 수행하는 단계를 포함한다. 나노반응기를 열고(1119) 산물을 풀링(1120) 및 시퀀싱(1121)한다. 허용 가능한 품질 관리 결정이 이루어진 후, 포장된 산물(1122)은 배송을 위해 승인된다(1123).
일부 경우에, [도 11]에서와 같은 작업 흐름에 의해 생성된 핵산은 본원에 개시된 중첩 프라이머를 사용하여 돌연변이 유발을 거친다. 일부 경우에, 프라이머 라이브러리는 고체 지지체 상에서 인시츄 제조에 의해 생성되고 단일 뉴클레오티드 연장 공정을 활용하여 다중 올리고머를 병렬로 연장시킨다. 폴리뉴클레오티드 합성기와 같은 침착 장치는 여러 폴리뉴클레오티드가 한 번에 하나의 잔기를 병렬로 연장시켜 미리 결정된 핵산 서열(1102)을 갖는 올리고머를 생성하도록 단계적 방식으로 시약을 방출하도록 설계된다.
오류률이 낮은 대형 폴리뉴클레오티드 라이브러리
제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드의 평균 오류율은 종종 1/1000 미만, 1/1250 미만, 1/1500 미만, 1/2000 미만, 1/3000 미만 또는 그 이하일 수 있다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 평균 오류율은 1/500, 1/600, 1/700, 1/800, 1/900, 1/1000, 1/1100, 1/1200, 1/1250, 1/1300, 1/1400, 1/1500, 1/1600, 1/1700, 1/1800, 1/1900, 1/2000, 1/3000 이하 미만이다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드의 평균 오류율은 1/1000 미만이다.
일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 집계 오류율은 미리 정해진 서열과 비교하여 1/500, 1/600, 1/700, 1/800, 1/900, 1/1000, 1/1100, 1/1200, 1/1250, 1/1300, 1/1400, 1/1500, 1/1600, 1/1700, 1/1800, 1/1900, 1/2000, 1/3000 이하 미만이다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 집계 오류율은 1/500, 1/600, 1/700, 1/800, 1/900, 또는 1/1000 미만이다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 집계 오류율은 1/1000 미만이다.
일부 경우에, 오류 수정 효소는 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 사용될 수 있다. 일부 경우에, 오류 수정을 포함하는 폴리뉴클레오티드에 대한 집계 오류율은 미리 정해진 서열과 비교하여 1/500, 1/600, 1/700, 1/800, 1/900, 1/1000, 1/1100, 1/1200, 1/1300, 1/1400, 1/1500, 1/1600, 1/1700, 1/1800, 1/1900, 1/2000, 1/3000 이하 미만일 수 있다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 오류 수정을 포함하는 집계 오류율은 1/500, 1/600, 1/700, 1/800, 1/900, 또는 1/1000 미만일 수 있다. 일부 경우에, 제공된 시스템 및 방법을 사용하여 라이브러리 내에서 합성된 폴리뉴클레오티드에 대한 오류 수정을 포함하는 집계 오류율은 1/1000 미만일 수 있다.
오류율은 유전자 변이체 라이브러리의 생산을 위한 유전자 합성의 가치를 제한할 수 있다. 1/300의 오류율이 있다면, 1500개의 염기쌍의 유전자 내의 클론의 약 0.7%가 정확할 것이다. 폴리뉴클레오티드 합성에서 발생하는 대부분의 오류로 인해 프레임 이동 돌연변이가 발생하므로 이러한 라이브러리 내의 클론의 99% 이상이 전장 단백질을 생성하지 않을 것이다. 오류율을 75% 감소시키면 정확한 클론의 분율이 40배 증가한다. 본 개시 내용의 방법 및 조성물은 향상된 합성 품질과 대규모 병렬과 시간 효율적인 방식으로 가능해지는 오류 수정 방법의 적용 가능성으로 인해 일반적으로 관찰되는 유전자 합성 방법보다 오류율이 낮은 대형 폴리뉴클레오티드 및 유전자 라이브러리의 신속한 데노보 합성을 허용한다. 따라서, 라이브러리는 라이브러리에 걸쳐, 또는 80%, 85%, 90%, 93%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.8%, 99.9%, 99.95%, 99.98%, 99.99% 이상 초과의 라이브러리에 걸쳐 1/300, 1/400, 1/500, 1/600, 1/700, 1/800, 1/900, 1/1000, 1/1250, 1/1500, 1/2000, 1/2500, 1/3000, 1/4000, 1/5000, 1/6000, 1/7000, 1/8000, 1/9000, 1/10000, 1/12000, 1/15000, 1/20000, 1/25000, 1/30000, 1/40000, 1/50000, 1/60000, 1/70000, 1/80000, 1/90000, 1/100000, 1/125000, 1/150000, 1/200000, 1/300000, 1/400000, 1/500000, 1/600000, 1/700000, 1/800000, 1/900000, 1/1000000 이하 미만인 염기 삽입, 결실, 치환, 또는 총 오류율로 합성될 수 있다. 본 개시내용의 방법 및 조성물은 추가로 미리 결정된/미리 선택된 서열과 비교하여 오류가 없는 서열과 관련된 라이브러리의 적어도 일부에서 적어도 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 93%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.8%, 99.9%, 99.95%, 99.98%, 99.99% 이상의 폴리뉴클레오티드 또는 유전자와 관련된 오류율이 낮은 대형 합성 폴리뉴클레오티드 및 유전자 라이브러리에 관한 것이다. 일부 경우에, 라이브러리 내의 단리된 부피에서 적어도 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 93%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.8%, 99.9%, 99.95%, 99.98%, 99.99% 이상의 임의의 폴리뉴클레오티드 또는 유전자는 동일한 서열을 갖는다. 일부 경우에, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.6%, 99.7%, 99.8%, 99.9% 이상 초과의 유사성 또는 동일성과 관련된 적어도 30%, 40%, 50%, 60%, 70%, 75%, 80%, 85%, 90%, 93%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.8%, 99.9%, 99.95%, 99.98%, 99.99% 이상의 임의의 폴리펩티드 또는 유전자는 동일한 서열을 갖는다. 일부 경우에, 폴리뉴클레오티드 또는 유전자상의 지정된 좌위와 관련된 오류율이 최적화된다. 따라서, 대형 라이브러리의 일부로서 하나 이상의 폴리뉴클레오티드 또는 유전자의 주어진 좌위 또는 복수의 선택된 좌위는 각각 1/300, 1/400, 1/500, 1/600, 1/700, 1/800, 1/900, 1/1000, 1/1250, 1/1500, 1/2000, 1/2500, 1/3000, 1/4000, 1/5000, 1/6000, 1/7000, 1/8000, 1/9000, 1/10000, 1/12000, 1/15000, 1/20000, 1/25000, 1/30000, 1/40000, 1/50000, 1/60000, 1/70000, 1/80000, 1/90000, 1/100000, 1/125000, 1/150000, 1/200000, 1/300000, 1/400000, 1/500000, 1/600000, 1/700000, 1/800000, 1/900000, 1/1000000 이하 미만인 오류율을 갖는다. 다양한 경우에, 이러한 오류 최적화된 좌위는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 30000, 50000, 75000, 100000, 500000, 1000000, 2000000, 3000000개 이상의 좌위를 포함할 수 있다. 오류 최적화된 좌위는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 25, 30, 35, 40, 45, 50, 60, 70, 80, 90, 100, 200, 300, 400, 500, 600, 700, 800, 900, 1000, 1500, 2000, 2500, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000, 30000, 75000, 100000, 500000, 1000000, 2000000, 3000000개 이상의 폴리뉴클레오티드 또는 유전자에 분포될 수 있다.
오류율은 오류 수정이 있거나 없이 달성될 수 있다. 오류율은 라이브러리에 걸쳐, 또는 80%, 85%, 90%, 93%, 95%, 96%, 97%, 98%, 99%, 99.5%, 99.8%, 99.9%, 99.95%, 99.98%, 99.99% 이상 초과의 라이브러리에 걸쳐 달성될 수 있다.
컴퓨터 시스템
본원에 기재된 모든 시스템은 컴퓨터에 작동 가능하게 연결될 수 있으며 컴퓨터를 통해 로컬 또는 원격으로 자동화될 수 있다. 다양한 경우에, 본 개시 내용의 방법 및 시스템은 컴퓨터 시스템 상의 소프트웨어 프로그램 및 이의 사용을 추가로 포함할 수 있다. 따라서, 재료 침착 장치 이동, 분배 동작 및 진공 작동을 조정하고 동기화하는 단계와 같은 분배/진공/재충전 기능의 동기화를 위한 컴퓨터 제어는 본 개시의 범위 내에 있다. 컴퓨터 시스템은 기재의 지정된 영역에 정확한 시약을 전달하기 위해 사용자 지정된 염기 서열과 재료 침착 장치의 위치 사이에 인터페이스하도록 프로그래밍될 수 있다.
[도 12]에 예시된 컴퓨터 시스템(1200)은 매체(1211) 및/또는 네트워크 포트(1205)로부터 명령을 판독할 수 있는 논리 장치로서 이해될 수 있으며, 이는 선택적으로 고정 매체(1212)를 갖는 서버(1209)에 연결될 수 있다. [도 12]에 나타낸 바와 같은 시스템은 CPU(1201), 디스크 드라이브(1203), 선택적인 입력 장치, 예컨대 키보드(1215) 및/또는 마우스(1216) 및 선택적인 모니터(1207)를 포함할 수 있다. 데이터 통신은 표시된 통신 매체를 통해 로컬 또는 원격 위치의 서버로 달성될 수 있다. 통신 매체는 데이터를 전송 및/또는 수신하는 임의의 수단을 포함할 수 있다. 예를 들어, 통신 매체는 네트워크 연결, 무선 연결 또는 인터넷 연결일 수 있다. 이러한 연결은 World Wide Web을 통한 통신을 제공할 수 있다. 본 개시 내용에 관련된 데이터는 [도 12]에 예시된 바와 같이 당사자(1222)에 의한 수신 및/또는 검토를 위해 이러한 네트워크 또는 연결을 통해 전송될 수 있는 것으로 구상된다.
[도 13]은 본 개시 내용의 예시적인 경우와 관련하여 사용될 수 있는 컴퓨터 시스템(1300)의 제1의 예시적인 아키텍처를 예시하는 블록도이다. [도 3]에 도시된 바와 같이, 예시적인 컴퓨터 시스템은 명령을 처리하기 위한 프로세서(1302)를 포함할 수 있다. 프로세서의 비제한적인 예로는 Intel Xeon™ 프로세서, AMD Opteron™ 프로세서, Samsung 32비트 RISC ARM 1176JZ(F)-S v1.0™ 프로세서, ARM Cortex-A8 Samsung S5PC100™ 프로세서, ARM Cortex-A8 Apple A4™ 프로세서, Marvell PXA 930™ 프로세서, 또는 기능적으로 동등한 프로세서가 포함된다. 병렬 처리를 위해 여러 실행 스레드를 사용할 수 있다. 일부 경우에, 단일 컴퓨터 시스템에서든, 클러스터에서든, 또는 복수의 컴퓨터, 휴대폰 및/또는 개인 정보 단말기를 포함하여 네트워크를 통해 시스템에 분산되어 있든, 멀티 코어를 갖는 멀티 프로세서 또는 프로세서들이 사용될 수도 있다.
[도 13]에 예시된 바와 같이, 고속 캐시(1304)는 프로세서(1302)에 의해 최근에 사용되었거나 자주 사용되는 명령어 또는 데이터에 대한 고속 메모리를 제공하기 위해 프로세서(1302)에 연결되거나 이에 통합될 수 있다. 프로세서(1302)는 프로세서 버스(1308)에 의해 노스 브리지(1306)에 연결된다. 노스 브리지(1306)는 프로세서 버스(1312)에 의해 랜덤 액세스 메모리(RAM: random access memory)(1310)에 연결되고 프로세서(1302)에 의해 RAM(1310)에 대한 액세스를 관리한다. 노스 브리지(1306)는 또한 칩셋 버스(1316)에 의해 사우스 브리지(1314)에 연결된다. 사우스 브리지(1314)는 차례로 주변 버스(1318)에 연결된다. 주변 버스는 예를 들어 PCI, PCI-X, PCI Express, 또는 다른 주변 버스일 수 있다. 노스 브리지 및 사우스 브리지는 종종 프로세서 칩셋이라고 하며 프로세서, RAM, 및 주변 버스(1318)의 주변 구성 요소 간의 데이터 전송을 관리한다. 일부 대안적인 아키텍처에서, 노스 브리지의 기능성은 별도의 노스 브리지 칩을 사용하는 대신에 프로세서에 통합될 수 있다. 일부 경우에, 시스템(1300)은 주변 버스(1318)에 부착된 가속기 카드(1322)를 포함할 수 있다. 가속기는 특정 처리를 가속하기 위한 필드 프로그램 가능 게이트 어레이(FPGA: field programmable gate array) 또는 다른 하드웨어를 포함할 수 있다. 예를 들어, 가속기는 적응형 데이터 재구성에 사용되거나 확장 집합 처리에 사용되는 대수식을 평가하는 데 사용할 수 있다.
소프트웨어 및 데이터는 외부 스토리지(1324)에 저장되고 프로세서에 의한 사용을 위해 RAM(1310) 및/또는 캐시(1304)에 로딩될 수 있다. 시스템(1300)은 시스템 자원을 관리하기 위한 운영 체제, 및 본 개시 내용의 예시적인 경우에 따라 데이터 저장 및 최적화를 관리하기 위해 운영 체제 위에서 실행되는 응용 프로그램 소프트웨어를 포함한다. 운영 체제의 비제한적인 예로는 Linux, Windows™, MACOS™, BlackBerry OS™, iOS™ 및 기타 기능적으로 동등한 운영 체제가 포함된다. 이 예에서, 시스템(1300)은 또한 외부 스토리지에 네트워크 인터페이스를 제공하기 위해 주변 버스에 연결된 네트워크 인터페이스 카드(NIC: network interface card)(1320 및 1321), 예컨대 네트워크 결합 스토리지(NAS: network attached storage) 및 분산 병렬 처리에 사용될 수 있는 기타 컴퓨터 시스템을 포함한다.
[도 14]는 복수의 컴퓨터 시스템(1402a, 1402b), 복수의 휴대폰 및 개인 정보 단말기(1402c), 및 네트워크 결합 스토리지(NAS)(1404a, 1404b)를 가진 네트워크(1400)를 보여주는 도면이다. 예시적인 경우에, 시스템(1402a, 1402b, 1402c)은 데이터 스토리지를 관리하고 네트워크 결합 스토리지(NAS)(1404a 및 1404b)에 저장된 데이터에 대한 데이터 액세스를 최적화할 수 있다. 데이터에 대해 수학적 모델이 사용될 수 있고 컴퓨터 시스템(1402a, 1402b), 휴대폰 및 개인 정보 단말기(1402c)에 걸쳐 분산 병렬 처리를 사용하여 평가될 수 있다. 컴퓨터 시스템(1402a, 1402b), 휴대폰 및 개인 정보 단말기(1402c)는 또한 네트워크 결합 스토리지(NAS)(1404a, 1404b)에 저장된 데이터의 적응형 데이터 재구성을 위한 병렬 처리를 제공할 수 있다. [도 14]는 단지 예를 도시하고, 본 개시 내용의 다양한 경우와 함께 매우 다양한 다른 컴퓨터 아키텍처 및 시스템이 사용될 수 있다. 예를 들어, 블레이드 서버를 사용하여 병렬 처리를 제공할 수 있다. 프로세서 블레이드는 백 플레인을 통해 연결되어 병렬 처리를 제공할 수 있다. 스토리지는 또한 백 플레인에 연결되거나 별도의 네트워크 인터페이스를 통해 네트워크 결합 스토리지(NAS)로서 연결될 수 있다. 일부 예시적인 경우에, 프로세서는 별도의 메모리 공간을 유지하고 네트워크 인터페이스, 백 플레인 또는 다른 프로세서에 의한 병렬 처리를 위한 기타 커넥터를 통해 데이터를 전송할 수 있다. 다른 경우에, 일부 또는 모든 프로세서가 공유 가상 주소 메모리 공간을 사용할 수 있다.
[도 15]는 예시적인 경우에 따른 공유 가상 주소 메모리 공간을 사용하는 멀티프로세서 컴퓨터 시스템(1500)의 블록도이다. 시스템은 공유 메모리 서브시스템(1504)에 액세스할 수 있는 복수의 프로세서(1502a-f)를 포함한다. 시스템은 메모리 서브시스템(1504)에 복수의 프로그래밍 가능한 하드웨어 메모리 알고리즘 프로세서(MAP: memory algorithm processor)(1506a-f)를 통합한다. 각 MAP(1506a-f)는 메모리(1508a-f) 및 하나 이상의 필드 프로그램 가능 게이트 어레이(FPGA)(1510a-f)를 포함할 수 있다. MAP는 구성 가능한 기능 유닛을 제공하고 특정 알고리즘 또는 알고리즘의 일부는 각각의 프로세서와 긴밀하게 협력하여 처리하기 위해 FPGA(1510a-f)에 제공될 수 있다. 예를 들어, MAP는 데이터 모델에 관한 대수식을 평가하고 예시적인 경우에 적응형 데이터 재구성을 수행하는 데 사용될 수 있다. 이 예에서, 각 MAP는 이러한 목적을 위해 모든 프로세서에서 전역적으로 액세스될 수 있다. 하나의 구성에서, 각 MAP는 직접 메모리 액세스(DMA: Direct Memory Access)를 사용하여 관련 메모리(1508a-f)에 액세스하여 개별 마이크로프로세서(1502a-f)와 독립적으로 그리고 비동기적으로 작업을 실행할 수 있다. 이 구성에서 MAP는 알고리즘의 파이프라이닝 및 병렬 실행을 위해 또 다른 MAP에 결과를 직접 공급할 수 있다.
상기 컴퓨터 아키텍처 및 시스템은 단지 예시일 뿐이며, 다양한 다른 컴퓨터, 휴대폰, 및 개인 정보 단말기 아키텍쳐 및 시스템은 일반 프로세서, 공동 -프로세서, FPGA 및 기타 프로그램 가능 논리 장치, 시스템 온 칩(SOC: system on chip), 주문형 집적 회로(ASIC: application specific integrated circuit), 및 기타 처리 및 논리 요소의 임의의 조합을 사용하는 시스템을 포함하여 예시적인 경우와 결합하여 사용될 수 있다. 일부 경우에, 컴퓨터 시스템의 전체 또는 일부가 소프트웨어나 하드웨어로 구현될 수 있다. 랜덤 액세스 메모리, 하드 드라이브, 플래시 메모리, 테이프 드라이브, 디스크 어레이, 네트워크 결합 스토리지(NAS) 및 기타 로컬 또는 분산 데이터 스토리지 장치 및 시스템을 포함하는 다양한 임의의 데이터 저장 매체가 예시적인 경우와 관련하여 사용될 수 있다.
예시적인 경우에, 컴퓨터 시스템은 임의의 상기 또는 다른 컴퓨터 아키텍처 및 시스템에서 실행되는 소프트웨어 모듈을 사용하여 구현될 수 있다. 다른 경우에, 시스템의 기능은 펌웨어, 프로그램 가능 논리 장치, 예컨대 [도 15]에 참조된 바와 같은 필드 프로그래머블 게이트 어레이(FPGA), 시스템 온 칩(SOC), 주문형 집적 회로(ASIC), 또는 기타 처리 및 논리 요소에서 부분적으로 또는 완전히 구현될 수 있다. 예를 들어, Set Processor 및 Optimizer는 [도 13]에 도시된 가속기 카드(1322)와 같은 하드웨어 가속기 카드의 사용을 통해 하드웨어 가속으로 구현될 수 있다.
실시예
하기 실시예는 본 발명의 다양한 실시 양태를 예시하기 위해 제공되며 어떠한 방식으로든 본 발명을 제한하려는 의도가 아니다. 본원에 기재된 방법과 함께 본 실시예는 현재 바람직한 실시 양태를 대표하고 예시적이며, 본 발명의 범위를 제한하는 것으로 의도되지 않는다. 청구항의 범위에 의해 정의된 바와 같이 본 발명의 취지 내에 포함되는 변경 및 기타 용도는 당업자가 생각해 낼 것이다.
실시예 1: 기재 표면의 작용기화
기재는 폴리뉴클레오티드 라이브러리의 부착 및 합성을 지원하기 위해서 작용기화하였다. 기재 표면은 먼저 90% H2SO4 및 10% H2O2를 포함하는 피라냐 용액을 사용하여 20분 동안 습식 세정하였다. 기재를 탈이온수가 있는 여러 비커에서 헹구고 탈이온수 구즈넥 수도꼭지 아래에 5분 동안 유지하고 N2로 건조하였다. 이어서 기재를 NH4OH(1:100; 3 mL:300 mL)에 5분 동안 담그고, 핸드건을 사용하여 탈이온수로 헹구고, 탈이온수가 있는 3개의 연속 비커에 각각 1분 동안 담근 다음, 핸드건을 사용하여 탈이온수로 다시 헹구었다. 그런 다음 기재 표면을 O2에 노출시켜 기재를 플라즈마 세정하였다. SAMCO PC-300 기기를 사용하여 하향 방식으로 250 와트에서 1분 동안 O2를 플라즈마 에칭하였다.
세정된 기재 표면은 다음 파라미터 0.5 내지 1 torr, 60분, 70℃, 135℃ 기화기가 구비된 YES-1224P 기상 증착 오븐 시스템을 사용하여 N-(3-트리에톡시실릴프로필)-4-히드록시부티르아미드를 포함하는 용액으로 능동적으로 작용기화하였다. 기재 표면은 Brewer Science 200X 스핀 코터를 사용하여 레지스트 코팅하였다. SPR™ 3612 포토레지스트를 2500 rpm에서 40초 동안 기재에 스핀 코팅하였다. 기재는 Brewer 핫 플레이트에서 90℃에서 30분 동안 예비 베이킹하였다. 기재는 Karl Suss MA6 마스크 정렬 장치를 사용하여 포토리소그래피에 적용하였다. 기재를 2.2초 동안 노출시키고 MSF 26A에서 1분 동안 현상하였다. 남은 현상액을 핸드건으로 헹구고 기재를 물에 5분 동안 담가두었다. 기재는 오븐에서 100℃에서 30분 동안 베이킹한 다음, Nikon L200을 사용하여 리소그래피 결함에 대한 육안 검사를 수행하였다. 250와트에서 1분 동안 O2 플라즈마 에칭하는 SAMCO PC-300 기기를 사용하여 잔류 레지스트를 제거하기 위해 디스컴 공정을 사용하였다.
기재 표면은 10 ㎕ 경질 광유와 혼합된 퍼플루오로옥틸트리클로로실란 100 ㎕ 용액으로 수동적으로 작용기화하였다. 기재를 챔버에 넣고 10분 동안 펌핑한 다음, 펌프에 밸브를 닫고 10분 동안 그대로 두었다. 챔버를 공기로 환기시켰다. 70℃에서 500mL NMP에서 최대 전력(Crest 시스템에서 9)에서 초음파 처리하면서 5분 동안 2회 담금질을 수행하여 기재를 레지스트 박리하였다. 그런 다음 기재를 최대 전력에서 초음파 처리하면서 실온에 500 mL 이소프로판올에서 5분 동안 담가두었다. 기재를 300 mL의 200 프루프 에탄올에 담그고 N2로 바람 불어 건조시켰다. 작용기화된 표면은 폴리뉴클레오티드 합성을 위한 지지체 역할을 하도록 활성화되었다.
실시예 2: 폴리뉴클레오티드 합성 장치에서 50-mer 서열의 합성
2차원 폴리뉴클레오티드 합성 장치를 플로우셀에 어셈블리하고, 이를 플로우셀(Applied Biosystems(ABI394 DNA Synthesizer"))에 연결하였다. 본원에 기재된 폴리뉴클레오티드 합성 방법을 사용하여 50 bp의 예시적인 폴리뉴클레오티드("50-mer 폴리뉴클레오티드")를 합성하기 위해서 N-(3-트리에톡실릴프로필)-4-히드록시부티르아미드(Gelest)로 균일하게 작용기화된 폴리뉴클레오티드 합성 장치를 사용하였다.
50-mer의 서열은 서열 번호 1에 기재된 바와 같았다. 5'AGACAATCAACCATTTGGGGTGGACAGCCTTGACCTCTAGACTTCGGCAT##TTTTTTTTTT3' (서열 번호 1)(여기서 #은 티미딘-숙시닐 헥사미드 CED 포스포라미다이트(ChemGenes의 CLP-2244)를 나타내며, 이는 탈보호 동안 표면으로부터 폴리뉴클레오티드의 방출을 가능하게 하는 절단 가능한 링커이다.
표 2의 프로토콜 및 ABI 합성기에 따라 표준 DNA 합성 화학(커플링, 캡핑, 산화, 및 탈차단)을 사용하여 합성을 수행하였다.
[표 2]
Figure pct00002
Figure pct00003
Figure pct00004
포스포라미다이트/활성화제 조합은 플로우셀을 통한 벌크 시약의 전달과 유사하게 전달하였다. 환경이 전체 시간 동안 시약으로 "습윤" 상태를 유지하므로 건조 단계를 수행하지 않았다.
더 빠른 흐름을 가능하게 하기 위해 ABI 394 합성기에서 흐름 제한기를 제거하였다. 흐름 제한기가 없는 경우, 아미다이트(ACN 중 0.1M), 활성화제(ACN 중 0.25M 벤조일티오테트라졸("BTT"; GlenResearch의 30-3070-xx)), 및 Ox(20% 피리딘, 10% 물 및 70% THF 중 0.02M I2))에 대한 유속은 (흐름 제한기가 있는 모든 시약의 경우 ~50uL/초와 비교하여) 아세토니트릴("ACN")의 경우 대략 ~100uL/초였고, 캡핑 시약(CapA과 CapB의 1:1 혼합, 여기서 CapA는 THF/피리딘 중 아세트산 무수물이고 CapB는 THF 중 16% 1-메틸이미디졸임)의 경우 대략 ~200uL/초, 탈차단(톨루엔 중 3% 디클로로아세트산)의 경우 대략 ~300uL/초였다. 산화제를 완전히 밀어내는 시간을 관찰하고 이에 따라 화학물질 흐름 시간을 조정하고 상이한 화학물질 사이에 추가 ACN 세척을 도입하였다. 폴리뉴클레오티드 합성 후, 칩을 75 psi에서 밤새 기체 암모니아에서 탈보호하였다. 5방울의 물을 표면에 적용하여 폴리뉴클레오티드를 회수하였다. 그런 다음 회수한 폴리뉴클레오티드를 BioAnalyzer 소형 RNA 칩에서 분석하였다(데이터 미제시).
실시예 3: 폴리뉴클레오티드 합성 장치에서 100-mer 서열의 합성
50-mer 서열의 합성을 위해 실시예 2에 기재된 바와 동일한 공정을 2개의 상이한 실리콘 칩, N-(3-트리에톡실릴프로필)-4-히드록시부티르아미드로 균일하게 작용기화된 첫 번째 칩 및 11-아세톡시운데실트리에톡시실란과 n-데실트리에톡시실란의 5/95 혼합물로 작용기화된 두 번째 칩에서 100-mer 폴리뉴클레오티드("100-mer 폴리뉴클레오티드"; 5' CGGGATCCTTATCGTCATCGTCGTACAGATCCCGACCCATTTGCTGTCCACCAGTCATGCTAGCCATACCATGATGATGATGATGATGAGAACCCCGCAT##TTTTTTTTTT3', 여기서 #은 티미딘-숙시닐 헥사미드 CED 포스포라미다이트를 나타냄(ChemGenes의 CLP-2244); 서열 번호 2)의 합성에 사용하였고, 표면에서 추출된 폴리뉴클레오티드를 BioAnalyzer 기기에서 분석하였다(데이터 미제시).
2개의 칩으로부터의 모두 10개의 샘플을 50㎕ PCR 믹스(25㎕ NEB Q5 마스터 믹스, 2.5㎕ 10uM 정방향 프라이머, 2.5㎕ 10uM 역방향 프라이머, 표면에서 추출한 폴리뉴클레오티드 1㎕, 및 최대 50㎕의 물)에서 정방향(5'ATGCGGGGTTCTCATCATC3'; 서열 번호: 3) 및 역방향(5'CGGGATCCTTATCGTCATCG3'; 서열 번호: 4) 프라이머를 사용하고 다음 열 순환 프로그램을 사용하여 추가로 PCR 증폭하였다:
98℃, 30초
98℃, 10초; 63℃, 10초; 72℃, 10초; 12 사이클 반복
72℃, 2분
PCR 산물은 또한 BioAnalyzer(데이터 미제시)에서 실행하였으며, 이는 100-mer 위치에서 날카로운 피크를 나타냈다. 다음으로, PCR 증폭된 샘플을 클로닝하고 Sanger 시퀀싱을 수행하였다. 표 3은 칩 1의 스폿 1-5에서 취한 샘플과 칩 2의 스폿 6-10에서 취한 샘플에 대한 Sanger 시퀀싱 결과를 요약한다.
[표 3]
Figure pct00005
따라서, 합성된 폴리뉴클레오티드의 높은 품질 및 균일성은 표면 화학이 상이한 2개의 칩에서 반복되었다. 전체적으로, 시퀀싱된 262개의 100-mer 중 233개에 해당하는 89%가 오류가 없는 완벽한 서열이었다.
마지막으로, 표 4는 스팟 1-10의 폴리뉴클레오티드 샘플에서 얻은 서열에 대한 오류 특성을 요약한다.
[표 4]
Figure pct00006
실시예 4: 29 ,040개의 고유 폴리뉴클레오티드의 병렬 어셈블리
평평한 실리콘 플레이트(1601) 상에 각각 121개의 좌위를 포함하는 256개의 클러스터(1605)를 포함하는 구조를 [도 16]에 도시된 바와 같이 제조하였다. 클러스터의 확대도는 121개 좌위가 있는 (1610)을 나타낸다. 256개 중 240개의 클러스터의 좌위는 별개의 서열을 갖는 폴리뉴클레오티드의 합성을 위한 부착 및 지지체를 제공하였다. 폴리뉴클레오티드 합성은 실시예 3의 일반적인 방법을 사용하여 포스포라미다이트 화학에 의해 수행하였다. 256개 중 16개의 클러스터의 좌위는 대조군 클러스터였다. 합성된 29,040개의 고유한 폴리뉴클레오티드(240 x 121)의 전체 분포는 [도 17a]에 도시한다. 폴리뉴클레오티드 라이브러리는 높은 균일성으로 합성되었다. 서열의 90%가 평균의 4x 이내의 신호에 존재하여 100% 표시가 가능하였다. [도 17b]에 도시된 바와 같이 각 클러스터에 대해 분포를 측정하였다. 4개의 대표적인 클러스터에서 합성된 고유한 폴리뉴클레오티드의 분포는 [도 18]에 도시한다. 전체 수준에서, 실행 중인 모든 폴리뉴클레오티드가 존재하였으며 폴리뉴클레오티드의 99%가 합성 균일성을 나타내는 평균의 2x 이내인 존재비를 보였다. 이 동일한 관찰은 매 클러스터 수준에서 일관되었다.
각 폴리뉴클레오티드에 대한 오류율은 Illumina MiSeq 유전자 시퀀서를 사용하여 결정하였다. 29,040개의 고유한 폴리뉴클레오티드에 대한 오류율 분포는 [도 19a]에 도시하며 평균 500개의 염기 중 1개 정도이며, 일부 오류율은 800개의 염기 중 1개 정도로 낮다. [도 19a]에 도시된 바와 같이 각각의 클러스터에 대해 분포를 측정하였다. 4개의 대표적인 클러스터에서 고유한 폴리뉴클레오티드에 대한 오류율 분포는 [도 20]에 도시한다. 29,040개의 고유한 폴리뉴클레오티드 라이브러리를 20시간 이내에 합성하였다.
29,040개의 고유한 폴리뉴클레오티드 전체에 걸친 폴리뉴클레오티드 표시에 대한 GC 백분율의 분석은 합성이 GC 함량에도 불구하고 균일함을 보여주었다. [도 21].
실시예 5: 폴리뉴클레오티드 표적화 라이브러리를 이용한 샘플 제조 및 농축
게놈 DNA(gDNA)를 샘플로부터 얻어, 단편화 완충액에서 효소로 단편화하고, 말단 복구하고, 3' 아데닐화하였다. 이중 인덱스 어댑터(16개의 고유한 바코드 조합)를 게놈 DNA 단편의 양쪽 말단에 연결하여 어댑터-태깅된 gDNA 가닥의 라이브러리를 생성하였고, 어댑터-태깅된 DNA 라이브러리를 고충실도 폴리머라제로 증폭한다. 그런 다음 gDNA 라이브러리는 범용 어댑터 차단제의 존재하에 96℃에서 단일 가닥으로 변성시켰다. 폴리뉴클레오티드 표적화 라이브러리(프로브 라이브러리)는 96℃에서 혼성화 용액에서 변성시켰고, 70℃에서 16시간 동안 혼성화 용액에서 변성된 태깅된 gDNA 라이브러리와 합하였다. 그 다음, 결합 완충액을 혼성화된 태깅된 gDNA-프로브에 첨가하고, 스트렙타비딘을 포함하는 자기 비드를 사용하여 비오틴화된 프로브를 포획하였다. 자석을 사용하여 비드를 용액에서 분리하고, 비드를 완충액으로 3회 세척하여 결합되지 않은 어댑터, gDNA 및 어댑터 차단제를 제거한 후 용리 완충액을 첨가하여 비드로부터 농축된 태깅된 gDNA 단편을 방출하였다. 태깅된 gDNA 단편의 농축된 라이브러리를 고충실도 폴리머라제로 증폭하여 클러스터 생성에 충분한 수율을 얻은 후, NGS 기기를 사용하여 라이브러리를 시퀀싱하였다.
실시예 6: 엑솜 표적화 폴리뉴클레오티드 프로브 라이브러리를 이용한 게놈 DNA 포획
인간 엑솜을 표적화하는 적어도 500,000개의 동일하지 않은 폴리뉴클레오티드를 포함하는 폴리뉴클레오티드 표적화 라이브러리를 구조상에서 실시예 3의 일반적인 방법을 사용하여 포스포라미다이트 화학에 의해 합성하고, 실시예 5의 일반적인 방법을 사용하여 화학량론을 제어하여 라이브러리 4를 생성하였다. 그런 다음 폴리뉴클레오티드를 비오틴으로 표지한 후, 용해하여 엑솜 프로브 라이브러리 용액을 형성하였다. 실시예 16의 일반적인 방법을 사용하여 게놈 DNA(gDNA) 샘플로부터 건조된 인덱싱된 라이브러리 풀을 얻었다.
엑솜 프로브 라이브러리 용액, 혼성화 용액, 차단제 믹스 A, 및 차단제 믹스 B를 2초 동안 펄스 볼텍싱에 의해 혼합하였다. 혼성화 용액을 65℃에서 10분 동안, 또는 모든 침전물이 용해될 때까지 가열한 다음, 추가로 5분 동안 벤치탑에서 실온이 되게 하였다. 20 ㎕의 혼성화 용액과 4 ㎕의 엑솜 프로브 라이브러리 용액을 얇은 벽의 PCR 0.2 mL 스트립 튜브에 첨가하고 피펫팅으로 부드럽게 혼합하였다. 합한 혼성화 용액/엑솜 프로브 용액을 105℃ 뚜껑이 있는 열 순환기에서 2분 동안 95℃로 가열하고 적어도 10분 동안 얼음 위에서 즉시 냉각시켰다. 그런 다음, 용액을 벤치탑에서 5분 동안 실온으로 냉각되도록 하였다. 혼성화 용액/엑솜 프로브 라이브러리 용액이 냉각되는 동안, 각 게놈 DNA 샘플에 대해 물을 9 ㎕가 되게 첨가하고, 5 ㎕의 차단제 믹스 A 및 2 ㎕의 차단제 믹스 B를 얇은 벽 PCR 0.2 mL 스트립 튜브에 있는 건조된 인덱싱된 라이브러리 풀에 첨가하였다. 그런 다음 용액을 부드러운 피펫팅으로 혼합하였다. 풀링된 라이브러리/차단제 튜브를 105℃ 뚜껑이 있는 열 순환기에서 5분 동안 95℃로 가열한 다음, 다음 단계로 진행하기 전에 벤치탑에서 5분 이상 실온이 되게 하였다. 혼성화 믹스/프로브 용액을 피펫팅으로 혼합하고 전체 24 ㎕의 풀링된 라이브러리/차단제 튜브에 첨가하였다. 기포 생성을 방지하기 위해 전체 포획 반응 웰을 부드러운 피펫팅으로 혼합하였다. 샘플 튜브를 펄스 회전시켜 확실히 튜브가 단단히 밀봉되도록 하였다. 포획/혼성화 반응은 뚜껑 온도가 85℃인 PCR 열순환기에서 16시간 동안 70℃에서 가열하였다.
결합 완충액, 세척 완충액 1 및 세척 완충액 2를 48℃에서 모든 침전물이 용액에 용해될 때까지 가열하였다. 700 ㎕의 세척 완충액 2를 포획 마다 분취하고 48℃로 예열하였다. 스트렙타비딘 결합 비드 및 DNA 정제 비드를 실온에서 적어도 30분 동안 평형화하였다. KAPA HiFi HotStart ReadyMix와 같은 폴리머라제 및 증폭 프라이머를 얼음 위에서 해동하였다. 시약이 해동되면, 2초 동안 펄스 볼텍싱에 의해 혼합하였다. 포획 반응당 500 ㎕의 80% 에탄올을 준비하였다. 스트렙타비딘 결합 비드를 실온에서 미리 평형화하고 균질화될 때까지 볼텍싱하였다. 100 ㎕의 스트렙타비딘 결합 비드를 포획 반응 마다 깨끗한 1.5 mL 미세원심분리 튜브에 첨가하였다. 200 ㎕의 결합 완충액을 각 튜브에 첨가하고 각 튜브를 피펫팅하여 균질화될 때까지 혼합하였다. 튜브를 마그네틱 스탠드에 놓았다. 스트렙타비딘 결합 비드는 1분 이내에 펠렛화하였다. 튜브를 제거하고 비드 펠릿을 확실히 건드리지 않도록 하면서 투명한 상층액을 버렸다. 튜브를 마그네틱 스탠드에서 제거하고, 세척을 2회 더 반복하였다. 세 번째 세척 후, 튜브를 제거하고 투명한 상층액을 버렸다. 최종 200 ㎕의 결합 완충액을 첨가하고, 비드를 볼텍싱하여 균질해질 때까지 재현탁시켰다.
혼성화 반응을 완료한 후, 열 순환기 뚜껑을 열고 포획 반응의 전체 부피(36-40 ㎕)를 세척된 스트렙타비딘 결합 비드 내로 신속하게 옮겼다. 혼합물을 30분 동안 실온에서 셰이커, 로커, 또는 회전기 상에서 포획 반응/스트렙타비딘 결합 비드 용액이 균질화되도록 유지하기에 충분한 속도로 혼합하였다. 포획 반응/스트렙타비딘 결합 비드 용액을 믹서에서 제거하고 펄스 회전시켜 확실히 모든 용액이 튜브 바닥에 있도록 하였다. 샘플을 마그네틱 스탠드에 놓고 스트렙타비딘 결합 비드를 펠렛화하여, 1분 이내에 투명한 상층액을 남겼다. 투명한 상층액을 제거하고 버렸다. 마그네틱 스탠드에서 튜브를 제거하고 실온에서 200 ㎕의 세척 완충액을 첨가한 후 피펫팅하여 균질화될 때까지 혼합하였다. 튜브를 펄스 회전시켜 확실히 모든 용액이 튜브 바닥에 있도록 하였다. 열 순환기는 다음 조건으로 프로그래밍하였다(표 5).
가열된 뚜껑의 온도는 105℃로 설정하였다.
[표 5]
Figure pct00007
증폭 프라이머(2.5 ㎕) 및 KAPA HiFi HotStart ReadyMix와 같은 폴리머라제(25 ㎕)를 물/스트렙타비딘 결합 비드 슬러리가 들어 있는 튜브에 첨가하고, 튜브를 피펫팅으로 혼합하였다. 그런 다음 튜브를 2개의 반응으로 분할하였다. 튜브를 펄스 회전시키고 열 순환기로 옮기고 표 5의 순환 프로그램을 시작하였다. 열 순환기 프로그램이 완료되면, 샘플을 블록에서 제거하고 즉시 정제를 거쳤다. 실온에서 미리 평형화된 DNA 정제 비드를 균질화될 때까지 볼텍싱하였다. 90 ㎕(1.8x) 균질화된 DNA 정제 비드를 튜브에 첨가하고, 볼텍싱하여 잘 혼합하였다. 튜브를 실온에서 5분 동안 인큐베이션하고 마그네틱 스탠드에 놓았다. DNA 정제 비드를 펠릿화하여, 1분 이내에 투명한 상층액을 남겼다. 투명한 상층액을 버리고, 튜브를 마그네틱 스탠드에 두었다. DNA 정제 비드 펠릿을 새로 준비된 200 ㎕의 80% 에탄올로 세척하고 1분 동안 인큐베이션한 다음, 제거하고 에탄올을 버렸다. 튜브를 마그네틱 스탠드에 유지하면서 세척은 총 2회 세척에 대해 한 번 반복하였다. DNA 정제 비드 펠릿을 확실히 건드리지 않도록 하면서 10 ㎕ 피펫으로 남아 있는 모든 에탄올을 제거하고 버렸다. DNA 정제 비드 펠릿을 마그네틱 스탠드에서 5-10분 동안 또는 펠릿이 건조될 때까지 공기 건조시켰다. 튜브를 마그네틱 스탠드에서 제거하고 32 ㎕의 물을 첨가하고 피펫팅하여 균질화될 때까지 혼합하고, 실온에서 2분 동안 인큐베이션하였다. 튜브를 3분 동안 또는 비드가 완전히 펠렛화될 때까지 마그네틱 스탠드에 두었다. 30 ㎕의 투명한 상층액을 회수하여 DNA 정제 비드 펠릿을 확실히 건드리지 않도록 하면서 깨끗한 얇은 벽의 PCR 0.2 mL 스트립 튜브로 옮겼다. 평균 단편 길이는 분석 기기에서 150 bp에서 1000 bp 범위 설정을 사용하여 약 375 bp에서 약 425 bp 사이였다. 이상적으로, 최종 농도 값은 약 15 ng/㎕ 이상이다. 차세대 시퀀싱(NGS)을 사용하여 각 포획을 정량화하고 확인하였다.
NGS 메트릭의 요약은 대조구 엑솜 포획 키트(대조구 키트 D)와 비교하여 표 6, 표 7에 제시한다. 라이브러리 4에는 대조구 키트 D보다 더 높은 비율의 엑손 표적에 해당하는 프로브(베이트)가 있다. 따라서, 라이브러리 4를 사용하여 비슷한 품질과 표적 서열 커버리지를 얻기 위한 시퀀싱이 줄어든다.
[표 6]
Figure pct00008
[표 7]
Figure pct00009
키트 D 및 라이브러리 4 모두에 대한 중복 표적 영역(96X 커버리지로 정규화된 총 리드)의 비교는 표 8에 제시한다. 라이브러리 4는 혼성화당 8개 샘플로 처리하였고 키트 D는 혼성화당 2개 샘플로 처리하였다. 또한, 두 라이브러리 모두에 대해, 중복 영역의 단일 뉴클레오티드 다형성 및 프레임 내 결실 호출을 "Genome in a Bottle" NA12878 참조 데이터(표 9)에서 식별된 고신뢰도 영역에 대해 비교하였다. 라이브러리 4는 SNP 및 인델(indel)을 식별할 때 키트 D와 유사하거나 더 잘(높은 인델 정밀도) 수행하였다. 본원에 사용되는 바와 같이 용어 "인델(들)"은 미리 정해진 서열과 상이한 삽입 및 결실을 포함하는 오류 유형을 의미한다.
[표 8]
Figure pct00010
[표 9]
Figure pct00011
정밀도는 전체 양성(진양성 및 위양성) 호출에 대한 진양성 호출의 비율을 나타낸다. 감도는 전체 참 값(진양성 및 위음성)에 대한 진양성 호출의 비율을 나타낸다.
실시예 7. 범용 어댑터를 이용한 라이브러리 제조
핵산 샘플은 다음 변형을 포함하는 실시예 5 또는 6의 일반적인 방법을 사용하여 제조하였다: 이중 인덱스 어댑터는 범용 어댑터로 대체하였다. 범용 어댑터의 결찰 후, 바코딩된 프라이머 라이브러리로 어댑터-결찰된 샘플 핵산 라이브러리의 증폭을 수행하여 바코딩된 어댑터-결찰된 샘플 핵산 라이브러리를 생성하였다. 그런 다음 이 라이브러리를 직접 시퀀싱하였다. 범용 어댑터의 사용은 표준 이중 인덱스 Y 어댑터에 비해 증폭 후 라이브러리 핵산 농도를 증가시켰다(도 4a). 또한, 표준 이중 인덱스 Y 어댑터와 비교하여 더 낮은 AT 드롭아웃을 위해 제공된 범용 어댑터로 제조된 라이브러리(도 4b)는 모든 인덱스 서열의 균일한 표시를 가져왔다(도 5).
실시예 8. 범용 어댑터를 이용한 라이브러리 제조 및 농축
핵산 샘플은 다음 변형을 포함하는 실시예 5 또는 6의 일반적인 방법을 사용하여 제조하였다: 이중 인덱스 어댑터는 범용 어댑터로 대체하였다. 범용 어댑터의 결찰 후, 바코딩된 프라이머 라이브러리로 어댑터-결찰된 샘플 핵산 라이브러리의 증폭을 수행하여 바코딩된 어댑터-결찰된 샘플 핵산 라이브러리를 생성하였다. 그런 다음 이 라이브러리는 유사한 농축, 정제, 및 시퀀싱 단계를 거쳤다. 범용 어댑터의 사용은 비슷하거나 더 나은 시퀀싱 결과를 가져왔다(도 6a 및 도 6b).
실시예 9. 변형된 염기를 포함하는 범용 어댑터를 이용한 라이브러리 제조
핵산 샘플은 다음 변형을 포함하는 실시예 8의 일반적인 방법을 사용하여 제조한다: 범용 어댑터는 적어도 하나의 잠금 핵산 또는 가교 핵산을 포함한다. 범용 어댑터의 결찰 후, 바코딩된 프라이머 라이브러리로 어댑터-결찰된 샘플 핵산 라이브러리의 증폭을 수행하여 바코딩된 어댑터-결찰된 샘플 핵산 라이브러리를 생성한다. 그런 다음 이 라이브러리는 유사한 농축, 정제, 및 시퀀싱 단계를 거친다.
실시예 10. 짧은 바코딩된 프라이머와 함께 범용 어댑터를 이용한 라이브러리 제조
핵산 샘플은 다음 변형을 포함하는 실시예 8의 일반적인 방법을 사용하여 제조한다: 각각의 바코딩된 프라이머는 범용 어댑터의 전체 길이 미만에 결합한다.
실시예 11. 핵염기 유사체 함유 범용 어댑터를 이용한 라이브러리 제조 및 짧은 바코딩된 프라이머를 이용한 증폭
핵산 샘플은 다음 변형을 포함하는 실시예 8의 일반적인 방법을 사용하여 제조한다: 이중 인덱스 어댑터는 하나 이상의 핵염기 유사체(예를 들어, 잠금 핵산 또는 가교 핵산)를 포함하는 범용 어댑터로 대체한다. 범용 어댑터의 결찰 후, 바코딩된 프라이머 라이브러리로 어댑터-결찰된 샘플 핵산 라이브러리의 증폭을 수행하여 바코딩된 어댑터-결찰된 샘플 핵산 라이브러리를 생성한다. 각각의 바코드는 범용 어댑터의 전체 길이 미만에 결합한다. 그런 다음 이 라이브러리는 유사한 농축, 정제, 및 시퀀싱 단계를 거친다.
실시예 12. 범용 어댑터 및 표준 이중 인덱스 어댑터로 제조된 시퀀싱 라이브러리의 비교
다음 변형을 포함하는 실시예 8의 일반적인 방법을 사용하여 게놈 DNA(50 ng의 NA12878)로부터 핵산 샘플을 제조하였다: 10 bp 이중 인덱스를 포함하는 범용 어댑터를 사용하였다(8 PCR 사이클, N=12). 비교를 위해, 표준 전장 Y 어댑터도 동일한 게놈 DNA 샘플에 대해 테스트하였다(10 PCR 사이클, N=12). 범용 어댑터를 사용하는 프로토콜은 증폭 후 더 높은 총 수율(도 23), 및 더 낮은 어댑터 이량체 형성을 유도하였다(도 24).
실시예 13. 10 bp UDI 범용 어댑터 및 8 bp 조합 이중 프라이머로 제조된 시퀀싱 라이브러리의 비교
다음 변형을 포함하는 실시예 8의 일반적인 방법을 사용하여 게놈 DNA(NA12878)로부터 핵산 샘플을 제조하였다: 라이브러리의 최종 증폭 단계에 10 bp 이중 인덱스 서열(N=96) 또는 8 bp 인덱스 서열(N=96)을 포함하는 범용 어댑터를 사용하였다. 상대적 시퀀싱 성능은 각 설계에 대한 완벽한 인덱스 리드의 총 수를 정규화하고 최고 성능에 대해 정규화하여 계산하였으며, 각 집단의 결과 분포는 직접 비교를 위해 계산된 평균을 중심으로 하였다. 10 bp 범용 프라이머를 사용한 실험은 보다 조밀한 상대적 성능과 보다 균일한 시퀀싱 표시를 나타냈고(도 25a 및 25b), 모든 96개의 고유 인덱스에 걸쳐 더 높은 상대적 성능을 나타냈다(도 26).
실시예 14. 고유한 이중 인덱스 라이브러리의 스크리닝 및 평가
실시예 13의 일반적인 절차에 따라, 고유한 이중 인덱스 서열을 함유하는 1,152개의 라이브러리를 구성하고 균일한 시퀀싱 성능을 위해 반복적인 방식으로 스크리닝하였다(도 27a). 라이브러리는 효소 단편화를 사용하여 생성하였으며 삽입물로서 인간 게놈 물질을 포함하였다. 개별 라이브러리를 질량별로 풀링하고 NextSeq 500/550 High Output v2 키트로 시퀀싱하여 2 x 10 bp 인덱스 리드를 생성하였다. 인덱스 리드(1개의 불일치 허용)의 개별 쌍의 총 카운트를 결정하고 각 개별 쌍의 상대적 성능을 평균에 상대적으로 계산하였다. 그 결과, 단일 대형 풀(도 27b) 또는 4 x 96개 구성원의 개별 세트(도 27c-27f)로서 +/-25%의 평균에 대한 시퀀싱 성능을 제공하는 384개의 UDI 서열을 확인하였다.
실시예 15: 다양한 엑솜 표적화 폴리뉴클레오티드 프로브 라이브러리를 이용한 게놈 DNA 포획
인간 엑솜을 표적화하는 적어도 500,000개의 동일하지 않은 폴리뉴클레오티드를 포함하는 폴리뉴클레오티드 표적화 라이브러리를 설계하고 구조상에 실시예 3의 일반적인 방법을 사용하여 포스포라미다이트 화학에 의해 합성하였으며, 실시예 5의 일반적인 방법을 사용하여 화학량론을 제어하여 라이브러리 4A를 생성하였다. 그런 다음 폴리뉴클레오티드를 비오틴으로 표지한 후, 용해하여 엑솜 프로브 라이브러리 용액을 형성하였다. 실시예 5의 일반적인 방법을 사용하여 게놈 DNA(gDNA) 샘플로부터 건조된 인덱싱된 라이브러리 풀을 얻었다.
다양한 프로브 라이브러리를 사용한 DNA 포획을 실시예 6에 기재된 바와 같은 방법을 사용하여 수행하였다. 간략하게, 엑솜 프로브 라이브러리 용액, 혼성화 용액, 차단제 믹스 A, 및 차단제 믹스 B를 혼합하고, 혼성화 믹스/프로브 용액을 제조하였다. 혼성화 반응을 수행한 후 포획 반응을 수행하였다. 그런 다음 용액을 증폭한 다음 차세대 시퀀싱(NGS)를 수행하였다.
라이브러리 4A를 실시예 6에 기재된 대조구 키트 D를 포함하는 다양한 대조구 엑솜 포획 키트와 비교하였다. 라이브러리 4A와 다양한 대조구 엑솜 포획 키트의 NGS 메트릭의 요약은 표 10에 제시한다.
[표 10]
Figure pct00012
다양한 라이브러리를 균일성, 특이성 및 복제율에 대해 평가하였다. [도 28b]에 도시된 바와 같이. 라이브러리 4A는 대조구 키트와 비교하여 표적 농축 효율(폴드-80 염기 패널티로 측정)을 35-60% 증가시켰다. [도 28c-28d]에 도시된 바와 같이, 라이브러리 4A는 특이성과 표적-적중 비율이 증가하였다. 표적-적중 비율은 표적 염기를 정렬된 PF 염기로 나눈 값으로 측정하였다. 라이브러리 4A는 [도 28e-28f]에서 볼 수 있는 바와 같이 복제율로 나타낸 바와 같이 개선된 올리고뉴클레오티드 합성, 최적화된 이중 가닥 프로브, 및 호환되는 완충액 및 작업 흐름을 나타냈다.
다양한 라이브러리는 또한 커버리지 깊이 및 최대화된 시퀀싱 출력에 대해 평가하였다. [도 29]에 도시된 바와 같이, 라이브러리 4A를 사용하여 150x 총 원시 시퀀싱으로 30x에서 95% 표적 염기를 덮었다. 표 11은 라이브러리 4A가 시퀀싱 출력을 최대화하였음을 보여준다.
[표 11]
Figure pct00013
실시예 16. 가요성 및 모듈 맞춤형 패널
콘텐츠를 추가하거나 강화할 수 있다. [도 30a-30b]를 참조한다. 패널에 콘텐츠를 추가하면 덮는 표적 수가 증가한다. 패널에 대한 콘텐츠 강화는 특정 영역의 커버리지를 나타낸다.
RefSeq 데이터베이스에서 유래한 3 Mb의 추가 표적 영역을 추가하였다. 이 패널의 생산은 커버리지를 증가시켰고 성능을 저하시키지 않았다. 커버리지가 RefSeq, CCDS, 및 GENCODE 데이터베이스의 >99%로 향상되었다. 또한, 맞춤형 패널은 높은 균일성과 표적-적중 비율, 및 낮은 복제율을 나타냈다(모든 결과는 150x 시퀀싱을 기반으로 함).
본원에 기재된 바와 같이 맞춤형 패널을 사용하여 표 12에서 나타난 바와 같이 데이터베이스 커버리지가 증가하였다. 이 데이터는 2018년 5월(UCSC 게놈 브라우저) 기준으로 1차 인간 게놈 어셈블리(대체 염색체는 제외)에 주석이 달린 데이터베이스에서 단백질 코딩 영역과 패널 콘텐츠 간의 중첩을 비교하였다. 대조구 A1, 대조구 A2, 및 대조구 D는 시판되는 대조구 패널이다. 괄호 안에 표시된 BEDtools 스위트 및 게놈 버전을 사용하여 비교를 수행하였다. 3 Mb 콘텐츠를 추가하면 RefSeq 및 GENCODE 데이터베이스의 커버리지가 >99%로 향상되었다.
[표 12]
Figure pct00014
[도 30c 내지 30e]는 폴드(도 30c), 복제율(도 30d), 및 표적-적중 퍼센트(도 30e)에 대한 패널 1 및 패널 1 + 보충 프로브로부터의 데이터를 보여준다. [도 30f] 및 [도 30g]는 표적 커버리지(도 30f) 및 폴드-80 염기 페널티(도 30g)에 대한 비교 데이터를 나타낸다.
[도 30h]는 본원에 기재된 라이브러리의 조정 가능한 표적 커버리지를 나타낸다. [도 30h]의 상단 패널에 도시된 바와 같이. 평균 커버리지는 34.9였고 20X 초과에서 표적 염기의 91%가 관찰되었다. [도 30h]에서 하단 패널에서 도시된 바와 같이. 평균 커버리지는 67.5이었고 20X 초과에서 표적 염기의 97%가 관찰되었다.
실시예 17. RefSeq 설계
RefSeq 패널 설계는 hg38에서 설계하였으며 CCDS21, RefSeq 모든 코딩 서열, 및 GENCODE v28 basic 코딩 서열의 통합을 포함하였다. RefSeq 단독(엑솜)의 크기는 3.5Mb였고 결합된 코어 엑솜(Core Exome)+RefSeq(엑솜+RefSeq)는 36.5Mb였다. 실험은 3회 중복의 1-플렉스 및 8-플렉스 실행으로서 50 ng의 gDNA(NA12878)를 사용하여 실행하고, 76bp 리드로 150x 시퀀싱에서 평가하였다. 표적 파일은 36.5Mb였다. [도 31a]를 참조한다.
RefSeq 패널 설계는 커버리지의 깊이, 특이성, 균일성, 라이브러리 복잡성, 복제율 및 커버리지 비율에 대해 평가하였다. [도 31b-31c]는 커버리지의 깊이를 보여준다. 20X에서 95% 초과의 표적 염기가 관찰되었다. 30X에서 90% 초과의 표적 염기가 관찰되었다. [도 31d]는 RefSeq 패널의 특이성을 보여준다. 비-표적 퍼센트 비율은 0.2 미만이었다. [도 31e]는 RefSeq 패널의 균일성을 보여준다. 폴드 80은 1.5 미만이었다. [도 31f]는 라이브러리의 복잡성을 보여준다. 라이브러리 크기는 3억 2천만 개 초과였다. [도 31g]는 RefSeq 패널의 복제율을 나타낸다. 복제율은 4% 미만이었다. [도 31h]는 RefSeq 패널의 커버리지 비율을 나타낸다. 커버리지 비율은 0.9에서 1.1 사이였다. [도 31h]에 도시된 바와 같이. 커버리지 비율이 1.1 미만이었다.
실시예 18. 패널 크기의 범위 및 표적 영역에 걸친 맞춤형 패널 설계
실시예 6의 일반적인 방법을 사용하여 시퀀싱 데이터를 획득하였다. 라이브러리의 세부사항은 표 13에 제시한다. 간략하게, 단일-플렉스 풀당 500 ng의 gDNA(NA12878; Coriell)를 사용하여 본원에서 설계된 여러 표적 농축 패널을 사용하여 제조업체의 권장 사항에 따라 하이브리드 포획을 수행하였다. NextSeq 500/550 High Output v2 키트를 사용하여 시퀀싱을 수행하여 2x76 이중 말단 리드(paired end read)를 생성하였다. 데이터는 표적 크기의 150x로 다운샘플링하였으며 맵핑 품질이 20: N = 2인 Picard Metrics를 사용하여 분석하였다. 패널은 높은 비율의 표적-적중 리드, 게다가 개선된 균일성과 낮은 복제율을 보였다. [도 32a-32b]는 30x 커버리지를 달성하는 각 패널에서 리드의 백분율을 나타내고 [도 32c]는 균일성(폴드-80)을 나타낸다.
[표 13]
Figure pct00015
실시예 19. 농축 작업 흐름
농축 작업 흐름 타임라인은 [도 33a]에 나타낸다. 시퀀싱 데이터는 실시예 6의 일반적인 방법을 사용하여 획득하였다. 간단하게, 게놈 DNA(NA12878, Corriell)를 엑솜 패널 또는 맞춤형 패널을 사용하여 혼성화하고 포획하였다. 2개의 상이한 프로브 라이브러리(엑솜 프로브 또는 맞춤형 패널)를 핵산 샘플에 혼성화하는 동안 "고속" 혼성화 완충액을 액체 중합체와 함께 사용하고, 포획/혼성화 반응을 뚜껑 온도가 85℃인 PCR 열 순환기에서 다양한 시간 동안 65℃에서 가열하였다. 시퀀싱 후 기본 값이 있는 Picard HS_Metric tools(Pct_Target_Bases_30X)를 서열 분석에 사용하였다. 두 패널에 대해, 고속 혼성화 용액에서 15분 혼성화는 16시간 표준 혼성화와 동등한 성능을 가져왔으며, 혼성화 시간을 증가시키면 [도 33b]에 도시된 바와 같이 종래의 혼성화 완충제를 사용하는 표준 프로토콜에 비해 성능이 향상되었다.
실시예 20. 나노볼 시퀀싱을 이용한 표적 농축
표적 농축 패널은 나노볼 시퀀싱을 사용하여 시퀀싱하였다. 간단하게, 나노볼 시퀀싱은 롤링 서클 증폭(RCA: rolling circle amplification)을 사용하여 게놈 DNA의 단편을 DNA 나노볼로 증폭한다. DNA 나노볼을 플로우 셀에 흡착시키고 각 위치에서 형광을 측정하여 염기를 식별하는 데 사용한다.
라이브러리는 2개의 상이한 삽입물 크기로 제조하였고 나노볼 시퀀싱을 사용하여 시퀀싱하였다. 원형 어댑터는 나노볼 시퀀싱과 호환되었다. 라이브러리는 표적-적중 비율, 특이성, 복제율, 커버리지에 대해 평가하였다. [도 34a-34d]에 도시된 바와 같이, 원형 어댑터를 사용하여 40%에서 75%로 표적-적중 비율의 백분율이 증가하였고(도 34a), 약 1.45에서 폴드 80을 이용한 균일성이 더 컸으며(도 34b), 약 30%에서 복제율이 더 낮았으며(도 34c) 및 30X 커버리지 이상에서 약 92% 표적 염기가 관찰되었다(도 34d).
실시예 21. 어댑터의 줄기 영역에 결합하는 차단제
다른 상업적으로 이용 가능한 어댑터 시스템은 표준 이중 바코드 어댑터 시스템 T; 트랜스포사제 어댑터 시스템 N; 및 나노볼 기반 시퀀싱을 위해 설계된 어댑터 시스템 B와 같은 다양한 줄기(Y 줄기, 요크) 길이 및 용융 온도(표 14)를 포함한다.
[표 14]
Figure pct00016
실시예 19의 일반적인 절차에 따라, 잠금 핵산(LNA)을 포함하는 차단 핵산을 농축/포획 동안 N 어댑터 시스템과 함께 사용하였으며, 관찰된 "오프-베이트" 백분율의 함수로서 NGS 성능(임의의 베이트 영역으로부터 떨어져 맵핑된 PF_BASES_ALIGNED의 분율, OFF_BAIT_BASES/PF_BASES_ALIGNED)을 측정하였다. 일반적으로 어댑터 줄기 영역에 어닐링되는 잠금 핵산 수를 늘리면 베이트 성능이 저하되었다(표 15).
[표 15]
Figure pct00017
이론에 얽매이지 않고, 일부 경우에 감소된 성능은 바람직하지 않은 혼성화 종 집단 B-D(도 36b-36d)의 증가, 및 원하는 종 집단 A(도 36a)의 감소에 의해 야기될 수 있다(표 16).
[표 16]
Figure pct00018
실시예 22. PUSH-PULL 범용 차단제
범용 차단제는 표적 농축 동안 친화도의 전체 순 양성 증가 및 오프-베이트 성능의 개선을 야기하기 위해 표적 서열의 결합 친화도를 향상 및 감소시키는 영역을 갖도록 설계할 수 있다. 이러한 설계는 예를 들어 다음의 잠재적인 이점을 제공한다: 1) 각 영역은 표적 농축 적용 동안 주어진 원하는 수준의 오프-베이트 활성에 대해 이론적으로 또는 경험적으로 조정될 수 있다; 2) 각 영역은 표적 서열에 대한 분자의 전체 친화도를 증가 또는 감소시킬 수 있는 단일 유형의 화학적 변형 또는 다중 유형으로 변경될 수 있다; 3) 차단제 세트의 모든 개별 구성원의 용융 온도는 다른 변형(예를 들어, LNA 및 BNA)으로 최적의 성능을 위해 지정된 온도 이상으로 유지되어야 한다; 4) 주어진 차단제 세트는 인덱스 길이, 인덱스 서열 및 혼성화에 존재하는 어댑터 인덱스 수와 무관하게 오프-베이트 성능을 향상시킨다.
범용 차단제의 Y 줄기 어댑터 어닐링 부분을 해결하는 한 가지 접근 방식은 DNA 변경을 완전히 제거하고 이 문제 영역에서 표준 A, C, G 및 T 염기만으로 차단제를 설계하는 것이다. 주어진 영역에 대한 결합 친화도를 감소시키는 추가 DNA 변형을 추가할 가능성도 있다. 여기에 결합 친화도를 증가시키기 위해 DNA 변경이 도입되는 영역이 수반된다면, 주어진 표적 영역에 대해 친화도의 증가 및 감소된 영역 모두를 갖는 설계된 차단제 올리고를 생성할 수 있다. 화학적 합성 중에 도입할 수 있는 상업적으로 이용 가능한 변형의 예는 2'-데옥시이노신이다.
일부 설계는 어댑터 바코드를 덮기 위해 이러한 유형의 모이어티의 스트레치(6-10bp 길이)를 활용하지만, 용융 온도(Tm)를 낮추기 위해 서열에 걸쳐 희박한 방식으로 사용할 수도 있다. Tm이 원하는 표적에 조정될 수 있음을 입증하기 위해 상이한 개수의 2'-데옥시이노신 모이어티를 포함하거나 포함하지 않는 무작위 18bp 서열을 아래에 제시한다(표 17). 이러한 서열을 Tm을 증가시키는 모이어티를 포함하는 서열과 연쇄시킬 때, 다양한 열역학적 특성을 갖는 하이브리드 분자를 생성할 수 있다. 이러한 하이브리드 분자에서, 특정 표적 서열에 대한 친화도를 방지하거나 증가시키기 위해 특정 영역을 특정 용융 온도로 열역학적으로 조정할 수 있다. 이러한 변형 조합은 특이적이고 고유한 어댑터 서열에 대한 차단제 분자의 친화도를 증가시키고 반복되는 어댑터 서열(예를 들어, 어댑터의 Y 줄기 어닐링 부분)에 대한 차단제 분자의 친화도를 감소시키는 데 도움이 되도록 설계한다. 이론에 얽매이지 않고, 이러한 설계는 표적 농축 작업 흐름 동안 혼성화의 맥락에서 원하는 집단에 대한 결합을 증가시키고 원하지 않는 집단에 대한 결합을 감소시킬 수 있다.
고유 영역에서 친화도를 증가시키는 모이어티 개수가 일정하게 유지되고 어댑터의 Y 줄기 부분에 결합하는 영역에서 친화도를 감소시키는 모이어티 개수가 증가된 예를 표 17에 제시한다.
[표 17]
Figure pct00019
차단제의 Y 줄기 어닐링 영역에서 친화도를 감소시키는 DNA 변형의 개수가 증가할 때, 집단 'A' 및 'D'가 우세하고 원하는 효과(A, 도 36a) 또는 최소 효과(D, 도 36d)를 보인다(표 18). 차단제의 Y 줄기 어닐링 영역에서 친화도를 감소시키는 DNA 변형의 개수가 감소함에 따라, 집단 'B' & 'C'가 우세하며 다른 어댑터에 대한 데이지-체인 또는 어닐링이 발생할 수 있거나('B', 도 36b) 차단제가 적절하게 기능을 할 수 없는 격리 차단제(C, 도 36c)가 발생할 수 있는 바람직하지 않은 효과를 보인다.
[표 18]
Figure pct00020
실시예 23. 보편적인 염기를 가진 인덱스를 덮는 범용 어댑터
단일 또는 이중 인덱스 어댑터 설계 모두에 대한 인덱스는 어댑터 인덱스 염기를 덮도록 특별히 설계된 DNA 변형으로 연장된 범용 차단제에 의해 부분적으로 또는 완전히 덮인다. 이러한 설계는 다음과 같은 잠재적인 이점을 제공한다: 1) 인덱스의 양쪽에서 다양한 길이의 바코드를 부분적으로 또는 완전히 덮도록 조정 2) 일부 경우에 차단제 세트의 모든 개별 구성원의 용융 온도는 다른 변형(예를 들어, LNA 및/또는 BNA)으로 최적의 성능을 위해 지정된 온도 이상으로 유지된다; 3) 주어진 차단제 세트는 인덱스 길이가 정의된 최소 길이보다 크거나 같을 때 서열 및 혼성화에 존재하는 어댑터 인덱스 수와 무관하게 오프-베이트 성능을 향상시킬 것이다.
차단제는 어댑터 인덱스의 일부가 아닌 영역에 결합하는 방식으로 설계한다(도 37a). 결과적으로, 이 설계를 이용한 모든 인덱스 염기는 완전히 노출된 상태로 남는다(즉, [도 37a]에서 '1|2|3|......|(n-1)|n'). 이 설계는 또한 인덱스 염기를 덮도록 차단제를 연장할 다양한 모이어티로 연장된다. 이러한 방식으로 인덱스 염기를 덮는 것은 이중 인덱스 시스템의 개별 인덱스가 2'-데옥시이노신 모이어티의 3bp 또는 5bp 스트레치에 의해 한족으로부터 덮일 때 표적 농축 동안 오프-베이트 성능을 향상시키는 것으로 입증된다(도 37b). 추가적인 설계는 [37c-37g]를 포함한다.
실시예 19의 일반적인 절차에 따라, 33.1Mb 엑솜 패널을 2시간의 혼성화 시간을 이용한 포획에 사용하고, NGS 메트릭을 얻었다. (a) 오프-베이트 퍼센트(PCT_OFF_BAIT), (b) 균일성(FOLD_80_BASE_PENALTY), 및 (c) 커버리지 깊이(PCT_TARGET_BASES_30)에 대한 개선이 관찰되었다(도 38, 표 19). 이러한 변경은 차세대 시퀀싱 기기(예를 들어, Illumina의 NGS NovaSeq 플랫폼)에 배치할 수 있는 샘플 수에 상당한 영향을 미칠 수 있다.
[표 19]
Figure pct00021
실시예 24. 표적화된 메틸화 시퀀싱을 위한 엑소 농축
재료 및 방법. NA12878(Coriell Institute) 및 EpiScope® 저메틸화 및 과메틸화 gDNA 대조군(각각 <5% 및 >95% 메틸화 HCT116 DKO gDNA)의 게놈 DNA 샘플을 기계적으로 ~300bp 크기로 전단하였다(Covaris® ME220에서). 전단된 저메틸화 및 과메틸화 대조군을 혼합하여 다양한 시뮬레이션된 메틸화 수준의 샘플을 제조하였다. 500ng의 gDNA 입력을 중아황산염 처리(Zymo EZ DNA Methylation-Lightning Kit), Omega Bio-Tek Mag-Bind RxnPure Plus SPRI Beads, 및 KAPA HiFi Uracil+ DNA 폴리머라제와 함께 Swift Accel-NGS® Methyl-seq DNA 라이브러리 키트에 넣었다. 200ng의 gDNA 입력을 NEBNext® Enzymatic Methyl-seq Kit에 넣었다. 전단 샘플 및 라이브러리는 Agilent BioAnalyzer 7500 및 Invitrogen Qubit Broad Range Kit로 검증하였다.
실시예 19의 일반적인 프로토콜에 따라, 다양한 표적 크기 범위(0.05, 1.0, 1.5, 및 3.0 Mb)를 덮는 4개의 메틸화 패널과의 4시간 혼성화에 고속 혼성화 완충제를 사용하였다. 각 단일 플렉스 포획에 200ng의 라이브러리를 사용한 다음, v2.5 High Output 키트로 Illumina NextSeq 550에서 2x151bp 시퀀싱을 수행하였다. 정렬 및 메틸화 분석은 샘플당 250X의 원시 커버리지까지 샘플링한 후 Bismark 19.1 및 Picard HsMetrics를 사용하여 수행하였다.
결과. 사전 포획 변환은 매우 민감한 후성 유전학 적용을 가능하게 할 수 있지만, 주요 문제는 변환 후 게놈의 복잡성 감소에서 비롯된다. 비-메틸화 패널과 비교하여 이는 일반적으로 비-표적이 현저히 높고(수준 >50-60%), 베이트의 시퀀싱 커버리지가 낮고, 포획 균일성이 크게 감소한다(폴드 80 염기 패널티 값 >2.5). 광범위한 상이한 메틸화 표적을 덮는 3개의 패널로부터 수득된 결과는 [도 42a-42d]에 나타낸다. 평가된 패널은 27%만큼 낮은 비-표적 값을 보였다. 05Mb 패널은 다른 세 패널에 비해 더 높은 비-표적을 보였다. 이론에 얽매이지 않고, 이것은 극도로 작은 표적 크기의 특성 때문일 수 있다. 포획 균일성은 >2.5 폴드 80이었고 1.75 및 1.5만큼 낮은 값에 도달하였다. 복제율은 테스트한 4개의 패널 모두에서 매우 낮았으며, 이는 포획 단계가 효율적이고 작업 흐름 전반에 걸쳐 높은 샘플 복잡성을 유지할 수 있음을 나타낸다. 전반적으로, 250x 원시 시퀀싱 커버리지를 통해, 가장 작은 패널에 대해서도 20x에서 84% 및 30x에서 70%보다 높은 염기의 원시 커버리지를 달성하였다.
적응형 패널 설계 최적화 알고리즘은 포획 실험의 경험적 데이터를 사용하여 특정 프로브 특성에 대해 학습하여 성능을 정량적으로 조정할 수 있게 한다. 이 방법은 높은 비-표적 비율을 제어하는 것이 우선순위가 되는 메틸화 패널에 특히 유용해진다. 또한, ~30,000개 이상의 메틸화 표적에 대해 수집된 데이터를 사용하여 유익한 염기서열 특징을 도출하고 3단계 엄격도를 가진 최적화된 기본 패널 설계를 개발하는 데 사용하였다. 1Mb 패널은 낮은, 중간 및 높은 엄격도를 갖는 기본 패널의 예로 사용하였으며, 이는 다른 주요 메트릭에서 단지 약간의 변경을 유도하면서 비-표적 비율의 제어를 증가시킨다(도 43a-43d).
가능한 메틸화 수준의 범위에 걸쳐 적합성을 평가하기 위해, 각각 0, 25, 50, 75, 및 100% 메틸화의 최종 비율로 혼합된 저메틸화 및 과메틸화 세포주로부터 생성된 gDNA 라이브러리를 사용하여 중간 엄격도 1Mb 패널에서 포획을 수행하였다. [도 44a-44d]는 차등적으로 메틸화된 샘플 간의 포획 성능의 변동성을 나타내는 평균 값 및 표준 오류를 나타내는 막대를 사용하여 주요 포획 메트릭을 강조한다. 메트릭은 다양한 메틸화 수준에 대해 거의 또는 전혀 반응을 나타내지 않으며, 이는 저메틸화 및 과메틸화 DNA를 포함한 광범위한 메틸화 상태와 시스템의 호환성을 보여준다.
프로모터 및 기타 조절 요소의 메틸화 수준의 변화는 암의 조기 검출에 사용할 수 있는 가장 민감한 마커 중 일부로 떠오르고 있다. 표적화된 메틸화 시퀀싱은 DNA 메틸화의 차등적인 수준을 검출하고 정량화할 수 있다. 저메틸화 및 과메틸화 DNA를 다른 비율로 혼합하고 1Mb 패널을 이용한 포획에 사용하였다. [도 45a 및 45b]는 특정 암(예를 들어, 유방암)에서 메틸화 상태를 변경하는 것으로 알려진 임상적으로 관련된 사이클린 D2 좌위에서 표적 및 개별 CpG 부위를 따라 상이한 DNA 메틸화 수준의 검출을 강조한다. 메틸화된 시토신을 검출하는 단계는 메틸화된 시토신이 전환으로부터 보호되는 동안 비-메틸화 시토신의 티민으로의 전환을 포함한다. 전통적으로 전환은 화학적 중아황산염 방법을 통해 발생하였다. 비-메틸화 시토신의 효소적 전환을 포함한 다른 방법이 현장에서 증가하는 속도로 채택되어왔다. 각 전환 방법은 전환 반응 조건에 대한 효소의 더 큰 잠재적 민감성 또는 중아황산염에 의한 DNA의 컨텍스트 편향된 분해와 같은 장점 및 단점을 갖는다.
본원에서 패널 합성을 사용한 메틸화 시퀀싱은 효소 및 중아황산염 기반 접근법 모두와 호환되었다(도 46a-46d). 비-CpG 부위에서 전환된 시토신의 분율로 측정된 전환율은 두 방법 모두에서 >99.5%였다(도 47). 전체 포획 메트릭은 두 라이브러리 제조 방법에 대해 동일한 정도로 비슷하였지만, 균일성 및 비-표적과 같은 특정 메트릭은 중아황산염 방법에 대해 감소하였다. 이론에 얽매이지 않고, 감소된 균일성은 적어도 부분적으로 중아황산염 기반 라이브러리 제조 방법에 의해 도입된 고유한 GC 편향으로 인한 것일 수 있다(데이터 미제시).
본 발명의 바람직한 실시 양태가 본원에 제시되고 기재되었지만, 그러한 실시 양태는 단지 예로서 제공된다는 것은 당업자에게 명백할 것이다. 이제 본 발명을 벗어나지 않고 수많은 변형, 변경 및 대체는 당업자가 생각해 낼 것이다. 본원에 기재된 본 발명의 실시 양태에 대한 다양한 대안이 본 발명을 실시하는 데 이용될 수 있음을 이해해야 한다. 다음 청구범위는 본 발명의 범위를 정의하고 이러한 청구범위 및 그 균등물의 범위 내의 방법 및 구조는 이에 의해 포함되는 것으로 의도된다.
SEQUENCE LISTING <110> TWIST BIOSCIENCE CORPORATION <120> COMPOSITIONS AND METHODS FOR NEXT GENERATION SEQUENCING <130> 44854-781.601 <140> PCT/US2020/019371 <141> 2020-02-21 <150> 62/926,336 <151> 2019-10-25 <150> 62/914,904 <151> 2019-10-14 <150> 62/810,321 <151> 2019-02-25 <160> 9 <170> PatentIn version 3.5 <210> 1 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (51)..(52) <223> Thymidine-succinyl hexamide CED phosphoramidite <400> 1 agacaatcaa ccatttgggg tggacagcct tgacctctag acttcggcat tttttttttt 60 tt 62 <210> 2 <211> 112 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic polynucleotide <220> <221> modified_base <222> (101)..(102) <223> Thymidine-succinyl hexamide CED phosphoramidite <400> 2 cgggatcctt atcgtcatcg tcgtacagat cccgacccat ttgctgtcca ccagtcatgc 60 tagccatacc atgatgatga tgatgatgag aaccccgcat tttttttttt tt 112 <210> 3 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 3 atgcggggtt ctcatcatc 19 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 4 cgggatcctt atcgtcatcg 20 <210> 5 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 5 aatgatacgg cgaccaccga 20 <210> 6 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic primer <400> 6 caagcagaag acggcatacg agat 24 <210> 7 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <400> 7 actacgtacg atcgatcg 18 <210> 8 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (5)..(5) <223> 2'-deoxyInosine <220> <221> modified_base <222> (14)..(14) <223> 2'-deoxyInosine <400> 8 actangtacg atcnatcg 18 <210> 9 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Description of Artificial Sequence: Synthetic oligonucleotide <220> <221> modified_base <222> (5)..(5) <223> 2'-deoxyInosine <220> <221> modified_base <222> (9)..(9) <223> 2'-deoxyInosine <220> <221> modified_base <222> (14)..(14) <223> 2'-deoxyInosine <220> <221> modified_base <222> (17)..(17) <223> 2'-deoxyInosine <400> 9 actangtang atcnatng 18

Claims (59)

  1. 제1 말단 어댑터 영역, 제1 비-상보성 영역, 및 제1 요크 영역을 포함하는 제1 가닥;
    제2 말단 어댑터 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥
    을 포함하는 폴리뉴클레오티드로서,
    제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않으며, 제1 요크 영역 또는 제2 요크 영역은 적어도 하나의 핵염기 유사체를 포함하는 것인 폴리뉴클레오티드.
  2. 제1항에 있어서, 핵염기 유사체는 제1 요크 영역을 제2 요크 영역에 결합시키는 Tm을 증가시키는 것인 폴리뉴클레오티드.
  3. 제1항 또는 제2항에 있어서, 핵염기 유사체는 잠금 핵산(LNA: locked nucleic acid) 또는 가교 핵산(BNA: bridged nucleic acid)인 폴리뉴클레오티드.
  4. 제1항 내지 제3항 중 어느 하나의 항에 있어서, 상보적인 제1 요크 영역 및 제2 요크 영역은 각각 15개 미만의 염기 길이인 폴리뉴클레오티드.
  5. 제1항 내지 제3항 중 어느 하나의 항에 있어서, 상보적인 제1 요크 영역 및 제2 요크 영역은 각각 10개 미만의 염기 길이인 폴리뉴클레오티드.
  6. 제1항 내지 제3항 중 어느 하나의 항에 있어서, 상보적인 제1 요크 영역 및 제2 요크 영역은 각각 6개 미만의 염기 길이인 폴리뉴클레오티드.
  7. 제1항 내지 제6항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드는 바코드 또는 인덱스 서열을 포함하지 않는 것인 폴리뉴클레오티드.
  8. 이중체 샘플 핵산;
    이중체 샘플 핵산의 5' 말단에 결찰된 제1 폴리뉴클레오티드; 및
    이중체 샘플 핵산의 3' 말단에 결찰된 제2 폴리뉴클레오티드
    를 포함하는 폴리뉴클레오티드로서,
    제1 폴리뉴클레오티드 또는 제2 폴리뉴클레오티드는
    제1 말단 어댑터 영역, 제1 비-상보성 영역, 및 제1 요크 영역을 포함하는 제1 가닥; 및
    제2 말단 어댑터 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥
    을 포함하며,
    제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않으며, 제1 요크 영역 또는 제2 요크 영역은 적어도 하나의 핵염기 유사체를 포함하는 것인 폴리뉴클레오티드.
  9. 제8항에 있어서, 이중체 샘플 핵산은 DNA인 폴리뉴클레오티드.
  10. 제8항에 있어서, 이중체 샘플 핵산은 게놈 DNA인 폴리뉴클레오티드.
  11. 제10항에 있어서, 게놈 DNA는 인간 기원의 것인 폴리뉴클레오티드.
  12. 제8항 내지 제11항 중 어느 하나의 항에 있어서, 제1 폴리뉴클레오티드 또는 제2 폴리뉴클레오티드는 적어도 하나의 바코드를 포함하는 것인 폴리뉴클레오티드.
  13. 제12항에 있어서, 적어도 하나의 바코드는 적어도 8개의 염기 길이인 폴리뉴클레오티드.
  14. 제12항에 있어서, 적어도 하나의 바코드는 적어도 12개의 염기 길이인 폴리뉴클레오티드.
  15. 제12항에 있어서, 적어도 하나의 바코드는 적어도 16개의 염기 길이인 폴리뉴클레오티드.
  16. 제12항에 있어서, 적어도 하나의 바코드는 8-12개의 염기 길이인 폴리뉴클레오티드.
  17. 제12항 내지 제15항 중 어느 하나의 항에 있어서, 제1 폴리뉴클레오티드는 제1 바코드 및 제2 바코드를 포함하고, 제2 폴리뉴클레오티드는 제3 바코드 및 제4 바코드를 포함하는 것인 폴리뉴클레오티드.
  18. 제17항에 있어서, 제1 바코드와 제3 바코드는 동일한 서열을 갖고, 제2 바코드와 제4 바코드는 동일한 서열을 갖는 것인 폴리뉴클레오티드.
  19. 제17항에 있어서, 폴리뉴클레오티드 내의 각 바코드는 고유한 서열을 포함하는 것인 폴리뉴클레오티드.
  20. 샘플 핵산을 표지하는 방법으로서,
    (1) 적어도 하나의 폴리뉴클레오티드를 적어도 하나의 샘플 핵산에 결찰하여 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 폴리뉴클레오티드는
    제1 프라이머 결합 영역, 제1 비-상보성 영역, 및 제1 요크 영역을 포함하는 제1 가닥; 및
    제2 프라이머 결합 영역, 제2 비-상보성 영역, 및 제2 요크 영역을 포함하는 제2 가닥
    을 포함하며;
    제1 요크 영역과 제2 요크 영역은 상보적이고, 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이지 않은 것인 단계;
    (2) 적어도 하나의 어댑터-결찰된 샘플 핵산을 제1 프라이머 및 폴리머라제와 접촉시키는 단계로서, 제1 프라이머는
    제3 프라이머 결합 영역;
    제4 프라이머 결합 영역; 및
    적어도 하나의 바코드
    를 포함하며;
    제3 프라이머 결합 영역은 적어도 하나의 폴리뉴클레오티드의 길이 미만에 상보적이고, 제3 프라이머 결합 영역은 제1 프라이머 결합 영역에 상보적인 것인 단계; 및
    (3) 어댑터-결찰된 샘플 핵산을 연장하여 적어도 하나의 증폭된 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 증폭된 어댑터-결찰된 샘플 핵산은 적어도 하나의 바코드를 포함하는 것인 단계
    를 포함하는, 샘플 핵산을 표지하는 방법.
  21. 제20항에 있어서, 제1 프라이머 및 제2 프라이머는 각각 30개 미만의 염기 길이인 방법.
  22. 제20항에 있어서, 프라이머는 20개 미만의 염기 길이인 방법.
  23. 제20항에 있어서, 폴리뉴클레오티드는 바코드를 포함하지 않는 것인 방법.
  24. 제20항 내지 제23항 중 어느 하나의 항에 있어서, 프라이머는 하나의 바코드를 포함하는 것인 방법.
  25. 제20항 내지 제24항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 인덱스 서열을 포함하는 것인 방법.
  26. 제20항 내지 제25항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 적어도 8개의 염기 길이인 방법.
  27. 제20항 내지 제25항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 적어도 12개의 염기 길이인 방법.
  28. 제20항 내지 제25항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 적어도 16개의 염기 길이인 방법.
  29. 제20항 내지 제25항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 8-12개의 염기 길이인 방법.
  30. 제25항 내지 제29항 중 어느 하나의 항에 있어서, 인덱스 서열은 동일한 공급원으로부터의 샘플 핵산의 라이브러리 간에 공통인 것인 방법.
  31. 제24항 내지 제30항 중 어느 하나의 항에 있어서, 적어도 하나의 바코드는 고유 분자 식별자(UMI: unique molecular identifier)를 포함하는 것인 방법.
  32. 제20항 내지 제31항 중 어느 하나의 항에 있어서, 2개의 폴리뉴클레오티드가 적어도 하나의 샘플 핵산에 결찰되는 것인 방법.
  33. 제32항에 있어서, 제1 폴리뉴클레오티드는 샘플 핵산의 5' 말단에 결찰되고, 제2 폴리뉴클레오티드는 샘플 핵산의 3' 말단에 결찰되는 것인 방법.
  34. 제20항 내지 제33항 중 어느 하나의 항에 있어서,
    (4) 적어도 하나의 어댑터-결찰된 샘플 핵산을 제2 프라이머 및 폴리머라제와 접촉시키는 단계로서, 제2 프라이머는
    제5 프라이머 결합 영역;
    제6 프라이머 결합 영역; 및
    적어도 하나의 바코드
    를 포함하며;
    제6 프라이머 결합 영역은 적어도 하나의 폴리뉴클레오티드의 길이 미만에 상보적이고, 제5 프라이머 결합 영역은 제2 프라이머 결합 영역에 상보적인 것인 단계; 및
    (5) 폴리뉴클레오티드를 연장하여 적어도 하나의 증폭된 어댑터-결찰된 샘플 핵산을 생성하는 단계로서, 증폭된 어댑터-결찰된 샘플 핵산은 적어도 하나의 바코드를 포함하는 것인 단계
    를 추가로 포함하는 방법.
  35. 제20항 내지 제34항 중 어느 하나의 항에 있어서, 어댑터-결찰된 샘플 핵산을 시퀀싱하는 단계를 추가로 포함하는 방법.
  36. 적어도 3개의 폴리뉴클레오티드 차단제를 포함하는 조성물로서,
    적어도 3개의 폴리뉴클레오티드 차단제는 어댑터-결찰된 샘플 핵산의 하나 이상의 영역에 결합하도록 구성되며, 어댑터-결찰된 샘플 핵산은
    i) 제1 비-상보성 영역, 제1 인덱스 영역, 제2 비-상보성 영역, 및 제1 요크 영역; 및
    ii) 제3 비-상보성 영역, 제2 인덱스 영역, 제4 비-상보성 영역, 및 제2 요크 영역; 및
    iii) 제1 요크 영역 및 제2 요크 영역에 인접하게 위치한 게놈 삽입물
    을 포함하며, 제1 요크 영역과 제2 요크 영역은 상보적이고 제1 비-상보성 영역과 제2 비-상보성 영역은 상보적이 않으며,
    적어도 하나의 폴리뉴클레오티드 차단제는 제1 요크 영역 또는 제2 요크 영역에 상보적이지 않고, 폴리뉴클레오티드 차단제와 어댑터-결찰된 샘플 핵산 사이의 결합을 증가시키도록 구성된 적어도 하나의 뉴클레오티드 유사체를 포함하는 것인 조성물.
  37. 제36항에 있어서, 적어도 2개의 폴리뉴클레오티드 차단제는 제1 요크 영역 또는 제2 요크 영역에 상보적이지 않고, 각각이 폴리뉴클레오티드 차단제와 어댑터-결찰된 샘플 핵산 사이의 결합을 증가시키도록 구성된 적어도 하나의 변형된 핵염기를 포함하는 것인 조성물.
  38. 제36항에 있어서, 적어도 하나의 인덱스 영역은 바코드 또는 고유 분자 식별자를 포함하는 것인 조성물.
  39. 제36항에 있어서, 적어도 하나의 인덱스 영역은 5-15개의 염기 길이인 조성물.
  40. 제36항에 있어서, 폴리뉴클레오티드 차단제 중 적어도 하나는 적어도 하나의 보편적인 염기를 포함하는 것인 조성물.
  41. 제40항에 있어서, 적어도 하나의 보편적인 염기는 5-니트로인돌 또는 2-데옥시이노신인 조성물.
  42. 제40항에 있어서, 적어도 하나의 보편적인 염기는 적어도 하나의 인덱스 서열과 중첩되도록 구성되는 것인 조성물.
  43. 제40항에 있어서, 적어도 2개의 보편적인 염기는 적어도 2개의 인덱스 서열과 중첩되도록 구성되는 것인 조성물.
  44. 제40항에 있어서, 폴리뉴클레오티드 차단제 중 적어도 2개는 적어도 하나의 보편적인 염기를 포함하고, 적어도 하나의 보편적인 염기 각각은 적어도 하나의 인덱스 서열과 중첩되는 것인 조성물.
  45. 제42항 또는 제43항에 있어서, 중첩은 2-10개의 염기 길이인 조성물.
  46. 제36항에 있어서, 조성물은 4개 이하의 폴리뉴클레오티드 차단제를 포함하는 것인 조성물.
  47. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 하나 이상의 잠금 핵산(LNA) 또는 하나 이상의 가교 핵산(BNA)을 포함하는 것인 조성물.
  48. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 적어도 5개의 뉴클레오티드 유사체를 포함하는 것인 조성물.
  49. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 적어도 10개의 뉴클레오티드 유사체를 포함하는 것인 조성물.
  50. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 적어도 78℃의 Tm을 갖는 것인 조성물.
  51. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 적어도 80℃의 Tm을 갖는 것인 조성물.
  52. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 적어도 82℃의 Tm을 갖는 것인 조성물.
  53. 제36항 내지 제46항 중 어느 하나의 항에 있어서, 폴리뉴클레오티드 차단제는 80-90℃의 Tm을 갖는 것인 조성물.
  54. 핵산 혼성화 방법으로서,
    복수의 게놈 삽입물을 포함하는 어댑터-결찰된 샘플 핵산 라이브러리를 제공하는 단계;
    제36항 내지 제53항 중 어느 하나의 항의 조성물의 존재하에, 어댑터-결찰된 샘플 핵산 라이브러리를, 적어도 5000개의 폴리뉴클레오티드 프로브를 포함하는 프로브 라이브러리와 접촉시키는 단계; 및
    프로브 중 적어도 일부를 게놈 삽입물에 혼성화하는 단계
    를 포함하는, 핵산 혼성화 방법.
  55. 제54항에 있어서, 샘플 핵산 라이브러리는 적어도 100만 개의 고유 게놈 삽입물을 포함하는 것인 방법.
  56. 제54항에 있어서, 게놈 삽입물 중 적어도 일부는 인간 DNA를 포함하는 것인 방법.
  57. 제54항에 있어서, 농축된 샘플 핵산 라이브러리를 생성하는 단계를 추가로 포함하는 방법.
  58. 제57항에 있어서, 농축된 샘플 핵산 라이브러리를 시퀀싱하는 단계를 추가로 포함하는 방법.
  59. 제54항 내지 제58항 중 어느 하나의 항에 있어서, 샘플 핵산 라이브러리는 차세대 시퀀싱을 위해 구성된 어댑터를 포함하는 것인 방법.
KR1020217030220A 2019-02-25 2020-02-21 차세대 시퀀싱을 위한 조성물 및 방법 KR20210148122A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962810321P 2019-02-25 2019-02-25
US62/810,321 2019-02-25
US201962914904P 2019-10-14 2019-10-14
US62/914,904 2019-10-14
US201962926336P 2019-10-25 2019-10-25
US62/926,336 2019-10-25
PCT/US2020/019371 WO2020176362A1 (en) 2019-02-25 2020-02-21 Compositions and methods for next generation sequencing

Publications (1)

Publication Number Publication Date
KR20210148122A true KR20210148122A (ko) 2021-12-07

Family

ID=72238617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217030220A KR20210148122A (ko) 2019-02-25 2020-02-21 차세대 시퀀싱을 위한 조성물 및 방법

Country Status (8)

Country Link
US (2) US20210002710A1 (ko)
EP (1) EP3938505A4 (ko)
JP (1) JP2022521766A (ko)
KR (1) KR20210148122A (ko)
CN (1) CN113728100A (ko)
AU (1) AU2020227672A1 (ko)
CA (1) CA3131514A1 (ko)
WO (1) WO2020176362A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015021080A2 (en) 2013-08-05 2015-02-12 Twist Bioscience Corporation De novo synthesized gene libraries
US10669304B2 (en) 2015-02-04 2020-06-02 Twist Bioscience Corporation Methods and devices for de novo oligonucleic acid assembly
US9981239B2 (en) 2015-04-21 2018-05-29 Twist Bioscience Corporation Devices and methods for oligonucleic acid library synthesis
KR20180050411A (ko) 2015-09-18 2018-05-14 트위스트 바이오사이언스 코포레이션 올리고핵산 변이체 라이브러리 및 그의 합성
CN113604546A (zh) 2015-09-22 2021-11-05 特韦斯特生物科学公司 用于核酸合成的柔性基底
GB2568444A (en) 2016-08-22 2019-05-15 Twist Bioscience Corp De novo synthesized nucleic acid libraries
WO2018057526A2 (en) 2016-09-21 2018-03-29 Twist Bioscience Corporation Nucleic acid based data storage
CA3054303A1 (en) 2017-02-22 2018-08-30 Twist Bioscience Corporation Nucleic acid based data storage
WO2018170169A1 (en) 2017-03-15 2018-09-20 Twist Bioscience Corporation Variant libraries of the immunological synapse and synthesis thereof
AU2018284227B2 (en) 2017-06-12 2024-05-02 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
WO2018231864A1 (en) 2017-06-12 2018-12-20 Twist Bioscience Corporation Methods for seamless nucleic acid assembly
CA3075505A1 (en) 2017-09-11 2019-03-14 Twist Bioscience Corporation Gpcr binding proteins and synthesis thereof
SG11202003574TA (en) 2017-10-20 2020-05-28 Twist Bioscience Corp Heated nanowells for polynucleotide synthesis
GB2585506A (en) 2018-01-04 2021-01-13 Twist Bioscience Corp DNA-based digital information storage
GB2590196A (en) 2018-05-18 2021-06-23 Twist Bioscience Corp Polynucleotides, reagents, and methods for nucleic acid hybridization
US11492728B2 (en) 2019-02-26 2022-11-08 Twist Bioscience Corporation Variant nucleic acid libraries for antibody optimization
WO2020257612A1 (en) 2019-06-21 2020-12-24 Twist Bioscience Corporation Barcode-based nucleic acid sequence assembly
IL297700A (en) 2020-04-27 2022-12-01 Twist Bioscience Corp Variable libraries of nucleic acids for the coronavirus
CA3194398A1 (en) * 2020-10-05 2022-04-14 Twist Bioscience Corporation Hybridization methods and reagents
EP4229210A1 (en) 2020-10-19 2023-08-23 Twist Bioscience Corporation Methods of synthesizing oligonucleotides using tethered nucleotides
WO2022093811A1 (en) * 2020-10-26 2022-05-05 Twist Bioscience Corporation Libraries for next generation sequencing
US20220282398A1 (en) * 2021-03-05 2022-09-08 Bioo Scientific Corporation Universal blocking oligonucleotides for reduced off-target hybridization in hybridization capture methods
WO2023114432A2 (en) * 2021-12-17 2023-06-22 Twist Bioscience Corporation Compositions and methods for detection of variants
WO2024073708A1 (en) * 2022-09-29 2024-04-04 Twist Bioscience Corporation Methods and compositions for genomic analysis
CN116627972B (zh) * 2023-05-25 2024-03-01 成都融见软件科技有限公司 一种覆盖指标的结构化数据离散存储系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07509365A (ja) * 1992-07-31 1995-10-19 デイド・ベーリング・マルブルク・ゲゼルシヤフト・ミツト・ベシユレンクテル・ハフツング ポリヌクレオチド類の3’末端に特定配列を導入する方法
US5712126A (en) * 1995-08-01 1998-01-27 Yale University Analysis of gene expression by display of 3-end restriction fragments of CDNA
WO2003093504A1 (de) * 2002-05-06 2003-11-13 Noxxon Pharma Ag Verfahren zur amplifikation von nukleinsäuren
DK2828218T3 (da) * 2012-03-20 2020-11-02 Univ Washington Through Its Center For Commercialization Methods of lowering the error rate of massively parallel dna sequencing using duplex consensus sequencing
CA2877740A1 (en) * 2012-07-03 2014-01-09 Integrated Dna Technologies, Inc. Tm-enhanced blocking oligonucleotides and baits for improved target enrichment and reduced off-target selection
CA2975855A1 (en) * 2015-02-04 2016-08-11 Twist Bioscience Corporation Compositions and methods for synthetic gene assembly
US10844428B2 (en) * 2015-04-28 2020-11-24 Illumina, Inc. Error suppression in sequenced DNA fragments using redundant reads with unique molecular indices (UMIS)
ES2844852T3 (es) * 2015-07-21 2021-07-22 Guardant Health Inc Acidos nucleicos bloqueados para capturar genes de fusión
WO2017100441A1 (en) * 2015-12-08 2017-06-15 Twinstrand Biosciences, Inc. Improved adapters, methods, and compositions for duplex sequencing
CN110520542B (zh) * 2017-03-23 2024-06-14 华盛顿大学 用于靶向核酸序列富集的方法及在错误纠正的核酸测序中的应用
WO2018183918A1 (en) * 2017-03-30 2018-10-04 Grail, Inc. Enhanced ligation in sequencing library preparation
SG11201909394PA (en) * 2017-04-23 2019-11-28 Illumina Inc Compositions and methods for improving sample identification in indexed nucleic acid libraries
DK3872187T3 (da) * 2017-04-23 2022-12-05 Illumina Cambridge Ltd Sammensætninger og fremgangsmåder til forbedring af prøveidentificering i indekserede nukleinsyrebiblioteker
SG11201910070PA (en) * 2017-05-08 2019-11-28 Illumina Inc Universal short adapters for indexing of polynucleotide samples
EP3649236A4 (en) * 2017-07-05 2021-04-07 The Regents of The University of California MULTIPLEX RECEPTOR LIGAND INTERACTION SCREENS

Also Published As

Publication number Publication date
CA3131514A1 (en) 2020-09-03
US20210207197A1 (en) 2021-07-08
EP3938505A4 (en) 2022-11-30
JP2022521766A (ja) 2022-04-12
US20210002710A1 (en) 2021-01-07
CN113728100A (zh) 2021-11-30
AU2020227672A1 (en) 2021-10-07
EP3938505A1 (en) 2022-01-19
WO2020176362A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
KR20210148122A (ko) 차세대 시퀀싱을 위한 조성물 및 방법
KR102569164B1 (ko) 조절된 화학량론을 갖는 폴리뉴클레오티드 라이브러리 및 이의 합성
US20220106586A1 (en) Compositions and methods for library sequencing
US11492665B2 (en) Polynucleotides, reagents, and methods for nucleic acid hybridization
US20220106590A1 (en) Hybridization methods and reagents
US20220135965A1 (en) Libraries for next generation sequencing
US20220277808A1 (en) Libraries for identification of genomic variants
US20150126377A1 (en) Selection of nucleic acids by solution hybridization to oligonucleotide baits
WO2022217004A1 (en) Libraries for mutational analysis
US20230323449A1 (en) Compositions and methods for detection of variants
WO2023192635A2 (en) Libraries for methylation analysis
CN116981771A (zh) 杂交方法和试剂