KR20210104108A - 핵산 증폭 및 식별 방법 - Google Patents

핵산 증폭 및 식별 방법 Download PDF

Info

Publication number
KR20210104108A
KR20210104108A KR1020217022198A KR20217022198A KR20210104108A KR 20210104108 A KR20210104108 A KR 20210104108A KR 1020217022198 A KR1020217022198 A KR 1020217022198A KR 20217022198 A KR20217022198 A KR 20217022198A KR 20210104108 A KR20210104108 A KR 20210104108A
Authority
KR
South Korea
Prior art keywords
sequence
template
extension
nucleic acid
binding
Prior art date
Application number
KR1020217022198A
Other languages
English (en)
Inventor
이본느 고펠
파멜라 몰
톨스텐 레다
알렉산더 세이츠
Original Assignee
렉소겐 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 렉소겐 게엠베하 filed Critical 렉소겐 게엠베하
Publication of KR20210104108A publication Critical patent/KR20210104108A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/10Nucleotidyl transfering
    • C12Q2521/107RNA dependent DNA polymerase,(i.e. reverse transcriptase)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2525/00Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
    • C12Q2525/10Modifications characterised by
    • C12Q2525/161Modifications characterised by incorporating target specific and non-target specific sites

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 핵산 주형의 표지된 증폭 단편을 생성하는 방법을 제공하고,
상기 방법은
상기 주형 핵산을 제공하는 단계,
상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머가 결합하는 단계,
주형 특이적 방식으로 하나 이상의 올리고뉴클레오티드 프라이머를 연장시켜 연장 생성물을 생성하는 단계 - 여기에서 상기 연장 반응은 연장 생성물이 주형 핵산의 5' 말단 또는 연장 생성물의 하류에서 주형 핵산에 결합된 핵산 연장 스토퍼에 도달한 경우 중지됨 - ,
5' 말단 상에 식별 서열을 포함하는 어댑터 핵산을 제공하는 단계 - 여기에서 상기 식별 서열은 연장 스토퍼와 접촉할 때 연장 스토퍼와 혼성화하지 않음 - ,
5' 말단에서 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시켜 표지된 증폭 단편을 생성하는 단계를 포함한다.

Description

핵산 증폭 및 식별 방법
본 발명은 핵산 분석 및 증폭 분야에 관한 것이다.
US 2010/0273219 A1은 표적 핵산을 바코딩하는 다중 프라이머 증폭 방법을 개시한다.
WO 2012/134884 A1은 복합 증폭 반응에서 주형 핵산의 바코딩을 개시한다.
WO 2013/038010 A2은 중합 효소에 의한 가닥 이동 및 리드-스루(read-through)를 방지하기 위해 염기 서열 결정을 위한 핵산 부분을 생성하는 데 사용되는 올리고뉴클레오티드 프라이머 및 스토퍼(stoppers)를 사용하여 주형 핵산 중 증폭된 핵산 부분을 생성하는 방법을 개시한다. 상기 방법은 핵산 증폭 중 편향을 제거할 것이다.
WO 2014/071361 A1은 바코딩된 어댑터 핵산을 사용하여 이중 바코딩된 핵산을 제조하는 방법을 개시한다.
US 2014/0274729 A1은 가닥 이동 활성을 갖는 DNA 중합 효소를 사용하여 cDN 라이브러리를 생성하는 방법을 개시한다.
EP 3 119 886 B1은 주형 RNA에서 핵산 생성물을 생성하는 양적 방법을 개시한다.
US 2018/163201 A1은 역전사 방법에 관한 것이고, 여기에서 C 꼬리가 cDNA 가닥의 3' 말단에 첨가된다.
WO 2016/138500 A1은 염기 서열 결정을 위해 핵산을 바코딩하는 방법을 개시한다. 확률적, 즉 무작위 바코드가 분자 표지로 사용된다.
분자 바코드로도 명명되는 분자 표지 또는 고유의 분자 식별자(unique molecular identifier, UMI)가 개발되어 서열 특이적 PCR 편향을 감소시키고 희귀한 돌연변이를 검출하기 위한 PCR 이중체가 확인되었다. 염기 서열 결정 라이브러리 제조 중 임의의 PCR 증폭 전에 RNA 분자에 고유한 분자 식별자의 부착은 각 입력 분자에 대해 명백한 독자성을 설정한다. 상기는 후속적인 PCR 증폭 편향의 효과를 제거하는 것을 가능하게 하며, 이는 많은 PCR 사이클이 필요한 경우, 예를 들어 단일 세포 연구와 같이 적은 주형 입력 양에서 염기 서열 결정 라이브러리를 생성하는 경우에 특히 중요하다. PCR 후 동일한 서열 및 동일한 UMI를 또한 공유하는 분자는 동일한 입력 분자에서 유래된 동일한 카피일 것으로 추정된다(Sena et al., Scientific Reports (2018) 8:13121).
발명의 요약
본 발명의 목적은, 주형 핵산 서열에 대응하는 연결된 서열에 대해 서열 단편의 할당 및 조립을 용이하게 하는, 주형 핵산의 서열 단편을 생성하는 개선된 방법을 제공하는 것이다. 원하는 개선으로 또한 단편 생성 중 서열 편향을 감소시키고 주형 전장에 대한 서열 단편의 범위를 증가시켜 생성된 연결 서열의 신뢰도가 증가할 것이다.
그러므로, 본 발명은 핵산 주형의 표지된 증폭 단편을 생성하는 방법을 제공하며, 상기 방법은 상기 주형 핵산을 제공하는 단계, 상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머가 결합하는 단계, 주형 특이적 방식으로 하나 이상의 올리고뉴클레오티드 프라이머를 연장시켜 연장 생성물을 형성하는 단계 - 여기에서 상기 연장 반응은 연장 생성물이 주형 핵산의 5' 말단 또는 연장 생성물의 하류에서 주형 핵산에 결합된 핵산 연장 스토퍼에 도달한 경우 중지됨 - , 5' 말단 상에 식별 서열을 포함하는 어댑터 핵산을 제공하는 단계 - 여기에서 상기 식별 서열은 연장 스토퍼와 접촉할 때 연장 스토퍼와 혼성화하지 않고 바람직하게는 주형과도 혼성화하지 않음 - , 5' 말단에서 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시켜 표지된 증폭 단편을 생성하는 단계를 포함한다.
본 발명은 핵산 주형의 표지된 증폭 단편을 생성하는 방법을 또한 제공하며, 상기 방법은 상기 주형 핵산을 제공하는 단계, 상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머가 결합하는 단계, 주형 특이적 방식으로 하나 이상의 올리고뉴클레오티드 프라이머를 연장시켜 연장 생성물을 형성하는 단계, 식별 서열을 포함하는 어댑터 핵산을 제공하는 단계 - 여기에서 상기 식별 서열은 주형과 혼성화하지 않음 - , 바람직하게는 5' 말단에서 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시켜 표지된 증폭 단편을 생성하는 단계를 포함한다.
본 발명은 본 방법을 수행하는 데 적합한 키트를 더 제공한다. 본 발명의 키트는, 주형 핵산과 혼성화 및 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 올리고뉴클레오티드 프라이머, 주형 핵산에 혼성화할 수 있고, 바람직하게는 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 연장 스토퍼, 5' 말단 상에 식별 서열을 포함하는 하나 이상의 어댑터 핵산 - 여기에서 상기 식별 서열은 연장 스토퍼와 혼성화하지 않으며, 바람직하게는 상기 어댑터 핵산은 연장 스토퍼와 결합, 혼성화하거나 또는 결합하지 않음 - , 역전사 효소 및 올리고뉴클레오티드 리가제를 포함할 수 있다. 키트의 상이한 성분이 바이알과 같은 상이한 컨테이너 내로 제공될 수 있다.
하기 상세한 개시는 본 발명의 방법 및 키트 및 구현예를 포함한 모든 측면을 나타낸다. 즉 방법의 기재는 키트의 적합성일 수 있다. 방법에 기재된 임의의 구성 요소는 키트의 일부일 수 있다. 키트의 구성 요소들은 본 발명의 방법에 사용될 수 있다.
발명의 상세한 설명
본 발명은 핵산 주형의 표지된 증폭 단편을 생성하는 방법을 제공하고, 여기에서 식별 서열이 상기 단편을 증폭하기 전에 표지로서 도입된다. 주형 핵산은 다중 카피로 존재할 수 있다. 본 발명에 따라, 단편화는 증폭 중, 즉 주어진 길이의 주형에서 발생하는 일반적인 프로세스이고, 하나 이상(보통 이상)의 단편이 주형 중 일부의 증폭 중 발생된다. 생성된 단편의 서열은, 주형의 카피가 동시에 단편을 생성하고 상기 상보성 핵산 단편을 합성하는 프라이머가 상이한 주형 카피 상의 상이한 위치에 결합하는 경우 중첩될 수 있다. 본 발명의 개념이 주형 당 단일 단편에 대해 작용하나, 일반적으로 상이한 위치에서 주형에 결합하는 다중 프라이머를 사용함으로써 바람직하게는 많은 단편이 하나의 주형 분자에서 생성된다.
본 발명은 식별 서열이 생성된 단편에 결합함으로써 선행 방법을 개선한다. 식별 서열은 프라이머와 함께 또는 연장, 상보적인 핵산 단편의 합성 후 도입될 수 있다. 이어서, 식별 서열이 연장 생성물과 어댑터 핵산을 결찰함(ligation)으로써 도입된다. 의외로, 결찰 반응이 단일 가닥 식별 서열과 함께 발생한다, 즉 비혼성화(또는 “자유(free)”5' 말단을 갖는 식별 서열의 일부가 연장 생성물의 3' 말단에 결찰될 수 있다. 결찰 반응은, 바람직하게는 식별 서열의 5' 말단 상에 제공되는 인산염 잔기를 보통 포함한다. 의외로, 연장 생성물의 3' 말단에 대한 어댑터 핵산 부근에서 혼성화에 의존, 지지되는 어떤 주형 또는 스토퍼 서열도 필요하지 않다(실시예에 나타낸 바와 같음). 상기 부근은 주형에 결합된 올리고뉴클레오티드(연장 스토퍼 또는 단지 스토퍼로 여기에서 또한 지칭되고, 이는 또한 주형 당 하나 이상의 단편이 생성되는 경우 추가 프라이머일 수 있음)와 혼성화하기 위한 상보성 서열 부분(식별 서열의 하류, 즉 3' 방향)을 어댑터 핵산에 제공함으로써 지지될 수 있으나, 유도된 부근은 필요하지 않고 유도되지 않은 단순한 확산 프로세스의 결과일 수 있다. 특히, 어댑터 핵산이 주형 핵산의 5' 말단에 도달한 연장 생성물에 결찰될 수 있는 것으로 나타났고, 여기에서 추가의 하류 연장 스토퍼는 존재하지 않는다. 상기 결찰 반응은 연장 생성물의 상기 말단에 대해 직접 발생할 수 있거나 또는 일부 중합 효소가 갖는 말단 전이효소 활성에 근거하여 중합 효소가 하나 이상의 비주형 뉴클레오티드를 첨가한 후에 발생할 수 있다. 주형의 5' 말단에 대응하는 연장 생성물에 대한 상기 결찰은 놀랍고 유리한 일부 장점을 갖는다: 이는 주형의 5' 말단에서 단편의 발생을 증가시킴으로 선행 방법에는 결여된 서열 범위가 기본적으로 증가한다. 선행 방법에서, (이는 주형 카피 수, 평균적인 단편 크기 및 염기 서열 결정 판독 길이의 결과인) 3' 및 5' 말단에서 0에 근접하는 훨씬 더 낮은 범위를 갖는 주형의 중간에서 단편에 의한 높은 범위 분포로 이어지는 단편 시작 부위 분포가 일정하다. 5' 말단 상에서 상기 효과가 본 발명의 방법에 의해 완화된다. 또한, 본 발명은 주형의 3' 말단 상의 범위도 증가시키는 구현예를 또한 제공한다.
(연장 반응 당 하나의 단편 분자로 생성된) 증폭 단편은 보통 더 증폭, 즉 카피된다. 상기는 결찰된 식별 서열도 증폭되고, 따라서 카피됨을 의민한다. 보통 식별 서열은 매우 다양해서 무작위 선택 프로세스가, 동일한 서열을 가지나 하나의 주형의 상이한 카피를 초래하는 단일 단편을 고유하게 식별할 수 있다. 본 발명의 모든 구현예에서, 식별 서열은, 염기 서열 결정 후 단편 카피가 상이한 식별 서열을 갖기 때문에 주형 중 상이한 카피에서 유래한 것인지 또는 이들이 동일한 주형 분자에서 유래하고 상기 추가 증폭 중 만들어진 단순한 카피인지 여부를 결정하는 것을 돕는다.
추가 방법은 핵산 주형의 표지된 증폭 단편을 생성하는 방법을 제공하며, 상기 방법은 상기 주형 핵산을 제공하는 단계, 상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머가 결합하는 단계, 주형 특이적 방식으로 하나 이상의 올리고뉴클레오티드 프라이머를 연장시켜 연장 생성물을 형성하는 단계, 식별 서열을 포함하는 어댑터 핵산을 제공하는 단계 - 여기에서 상기 식별 서열은 주형과 혼성화하지 않음 - , 바람직하게는 5' 말단에서 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시켜 표지된 증폭 단편을 생성하는 단계를 포함한다. 본 방법은 상기와 본질적으로 동일하며, 스토퍼가 사용되지 않는 여기 기재된 모든 바람직한 구현예가 또한 안전하게 적용된다. 스토퍼 기능이 없을지도 모르는 다중 프라이머가 사용될 수 있다. 어댑터 핵산은 확산 과정 후에 연장 생성물에 여전히 결찰될 수 있다. 결찰의 경우, 연장 생성물은 주형과 여전히 혼성화하거나 또는 단일 가닥으로 혼성화할 수 있다. 그러나, 바람직하게는 스토퍼가 사용된다.
본 발명의 방법은 상기 주형 핵산을 제공하는 단계로 시작된다. 주형 분자는 본 발명의 방법에 사용하도록 당업자가 이용할 수 있다. 보통 주형은 핵산 분자의 샘플로 제공된다. 상기 주형 핵산은 진핵 세포 또는 원핵 세포와 같은 세포에서 단리될 수 있다. 특히 바람직한 구현예에서, 주형은 RNA이다. 세포의 총 RNA 또는 RNA 단편, 예컨대 mRNA 또는 rRNA-제거 RNA가 제공될 수 있다. 다루기 쉬운 RNA 양은, 예를 들어 0.1 pg 내지 500 ng, 1 pg 내지 200 ng, 10 pg 내지 100 ng, 또는 0.1 ng - 100 ng rRNA-제거 RNA 또는 0.1 ng 내지 1000 ng 총 RNA이다. 일부 구현예에서, 총 RNA 양은 예를 들어 10 pg일 수 있고, 비-rRNA RNA의 양은 1 pg 미만일 수 있다. 프라이머, 스토퍼 및 어댑터는 바람직하게는 DNA이다.
방법은 상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머를 결합하는 것을 더 포함한다. 올리고뉴클레오티드 프라이머는 당업계의 표준 관행에서와 같이 주형에 결합하고 연장 반응을 프라이밍할 수 있는 올리고뉴클레오티드 분자, 바람직하게는 DNA이다. 올리고뉴클레오티드 프라이머(또는 단순히 “프라이머(primer))”는 바람직하게 예를 들어 4 뉴클레오티드 내지 30개의 뉴클레오티드(nt) 길이 중 적어도 일부 길이의 주형에 결합한다. 결합은 혼성화에 의한다. 프라이머는 주형에 결합하지 않는 부분을 가질 수 있다. 상기 추가 부분은 다른 올리고뉴클레오티드에 결합하는 데 사용될 수 있고/거나 증폭 단편이 더 증폭되어 이의 카피를 생성할 경우 상기 언급된 추가 증폭에 사용될 수 있다. 따라서, 상기 추가 부분 또는 일부는 다른 프라이머가 상기 증폭/카피 반응을 위해 결합하는 서열을 가질 수 있다. 상기 부분은 프라이머 링커 서열로도 지칭된다. 프라이머 링커 서열은 바람직하게 4 nt 내지 30 nt 길이를 갖는다.
본 발명의 주된 방법으로 돌아가서, 하나 이상의 올리고뉴클레오티드 프라이머가 주형 특이적 방식으로 연장되어 연장 생성물(상보적 서열)을 형성한다. 상기 반응은 당업계의 표준에 따르고, 보통 중합 효소를 사용한다. 주형이 RNA인 경우, 이어서 RNA 의존성 중합효소, 예컨대 역전사 효소가 사용된다. 주형이 DNA인 경우, 이어서 DNA 의존성 중합효소가 사용된다. 연장 반응은 연장 생성물의 하류에서 주형 핵산에 결합된 핵산 연장 스토퍼에 도달한 경우 또는 연장 생성물이 주형 핵산의 5' 말단에 도달한 경우 연장 반응이 중지된다. 명백하게, 연장 반응은 주형의 5' 말단에 도달하고 따라서 주형이 없어진 경우, 중지된다. 일부 중합 효소는 상기 시점에 연장 생성물에 하나 이상의 비주형 뉴클레오티드를 첨가할 수 있고, 이는 생성된 표지된 증폭 단편의 서열 분석에서 5' 범위 생성물을 선택할 때 수용 가능하거나 심지어 유리할 수 있다. 그러나, 상기 비주형 뉴클레오티드의 첨가는 필수적이지 않다. 연장 반응이 연장 생성물의 하류에서 주형 핵산에 결합된 핵산 연장 스토퍼에 도달한 경우 연장 반응이 또한 중지된다. 상기 중지된 반응은 문헌[여기에 참조로 포함된 국제 출원 WO 2013/038010 A2]에 길게 설명된다. 상기 국제 출원 문헌에서, 연장 스토퍼는 “올리고뉴클레오티드 스토퍼(oligonucleotide stopper)”또는 “추가 올리고뉴클레오티드 프라이머(further oligonucleotide primer)”로 지칭된다. 본 발명에 따라, 하나의 용어, 즉 핵산 연장 스토퍼 또는 단지 “연장 스토퍼(elongation stopper)”또는 단지 ”스토퍼(stopper)”가 사용된다. 상기 본 발명의 스토퍼는 또한 프라이머일 수 있고 이어서 문헌[국제 출원 WO 2013/038010 A2]의 “추가 올리고뉴클레오티드 프라이머(further oligonucleotide primer)”에 대응된다. 본질적으로, 상기 스토퍼는 주형 상에 장애물을 놓음으로써 상류 연장 반응의 연장 반응(따라서, 스토퍼는 연장 생성물의 하류에 존재)을 중지시킨다. 스토퍼는 주형에 결합되거나 혼성화되고, 연장 반응은 스토퍼를 이동시키지 못해서 중단된다. 리드-스루(read-through), 즉 스토퍼의 이동이 부반응일 것이다. 스토퍼의 이동을 방지하는 방안이 문헌[국제 출원 WO 2013/038010 A2]에 길게 기재되어 있고 이들이 본 발명에 따라 사용될 수 있다. 간단히, 스토퍼의 이동(가닥의 이동 활성에 기인)을 방지하는 바람직한 방법 및 수단은 주형(주형에 결합/혼성화하는 스토퍼의 일부)에 결합하는 결합 서열의 녹는 온도를 증가시키는 하나 이상의 변형 뉴클레오티드를 포함하는 연장 스토퍼의 사용이다. 녹는 온도의 증가는 비변형, 천연 핵산, 예컨대 DNA 또는 RNA를 지칭한다. 상기 변형은, 예를 들어 LNA(잠긴 핵산), ZNA(지퍼 핵산), 2' 플루오로 뉴클레오시드/2' 플루오로뉴클레오티드 또는 PNA(펩티딕 또는 펩티드 핵산)이다. 다른 방안은 가닥 이동 활성을 갖지 않는 중합 효소 또는 삽입제를 사용하는 것이다. 바람직하게는 1, 2, 3, 4, 5 또는 6개의 뉴클레오티드가 변형된다. 바람직하게 변형된 핵산은 주형과 혼성화하는 스토퍼의 서열 부분 중 5' 쪽에 존재한다. 혼성화하지 않는 5' 방향 내 스토퍼의 추가 부분 - 예컨대 추가 증폭 반응에서 증폭/카피를 위해 상기 기재된 올리고뉴클레오티드 프라이머에 대해 기재된 바와 동일하게 작용하는 증폭 서열(“프라이머 링커 서열(primer linker sequence)”- 이 존재할 수 있고, 사실상, 상기 추가 부분은 어댑터 핵산에 결합/혼성화에 바람직하다 - 하기 참조. 어댑터는 “프라이머 링커 서열(primer linker sequence)”또는 올리고뉴클레오티드 스토퍼의 또 다른 부분에 결합/혼성화할 수 있다. 바람직한 구현예에서, 연장 스토퍼 및 바람직하게는 올리고뉴클레오티드 프라이머도 주형에 결합하기 위한 결합 서열(링커)의 녹는 온도를 증가시키는 하나 이상의 변형 뉴클레오티드(들)를 포함한다.
바람직하게는, 연장 반응 후에, 주형에 결합되지 않은 프라이머 및 스토퍼는 정제 단계에서 제거된다. 즉, 주형에 혼성화된 연장 생성물은 정제되고 추가 프로세싱을 위해 유지된다. 본 발명의 다른 구현예는 정제되지 않고 단일 부피에서 수행된다. 상기 정제는 당업계에 공지된 방법, 예를 들어 고체상(예를 들어 비드)에 주형 또는 연장 생성물의 고정 및 세척하여 임의의 결합되지 않은 프라이머 및 스토퍼의 제거에 의해 수행될 수 있다. 예시적인 방법은 고체상 역 고정이다(solid phase reverse immobilization, SPRI; DeAngelis et al., Nucleic Acids Research, 1995, 23(22): 4742-4743).
본 발명의 방법은 5' 말단 상에 식별 서열을 포함하는 어댑터 핵산을 제공하는 단계를 포함한다. 추가 서열 태그, 예컨대 증폭을 위한 서열(증폭 서열)은 또한 어댑터 핵산의 일부일 수 있다. 5' 말단은 식별 서열에 의해 3' 말단의 표지를 위해 연장 생성물의 3' 말단으로 결찰이 의도된 말단이다. 식별 서열은 연장 스토퍼 또는 주형에 혼성화되어서는 안된다. 따라서, 이는 보통 단일 가닥이고, 혼성화되지 않는다. 여기에서 용어 “식별 서열(identification sequence)”- 식별 서열의 단지 일부가 식별을 위해 나중에 사용된다 하더라도 - 은 혼성화 또는 결합되지 않는 어댑터 핵산의 5' 말단 부분에 대해 사용된다. 어댑터 핵산의 다른 부분이 연장 스토퍼와 혼성체를 형성하거나 연장 스토퍼에 결합될 수 있다. 어댑터 핵산은 상보적 프라이머 서열을 또한 포함할 수 있고, 이는 상기 언급된 바와 같이 표지된 증폭 단편(어댑터 링커 서열로 명명)의 추가 증폭 반응을 위한 표적이다. 식별 서열은, 연장 스토퍼 상에 상보적이지 않은 식별 서열에 대한 서열을 선택함으로써 연장 스토퍼 또는 주형과 혼성화하는 것이 방지될 수 있다. 주형 상에 상보성을 갖지 않도록 식별 서열을 선택하는 것이 또한 가능하다. 상기는 주형의 서열이 공지된 경우 용이하게 수행될 수 있다. 공지되지 않았으나 생물학적 출처 유래인 경우, 이어서 식별 서열은 생물학적 핵산에서 발생하지 않거나 거의 발생하지 않는 서열에서 선택될 수 있다. 상기 서열은 “스파이크 인(spike-in)”핵산, 예컨대 ERCC(External RNA Control Consortium, 외부 RNA 제어 컨소시엄) 서열 또는 SIRV(spike-In RNA variants, 스파이크-인 RNA 변이체) 서열로 공지되어 있다(예를 들어, 여기에 모두 참조로 포함된 문헌[ERCC, BMC Genomics 2005 6: 150; Jiang et al., Genome Res. 2011, 21(9): 1543-1551; WO 2016/005524 A1]을 참조한다). 식별 서열이 부반응으로 주형에 결합될 경우, 이어서 상기 상황은 보통 다음 단계의 결찰을 방지할 것이고 따라서 표지된 단편으로 이어지지 않을 것이고, 따라서 결과에 나타나지 않는다. 상기 부반응은 용인될 수 있으나 바람직하지 않다. 주형에 식별 서열 (및 바람직하게 전체 어댑터 핵산)의 결합을 방지하는 가장 용이하고 가장 바람직한 방법은 연장 반응 후에 어댑터 핵산을 간단히 제공하는 것이다. 연장 반응 후에, 주형은 연장 생성물 (및 프라이머 및 스토퍼)과 이중 가닥의 형태이다. 상기 형태의 어댑터 핵산은 주형이 이미 혼성화 파트너로 가려져서 주형에 더이상 결합할 수 없다. 상기 바람직한 방법에서, 식별 서열은 심지어 주형에 상보적인 서열을 가질 수 있고 주형과 혼성화할 수 있으나, 연속적인 방법 단계에 의해 그렇게 하는 것이 저지된다. 따라서, 주형 서열에 대한 어떠한 고려도 상기 구현예에 필요하지 않다.
스토퍼에 대한 식별 서열의 결합을 방지하는 가장 바람직한 선택은 스토퍼의 부분들 및 어댑터의 부분들이 서로 상보적인 서열을 가지고 있는 것이다. 스토퍼에 대한 어댑터의 접근에서 상보적 서열이 먼저 혼성화하고, 식별 서열은 단일 가닥으로 남아있기 때문이다.
본 발명의 방법은 5' 말단에서 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시키는 것을 더 포함하여 표지된 증폭 단편을 생성한다. 결찰은 보통 리가제 효소를 사용하여 수행된다. 리가제 유형은 결찰될 올리고뉴클레오티드의 성질에 따라 다르고, 당업자에 의해 선택될 수 있다. 리가제의 예는 DNA 리가제 또는 RNA 리가제를 포함한다. 리가제는 또한 RNA 리가제, 특히 T4 RNA 리가제 2와 같은 DNA 결찰 활성을 갖는 RNA 리가제일 수 있다. 추가 리가제는 T4 DNA 리가제, T4 RNA 리가제 1, DNA 리가제 I, DNA 리가제 III, DNA 리가제 IV, 대장균(E. coli) DNA 리가제, 앰플리가제 DNA 리가제, 절단형 Rnl2, Rnl2 절단형 K227Q, 써머스 스코토덕터스(Thermus scotoductus) 리가제, 메타노박테리움 써모아우토트로피쿰(Methanobacterium thermoautotrophicum) RNA 리가제, 내열성 App-리가제(NEB), 클로렐라 바이러스(Chlorella virus) DNA 리가제 또는 SplintR 리가제이다. 리가제는 단일 가닥 리가제 또는 이중 가닥 리가제일 수 있다. 예를 들어 상이한 연장 생성물 및/또는 어댑터 핵산 분자가 존재하고 동시에 결찰되어야만 할 경우, 하나의 반응 부피에서 동시에 수행될 상이한 반응을 위한 리가제의 조합이 또한 가능하다. 바람직한 조합은 DNA 리가제 및 RNA 리가제 또는 단일 가닥 리가제 및 이중 가닥 리가제이다. 결찰 반응은, 바람직하게는 어댑터 핵산 중 식별 서열의 5' 말단 상에 제공되는 인산염 잔기를 보통 포함한다. 또한 다른 5' 모이어티가 결찰, 예를 들어 아데닐화 말단의 결찰에 사용될 수 있다. 상기는 절단형 리가제 또는 App-리가제와 결찰될 수 있다.
생성된 표지된 증폭 단편은 결찰 후 5'에서 3'로: 프라이머 서열 - 연장 생성물 서열 - 연장 생성물 서열과 경계를 이루는 식별 서열을 갖는 어댑터 서열의 구조를 가질 것이다. 프라이머 서열은 “프라이머 링커 서열(primer linker sequence)”을 가질 수 있고/거나 어댑터 서열은 “어댑터 링커 서열(adaptor linker sequence)”을 가질 수 있다. 본 발명의 방법의 생성물, 즉 생성된 표지된 증폭 단편은 바람직하게는 더 증폭된다. 상기 추가 증폭은 PCR(polymerase chain reaction, 중합 효소 연쇄 반응) 또는 선형 증폭과 같이 당업계에 공지된 방법에 의해 생성된 표지된 증폭 단편의 카피를 생성한다. 상기 추가 증폭은 보통 바람직하게는 링커 서열, 특히 단편의 말단 상에 위치된 링커 서열 상에서, 즉 프라이머 서열 및 어댑터 서열의 일부 내에서, 특히 바람직하게는 프라이머 서열의 5' 말단 및 어댑터 서열의 3' 말단 상에서 표지된 증폭 단편에 결합하는 추가 프라이머의 사용을 수반한다. 상기 프라이머 및 어댑터와 관련하여 상기 언급된 바와 같이, 이들은 추가 증폭의 상기 프라이머에 결합하는 공지된 서열 영역(“프라이머 링커 서열(primer linker sequence)”및 “어댑터 링커 서열(adaptor linker sequence)”을 가질 수 있다. 상기 영역들(또는 “부분들(parts)”은 매우 길고 특이적이어서 주형에 결할하지 않을 수 있고; 이들은 범용 프라이머 결합 부위일 수 있다, 즉 바람직하게는 고유한 식별 서열과는 달리 상이한 어댑터/프라이머 사이에서 선택적이지 않을 수 있다.
식별 서열은 여기에서 증폭 단편에 대한 고유한 표지를 제공하고, 따라서 고유한 분자 식별자(unique molecular identifier, UMI)로 또한 지칭된다. 식별 서열은 추가 증폭(예를 들어 PCR)의 복제본을 확인할 수 있고, 서열 의존적 증폭 편향의 효과를 감소시킬 수 있다. 바람직한 구현예에서, 식별 서열은 추가 증폭 전에 연장 생성물(단편)에 결찰되는, 각 위치에서 대개 무작위 뉴클레오티드 분포를 갖는 올리고뉴클레오티드이다. 식별 서열이 고르게 분포하고 이의 수가 동일한 연장 생성물의 수보다 상당히 더 큰 경우, 동일한 식별 서열이 2개의 동일한 연장 생성물(상이한 카피)에 결찰된 것이 아닐 가능성이 있다. 상기의 경우에, 추가 증폭 후 분명한 식별 서열 수는 추가 증폭 전 수와 동일하다. 본 발명의 식별 서열은 문헌[Sena et al. (Scientific Reports (2018) 8:13121)]에서 UMI에 대해 기재된 바와 같이 또한 사용될 수 있다. 표지된 단편의 전체 서열 또는 전체 서열 중 일부는 차세대 염기 서열 결정 방법 및 추가 서열 분석에서 “판독(read)”으로 간주될 수 있다. 하나 이상의 판독이 데이터 분석 중 모아져 합쳐진 주형의 서열이 수득된다. 후속적으로 데이터 분석은 주형 분자 및 단편의 양적 분석이 또한 될 수 있고, 이는 특정 주형 카피가 많거나 적게 나타난 경우 직관, 예를 들어 RNA 스플라이스 변이체의 상이한 발현 비율에 대한 힌트를 제공할 수 있다. 바람직한 구현예에서, 본 발명은 고유한 증폭 단편 서열을 모으는 단계를 더 포함하고, 여기에서 표지가 사용되어 고유한 증폭 단편이 확인된다. 증폭된 표지된 증폭 단편의 상이한 식별 서열이 고유한 증폭 단편을 식별한다. 식별 서열은 집합 단계 또는 임의의 기타 데이터 분석 단계에서 복제 및 복제본 식별 및 제거를 가능하게 한다.
바람직한 구현예에서, 식별 서열은 3 nt(뉴클레오티드) 이상의 길이, 바람직하게는 3 nt 내지 20 nt, 특히 바람직하게는 4 nt 내지 15 nt 또는 5 nt 내지 10 nt, 예컨대 3 nt, 4 nt, 5 nt, 6 nt, 7 nt, 8 nt, 9 nt, 10 nt, 11 nt, 12 nt, 13 nt, 14 nt, 15 nt 이상의 길이이다. 상기 길이는 용이한 취급 및 효과적인 결찰 반응을 위해 충분히 짧으나 이의 뉴클레오티드 내 뉴클레오티드 치환으로 인해 충분히 많은 양의 상이한 식별 서열을 제공하여 단일 증폭 단편의 바람직한 식별을 제공하고, 바람직하게는 상기에 대한 고유한 표지를 제공한다.
바람직한 구현예에서, 연장 생성물이 주형 핵산의 5' 말단에 도달한 경우, 뉴클레오티드 중합 효소가 바람직하게는 중합 효소의 말단 전이 효소 활성에 의해 연장 생성물에 비주형 뉴클레오티드를 첨가하는 것이 허용되고/거나 바람직하게 여기에서 1 내지 15개의 비주형 뉴클레오티드가 연장 생성물의 70% 이상으로 첨가된다. 상기 언급한 바와 같이, 상기 비주형 뉴클레오티드 첨가는 일부 중합 효소의 특성이다(문헌[Chen et al. Biotechniques 2001, 30(3):574-582] 참고). 상기 활성은 M-MLV(murine leukemia virus, 뮤린 백혈병 바이러스) 역전사 효소 또는 AMV(alfalfa mosaic virus, 알팔파 모자이크 바이러스) 역전사 효소와 같은 역전사 효소에서 가장 현저하다. 상기 비주형 뉴클레오티드는 보통 임의의 뉴클레오티드 유형(A, T(U), G, C)이고, 무작위로 나타날 수 있다. 이는 상이한 주형의 5' 말단의 연장 생성물이 상기 비주형 첨가의 생성물인 5' 말단에 대응하는 동일한 서열을 공유할 수 있으나 상이한, 외견상 무작위 추가 뉴클레오티드에 의해 계속될 수 있음을 의미한다. 상기 상이한 첨가를 이용하여 주형으로 반복된 서열과 비주형 무작위 첨가 사이 전환 시에 주형 서열의 5' 말단의 정확한 위치를 확인할 수 있다. 비주형 뉴클레오티드 후에, 표지된 단편이 상기 기재된 바와 같이 사용될 수 있는 식별 서열과 함께 계속된다. 식별 서열이 (또한) 무작위인 경우, 비주형 무작위 뉴클레오티드는 식별 서열의 일부처럼 취급될 수 있다. 어댑터 서열의 불변 부분에 대한 식별 서열의 위치가 식별 서열을 명확하게 확인한다.
특히 바람직한 구현예에서, 복수의 어댑터 핵산이 결찰 단계에서 제공되고 사용된다. 상기 복수의 어댑터는 상이한 식별 서열을 가질 수 있다. 상기는 이들이 결찰된 어댑터 및 생성된 단편의 고유한 식별을 허용한다. 상이한 식별 서열을 갖는 바람직하게는 10개 이상, 보다 바람직하게는 50개 이상 또는 심지어 100개 이상 또는 200개 이상의 어댑터 핵산이 결찰 단계에서 제공되고 사용된다. 특히 바람직하게는 상이한 식별 서열을 갖는 많은 어댑터가 사용됨에 따라 동일한 서열을 갖는 생성된 상이한 단편이 예상되거나 - 또는 바람직하게는 상이한 식별 서열을 갖는 보다 많은 어댑터가 예상된다. 주형 카피 수의 예상은 샘플 유형, 예를 들어 전체 세포 RNA, 전체 세포 mRNA(전사체), RNA 양 및 샘플의 복잡성(유전자 패널의 경우와 같은 전체 전사체이거나 단지 선택된 유전자 또는 전사물일 수 있는 많은 상이한 전사 변이체가 표적화되는 방법) 등에 근거할 수 있다.
특히 바람직하게는, 식별 서열은 무작위 서열이다. “무작위 서열(random sequence)”은 식별 서열 중 적어도 일부의 무작위 합성으로 인한 높은 변이를 갖는 상이한 서열의 혼합물로서 이해되어야 한다. 무작위 서열은 잠재적으로 4개의 자연 발생 뉴클레오티드(A, T(U), G, C)에 대해 상기 서열에 대한 전체 조합 영역을 포함한다. 무작위 서열은 A, G, C 또는 T(U)에서 무작위로 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 이상의 뉴클레오티드를 포함할 수 있다. 뉴클레오티드 T 및 U 서열의 혼성화 능력에 관하여 여기에서 상호 교환적으로 사용된다. 무작위 서열 부분에 대해 가능한 전체 조합 영역은 mn이고, 여기에서 m은 사용된 뉴클레오티드 유형(바람직하게는 A, G, C, T(U) 중 4개 모두)의 수이고, n은 무작위 뉴클레오티드의 수이다. 따라서, 각각의 가능한 서열이 표현된 무작위 6량체는 46 = 4096개의 상이한 서열로 구성된다. 식별 서열은 주형에 결합해서는 않된다. 모든 경우 그러나 특히 무작위 식별 서열의 경우, 연장 반응 후에 어댑터 핵산(들)을 첨가하는 것이 바람직하다. 연장 생성물이 스토퍼(또는 주형의 말단)에 도달했을 경우 및 본질적으로 전체 주형이 연장 생성물과 이중 가닥의 형태인 경우, 이후 어댑터 핵산(들)은 주형에 결합하는 것이 방지된다.
본 발명의 추가 구현예에서, 프라이머 및 스토퍼가 주형 핵산(연장 생성물에 대해 하류에 스토퍼를 갖는) 내 하나 이상의 특정 관심 표적 서열에 결합하도록 선택되어 특정 주형 부분의 연장 서열이 수득된다. 상기 특정 영역의 표적화가 바람직하게는 주형으로 전사물(RNA) 또는 유전자(gDNA)에 대해 사용된다. 식별 서열은 유전자 패널에서 사용되는 경우 특히 유용하다. 예컨대, 스플라이스 변이체 또는 기타 다양한 주형 서열과 같은 상이한 종의 주형의 서열 변이체 분석을 위한 것이다.
모든 구현예 및 측면에 대해 본 발명의 특히 바람직한 구현예에서, 연장 스토퍼는 프라이머 활성을 갖고, 또한 연장 단계 중에 연장된다. 상기는 하나 이상의 프라이머가 사용되고 대부분 스토퍼 기능을 가짐(즉, 이동 방지 - 상기 참고)을 의미한다. 여러 가지 프라이머의 사용은, 주형이 생성된 많은 단편을 산출함, 즉 범위가 향상됨을 의미한다. 프라이머들이 하나의 주형에 결합하나, 이들 각각은 상이한 프라이머가 주형 상의 상이한 위치에 결합할 때 종합적인 범위를 제공할 것이다. (바람직하게는 또한 스토퍼인) 복수의 프라이머를 사용하는 본 발명의 방법은, 상류 연장 생성물이 바로 정지했던 주형 상의 위치에서 새로운 연장 생성물이 시작되기 때문에 범위를 증가시킬 것이다. 상기는 전체 주형을 포함하는 많은 단편을 산출한다. 더욱이, 이는 주형 분자의 상이한 부분에 결합하는 스토퍼/프라이머(본 구현예에서 동의어로 사용됨)가 사용됨을 또한 의미한다. 일반적으로, 주형 분자에의 결합은 프라이머 및 스토퍼의 결합 서열에 의해 결정된다. 상기 서열은 주형과 혼성화하고 다양하여 주형 상의 상이한 위치에 결합할 수 있다. 주형에 결합하기 위한 상이한 결합 서열을 갖는 바람직하게는 9개 이상, 10개 이상, 보다 바람직하게는 49개 이상, 50개 이상, 예를 들어 100개 이상 또는 200개 이상의 연장 스토퍼가 사용된다. 이로 인해 이들은 주형 핵산 상의 상이한 위치에 잠재적으로 결합할 것이다. 바람직하게 결합 서열은 무작위 서열이다. 무작위 서열이 식별 서열과 관련하여 상기 기재되어 있고, 동일한 것이 프라이머, 스토퍼 및 프라이머 기능을 갖는 스토퍼의 결합 서열에 또한 적용된다. 바람직하게 결합 서열 중 무작위 서열은 A, G, C 또는 T(U)에서 무작위로 선택된 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 이상의 뉴클레오티드를 포함할 수 있다.
바람직하게 어댑터 핵산(들)은 연장 스토퍼(들)와 결합, 혼성화하거나 결합하지 않는다. 예를 들어, 화학 반응, 복합체 형성 또는 혼성화에 의한 상기 결합 반응은 식별 서열 자체가 스토퍼 또는 주형에 혼성화하지 않고, 놀랍게도 결찰 반응이 작용하는 데 필요하지 않은 상류 연장 생성물의 3' 말단 근처에 어댑터 핵산을 위치시키는 것을 촉진한다. 바람직하게는 어댑터 핵산이 연장 스토퍼에 결합 또는 혼성화될 때, 이후 식별 서열은 연장 스토퍼가 주형에 결합하기 위해 연장 스토퍼의 결합 서열과는 상관없이 선택된다. 결합 서열 및 식별 서열 둘 다는 바람직하게는 서로 독립적으로 선택된 무작위 서열일 수 있다. 상기는 보통 스토퍼 및 어댑터의 핵산 부분이 범용 서열인 경우, 즉 임의의 어댑터는 임의의 스토퍼에 결합할 수 있는 경우(본 발명의 모든 구현예에 대해 바람직함) 및 스토퍼에 결합된 추가 어댑터 핵산이 제공되지 않는 경우, 예를 들어 어댑터가 연장 반응 후에만 제공되는 경우 보장된다. 다른 구현예 또는 반응의 다른 부분에서, 이들은 예컨대 연장 반응이 주형의 5' 말단에 도달할 때 결합되지 않고, 여기에서 스토퍼가 주형 상의 적어도 최소한의 결합 서열이 필요하기 때문에 어떤 스토퍼도 보통 혼성화되지 않고, 이는 가장 하류 정지 위치를 5' 말단에서 몇개의 뉴클레오티드 상류로 옮긴다. 어댑터는 연장 스토퍼에 결합 또는 혼성화하지 않고 연장 생성물에 또한 결찰될 수 있다. 그러나, 어댑터 핵산이 연장 생성물에 결찰되는 경우, 특히 3' 말단이 바람직한 상기 연장 스토퍼 및/또는 연장 생성물은 여전히 주형에 혼성화되는 것이 모든 구현예에서 바람직하다. 어댑터 핵산은 특히 바람직하게는 연장 반응 후에 및/또는 - 특히 바람직하게는 - 결찰을 위해 연장 스토퍼에 혼성화되는 것이 또한 바람직하다.
본 발명의 방법 및 키트의 선호도에서, 올리고뉴클레오티드 프라이머는 - 및 바람직하나 또한 반드시 연장 스토퍼는 아님 - 범용 증폭 서열("프라이머 링커 서열(primer linker sequence)", 상기 참조)을 포함하고/거나 어댑터 핵산은 범용 어댑터 증폭 서열("어댑터 링커 서열(adaptor linker sequence)", 상기 참조)을 포함한다. 상기 증폭 서열 또는 “링커(linker)”가 사용되어 이미 상기 언급된 바와 같은 추가 증폭을 위해 프라이머에 결합될 수 있다. 범용 서열은 모든 프라이머, 스토퍼 또는 어댑터에 대해 각각 동일함을 의미한다. 이는 상기 올리고뉴클레오티드에 대한 동일한 프라이머 유형의 결합을 가능하게 한다. 특히 바람직한 구현예에서, 범용 증폭 서열(링커 서열)은 프라이머, 스토퍼 및 어댑터에 대해 또한 동일하다, 즉 추가 증폭 프라이머는 올리고뉴클레오티드 프라이머, 연장 스토퍼 및 어댑터 핵산에 또한 결합할 수 있다. 상기는 단지 한가지 유형의 프라이머가 추가 증폭에 필요하기 때문에 용이한 취급을 가능하게 한다. 다른 구현예에서, 프라이머, 스토퍼 및 어댑터는 상이한 범용 증폭 서열(링커 서열)을 갖는다, 즉 추가 증폭 프라이머는 올리고뉴클레오티드 프라이머에만 결합할 수 있고, 또 다른 추가 증폭 프라이머는 연장 스토퍼에만 결합할 수 있으며 추가 증폭 프라이머는 어댑터 핵산에만 결합할 수 있다. 상기 그룹 내 프라이머는 바람직하게는 범용이다. 상기는 표지된 단편의 양쪽 말단에 대한 프라이머가 상이할 것이고 특이적으로 선택될 수 있기 때문에 그럼에도 불구하고 용이한 취급을 가능하게 하나 보다 나은 제어를 가능하게 한다.
바람직한 구현예에서, 특정 올리고뉴클레오티드 프라이머가 사용되어 바람직하게는 주형의 3' 말단 상 주형의 선택된 서열을 선택하고 결합된다. 올리고(A) 꼬리를 포함하는 mRNA 또는 기타 임의의 유형의 RNA의 경우에, 상기 3' 말단은 예를 들어 상기 올리고(A) 꼬리에 상보적인 올리고(dT) 결합 서열을 포함하는 상보적인 올리고뉴클레오티드 프라이머에 결합될 수 있다. 바람직하게는 하나 이상의 올리고뉴클레오티드 프라이머는 주형의 선택된 서열에 결합하기 위한 결합 서열을 포함하고, 이는 주형의 3'말단 또는 근처에 있을 수 있다. 상기 선택된 서열은 올리고(A) 꼬리와 같은 주형 중 임의의 공지된 서열이나 공지된 경우 기타 임의의 서열도 사용될 수 있다. 바람직하게는, 선택된 서열에 대한 올리고뉴클레오티드 프라이머는 주형의 올리고(A) 서열에 결합하기 위한 올리고(dT) 서열을 포함한다. 바람직하게는, 상기 올리고(dT) 서열은 올리고(dT) 서열과 상이한 하나 이상의 3' 앵커링 뉴클레오티드를 포함한다. 상기는 올리고(A) 주형 서열의 5' 말단의 적절한 국소화 및 결합을 허용한다. 앵커링 뉴클레오티드는 올리고(A) 부분 옆에 있는 주형 상의 비-A (예를 들어 T, G, C) 옆에 결합할 것이다. 비-A 뉴클레오티드 옆이 공지되지 않은 경우, 상이한 앵커링 프라이머를 갖는 올리고뉴클레오티드 프라이머 혼합물의 사용, 예를 들어 (주형 상의 비-A (예를 들어 T, G, C) 옆에 상보적인) 각각의 비-T(예를 들어 A, G, C) 뉴클레오티드를 갖는 3개의 올리고뉴클레오티드 프라이머를 사용하는 것이 가능하다. 바람직한 구현예에서, 2개의 앵커링 뉴클레오티드가 사용된다. 상기 비-T 뉴클레오티드 옆 앵커링 뉴클레오티드는 올리고(T)에 인접하지 않아서 임의의 뉴클레오티드 유형(A, T(U), G, C)에서 선택될 수 있다. 상기 특정 올리고뉴클레오티드 프라이머는 스토퍼가 아닐 수 있고, 특정 올리고뉴클레오티드 프라이머가 주형의 3' 말단 또는 근처에 어닐닝할 경우 - 이는 상류 연장 생성물이 이의 위치에 도달하지 않을 것임을 의미함 - 상기가 필요하지 않기 때문에 앵커에 혼성화하기 위한 서열을 포함하지 않을 수 있다. 물론, 프라이머/스토퍼 제조의 용이성 또는 일관성을 위해 상기 서열 및/또는 스토퍼 기능이 존재할 것이다.
바람직하게, 결찰 반응은 과밀 제제(crowding agent)의 존재 하이다. 과밀 제제는 유효 반응 부피를 감소시킴으로써 서로 상호작용하는 어댑터 및 연장 생성물의 가능성을 증가시킨다(문헌[Zimmerman et al., Proc Natl Acad Sci U S A. 1983; 80(19):5852-6] 참조). 추가 과밀 제제는 예를 들어 문헌[US 5,554,730, US 8,017,339 및 WO 2013/038010 A2]에 개시되어 있다. 바람직하게 과밀 제제는 거대 분자, 중합체 또는 폴리알킬 글리콜, 바람직하게는 PEG, 옥톡시놀 또는 트리톤 X 또는 폴리소르베이트, 바람직하게는 트윈과 같은 화합물을 포함하는 중합체이다. 바람직한 구현예에서, 과밀 제제는 5% 내지 35% (v/v), 특히 바람직하게는 10% 내지 25% (v/v)의 농도로 사용된다. 바람직하게 과밀 제제는 200 bis 35000 g/mol, 바람직하게는 1000 내지 10000 g/mol의 분자량을 갖는다. 특히 상기 분자량을 갖는 PEG와 같은 폴리알킬 글리콜이 특히 바람직하다. 과밀 제제는 본 발명의 키트, 바람직하게는 결찰 완충제 내에 바람직하게 제공된다.
임의의 구성 요소 중 키트를 위한 기타 성분은 완충제, 염, 효소 공동 인자 및 중합 효소 및 리가제를 위한 금속, 예컨대 Mn2+ 및 Mg2+, 용매, 컨테이너이다.
본 발명은 본 발명의 방법을 수행하기 위한 키트를 제공한다. 상기 키트는 지금까지 기재된 임의의 화합물 및 수단을 포함할 수 있다. 바람직하게 키트는, (i) 주형 핵산에 혼성화 및 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 올리고뉴클레오티드 프라이머, (ii) 주형 핵산에 혼성화할 수 있고, 바람직하게는 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 연장 스토퍼, (iii) 5' 말단 상에 식별 서열을 포함하는 하나 이상의 어댑터 핵산 - 여기에서 상기 식별 서열은 연장 스토퍼와 혼성화하지 않으며, 바람직하게는 상기 어댑터 핵산은 연장 스토퍼에 결합, 혼성화하거나 또는 결합되지 않음 - , (iv) 역전사 효소 및 (v) 올리고뉴클레오티드 리가제를 포함하고, (iv) 및 (v)는 본 발명과 독립적으로 많은 실험실에서 이용 가능할 수 있기 때문에 선택적일 수 있다. 중요한 부분은 어댑터/스토퍼 설계, 특히 어댑터 상의 식별 서열이다. 바람직하게 상이한 식별 서열을 갖는 복수의 어댑터가 상기 기재된 바와 같이 키트에 제공된다. 상기 기재된 키트의 상기 모든 구성 요소 및 이의 바람직한 임의의 구현예도 또한 키트에 적용된다. 바람직하게 키트는 상이한 식별 서열을 갖는 10개 이상, 보다 바람직하게는 50개 이상의 어댑터 핵산을 포함한다. 상기 바람직한 구현예에 대한 이유가 상기에 제시되었다. 바람직하게 올리고뉴클레오티드 프라이머는 주형에 결합하기 위한 결합 서열을 포함하고, 이는 주형의 올리고(A) 서열에 결합하기 위한 올리고(dT) 서열을 포함하고, 바람직하게는 상기 올리고(dT) 서열은 올리고(dT) 서열과 상이한 하나 이상의 3' 앵커링 뉴클레오티드를 포함한다. 키트는 또한 정제를 위한 고체 상, 예컨대 비드, 바람직하게는 자성 비드를 포함할 수 있다(키트 구성 요소의 적합성 및 구현예가 또한 나와 있는 상기 방법 세부 사항을 참조한다).
상기 기재된 바와 같은 바람직한 모든 구현예는 조합될 수 있다. 상기 방법은 스토퍼(“가닥 이동 중지 프라이머(Strand Displacement Stop Primer)”로도 명명)이기도한 무작위 프라이머(링커 서열을 가짐)를 사용한다. 연장 반응 후에, 바람직하게 (주형에 혼성화된) 연장 생성물의 정제가 수행되어 결합되지 않은 프라이머 및 스토퍼가 제거된다. 이어서, 링커 및 식별 서열을 갖는 어댑터가 연장 생성물에 결찰된다. 식별 서열은 바람직하게 4 내지 12 nt 길이를 갖는 무작위 서열을 갖는다. 하나의 바람직한 선택은, 리가제가 마지막 및 끝에서 두번째 위치의 특정 5' 위치 뉴클레오티드를 선호함으로써 리가제 편향을 부여하는 경향이 있기 때문에 상이한 길이의 식별 서열 혼합물을 사용하는 것이다. 상기 편향은 염기 서열 결정의 판독 품질에 영향을 줄 수 있기 때문에, 상기 혼합물이 결찰 연결부 영역에 걸쳐 염기 서열 결정된 경우 뉴클레오티드 분포를 같아지게 한다. 그러나, 가변 식별 서열은 기타 임의의 결정된 서열과 같이 훨 더 편향되지 않은 결찰을 제공하고, 동시에 UMI(Unique Molecular Index)의 역할도 한다. UMI와 같은 식별 서열은, 동일한 서열을 갖거나 또는 사소한 염기 서열 결정 오류를 설명하는 참조 주석의 동일한 위치에 맵핑된 염기 서열 결정 판독이 상이한 주형 분자 또는 하나의 주형 분자에서 유래하는지 여부 및 추가 증폭의 단순한 결과(PCR 복제)인지 여부를 결정하게 한다. 어댑터는 존재할 경우 프라이머에 혼성화된다.
UMI와 같은 식별 서열은 개체 및 역전사 중 또는 초기 PCR 주기에 도입되고 나중에 증폭된 오류(돌연변이) 간 실제 SNP(single nucleotide polymorphisms, 단일 뉴클레오티드 다형성) 사이를 또한 구별할 수 있다. 상기 무작위로 발행하고 증폭된 모든 오류는 동일한 식별자를 가져야하나, 샘플 중 “실제 SNP(real SNPs)”는 상이한 다양한 식별자를 갖는다. 또는 RT 중 잘못된 혼입 및 이런 식으로 오류를 초래하는 변형된 염기를 도입하는 RNA-편집 이벤트가 보다 확실하게 정량화될 수 있다.
UMI와 같은 식별 서열이 또한 사용되어 집단의 대립 유전자 빈도, 유전성 질병에서 분자 마커 및 원인이 되는 돌연 변이를 확실하게 결정하고 정량화할 수 있다. 바람직하게 DNA 주형이 상기 구현예에 사용된다.
바람직한 추가 조합이 본 발명의 방법이고, 여기에서 하나 이상, 바람직하게는 9개 이상의 연장 스토퍼가 프라이머 활성을 갖고 연장 단계 중 또한 연장되고, 상이한 식별 서열을 포함하는 2개 이상, 바람직하게는 10개 이상의 어댑터 핵산이 사용되고, 이로써 2개 이상, 바람직하게는 10개 이상의 표지된 상이한 단편이 생성되고, 선택적으로 상기 표지된 단편을 증폭하고, 고유한 증폭 단편의 서열을 모으는 것을 더 포함하며, 여기에서 표지가 사용되어 고유한 증폭 단편이 확인된다. 표지된 증폭 단편의 상이한 표지가 고유한 증폭 단편을 확인하는 데 사용될 수 있다.
바람직한 추가의 방법은 프라이머 기능을 갖는 스토퍼를 사용한다. 바람직하게 복수의 상기 프라이머가 사용된다. 스토퍼와 프라이머를 구별하지 않는 상기 방법에서, 본 발명의 구현예는 하기와 같이 정의될 수 있다: 핵산 주형의 표지된 증폭 단편을 생성하는 방법은 상기 주형 핵산을 제공하는 단계, 상기 주형 핵산에 복수의 올리고뉴클레오티드 프라이머를 결합하는 단계, 주형 특이적 방식으로 올리고뉴클레오티드 프라이머를 연장하여 복수의 연장 생성물을 형성하는 단계 - 여기에서 상기 연장 반응은 연장 생성물이 주형 핵산의 5' 말단 또는 상기 연장 생성물의 하류에서 주형 핵산에 결합된 올리고뉴클레오티드 프라이머에 도달할 경우 중지됨 - , 5' 말단 상에 식별 서열을 포함하는 복수의 어댑터 핵산을 제공하는 단계 - 여기에서 상기 식별 서열은 올리고뉴클레오티드 프라이머 또는 주형에 혼성화되지 않음 - , 각각의 5' 말단에서 복수의 어댑터 핵산을 연장 생성물의 3' 말단에 결찰시켜 복수의 표지된 증폭 단편을 생성하는 단계를 포함한다. 상기는 청구항에 특별히 기재된 임의의 측면과 상기 기재된 측면이 조합될 수 있는 바람직한 구현예이다. 스토퍼에 대해 상기 기재된 모든 것이 본 구현예의 프라이머에 적용되는데, 이는 상기 프라이머가 프라이머 기능을 갖는 스토퍼이기 때문이다. 용어 “복수(plurality)”는 올리고뉴클레오티드 프라이머, (프라이머 연장의 결과물인) 연장 생성물, 어댑터 핵산 및 (연장 및 어댑터 결찰의 결과물인) 표지된 증폭 단편에 대해 사용된다. 나타낸 바와 같이, 상기 복수 중 일부의 양이 본 방법의 결과물이다. 올리고뉴클레오티드 프라이머 및 어댑터 핵산의 양이 상기 기재된 바와 같이 선택될 수 있다. 상기의 양은 독립적으로 선택될 수 있으나 바람직하게는 주어진 연장 생성물과 관련하여 쌍에 대해 대략 동일하다. 바람직하게 복수는 예를 들어 10개 이상, 50개 이상, 100개 이상, 200개 이상 등이다. 상이한 많은 올리고뉴클레오티드 프라이머 및 어댑터 핵산이: 주형 상의 상이한 복수의 위치에 결합하는 올리고뉴클레오티드 프라이머에 대해, 표지된 증폭 단편에 대한 상이한 식별 서열, 바람직하게는 고유한 식별 서열을 갖는 어댑터 핵산에 대해 사용될 수 있다. 상기 구현예에서 프라이머 및 스토퍼가 동일하나, 스토퍼 가능이 필요하지 않은(그러나 가질 수 있는) 특정 프라이머, 예컨대 상기 기재된 바와 같은 올리고(A) 표적화 프라이머와 같은 5' 말단 특이적 프라이머가 또한 첨가될 수 있다.
본 발명은 하기 도면 및 실시예에 더 기재되고, 본 발명의 이러한 구현예로 제한되지 않는다.
도 1: SDS 특성을 갖는 프라이머 및 RNA 바디 내 부분적으로 상보적인 UMI-함유 링커 올리고를 사용하여 UMI-링커 태그된 짧은 cDNA 라이브러리를 형성하는 개요 표현.
a) 일반적인 가닥 이동 중지 프라이머 Pn이 RNA 전사물에 혼성화되고, 프라이머 Pn+1은 프라이머 Pn보다 주형의 보다 상류(5') 위치에 혼성화된다. Pn을 연장하는 동안 역전사 효소가 프라이머 Pn+1에 도달한 경우, 중합 효소 반응은 문헌[WO 2013/038010 A2]에 기재된 가닥 이동 중지 기술에 의해 중지될 것이다. L1에 상보적인 L2를 포함하는 UMI 함유 링커 올리고가 프라이머 Pn 및 Pn+1에 혼성화된다. b) 결찰 중 연장 생성물이 이제 링커의 UMI 선행 L2 가닥에 결찰된다. 다시 상기 방식으로, 말단 상에 존재하는 2개의 링커 서열(L1, L2)을 갖고 고유한 분자 식별자를 함유하는 cDNA 라이브러리가 형성된다. c) 최종적으로 PCR이 수행되어 상기 라이브러리를 증폭한다.
도 2: UMI 함유 라이브러리의 생성.
도 2a는 SDS + 결찰 접근법에 의해 생성된 라이브러리를 도시한다.
UMI 함유하는 부분적으로 상보적인 L2 어댑터의 결찰(참조로 도 1 참고)이 ss 리가제 또는 ds 리가제(2, 3 레인) 중 하나를 사용하여 수행될 수 있다. 리가제를 뺄 경우(1 레인) 어떤 라이브러리도 생성되지 않는다. 결찰 후, L1 및 L2 링커를 함유하는 cDNA 단편이 PCR에 의해 증폭되고 분석된다. Bioanalyzer(Agilent Technologies, Inc.)에서 실행된 HS DNA 분석의 겔 영상이 도시된다. 도 2b: 비혼성화 스타터 및 어댑터 올리고와 함께 SDS + 결찰 접근법을 이용한 UMI 함유 라이브러리 생성의 개요 도해. 상기 경우에, 어댑터 올리고 L2'는 연장 스타터 Pn에 상보적인 서열을 함유하지 않는다. 도 2c: 비혼성화 연장 스타터 및 UMI 함유 어댑터 올리고(서열 번호 10)를 사용하여 생성된 복제 라이브러리의 겔 영상 및 전기 영동도. Bioanalyzer(Agilent Technologies, Inc.)에서 실행된 HS DNA 분석에서 영상이 수득된다.
도 3: RNA 주형의 5' 말단에서 cDNA에 L2 링커의 결찰에 의해 달성된 전사물의 개선된 5' 말단 범위.
a) 전사물의 5' 말단에서 RT 반응의 개요 표현. 하류 프라이머 Pn+1에 의해 SDS 없이, RT의 말단 디옥시뉴클레오티드 전이 효소 활성(TdT)이 cDNA의 3' 말단에 비주형 뉴클레오티드를 첨가하여 오버행(overhang)을 생성한다. b) 비주형 nt는 L1 함유 프라이머 Pn+1에 대한 혼성화 부위를 제공할 수 있다. 부분적으로 혼성화된 L2와 함께, UMI-L2 링커의 결찰은 이중 가닥을 발생시킬 수 있다. c) 대안적으로, 프라이밍 부재 시 UMI-L2 링커는 단일 가닥으로 결찰될 수 있다. d) 도 3 a-c)에 개요적으로 도시된 바와 같이 생성된 라이브러리가 Illumina NextSeq 500(단일 판독, 75bp)에서 염기 서열 결정되었다. ERCC-0130(SIRV 세트 3에 존재, Lexogen 카탈로그 #051.0N)의 5' 말단을 맵핑한 판독이 도시된다. 판독은 추가 염기 및 미스 매칭 염기를 트리밍하지 않고 분석되었다. 회색으로 표시된 뉴클레오티드는 ERCC-0130의 주석에 대응하고, 검정색으로 도시된 뉴클레오티드는 RT의 TdT 활성에 의한 비주형 첨가에서 유래된다. ERCC-0130의 5' 말단에 대해 수득된 판독 중 30개의 대표적인 서열이 하기에 도시된다. 판독 서열은 위에서 아래로 서열 번호: 12 내지 42이다. e) 기존의 프로토콜에 비해 SDS/결찰 접근법의 개선된 5' 말단 범위. 라이브러리가 기존의 프로토콜(NEBNext®UltraTM II 직접적인 RNA Library Prep Kit(Illumina®New England Biolabs, 카탈로그 # E7760S)) 또는 SDS/결찰 접근법을 이용하여 제조되었고 Illumina NextSeq 500(페어링된 말단 판독, 150bp)에서 염기 서열 결정되었다. ERCC-0130에 대한 맵핑 판독이 직사각형으로 도시된 예상 범위에 겹쳐졌고 비교되었다, 왼쪽: 기존의 RNA 라이브러리 제조 프로토콜, 오른족: 새로운 SDS/결찰 기술에 의해 수득된 범위.
도 4: SDS/결찰 접근법 및 일반적인 (Pn) 및 올리고-dT 프라이머(PdT)의 조합에 의해 3' 말단 범위를 개선하는 데 사용된 반응의 개요 표현.
a) 일반적인 프라이머 Pn은 RNA 바디 내 RNA 주형에 혼성화된다. 게다가, 존재하는 올리고-dT 프라이머(PdT)가 폴리아데닐화 전사물의 3' 말단의 폴리(A) 꼬리에 혼성화된다. RT는, 하류 프라이머 Pn이 도달하고 가닥 이동을 중지시킬될 때까지 PdT를 연장할 것이다.
b) 결찰 중, UMI 함유 L2 링커가 3' 말단에 걸친 cDNA 단편에 결찰될 것이고, 이는 전사물의 3' 말단을 포함하는 L1 및 L2 연결된 UMI 함유 cDNA 라이브러리를 생성할 것이다. c) 전체 전사체에 걸쳐 전사물의 3' 말단의 향상된 범위를 도시하는 유전체 범위 플롯. 라이브러리는 실시예 3에 기재된 바와 같이 무작위 프라이밍 및 올리고-dT 제1 가닥 합성 프라이머의 혼합물을 사용한 SDS + 결찰 프로토콜을 이용하여 제조되었다. 라이브러리는 NextSeq 500 기계 상에서 염기 서열 결정되었고, 전사체에 걸친 유전체 범위가 앞서 기재된 SDS + 결찰 프로토콜과 비교하여 플롯팅되었다. d) 기존의 라이브러리 제조 방법(상부 패널) 및 개선된 3' 말단 범위를 초래하는 올리고-dT 적정을 갖는 SDS + 결찰 프로토콜(하부 패널)에 대해 내인성 하우스키핑 유전자(HSP90)에 걸친 예시적인 범위.
도 5: 전사물의 5' 및 3' 영역의 전체적인 개선 전사 시작 부위, 즉 전사물의 진짜 5' 말단 및 전사 종료 부위, 즉 전사물의 진짜 3' 말단이 SDS + 결찰 프로토콜을 이용하여 분석되나 2개의 예시적인 전통적 라이브러리 제조 방법을 이용할 경우 분석되지 않는다. 도 3 a-c)에 개요적으로 도시된 바와 같이 SDS + 결찰 프로토콜을 이용하여 생성된 라이브러리가 Illumina NextSeq 500(페어링된 말단, 150bp)에서 염기 서열 결정되었다. 기존의 라이브러리는 TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat, Illumina Catalog # 20020596 또는 20020597 (= 기존 1) 또는 NEBNext®UltraTM II directional RNA Library Prep Kit, Illu-mina®# 기존 2) 중 하나를 사용하여 제조사의 지침에 따라 제조되었다. 도 5a: 검출된 ERCC(SIRV 세트 3에 존재, Lexogen 카탈로그 #051.0N)의 진짜 5' 및 3' 말단을 맵핑한 판독이 도시된다. 공지된 서열을 갖는 RNA의 ERCC 스파이크에 대해 판독이 맵핑되었다. 검출된 모든 ERCC에 대해 맵핑된 축적 판독의 정규화된 범위가 점선으로 표시된 전사 시작 부위(transcription start site, TSS) 및 전사 종결 부위(transcript end site, TES)와 비교한 절대적인 뉴클레오티드 위치에 대해 플롯된다. 도 5b: 확장된 5' 범위가 포괄적인 TSS를 나타낸다. 상부 패널: 상기 기재된 바와 같은 SDS + 결찰 프로토콜 또는 기존 라이브러리 제조를 이용하여 생성된 바와 같은 요약한 인트론 시각화를 갖는 gapdh에 대한 범위 프로필. 도 5b: gapdh에 대한 맵핑 판독이 추가 염기 및 미스 매칭 염기를 트리밍하지 않고 분석되었다. 판독 서열은 위에서 아래로 서열 번호: 43 내지 67이다. 검정색으로 표시된 뉴클레오티드는 gapdh의 주석에 대응하고, 회색으로 도시된 뉴클레오티드는 미스매치이거나 RT의 TdT 활성에 의한 비주형 첨가에서 유래된다. 전사물의 5' 말단에서 판독이 쌓여 생생된 시작 부위 클러스터를 사용하여 TSS를 재주해할 수 있다. 주석되고 수작업으로 결정된 TSS가 굵게 표시된 주석된 컨센서스 서열에서 화살표로 표시된다.
실시예:
실시예 1: 제1 가닥 cDNA 단편에 대한 고유한 분자 식별자(UMI)의 결찰
제조사의 지침에 따라 대조군 혼합물(Lexogen, 카탈로그 # 051.0N)에 SIRV 세트 3 스파이크를 함유하는 범용 인간 기준 RNA(Agilent Technologies, 카탈로그 # 740000)에서 라이브러리가 제조되었다.
cDNA 합성 후, 2 내지 24개의 뉴클레오티드, 바람직하게는 6 내지 12개의 뉴클레오티드 길이의 고유한 분자 식별자를 함유하는 하류 프라이머(Pn+1 (L2))가 주형 RNA를 갖는 혼성체 내 새로이 전사된 cDNA 가닥에 결찰될 수 있다. 역전사가 문헌[WO 2013/038010 A2]에 기재된 바와 같은 올리고, 주형 및 조건을 이용하여 수행되었다. 다양한 리가제 및 이의 조합을 이용하여 하기와 같은 올리고를 결찰시킬 수 있다: 서열 번호: 1: (Phos)(5'-NNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC -3'(3InvdT)),
서열 번호: 2: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCACACGTCTGAA-3'(3InvdT)), 서열 번호: 3: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)), 서열 번호: 4: (Phos)(5'-NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)), 서열 번호: 5: (Phos)(5'-NNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)), 서열 번호: 6: (Phos)(5'-NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG-3'(3InvdT)), 서열 번호: 7: (Phos)(5'-NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)), 서열 번호: 8: (Phos)(5'-+NNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)), 서열 번호: 9: (Phos)(5'-+NNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGG-3'(3InvdT)).
역전사(reverse transcription, RT) 후 샘플을 제조사의 지침에 따라 자성 정제 비드(AMPure Beads; Agentcourt)를 이용하여 고체상 역 고정(solid phase reverse immobilization, SPRI)에 의해 정제하였다. cDNA:RNA 혼성체를 20 μl 물 또는 10 mM Tris, pH 8.0에 용리한 뒤, 17 μl 의 상청액을 새로운 PCR 플레이트로 옮겼다. 이어서, 결찰 반응을 20% PEG-8000, 50 mM Tris-HCl(pH 7.5, 25℃), 10 mM MgCl2, 5 mM DTT, 0.4 mM ATP, 0.01% Triton-x100, 50 μg/ml BSA 및 20 유닛의 리가제(단일 가닥 특이적 리가제 및/또는 이중 가닥 특이적 리가제일 수 있음)를 갖는 60 μl로 수행했다. 결찰되지 않은 작은 단편 및 남은 올리고를 SPRI 정제로 제거했다. 남은 모든 1차 cDNA 라이브러리를 고충실도 중합 효소 및 하기 프로그램: 98℃에서 30 초 후 98℃에서 10 초, 65℃에서 20 초 및 72℃에서 30 초의 10-25회의 PCR 사이클을 이용한 PCR 반응으로 증폭했다. 마지막 연장은 72℃에서 60 초 동안 수행했다. 도 1 b)는 연장된 cDNA를 가닥 이동 중지 프라이머(L1)에 상보적 서열을 갖는 UMI 함유 링커 올리고(L2)에 결찰시키는 근본적인 일반 원칙을 도시한다.
도 2의 실시예는 다양한 리가제가 UMI를 함유하는 올리고 뉴클레오티드의 결찰 반응을 수행할 수 있고, 따라서 PCR 링커를 둘 다 함유하고 PCR에 의해 증폭 가능한 cDNA 단편을 생성할 수 있음을 도시한다(도 2a, 2-3 레인). 그에 반해, 임의의 리가제를 뺀 대조군 실험은 어떤 라이브러리도 증폭될 수 없음을 나타내고, 이는 반응의 특이성을 강조한다(도 2a, 1 레인).
실시예 2: 비혼성화 연장 스타터 및 어댑터 올리고뉴클에오티드를 이용한 라이브러리 생성
제조사의 지침에 따라 대조군 혼합물(Lexogen, 카탈로그 # 051.0N)에 SIRV 세트 3 스파이크를 함유하는 범용 인간 기준 RNA(Agilent Technologies, 카탈로그 # 740000)에서 라이브러리가 제조되었다.
역전사(RT)가 실시예 1에 기재된 바와 같이 수행되었다. RT 후 샘플을 제조사의 지침에 따라 자성 정제 비드(AMPure Beads; Agentcourt)를 이용하여 고체상 역 고정(SPRI)에 의해 정제하였고, 정제된 cDNA:RNA 혼성체를 20 μl 10 mM Tris, pH 8.0에 용리한 뒤, 17 μl의 상청액을 새로운 PCR 플레이트로 옮겼다. 역전사 반응을 프라이밍하는 데 사용되는 연장 스타터에 대한 상보성 서열을 함유하지 않는 어댑터 올리고뉴클레오티드를 제공하는 것을 제외하고 실시예 1에 기재된 조건을 이용하여 결찰을 수행했다. 그러므로, 올리고뉴클레오티드 어댑터는 혼성화할 수 없고, 따라서 신규 모집에 의한 연장 생성물의 새롭게 생성된 3' 말단 근처로 이동되지 않는다(도 2b). 서열 번호: 10 (Phos)(5'- NNNNNNNNNNNNTGGAATTCTCGGGTGCCAAGG -3'(SpcC3))과 같은 올리고는 연장 스타터에 대한 서열 상보성을 갖지 않는다. 링커 서열 둘 다를 함유하는 단편은 실시예 1에 기재된 바와 같이 정화 후에 증폭되었다. 도 2c는 비혼성화 연장 스타터 및 어댑터 올리고로 생성된 2개의 복제물 SDS + 결찰 라이브러리에 대한 라이브러리 흔적의 겔 영상 및 전기 영동도를 도시한다.
실시예 3: 말단 전이 효소 활성의 결과로 개선된 5' 말단 범위 및 제1 가닥 cDNA 단편에 대한 UMI-링커의 ss-결찰.
제조사의 지침에 따라 대조군 혼합물(Lexogen, 카탈로그 # 051.0N)에 SIRV 세트 3 스파이크를 함유하는 범용 인간 기준 RNA(Agilent Technologies, 카탈로그 # 740000)에서 라이브러리가 제조되었다.
제1 가닥 cDNA 합성은 주형 RNA 분자의 5' 말단에서 중지된다. 역전사 효소의 말단 전이 효소 활성이 cDNA 가닥의 3' 말단에 비주형 뉴클레오티드 첨가를 촉매한다(도 3 a).
역전사 후 UMI-링커 올리고(예를 들어, 서열 번호 1-9)의 결찰이 이중 가닥 형성(도 3 b) 및 단일 가닥 오버행(도 3 c)에서 발생할 수 있다. SPRI 정제 및 PCR 증폭 후에, 라이브러리를 단일 판독 또는 페어링된 말단 방식 중 하나로 NextSeq 500에서 염기 서열 결정했다. ERCC-0130의 5' 말단에 대한 맵핑 판독이 미스 매치된 뉴클레오티드의 사전 클리핑없이 분석되었다. ERCC-0130의 5' 말단을 포함하는 판독이 도 3 d에 개요적으로 도시된다. 말단 뉴클레오티드의 첨가 및 연장된 단일 가닥에서 UMI 결찰은 개선된 5' 범위를 초래한다. 공통적인 RNA-seq 라이브러리 제조 및 본 발명 사이의 범위 프로필의 비교가 도 3 e에 도시된다. 범위가 정렬된 모든 판독(회색으로 도시된 흔적)의 중첩으로 도시되고, 직사각형으로 도시된 균일한 예상 범위와 비교된다. 기존 프로토콜에서 유래된 염기 서열 결정 데이터에서 5' 및 3' 말단이 양쪽 말단을 향한 경사에서 덜 효율적으로 포함된 것으로 보이는 반면(도 3 e, 왼쪽), 새로운 프로토콜은 전사물의 5' 맨말단에 대한 보다 많은 맵핑 판독을 생성한다(도 3 e, 오른쪽).
실시예 4: 올리고-dT 제1 가닥 합성 프라이머의 적정에 의한 3' 말단 범위의 개선
전사물 3' 말단의 범위는 3' 말단의 범위를 끌어올리기 위해 무작위 프라이밍 SDS 올리고 혼합물에 첨가된 제1 가닥 프라이머(L1을 함유하는 Pn)를 함유하는 올리고-dT를 사용함으로써 변형, 바람직하게는 증가될 수 있고, 상기는 무작위 뉴클레오티드의 정규 분포에 따라 이미 T-풍부 및 T-단독 프라이밍 서열(예컨대 서열 번호: 11 5'- GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT +TTT TTT TTT TTT TTT TTT+ V-3')의 일부를 함유한다. 무작위 및 폴리-dT L1 프라이머 사이의 선택된 비율에 따라 3' 말단 부위에서 염기 서열 결정 깊이의 변화가 특히 중시될 수 있다(도 4). 프라이머 길이 및 LNA 함량뿐만 아니라 무작위 SDS 프라이머 및 특정 올리고 dT 프라이머의 비율이 다를 수 있고, 3' 말단의 과도한 표현의 양을 결정할 것이다.
무작위 프라이밍 이동 중지 프라이머 단독 또는 올리고-dT 제1 가닥 프라이머(서열 번호: 11)의 다양한 양을 갖는 혼합물 중 어느 하나를 사용하여 SDS + 결찰에 의해 라이브러리를 제조하였다. 생성된 라이브러리를 NextSeq?500에서 염기 서열 결정하였고, 전체 전사체에 대한 유전체 범위 플롯이 rseqc에서 이용 가능한 유전체_범위 파이썬 스크립트(geneBody_coverage python script)를 이용하여 맵핑된 판독에서 생성되었다(도 4 c). 3' 말단의 범위가 역전사 중 올리고-dT 프라이머 첨가 시 유의미하게 증가될 수 있다.
또한, 유전자 범위가 맞춤형 스크립트를 사용하여 내인성 유전자에 대해 예시적으로 가시화되어 개별 유전자의 범위를 평가했다. 도 4 d는 주지의 사실로서 5' 및 3' 말단이 과소 표현되는 기존 RNA 라이브러리 제조 프로토콜(상단 패널)에 의해 수득된 하우스키핑 유전자 HSP90의 범위를 도시한다. 그에 반해, 올리고-dT 적정을 하는 SDS-결찰 프로토콜은 개선된 5' 및 3' 범위를 도시한다(하단 패널).
실시예 5: 5' 및 3' 범위의 개선은 진정한 전사 시작 부위 및 종결 부위의 결정을 용이하게 한다.
실시예 3 및 4에 기재된 바와 같이 대조군 혼합물(Lexogen, 카탈로그 # 051.0N)에 SIRV 세트 3 스파이크를 함유하는 ribo-제거 범용 인간 기준 RNA(Agilent Technologies, 카탈로그 # 740000)에서 SDS + 결찰 라이브러리가 제조되었다. 리보솜 RNA의 제거는 제조사의 지침에 따라 RiboCop(Lexogen, 카탈로그 # 037.96)을 이용하여 달성되었다. 비교로, 2개의 기존 라이브러리 제조 방법이, 제조사의 지침에 따라 동일한 ribo-제거 범용 인간 기준 RNA:TruSeq Stranded Total RNA Library Prep Human/Mouse/Rat, Illumina 카탈로그 # 20020596 또는 20020597 (= 기존 1) 또는 NEBNext®UltraTM II directional RNA Library Prep Kit, Illu-mina®New England Biolabs, 카탈로그 # E7760S(= 기존 2) 상에서 사용되었다. 생성된 라이브러리를 NextSeq?500에서 염기 서열 결정하였고, 데이터를 분석하였다. 유전체 범위 플롯이 SIRV 세트 3에 존재하는 검출된 모든 ERCC에 대해 생성되었다. 도 5a는 둘 다 점선으로 표시된 공지된 전사 시작 부위(TSS) 및 전사 종결 부위(TES)와 비교한 절대적인 뉴클레오티드 위치에 대해 ERCC에 걸쳐 맵핑된 축적 판독의 정규화된 범위를 도시한다. 5' 및 3' 말단의 범위가, 3' 말단의 범위 감소를 나타내고 정확한 5' 말단의 분석이 안되는 기존 라이브러리 제조 둘 다에 비해 SDS + 결찰 라이브러리에서 유래된 샘플에서 유의미하게 증가된다.
또한, 유전자 범위가 맞춤형 스크립트를 사용하여 내인성 하우스키핑 유전자, gapdh에 대해 예시적으로 가시화되어 개별 유전자의 범위를 평가했다. 도 5b는 요약된 인트론 시각화로 gapdh에 대한 범위 프로필을 도시한다. gapdh에 대한 맵핑 판독(서열 번호 43 내지 67)이 추가 염기 및 미스 매칭 염기를 트리밍하지 않고 분석되었다. 컨센서스 서열과 매칭되는 뉴클레오티드(상단 열)는 검정색으로 표시되고, 주석된 컨센서스 서열에서 벗어나거나 비주형 추가에서 유래된 뉴클레오티드는 회색으로 표시된다. SDS + 결찰 라이브러리 제조에서 유래된 샘플에서 관찰된 다량의 판독에 근거하여, 진짜 전사 시작 부위가 관심 전사물에 대해 결정되고 재주석될 수 있다. 도 5b에 도시된 예에서, TSS가 -15 위치(주석된 +1 위치에 관해)로 수작업으로 조정되었다. 유사하게, 진짜 전사 시작 부위 및 종결 부위가 기타 관심 전사물에 대해 재평가될 수 있고, 이는 높은 처리량의 NGS 실험의 경우 진짜 TSS에서 단일 뉴클레오티드 분석을 포함한 완전한 전사물의 포괄적인 분석을 가능하게 한다. 상기는, 5' 캡쳐 염기 서열 결정 기술(CAGE-Seq)과 같은 전문적이고 보다 복잡한 접근법 또는 5' RACE(rapid amplification of cDNA ends, cDNA 말단의 빠른 증폭)와 같은 저 처리량 방법론과는 대조적으로 SDS + 결찰 라이브러리 제조 방법을 이용하여 간단하게 달성될 수 있다.
<110> LEXOGEN GMBH <120> Nucleic acid amplification and identification method <130> R 75980 <150> EP18212743 <151> 2018-12-14 <160> 67 <170> BiSSAP 1.3 <210> 1 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (41) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 1 nnnnnnagat cggaagagca cacgtctgaa ctccagtcac n 41 <210> 2 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (35) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 2 nnnnnnnnnn agatcggaag agcacacgtc tgaan 35 <210> 3 <211> 43 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (43) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 3 nnnnnnnnnn agatcggaag agcgtcgtgt agggaaagag tgn 43 <210> 4 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (34) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 4 nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34 <210> 5 <211> 44 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (44) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 5 nnnnnnnnnn nagatcggaa gagcgtcgtg tagggaaaga gtgn 44 <210> 6 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (45) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 6 nnnnnnnnnn nnagatcgga agagcgtcgt gtagggaaag agtgn 45 <210> 7 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (36) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 7 nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36 <210> 8 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (34) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 8 nnnnnnnnnn agatcggaag agcgtcgtgt aggn 34 <210> 9 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (36) <223> /mod_base="OTHER" /note="3' Inverted dT (reverse linkage)" <400> 9 nnnnnnnnnn nnagatcgga agagcgtcgt gtaggn 36 <210> 10 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> oligo <220> <221> modified_base <222> (1) <223> /mod_base="OTHER" /note="5' phosphorylated; a or g or c or t" <220> <221> misc_difference <222> (2)..(3) <223> /note="a or g or c or t" <220> <221> modified_base <222> (33) <223> /mod_base="OTHER" /note="g, 3' Spacer C3" <400> 10 nnnnnnnnnn nntggaattc tcgggtgcca agn 33 <210> 11 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> oligo <400> 11 gtgactggag ttcagacgtg tgctcttccg atcttttttt tttttttttt ttv 53 <210> 12 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 12 cgatttctaa agggaattcg agctcgcatt ttgaaaattc tatggaagag ctagcatctc 60 tgacgaaaac agcag 75 <210> 13 <211> 68 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 13 cctttgggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaaccag 68 <210> 14 <211> 68 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 14 caaaacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaacaac 68 <210> 15 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 15 agtggtggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaatgc 66 <210> 16 <211> 70 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 16 caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaacagcgt 70 <210> 17 <211> 65 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 17 tcggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctcttacg 60 aaaac 65 <210> 18 <211> 66 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 18 ggggacggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgaca 60 aaaaca 66 <210> 19 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 19 cccgagggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaacggcag aca 73 <210> 20 <211> 71 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 20 aatacaggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaacagaga g 71 <210> 21 <211> 70 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 21 caaaatggga attcgagctc gcattttgaa aattctatgg aagagctagc atctctgacg 60 aaaacagcgt 70 <210> 22 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 22 atttggggaa ttcgagctcg cattttgaaa attctatgga agagctagca tctctgacga 60 aaacagcagg cgga 74 <210> 23 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 23 aatggggaat tcgagctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa 60 aacagcaatc ggaaa 75 <210> 24 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 24 aaggggaatt cgagctcgca ttttgaaaat tctctggaag agctagcatc tctgacgaaa 60 acagcagaac agaaa 75 <210> 25 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 25 ggggaattcg agctcgcatt ttgaaaatac tatggaagag ctagcatctc tgacgaaaac 60 agcagacgaa aaagt 75 <210> 26 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 26 gggaattcga gctcgcattt tgaaaattct atggaagagc tagcatctct gactactaca 60 g 61 <210> 27 <211> 60 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 27 aagatctcgc attttgaaaa ttctatggaa gagctagcat ctctgacgaa aacagcagaa 60 60 <210> 28 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 28 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaaggaga gacc 74 <210> 29 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 29 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaagtact gacca 75 <210> 30 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 30 cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60 gaaaaggact gaaaa 75 <210> 31 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 31 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaagtact gagcc 75 <210> 32 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 32 cgagctcgca ttttgaaaat tctatggaag agctagcacc tctgacgaaa acagcagacg 60 gaaaaggact gaaaa 75 <210> 33 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 33 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaagtact gactc 75 <210> 34 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 34 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaagtact gacca 75 <210> 35 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 35 cgagctcgca ttttgaaaat tctatggaag agctagcatc tctgacgaaa acagcagacg 60 gaaaagtaca aaacc 75 <210> 36 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 36 gagctcgcat tttgaaaatt ctatggaaga gctagcatct ctgacgaaaa cagcagacgg 60 aaaagtagct gacca 75 <210> 37 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 37 agctcgcatt ttgaaaattc tatggaagag ctagcatctc tgacgaaaac agcagacgga 60 aaagtactga ccaga 75 <210> 38 <211> 75 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 38 gctcgcattt tgaaaattct atggaagagc tagcatctct gacgaaaaca gcagacggaa 60 aagtacagac ccaac 75 <210> 39 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 39 cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60 tactgaccag ctag 74 <210> 40 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 40 cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60 tactgaccat gca 73 <210> 41 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 41 cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60 tactgaccag ccac 74 <210> 42 <211> 73 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 42 cgcattttga aaattctatg gaagagctag catctctgac gaaaacagca gacggaaaag 60 tactgaccag cat 73 <210> 43 <211> 129 <212> DNA <213> Artificial Sequence <220> <223> consensus sequence <400> 43 ataaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60 catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120 tcggagtca 129 <210> 44 <211> 104 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 44 acgtgtgctc gtcactacct ccccgggtgc tctctgctcc tcctgttcga cagtcagccg 60 catcttcttt tgcgtcgcca gccgagccac atcgctcaga cacc 104 <210> 45 <211> 129 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 45 gaaaattgag cccgcagcct cccgcttcgc tctctgctcc tcctgttcga cagtcagccg 60 catcttcttt tgcgtcgcca gccgagccac atcgctcaga caccatgggg aaggtgaagg 120 tcggagtca 129 <210> 46 <211> 122 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 46 aaaatgcatt agaggaactg taaaaatctg ctcctccgtt cgacagtcag ccgcatcttc 60 ttttgcgtcg ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt 120 ca 122 <210> 47 <211> 122 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 47 ctagaggaga ttggccaacg agattcactg gactcctgtt cgacagtcag ccgcatcttc 60 ttttgcgtcg ccagccgagc cacatcgctg agacaccatg gggaaggtga aggtcggagt 120 ca 122 <210> 48 <211> 118 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 48 ttttctgaac gctctggccg ctctgctcct cctgttcgac agtcagccgc ctcttcgttt 60 gcgtcgccag ccgagccaca tagctcagac accaagggga aggtgaaggt cggagtca 118 <210> 49 <211> 114 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 49 accgagcacc agctttctcc gacgccggga agtcgcagtc agccgcatct tcttttgcgt 60 cgccagccga gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 114 <210> 50 <211> 112 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 50 aacgtgtgct ggctctctgc tcctcctgtt cgacagtcag ccgcatcttc ttttgcgtcg 60 ccagccgagc cacatcgctc agacaccatg gggaaggtga aggtcggagt ca 112 <210> 51 <211> 110 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 51 ttgctttggg ctctctgctc ctcctgttcg acagtcagcc gcatcttctt ttgcgtcgcc 60 agccgagcca catcgctcag acaccatggg gaaggtgaag gtcggagtca 110 <210> 52 <211> 106 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 52 gatgggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106 <210> 53 <211> 106 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 53 atagggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctcagacac catggggaag gcgaaggtcg gagtca 106 <210> 54 <211> 106 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 54 atctggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctgagacac catggggaag gtgaaggtcg gagtca 106 <210> 55 <211> 106 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 55 acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106 <210> 56 <211> 106 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 56 acgtggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctcagacac catggggaag gtgaaggtcg gagtca 106 <210> 57 <211> 97 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 57 ttgcggctct ctgctcctcc tgttcgacag tcagccgcat cttcttttgc gtcgccagcc 60 gagccacatc gctcagacac catggggaag cggaaca 97 <210> 58 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 58 gggggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60 agccacatcg ctcagacccc ac 82 <210> 59 <211> 105 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 59 aatggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60 agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105 <210> 60 <211> 105 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 60 atcggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60 agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105 <210> 61 <211> 105 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 61 attggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgcg tcgccagccg 60 agccacatcg ctcagacacc atggggaagg tgaaggtcgg agtca 105 <210> 62 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 62 gttggctctc tgctcctcct gttcgacagt cagccgcatc ttcttttgca atcgcca 57 <210> 63 <211> 104 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 63 atggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60 gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104 <210> 64 <211> 104 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 64 ttggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60 gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104 <210> 65 <211> 82 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 65 ggggctctct gctcctcctg ttcgacagtc agccgcatct tcttttgcgt cgccagccga 60 gccacatcgc tcagaacagc ca 82 <210> 66 <211> 104 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 66 gtggctctct gctcctcctg ttcgacagtc agccgcatct tcctttgcgt cgccagccga 60 gccacatcgc tcagacacca tggggaaggt gaaggtcgga gtca 104 <210> 67 <211> 103 <212> DNA <213> Artificial Sequence <220> <223> sequencing read <400> 67 gggctctctg ctcctcctgt tcgacagtca gccgcatctt cttttgcgtc gccagccgag 60 ccacatcgct cagacaccat ggggaaggtg aaggtcggag tca 103

Claims (15)

  1. 핵산 주형의 표지된 증폭 단편을 생성하는 방법으로서,
    상기 방법은:
    상기 주형 핵산을 제공하는 단계,
    상기 주형 핵산에 하나 이상의 올리고뉴클레오티드 프라이머가 결합하는(annealing) 단계,
    주형 특이적 방식으로 상기 하나 이상의 올리고뉴클레오티드 프라이머를 연장시켜 연장 생성물(elongation product)을 형성하는 단계 - 여기에서 상기 연장 반응은, 상기 연장 생성물이 상기 주형 핵산의 5' 말단 또는 상기 연장 생성물의 하류에서 상기 주형 핵산에 결합된 핵산 연장 스토퍼(elongation stopper)에 도달한 경우 중지됨 - ,
    그 5' 말단 상에 식별 서열(identification sequence)을 포함하는 어댑터 핵산(adaptor nucleic acid)을 제공하는 단계 - 여기에서 상기 식별 서열은 상기 연장 스토퍼 또는 상기 주형과 혼성화하지 않음 - ,
    그 5' 말단에서 상기 어댑터 핵산을 상기 연장 생성물의 3' 말단에 결찰(ligating)시킴으로써 표지된 증폭 단편을 생성하는 단계,
    를 포함하는 것을 특징으로 하는, 방법.
  2. 제 1 항에 있어서,
    상기 연장 생성물이 상기 주형 핵산의 상기 5' 말단에 도달한 경우, 뉴클레오티드 중합 효소가, 바람직하게는 상기 중합 효소의 말단 전이 효소 활성에 의해 상기 연장 생성물에 비주형 뉴클레오티드(untemplated nucleotides)를 첨가하는 것이 허용되고/거나, 바람직하게 1 내지 15개의 비주형 뉴클레오티드가 상기 연장 생성물의 70% 이상으로 첨가되는 것을 특징으로 하는, 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 결찰 단계에 복수의 어댑터 핵산이 제공되고 사용되며, 여기에서 상기 복수의 어댑터는 상이한 식별 서열을 갖고, 바람직하게는 상이한 식별 서열을 갖는 10개 이상, 보다 바람직하게는 50개 이상의 어댑터 핵산이 상기 결찰 단계에 제공되고 사용되는 것을 특징으로 하는, 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 식별 서열은 무작위 서열인 것을 특징으로 하는, 방법.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 연장 스토퍼는 프라이머 활성을 갖고, 상기 연장 단계 중 또한 연장되며, 바람직하게는 상기 주형에 결합하기 위한 상이한 결합 서열을 갖고 이로써 잠재적으로 상기 주형 핵산 상의 상이한 위치에 결합하는, 9개 이상, 보다 바람직하게는 49개 이상의 연장 스토퍼가 사용되는 것을 특징으로 하는, 방법.
  6. 제 5 항에 있어서,
    상기 결합 서열은 무작위 서열인 것을 특징으로 하는, 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 어댑터 핵산(들)은 상기 연장 스토퍼(들)에 결합, 혼성화되거나 또는 결합하지 않거나 혼성화되지 않고, 바람직하게는 상기 어댑터 핵산이 상기 연장 스토퍼에 결합 또는 혼성화될 경우, 이후 상기 식별 서열은, 상기 연장 스토퍼가 상기 주형에 결합하기 위한 상기 연장 스토퍼의 결합 서열과 무관한 것을 특징으로 하는, 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    상기 주형은 RNA이고, 바람직하게는 역전사 효소가 연장을 위해 사용되는 것을 특징으로 하는, 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 올리고뉴클레오티드 프라이머 및 바람직하게는 상기 연장 스토퍼도 범용 증폭 서열을 포함하고/거나 상기 어댑터 핵산은 범용 어댑터 증폭 서열을 포함하는 것을 특징으로 하는, 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    상기 올리고뉴클레오티드 프라이머는 상기 주형에 결합하기 위한 결합 서열을 포함하고, 이는 상기 주형 내 올리고 (A) 서열에 결합하기 위한 올리고 (T) 서열을 포함하며, 바람직하게는 상기 올리고 (T) 서열은 상기 올리고 (T) 서열과 상이한 하나 이상의 3' 앵커링(anchoring) 뉴클레오티드를 포함하는 것을 특징으로 하는, 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 결찰 반응은 군집 제제(crowding agent), 바람직하게는 중합체 또는 폴리알킬 글리콜, 바람직하게는 PEG, 옥톡시놀(Octoxinol) 또는 트리톤 X(Triton X) 또는 폴리소르베이트, 바람직하게는 트윈(Tween)과 같은 화합물을 포함하는 중합체의 존재 하에 있고/거나; 상기 연장 스토퍼 및 바람직하게는 상기 올리고뉴클레오티드 프라이머도 상기 주형에 결합하기 위한 결합 서열의 녹는 온도를 증가시키는 하나 이상의 변형 뉴클레오티드(들)를 포함하는 것을 특징으로 하는, 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    하나 이상, 바람직하게는 9개 이상의 상기 연장 스토퍼가 프라이머 활성을 갖고 상기 연장 단계 중 또한 연장되고, 상이한 식별 서열을 포함하는 2개 이상, 바람직하게는 10개 이상의 상기 어댑터 핵산이 사용되고, 이로써 2개 이상, 바람직하게는 10개 이상의 표지된 상이한 증폭 단편이 생성되고, 선택적으로 상기 표지된 증폭 단편을 증폭시키고, 고유한 상기 증폭 단편의 서열을 조립하는(assembling) 것을 더 포함하며, 여기에서 상기 표지가 사용되어 상기 고유한 증폭 단편이 식별되는 것을 특징으로 하는, 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항의 방법을 수행하기 위한 키트로서,
    상기 키트는:
    주형 핵산에 혼성화 및 그 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 올리고뉴클레오티드 프라이머,
    주형 핵산에 혼성화할 수 있고, 바람직하게는 그 3' 말단 상에서 연장 반응을 프라이밍할 수 있는 하나 이상의 연장 스토퍼,
    그 5' 말단 상에 식별 서열을 포함하는 하나 이상의 어댑터 핵산 - 여기에서 상기 식별 서열은 상기 연장 스토퍼와 혼성화하지 않으며, 바람직하게는 상기 어댑터 핵산은 상기 연장 스토퍼와 결합, 혼성화하거나 또는 결합 또는 혼성화하지 않음 - ,
    역전사 효소, 및
    올리고뉴클레오티드 리가제,
    를 포함하는 것을 특징으로 하는, 키트.
  14. 제 13 항에 있어서,
    상이한 식별 서열을 갖는 10개 이상, 보다 바람직하게는 50개 이상의 어댑터 핵산을 포함하는 것을 특징으로 하는, 키트.
  15. 제 13 항 또는 제 14 항에 있어서,
    상기 하나 이상의 올리고뉴클레오티드 프라이머는 상기 주형에 결합하기 위한 결합 서열을 포함하고, 이는 상기 주형 내 올리고 (A) 서열에 결합하기 위한 올리고 (T) 서열을 포함하고, 바람직하게는 상기 올리고 (T) 서열은 상기 올리고 (T) 서열과 상이한 하나 이상의 3' 앵커링 뉴클레오티드를 포함하는 것을 특징으로 하는, 키트.
KR1020217022198A 2018-12-14 2019-12-13 핵산 증폭 및 식별 방법 KR20210104108A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18212743.1A EP3666904A1 (en) 2018-12-14 2018-12-14 Nucleic acid amplification and identification method
EP18212743.1 2018-12-14
PCT/EP2019/085095 WO2020120747A1 (en) 2018-12-14 2019-12-13 Nucleic acid amplification and identification method

Publications (1)

Publication Number Publication Date
KR20210104108A true KR20210104108A (ko) 2021-08-24

Family

ID=64665702

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217022198A KR20210104108A (ko) 2018-12-14 2019-12-13 핵산 증폭 및 식별 방법

Country Status (9)

Country Link
US (1) US20220042089A1 (ko)
EP (2) EP3666904A1 (ko)
JP (1) JP2022512414A (ko)
KR (1) KR20210104108A (ko)
CN (1) CN113795594A (ko)
AU (1) AU2019396663A1 (ko)
BR (1) BR112021010425A2 (ko)
CA (1) CA3122905A1 (ko)
WO (1) WO2020120747A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2013359293B2 (en) * 2012-12-13 2017-11-02 Synthetic Genomics, Inc. PEG-mediated assembly of nucleic acid molecules

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5554730A (en) 1993-03-09 1996-09-10 Middlesex Sciences, Inc. Method and kit for making a polysaccharide-protein conjugate
US7399590B2 (en) 2002-02-21 2008-07-15 Asm Scientific, Inc. Recombinase polymerase amplification
SG10201402770YA (en) 2009-04-02 2014-08-28 Fluidigm Corp Multi-primer amplification method for barcoding of target nucleic acids
US20120252686A1 (en) 2011-03-31 2012-10-04 Good Start Genetics Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
AU2012307282B2 (en) 2011-09-16 2018-03-15 Lexogen Gmbh Nucleic acid transcription method
WO2014071361A1 (en) 2012-11-05 2014-05-08 Rubicon Genomics Barcoding nucleic acids
US10612088B2 (en) * 2013-03-14 2020-04-07 The Broad Institute, Inc. Massively multiplexed RNA sequencing
US20140274729A1 (en) 2013-03-15 2014-09-18 Nugen Technologies, Inc. Methods, compositions and kits for generation of stranded rna or dna libraries
EP2921556A1 (en) * 2014-03-21 2015-09-23 Lexogen GmbH Copy number preserving RNA analysis method
EP3167076B1 (en) 2014-07-09 2021-11-17 Lexogen GmbH Methods and products for quantifying rna transcript variants
WO2016138500A1 (en) 2015-02-27 2016-09-01 Cellular Research, Inc. Methods and compositions for barcoding nucleic acids for sequencing
AU2017290237B2 (en) * 2016-06-30 2020-10-22 Grail, Llc Differential tagging of RNA for preparation of a cell-free DNA/RNA sequencing library
EP4357455A2 (en) * 2016-12-12 2024-04-24 Grail, LLC Methods for tagging and amplifying rna template molecules for preparing sequencing libraries

Also Published As

Publication number Publication date
US20220042089A1 (en) 2022-02-10
EP3894595A1 (en) 2021-10-20
WO2020120747A1 (en) 2020-06-18
CA3122905A1 (en) 2020-06-18
EP3666904A1 (en) 2020-06-17
BR112021010425A2 (pt) 2021-08-24
AU2019396663A1 (en) 2021-06-10
CN113795594A (zh) 2021-12-14
JP2022512414A (ja) 2022-02-03

Similar Documents

Publication Publication Date Title
US20210332355A1 (en) Strand displacement stop (sds) ligation
US9902994B2 (en) Method for retaining even coverage of short insert libraries
CN106912197B (zh) 用于多重pcr的方法和组合物
EP3252174B1 (en) Compositions, methods, systems and kits for target nucleic acid enrichment
US9328378B2 (en) Method of library preparation avoiding the formation of adaptor dimers
EP3555305B1 (en) Method for increasing throughput of single molecule sequencing by concatenating short dna fragments
AU2021204166B2 (en) Reagents, kits and methods for molecular barcoding
US20210164027A1 (en) Compositions and Methods for Improving Library Enrichment
JP6219944B2 (ja) 5’保護に依存した増幅
JP2016521557A (ja) 標的配列決定のための方法
WO2009032167A1 (en) Method for sequencing a polynucleotide template
KR102398479B1 (ko) 카피수 보존 rna 분석 방법
US20090124514A1 (en) Selection probe amplification
EP1853725A1 (en) Method for producing an amplified polynucleotide sequence
CN111936634A (zh) 用于制备用于测序的核酸分子的方法
WO2018148289A2 (en) Duplex adapters and duplex sequencing
US20140336058A1 (en) Method and kit for characterizing rna in a composition
WO1991018114A1 (en) Polynucleotide amplification
KR20210104108A (ko) 핵산 증폭 및 식별 방법
RU2811465C2 (ru) Способ амплификации и идентификации нуклеиновых кислот
JP2021505199A (ja) 鋳型切り換え機構を通じて核酸ライブラリを調製するためのシステムと方法
CA3213037A1 (en) Blocking oligonucleotides for the selective depletion of non-desirable fragments from amplified libraries

Legal Events

Date Code Title Description
A201 Request for examination